傅宏宇:OpenClaw类自主智能体的分层治理-夜雨聆风

傅宏宇:OpenClaw类自主智能体的分层治理

。

作者：傅宏宇

阿里研究院人工智能治理中心主任

来源：《法律科学》2026年第3期

引言

一、智能体风险治理的风险特征、制度检视和分层治理结构的提出

二、本体层治理：意图编排、行为边界与软硬结合的模型约束

三、交互层治理：外部资源调用能力与协议安全加固

四、生态层治理：多主体协同能力与智能体商业生态规范

结语

摘要：人工智能正经历从“生成式对话助手”向“自主执行智能体”的范式转型，新的风险特征对安全治理带来新的挑战。面对智能体能力的非线性扩张，单纯依赖事前预判和准入限制，或采取事后修补的被动式监管路径，都无法准确识别和及时管控风险。基于实现能力与规制同步演进的敏捷治理思路，应穿透风险的外观，根据智能体能力与风险的伴生性原理，通过“本体—交互—生态”的风险分层治理方案，对智能体本体层、交互层、生态层三个层面的核心能力与伴生风险进行解析，并在每一层面提出对应的治理策略，为智能体发展提供可操作、可迭代的安全保障体系。

关键词：自主智能体；智能体安全；分层治理

引言

2022年11月，OpenAI发布ChatGPT，这是生成式人工智能开始向大众普及的重要节点。彼时人工智能的功能仍局限于文本生成与信息交互层面，尚不具备主动采取行动、调用外部工具或对现实世界产生直接影响的能力。近期，另一场技术变革正在显著重塑人工智能的能力边界。以OpenClaw为代表的自主智能体系统的出现，使用户获得了能够自主执行操作的数字助理；用户无需编写代码，只需以自然语言发出指令，智能体便能自主完成文件读写、代码执行、邮件批量处理、跨软件数据协同等全流程操作。与此同时，智能体与电商应用的深度集成，推动了全流程智能化购物的初步实现，智能体商业（AI for Commerce）生态已见雏形。谷歌在《虚拟智能经济体》（Virtual Agent Economies）研究报告中指出，随着智能体的广泛应用，人工智能将能够自主完成交易、资源配置与协作，独立参与经济价值创造。这意味着人工智能正从辅助性工具逐步转变为具有一定自主性的经济活动参与者。新技术相较于之前的核心变化在于，模型的功能定位从信息生成转向任务执行。自主智能体系统的出现标志着人工智能从信息处理工具转变为具备自主执行能力的技术系统。传统语言模型的风险形态以内容风险为主，虚假信息、偏见放大、隐私泄露等问题本质上发生在信息生态的范围之内，此时人类仍是最终的行动决策者。然而，当模型获得调用工具、执行代码、操控界面、跨系统通信等能力之后，风险的性质便发生了根本性转变：从信息层面的内容失范升级为行为层面的执行偏差，从数字空间的语义风险演变为可直接作用于现实世界的操作风险。OpenClaw在相关典型场景中的应用已印证了这一风险的现实性。在某类典型事故中，由于系统提示词配置不当，导致智能体将“清理冗余邮件”的指令错误理解为全量清除，在数分钟内完成了本地邮件的批量删除，造成大量不可恢复的数据损失。此外，插件市场也遭受了大规模恶意代码投放攻击，多个伪装成正常工具的恶意插件窃取了用户的标准应用程序编程接口（API）密钥与文档内容，受害用户规模庞大。这些事件共同表明，智能体的自主行动能力正在以超越现有安全防护机制响应速度的方式持续扩展。

智能体技术的快速扩散充分揭示了人工智能技术的双重属性：一方面，它显著降低了高质量自动化服务的获取门槛；另一方面，其插件机制的去中心化特征以及自主执行能力对既有管控边界的穿透性，共同构成了一个难以被传统监管手段有效覆盖的复杂风险领域。基于上述问题，本文旨在回应如何在鼓励以OpenClaw为代表的智能体服务创新发展的同时，构建与其能力边界匹配的系统性安全治理框架这一议题。

一、智能体风险治理的风险特征、制度检视和分层治理结构的提出

智能体系统的治理不同于传统生成式人工智能的网络信息内容安全监管，其核心难题在于如何应对一种兼具高度自主性与深层不确定性的技术形态所带来的增量风险。对这一治理难题的分析，可以依托两个经典分析框架展开：其一，乌尔里希·贝克（Ulrich Beck）的风险社会理论，它揭示了现代技术风险的内生性、不可感知性与责任弥散性特征，为理解智能体系统的风险结构提供了解释力。其二，科林格里奇困境（Collingridge Dilemma）理论，该理论聚焦技术治理的时机悖论，为智能体治理的路径选择提供了方法论参照。

（一）OpenClaw类智能体的风险特征

1.风险特征判断：风险社会理论的适用

乌尔里希·贝克在《风险社会：新的现代性之路》中系统阐释了现代性条件下技术风险的结构性变迁。其核心理论主要包括两个方面：一方面，现代技术风险并非外生的偶发灾难，而是由技术进步内生性地产生，深嵌于技术系统自身的结构之中，具有难以被传统制度框架充分感知和预测的特征；另一方面，此类风险在责任归属上呈现高度弥散性，利益链条上的各方主体均可在既有制度框架中找到免责依据，由此形成贝克所称的“有组织的不负责任”，导致系统性风险转化为现实损害时，受损方往往面临追责路径断裂的制度困境。依照贝克的上述理论框架分析，可发现以OpenClaw为代表的智能体系统的主要风险特征为：

第一，内生不确定性的非线性放大。在以ChatGPT为代表的生成式人工智能阶段，人工智能技术风险的边界相对明晰，模型可能输出错误信息或有害内容，但风险主要停留在信息生成层面，用户作为最终行动决策者仍保有干预与纠偏的主导权。智能体系统从根本上改变了这一风险结构，其“工具调用—环境感知—自主决策—行为执行”的闭环架构使得信息层的偏差通过系统的自主行为直接传导至物理世界或数字系统，形成从信息风险向行为风险的质变；在这一传导过程中任何一个环节的微小偏差都可能经由链式传导而不断放大，酿成不可逆的实际后果。与此同时，智能体能力的持续迭代升级可能导致当前有效的安全边界在后续版本中失效，这对监管介入的时机选择与规制工具的前瞻性设计提出了更高要求。

第二，无感知性的结构性强化。贝克理论中关于现代风险超越个体感知能力的论断，在智能体场景中得到了进一步验证。OpenClaw类系统的长期记忆机制与多步骤自主执行能力使风险的孕育期大幅拉长，被投毒的记忆数据可能潜伏数周乃至数月，在此期间仍然以个性化服务的正常外观持续运作，直至特定任务条件触发时方才显现为实际损害。此种延迟性与隐蔽性对先有损害结果再进行事后追责的传统监管逻辑构成挑战：当风险尚未外显为可观测的损害结果时，无论是监管机构还是终端用户均缺乏有效的风险感知手段，既有的以结果为导向的监管机制面临适用困境。

第三，有组织的不负责任的链条延伸。在OpenClaw类智能体的运行过程及其与外部系统的持续交互中，一次损害事件的责任链条可能横跨基础大模型提供者、智能体编排框架开发者、插件贡献者、平台运营者与终端用户等多个主体，各方之间以开源许可证与服务条款相互隔离，形成了结构上较传统软件供应链更为复杂的责任分配格局。以“龙虾中枢”（ClawHub）平台曾发生的记忆投毒攻击事件为例，恶意插件的开发者已无法追踪，而受害用户面对多层嵌套的开源免责条款，在现行法律框架下获得救济的路径极为有限。此种责任链条的极度延伸与弥散，恰是贝克所揭示的“有组织的不负责任”在数字智能体时代的典型呈现与延伸。

2.治理时机选择：应对克服科林格里奇困境，从“事后修补”到“敏捷治理”

科林格里奇困境（Collingridge Dilemma）揭示了技术治理面临的深层时机悖论：当一项技术处于早期发展阶段时，其社会影响尚不明朗，彼时干预的成本较低但因缺乏充分信息而难以精准施策；而当技术的社会影响充分显现时，技术已深度嵌入社会系统与产业结构，干预成本高昂且面临路径依赖的显著阻力。自主智能体的治理正面临这一困境的深度考验。一方面，以OpenClaw为代表的智能体应用的快速扩展发生在极短的时间窗口之内，其渗透速度远快于传统立法程序的响应周期。当各方尚在讨论是否应当针对智能体制定专门立法或建立独立监管机制时，智能体服务已深度嵌入大量终端用户的日常工作流程。另一方面，智能体技术的高速迭代与应用场景的持续多元化扩展，使得任何静态规制框架在颁布之初便可能面临实质性的滞后风险。与此同时，各利益相关方对智能体风险的认知均存在显著局限，开发者尚未完全掌握自身系统在复杂部署环境下的能力边界与行为特征，监管机构缺乏评估智能体自主行为的成熟技术工具和方法储备，而终端用户则因功能便利性的正向反馈对潜在风险的感知度普遍不足。这种多方“共同无知”的状态使得基于充分信息的事前规制和基于损害结果的事后追责均面临有效性不足的困境。

破解这一困境的制度出路在于敏捷治理范式的引入，应将监管周期从“技术成熟后立法”压缩为“与技术迭代同步演进的动态规制”，将治理工具从终端行为约束前移至能力层级的源头，将治理主体从单一政府监管扩展为涵盖模型开发者、平台运营者、标准制定组织与开源社区的多方协同治理网络。上述理念构成了本文后续提出的分层治理框架的理论基础。

（二）现实映射：全球立法的匹配度检视

智能体所具备的动态规划、工具调用与非决定性执行能力，对建立在传统软件或早期生成式人工智能基础上的监管范式提出了根本性挑战。通过审视当前全球主流的人工智能治理框架可以发现，在面对智能体系统带来的增量风险时，既有立法与政策实践在技术映射、责任归属与监管时效等方面均呈现出不同程度的错位。

1.基于应用场景进行风险分级的事前监管：以欧盟为代表

欧盟《人工智能法案》（Regulation（EU）2024/1689，以下简称AIA）的监管思路代表了当前全球最具系统性的事前风险监管路线。该法案采取了以应用场景为核心的风险分级规制逻辑，除针对通用人工智能模型（GPAI）设定单独的合规要求外，将人工智能系统划分为禁止性风险、高风险、有限风险和最小风险四个层级。此种规制思路的初衷在于，通过对高风险系统实施严格的事前合格评定、质量管理与技术文档审查，在系统进入市场前最大程度地过滤潜在的安全与伦理风险。然而，当这套建立在“静态系统可穷尽测试”前提下的监管框架面对具备自主规划、工具调用和执行能力的AI智能体时，监管逻辑的静态性与技术特征的动态性便产生了难以调和的结构性矛盾。

其一，法案的分级监管逻辑以“场景化风险”为核心锚点，但智能体的风险实质上并非单纯由其应用场景决定，而是高度依赖其在系统运行中所获得的操作权限以及与外部环境交互的深度。例如，同一套基于开源编排框架构建的智能体系统，在财务操作场景下与在学术研究场景下的风险表现存在天壤之别，欧盟《人工智能法案》静态的、预设的场景分级框架难以敏锐捕捉这种因动态权限分配而产生的风险差异。同时，法案的合规逻辑高度依赖事前审查，要求高风险系统在上市前提供详尽的技术文档以证明其输出的可预见性，并完成穷尽式的鲁棒性测试。但智能体并非遵循固定的代码执行路径，而是基于大语言模型进行思维链推理与自我修正。面对开放式目标，智能体产生的涌现行为及其实时生成的任务路径，决定了其是一个在部署后仍会持续发生突变与演化的动态系统。开发者在部署前客观上无法预见或穷尽测试其可能采取的所有行动轨迹，这使得欧盟《人工智能法案》基于确定性假设的事前认证机制在面对智能体时存在失效风险。

其二，法案内部的归责体系与智能体的技术实现路径存在冲突。一方面，欧盟《人工智能法案》要求高风险系统必须经过有效的人类全程监督，以确保技术可控，但智能体演进的核心技术价值与商业价值，恰恰在于通过自主感知与决策，减少乃至最终脱离人类的微观干预，由智能体结合具体环境自主制定最优操作方案。强制性的人机协同要求在某种程度上消解了智能体的技术先进性。另一方面，法案所建立的是以“线性供应链”为基础的集中式归责体系，与智能体以“开源组件聚合”为特征的去中心化开发生态存在天然的张力。欧盟《人工智能法案》的监管锚点在于明确界定“系统提供者”和“部署者”，并要求提供者承担沉重的首要合规义务。然而，在当前的智能体生态中，系统的构建高度依赖底层基础模型、开源编排框架、第三方插件与外部标准应用程序编程接口（API）的动态拼装。这种分布式创新导致的“有组织的不负责任”使得传统的线性监管链条难以维系。当一个由多方开源模块组装且在运行中持续自主调用外部工具的智能体引发合规危机时，强制追溯单一合规责任人的逻辑不仅会在实务中陷入归责困境，更易将不成比例的合规成本转嫁给提供中间层代码或基础插件的独立开发者，进而对以协同创新为核心的开源生态产生破坏性的抑制效应。

2.基于底层模型能力进行管控：以美国联邦及加州法律为代表

相较于欧盟的系统性立法，美国在人工智能领域的监管格局呈现出明显的碎片化与实用主义特征。以加利福尼亚州为例，其被否决的SB1047号《前沿人工智能模型安全创新法案》（Safe and Secure Innovation for Frontier Artificial Intelligence Models Act）与正式签署生效的SB53号《前沿人工智能透明度法案》（Transparency in Frontier Artificial Intelligence Act）等一系列立法尝试，均以基础前沿模型（Foundation Models）为核心监管对象，试图通过设定算力阈值与模型能力底线来管控重大安全风险。

然而，这种将风险防控重心完全置于底层基础模型，试图通过约束模型危险能力来实现合规的立法路径，不可避免地存在结构性盲区。智能体系统的风险增量并非仅来源于大模型本身的内生幻觉或有害输出，更在相当程度上源自其编排层面的逻辑漏洞以及与广泛插件生态交互时产生的行为失控。以OpenClaw类系统为例，其风险来源至少有三个层面：底层大模型的能力缺陷与安全隐患；编排框架的权限管理与任务规划逻辑中的漏洞；外部工具和插件在被调用时可能引入的安全漏洞与恶意代码。加州SB53法规将合规义务集中于算力超过一定阈值的基础模型开发者，而编排框架提供方、插件开发者与工具市场运营者均未被纳入规范要求。这种以模型为单一锚点的归因逻辑实质上忽视了智能体是一个复合且复杂的系统，忽视了其风险在组件组装与运行交互过程中被系统性放大的事实。模型安全（尤其是模型的前沿风险或灾难性风险安全）并不当然等同于智能体安全，二者之间存在不容忽视的治理间隙。此外，加州立法高度依赖主动披露和事故报告机制。SB53号法案在SB1047的基础上进一步引入了实验室内部的吹哨人保护和特定安全事件的强制报告义务，并要求大型前沿模型的开发者公开披露其前沿人工智能框架，说明其对潜在的灾难性风险的评估结果和缓解措施。然而，这种内含“已知损害后方能启动监管”逻辑的事后救济与披露机制，在智能体风险的隐蔽性、延迟性与跨系统穿透性面前，存在结构性的时序错配。智能体在长程自主任务执行中因记忆投毒或目标偏移所引发的渐进式违规，可能在相当长的时间窗口内不会触发事故报告的阈值条件；风险的发生往往在智能体连续调用多个外部标准应用程序编程接口（API）的复杂链路中被层层掩盖，当损害最终显性化时，事件的根因往往已经过多个系统环节的传递与放大，传统的事故报告机制既难以实现及时阻断，亦难以支撑对损害因果链的精确回溯。

值得关注的是，美国国家标准与技术研究院（NIST）已开始正视智能体的增量风险特征。2026年1月，美国国家标准与技术研究院（NIST）下属的AI标准与创新中心（CAISI）在《联邦公报》上发布了面向全行业的智能体安全意见征集，明确聚焦“将AI模型输出与软件系统功能相结合时”所产生的独特风险。同年2月，AI标准与创新中心（CAISI）正式启动“AI智能体标准倡议”（AI Agent Standards Initiative），标志着美国国家标准与技术研究院（NIST）从此前《AI风险管理框架》中相对静态的模型治理，转向对编排层与生态级治理的系统性关注。该倡议在治理锚点上实现了几项关键转移：从模型行为对齐转向智能体的身份认证与动态权限管理，引入零信任架构；从事前穷尽性测试转向运行时控制与动态权限撤销（runtime revocation）；在审计层面提出建立机器间审计日志标准以支撑精准溯源定责；在规范重心上则从前沿模型开发者转向编排层协议与多智能体交互的互操作性安全标准。这一系列举措表明，美国的智能体治理正从碎片化的事后应对向标准化的体系建设演进。

3.基于软硬结合的系统性敏捷治理安排：以新加坡为例

在探索适应智能体系统特性的治理框架方面，新加坡提供了一种具有前瞻性的敏捷与柔性治理范本。2026年1月，新加坡资讯通信媒体发展局（IMDA）发布了全球首个专门针对代理式人工智能的指导文件，即《智能体人工智能模型治理框架》（Model AI Governance Framework for Agentic AI）。该框架延续了新加坡一贯的实用主义导向，旨在重点化解智能体因具备自主规划与执行操作能力而引发的治理难题。其在理念上的重大突破在于明确了将治理重心从“内容把控”向“行为控制”转移，主张治理重点必须从单纯的“测试输出准确性”转移到“控制操作权限与行为边界”，并重申人类对系统最终行为的兜底责任。该框架围绕四大核心支柱为智能体部署提供了顶层治理指导。其一，前期风险评估与界定，要求在部署前为智能体设定清晰的职权范围，明确其可访问的工具与数据源边界，并根据自主程度与潜在影响进行风险分级评估，落实权限最小化原则。其二，建立有意义的人类问责制，强调人机协同不能流于形式审查，对高风险或不可逆操作须设置实质性的人工审批节点，同时警惕监督人员因过度依赖智能体而产生的“自动化偏见”。其三，实施专属技术控制与流程，要求针对智能体特征开展定制化的红队测试，例如模拟提示词注入导致的工具滥用或多智能体交互中的目标偏离，并建议采取沙箱运行与渐进式部署策略，由低风险场景向中高风险场景逐步放开。其四，强调最终用户责任，要求组织向终端用户清晰说明智能体的能力边界与操作范围，并确保用户具备随时中断智能体操作或纠正其行为的有效途径。

除了IMDA的指导文件，新加坡政府开源技术局（GovTech）配套研发的《智能体风险与能力框架》（Agentic Risk ＆ Capability Framework，简称ARC框架），提供了一份更具实操性的指南。ARC框架遵循“以能力为中心”的风险评估逻辑，该能力并非美国加州立法所关注的单独的底层模型的能力，而是智能体的底层能力，并基于“能力越大、控制要求越高”的原则进行风险溯源。ARC框架将智能体风险溯源划分为三个维度：组件风险（基础模型幻觉、API漏洞或记忆机制泄露）；设计与架构风险（工作流偏差、多智能体协作目标漂移或权限配置不当）；能力风险，包含认知能力（推理、规划与决策引发的有害计划）、交互能力（环境感知与通信引发的注入攻击与欺骗）以及操作/执行能力（执行代码或修改文件引发的系统破坏）。基于上述溯源，ARC框架明确提出了落地过程中需重点防范的五大实质性危害，即错误行动、越权行动、偏见或不公行动、数据泄露以及通过标准应用程序编程接口（API）链条被无限放大的系统性破坏。该框架未停留在理论指引层面，而是同步推出了的“AI守护者”（AI Guardian）测试工具箱，为智能体部署前的定制化红队测试与运行时的安全护栏（Guardrails）提供了标准化工具支撑。

新加坡的治理方案呈现出典型的软硬结合思路，其试图在宏观风险规则、治理框架、中观风险识别与评估机制以及微观技术控制工具之间建立协同闭环。然而，从公共政策的实施效果来看，由于新加坡本土在智能体服务应用场景及市场规模上的相对局限性，ARC框架目前更多停留在顶层设计与治理原则的宣示层面，其配套实施的实操指南和工具箱仍较为宏观和标准化，对复杂多样的智能体应用的规制效果有限。因此，尽管其在规制理念上迈出了关键一步，准确捕捉到了智能体的行为属性，但受制于产业落地的丰富度有限，其在推动具有约束力的法律规则转化、建立深度的责任分配机制以及提出具体的合规创新方案层面，仍具有一定的局限性。

（三）中国治理方案：基于既有体系的适应性拓展

我国在人工智能治理领域已经建立起了一套具有中国特色且具备较高适应性的基础法律与政策体系。在数据规范方面，《网络安全法》《数据安全法》和《个人信息保护法》共同构筑了坚实的数据合规基座，确立了数据分类分级、核心数据保护、数据安全审查以及个人信息处理的基本原则。我国还针对算法管理制定了《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》，分别对具有舆论属性或社会动员能力的算法推荐服务以及利用深度学习、虚拟现实等技术生成或编辑信息内容的深度合成服务，确立了分类管理、安全评估、算法备案与内容标识等基本规范要求。随着生成式人工智能技术的发展，我国于2023年7月出台了《生成式人工智能服务管理暂行办法》，明确人工智能服务提供者在数据训练合法性、内容安全以及用户权益保护等方面的义务。针对生成式人工智能的主要风险（特别是网络信息内容风险），全国信息安全标准化技术委员会发布了大模型备案所依据的《生成式人工智能服务安全基本要求》，其中列举了31类安全风险，对大模型的核心风险进行了针对性规制。在上述法律法规体系的基础上，我国创新性地确立了基于信息不对称矫正的“算法备案”与“生成式人工智能服务备案”制度，要求具有舆论属性或社会动员能力的算法应用及面向公众的生成式人工智能服务进行备案，在备案申报过程中同步实现对模型训练数据安全保障措施和安全能力的评估，从而有效降低了监管层与技术产业侧之间的信息壁垒。同时，我国探索出了一套相对敏捷的事中事后协同治理模式：事中管控以日常督查、专项督查和巡检等定期或不定期的监督检查机制为主，用于督促服务提供者持续落实规范要求；事后处置则包括对数据安全事件的及时处置以及安全漏洞的追溯追责。这套机制在保障技术安全与促进产业发展之间实现了较好的平衡。

然而，面对自主智能体系统的快速扩展及其带来的内生风险的高度不确定性，我国现有治理体系同样面临挑战。一方面，当前以《生成式人工智能服务管理暂行办法》为核心的专项规制体系的设计初衷主要聚焦于“生成内容”的安全性、合法性和准确性，侧重于防范模型幻觉、虚假信息生成及内容偏见。但智能体的核心风险已从纯粹的“内容生成”扩展至跨系统的“执行动作”与“工具调用”。另一方面，当智能体能够自主访问外部数据库、执行网络请求或触发物理设备时，仅依赖针对生成式模型内容安全的事前评估和备案以及对应的安全评测，可能无法有效感知和管控其在运行过程中带来的执行风险，对风险的感知和处置已经不能完全通过备案机制来实现。

我国对人工智能的治理经过长期实践，已经具备了较高的敏捷治理能力。面对智能体的治理，可不诉诸冲破现有治理框架的颠覆性重构方案，而应立足于现有治理基础，针对智能体的新特征进行技术解构，识别其能力模块以及能力模块所带来的增量风险，并进行治理制度的适应性拓展与制度模块的补充。例如，在准入与审查机制上，可复用并升级现有的备案制度框架，而无须为智能体单独设立全新的备案门槛。例如，在现有的“算法备案”与“大模型服务备案”基础上，可增设针对模型“行为能力”与“工具调用能力”的专项检测与评估维度；备案和巡检重心也可以从单一的“内容安全”，延展至对行为边界消解与执行权限越界等智能体增量风险的管理。此外，可将监管视角扩大至外部工具和能力生态，规范智能体技能市场与插件生态的准入与安全审计标准。但如何确定智能体监管的实质性规范要求，仍然有待进一步细化研究，这也是下文重点讨论的内容。

基于上述对全球治理实践的比较检视与中国既有治理方案的适应性分析，可以发现智能体的治理不宜采取概括性的整体界定与统一化的规制路径，而应当回归技术架构本身，对构成智能体服务的基本能力模块进行解构，在此基础上实施分层、分类的针对性治理。智能体服务的技术架构可解构为“本体”“交互”与“生态”三个相互衔接的基本能力模块，三者共同构成智能行为的功能基础。其中，本体层以大语言模型为核心，承载智能体的复杂意图识别、任务规划与长期记忆管理等基础能力，其伴生风险主要表现为目标漂移、过度授权执行、级联错误与记忆投毒；治理路径侧重于软硬结合的模型行为约束，即通过模型规范实现安全性的内生化，并辅以权限最小化、行为安全验证与执行熔断等硬约束机制。交互层构成智能体与外部环境的连接界面，涵盖基于模型上下文协议（MCP）与智能体间协同协议（A2A）的工具调用以及插件生态与技能工作流（Skills），其风险集中于协议漏洞、权限失控与恶意技能注入；治理路径需聚焦零信任架构下的权限管控、技术网关的主动防御以及可信插件生态与技能工作流（Skills）生态的准入审计机制。生态层则涉及多主体协同网络与智能体商业生态等更广泛的系统环境，核心议题在于“破窗”模式与“握手”模式的路径选择及其治理差异，治理路径应着力于鼓励基于API授权的协同集成、规范界面自动化操作的合规边界，并建立多主体参与的生态治理协调机制。下文将沿此“本体—交互—生态”的分层结构，逐层论证具体的治理制度设计。

二、本体层治理：意图编排、行为边界与软硬结合的模型约束

（一）核心功能：复杂意图识别与长序自动化编排

自主智能体的本体层核心能力首先体现在对复杂、模糊人类意图的精准语义解析与结构化目标的拆解上。以OpenClaw的科研文献检索与综述撰写功能为例，当用户输入“帮我整理过去三年关于大语言模型推理能力的最新研究进展，并按方法论分类撰写一份系统性综述”这一高阶指令时，系统通过多轮内部推理，将其分解为数据库检索策略制定、文献质量筛选、主题聚类分析、结构化写作等十余个具体可执行步骤，并在无人工干预的条件下自主推进任务流转。这一“意图编排”能力的实现依赖于大语言模型的深层语义理解能力、任务规划模块的树状目标分解算法以及执行层对多工具并行调度的统一协调机制。意图编排能力的另一维度体现在对跨时间序列的上下文的连贯性管理（即长期记忆）上。通过集成向量数据库，智能体实现了对用户偏好、历史任务记录与个性化工作习惯的持久化存储，在用户再次发起任务时能够自动检索相关历史记忆，实现专属化的上下文注入。长期记忆机制能够赋予智能体个性化与效率上的显著优势，也将其推向了传统对话系统未曾触及的能力边界，系统由此具备了在超越单次对话的更长时间跨度上，对用户信息偏好、行为模式与价值取向进行建模的能力。

（二）伴生风险：自主决策失控与行为边界穿透

本体层能力的质变直接触发了风险形态的质变。传统语言模型的失范后果主要局限于信息层面，但自主智能体一旦将意图编排与工具调用结合，错误决策便可直接转化为现实世界中的操作后果。风险穿透的典型路径包括三类：目标漂移，即任务执行中途因上下文理解偏差而发生目标替换，例如“删除冗余文件”被错误扩展为大范围数据清除；过度授权执行，即智能体按最优路径原则自主选择了超越用户预期的高影响操作；级联错误，即在多步骤任务中，早期决策错误未被纠偏而在后续执行中被持续放大。长期记忆机制还引入了一类独特的攻击面：记忆投毒（Memory Poisoning）。攻击者可通过精心设计的内容，在用户不知情的情况下向向量数据库写入虚假或恶意的历史记忆，从而在未来的任务执行中触发对用户初始意图的系统性偏离。记忆投毒的危险性在于其极强的隐蔽性与延迟性，被污染的记忆不会立刻显示出明显异常，而是以个性化服务的形式潜伏，在特定任务触发时才产生影响，届时进行溯源分析将极为困难。

（三）治理路径：软硬结合的模型行为约束

本体层的治理逻辑遵循“双轨并行”原则。软约束着眼于模型本身的价值规训，通过训练阶段的行为内嵌使安全性成为模型的内生属性；硬约束着眼于执行系统的物理隔离，通过独立于主推理路径的机制实现对高危行为的强制拦截。两条轨道各司其职，相互补充，共同构成可信智能体系统的本体层防线。

其一，软约束的核心理念是将安全边界内化为模型的行为偏好，而非依赖外部规则的事后纠偏。这一思路最具代表性的实践是“模型规范”（Model Spec）机制。模型规范将价值约束前置至训练阶段：通过在基于人类反馈的强化学习（RLHF）流程中引入明确的原则约束体系，模型在自我评估与优化过程中将潜在有害行为标注为负样本，从而在推理层形成对高风险行为的内生性规避倾向。模型规范机制的核心价值在于，它为软约束的工业落地提供了一条自下而上的实现路径，即从底层模型的价值内嵌出发，逐层向上延伸至系统级行为约束，最终形成覆盖模型训练、推理决策与任务执行全链路的安全保障体系。这一自下而上的思路意味着，安全性并非作为外部附加的监管要求被强制叠加于系统之上，而是从模型的基础能力层开始，通过价值对齐与行为偏好的内化，使安全成为智能体系统的内生属性。以安索普里克公司（Anthropic）公司的模型规约为例，其框架将行为约束划分为四个权限层级，分别是广泛安全（Broadly Safe）、广泛合伦理（Broadly Ethical）、遵循Anthropic指南（Follow Anthropic’s Guidelines）与真正有帮助（Genuinely Helpful）。当不同价值发生冲突时，该公司的模型被训练按上述顺序进行优先级判断。这一分层结构清晰地划定了“什么是绝对不可为”与“什么可以因场景灵活调整”之间的界限，在保障安全底线的同时能够为应用创新留足空间。在智能体场景下，模型规范的价值还体现在对行为帮助性与安全性之间张力的精细化处理。帮助性准则明确了模型应如何在维护清晰人机边界的前提下展现人本关怀，避免干预或替代用户的现实决策，从而在能力层面为智能体的自主执行倾向设置价值层面的内生制动。软约束的另一重要维度是建立行为外层护栏。在模型规范框架之上，系统设计者应在系统级提示词中嵌入明确的任务边界声明，要求智能体在启动高影响操作前主动向用户确认并建立“行为许可白名单”机制，只有在白名单范围内的操作才能自主执行，超出范围的操作需强制触发确认流程。

其二，硬约束是软约束的必要补充。软约束依赖模型自身的价值判断，其可靠性终究受限于模型推理的能力。对于高危操作场景，必须建立独立于主推理路径的硬约束防线，确保即便模型判断出现偏差，也有外部机制能够在行为发生前实施物理拦截。硬约束包括权限管控、安全验证和环境控制等方面。（1）权限管控是硬约束的基础。智能体系统在操作系统层面不应以管理员权限运行；在文件系统层面，只授予完成当前任务所需的最窄目录访问范围；在网络层面，建立出站请求白名单，阻断与任务无关的外部通信。典型事故中邮件被大量删除的根因之一，正是系统以过于宽泛的邮件访问权限运行，使得目标漂移发生后无法在权限层自然止损。（2）在权限管控的基础上，还需要建立独立的行为安全验证机制。应在智能体的工具调用链路上设置独立的安全验证模块，依据预定义的规则库对即将触发的高危动作进行实时拦截。该模块的关键设计要求是应具备独立性，即应作为独立进程运行，而非集成在主智能体进程内，以防止主模型通过内部推理绕过安全检查。典型拦截规则包括：禁止执行涉及用户个人数据的批量删除操作；禁止在未明确用户确认的情况下发送外部通信；禁止修改系统级配置文件等。（3）进一步引人环境控制机制。应建立基于行为异常检测的执行熔断机制。当系统检测到智能体的累计操作超过预设阈值，例如在极短时间内发起大量跨系统写操作、网络请求数量异常激增，或资源占用呈现非正常增长模式时，应自动触发执行暂停，将智能体进程冻结在当前状态，并上报人工审核队列。在容器化部署场景下，可通过资源限制机制实现对进程资源消耗的硬性上限控制；在云端部署场景下，则可通过云服务商的资源配额与费率熔断机制提供额外保障。

三、交互层治理：外部资源调用能力与协议安全加固

（一）核心功能：跨越数字系统鸿沟的工具调用

意图编排构成智能体的认知决策核心，而工具调用能力则承担着连接智能体与外部环境的关键功能。当前，工具调用能力的实现主要依托两项核心协议，即模型上下文协议（MCP）与智能体间协同协议（A2A）。（1）MCP（Model Context Protocol，模型上下文协议）由安索普里克公司（Anthropic）于2024年提出并主导制定，旨在通过统一的接口规范解决大语言模型与外部工具、数据源之间的互操作性问题。依据MCP（模型上下文协议），智能体可通过实时通信接口调取工具或检索数据，根据当前任务需求，动态地从工具注册表中选取并调用相应的能力模块。MCP（模型上下文协议）的核心价值在于将异构工具的调用从黑盒式临时集成转变为具有统一语义握手规范的结构化交互，显著降低智能体能力扩展的开发门槛。（2）A2A（Agent-to-Agent Protocol，智能体间协同协议）由谷歌－深思公司（Google DeepMind）于2025年发布，其将工具调用的概念延伸至智能体之间的横向协作，支持多个专业化子智能体的并行调用与结果汇聚。A2A（智能体间协同协议）的功能特征在于支持机器间的高频自动化交互，主智能体可将复杂任务分解并委托给具有特定能力的子智能体，实现任务的并行处理与结果汇总。这一协议的推出标志着智能体从单体系统向多智能体协同系统的重要演进。

伴随着OpenClaw的快速发展，插件生态与技能工作流（Skills）开始涌现，进一步将智能体的能力边界延伸至由众多开发者贡献的长尾专业能力。准确理解智能体为何需要插件生态与技能工作流（Skills），需要从其功能定位出发。核心智能体系统提供通用的意图理解与任务编排能力，但面对高度垂直化的专业领域，如特定行业的财务分析逻辑、专业法律文书的格式规范、特定领域的术语处理标准，其通用能力往往难以达到专业水准。插件生态与技能工作流（Skills）的价值在于，它允许具备特定领域专业知识的开发者将自身的知识体系封装为可复用的工作流组件，供智能体在执行相关任务时调用。这一机制使得智能体的专业能力覆盖范围能够随着贡献者生态的扩大而持续扩展，而无须对核心系统进行频繁迭代。插件生态与技能工作流（Skills）的本质是将人类的专业判断力转化为智能体可调用的能力模块，从而在通用智能体基础上实现专业化能力的灵活叠加，显著拓展了智能体的任务交付能力。

插件生态与技能工作流（Skills）模式对于智能体能力体系的构建具有不可替代的结构性价值。从智能体的功能架构来看，智能体的核心系统提供通用的意图理解与任务编排能力，但这一通用能力在面对高度专业化的垂直领域任务时，往往难以独立达到可用的服务水准。插件生态与技能工作流（Skills）通过将垂直领域的专业知识、业务逻辑与专有数据封装为标准化的可调用组件，使智能体能够在不修改核心架构的前提下，按需获取特定领域的专业执行能力。这一机制的深层意义在于实现了智能体能力供给从“平台自建”向“生态众包”的范式转换，使智能体的专业能力覆盖范围能够随着贡献者生态的扩大而持续扩展。相关产业实践已经印证了这一模式的快速成熟与落地成效。以出行旅游领域为例，飞猪于2026年3月发布的技能插件“flyai”基于MCP（模型上下文协议）进行标准化封装后，可在数十个智能体应用上即装即用，无须开发者额外注册或申领接口密钥，其服务覆盖涵盖机票、酒店、门票、用车等出行全品类的搜索、咨询、规划及预订，横跨了从导购到交易的完整链条。这展示了插件生态与技能工作流（Skills）模式的三重价值：第一，降低能力接入门槛，使垂直领域的专业能力能够以极低的集成成本供智能体调用；第二，实现跨平台能力复用，一个插件生态与技能工作流（Skills）组件可同时服务于多个智能体平台，避免了重复开发的资源浪费；第三，推动智能体从通用工具向专业化服务网络的演进，为智能体商业生态的形成奠定技术基础。

（二）伴生风险：协议漏洞、权限失控与恶意技能注入

MCP（模型上下文协议）在早期设计时存在一个典型的安全缺陷，即对本地连接的默认信任假设。在标准部署场景下，运行于同一本地环境中的MCP（模型上下文协议）客户端与服务器之间的通信往往缺乏有效的身份验证机制，攻击者一旦在用户设备上获得有限权限，便可伪造MCP（模型上下文协议）请求，以智能体的身份向已信任的工具服务器发送恶意指令。这一漏洞的危险性在于其利用了“信任传递”逻辑，用户对智能体的授权信任被攻击者转化为对底层工具的非授权访问，可能导致数据泄露、配置篡改乃至整个基础设施被恶意接管。A2A（智能体间协同协议）的安全挑战则主要集中于多智能体协同场景中的身份伪造与资源滥用风险。恶意行为者可通过伪造合法子智能体的身份，向主智能体注入虚假的任务结果或操控指令；同时，多层嵌套的智能体调用链路如缺乏有效的资源配额控制，可能因任务死循环导致大量资源消耗。开放插件生态以及插件生态与技能工作流（Skills）市场的快速扩张在带来能力红利的同时，形成了一类新型攻击面，即恶意技能注入（Malicious Skills Injection）。其威胁模型可归纳为三类：（1）恶意插件生态与技能工作流（Skills）伪装，即静默收集用户敏感数据的看似合法工作流组件；（2）合法插件生态与技能工作流（Skills）劫持，即通过账户入侵或仿冒名称方式注入恶意代码；（3）依赖链污染，即通过污染底层依赖组件间接渗透众多插件生态与技能工作流（Skills）。与普通安全事件相比，恶意插件生态与技能工作流（Skills）的额外危害在于被感染的组件还能向模型注入虚假信息，直接操纵智能体的决策上下文。这一特征使其危害程度远超普通的数据窃取工具。

（三）治理路径：零信任架构、技术网关与可信插件生态与技能工作流（Skills）生态

针对交互层的安全挑战，治理路径围绕三个层面展开，分别是协议层的权限默认关闭与零信任架构、技术网关的主动防御机制以及插件生态与技能工作流（Skills）生态的准入管控与可信市场建设。（1）在权限管控层面，应以“默认关闭、按需授权”作为交互层安全的基本原则。当前协议实现中普遍存在的“默认允许”逻辑应被替换为“默认拒绝一切未明确声明的权限请求”的零信任架构。在MCP（模型上下文协议）握手阶段应强制执行双向传输层安全性（Transport Layer Security,TLS）认证，以短生命周期令牌替代长效凭证，并为每个工具调用请求附加细粒度的权限声明。在A2A（智能体间协同协议）通信场景下，应在API密钥互信的基础上强制要求双向证书认证，确保通信双方身份的真实性。（2）在技术网关层面，应部署专用的MCP（模型上下文协议）网关作为所有工具调用的统一代理层。MCP（模型上下文协议）网关通过协议校验与握手机制深度识别调用意图，拦截非法或未授权指令；建立工具白名单与分级管理体系，明确可调用的工具列表，超范围调用返回错误而不向后端透传，并针对高风险工具调用强制引入人工审批流程；构建数据沙箱，对读取指令实施路径限制，防止智能体越权访问敏感数据。在A2A（智能体间协同协议）场景下，应为任务设定预算上限及调用深度阈值，防止死循环导致的资源失控；并在传递提示词时清洗历史对话中的无关噪声，防止智能体A的上下文信息污染智能体B的决策链路（上下文隔离）。（3）在插件生态与技能工作流（Skills）生态治理层面，应建立分层次的准入与审计机制。首先，制定统一的插件生态与技能工作流（Skills）安全标准，明确功能声明、数据访问范围、网络通信权限等必要披露要求，限制不符合标准的插件生态与技能工作流（Skills）进入平台市场。其次，建立插件生态与技能工作流（Skills）安全评测能力，对上架插件生态与技能工作流（Skills）进行自动化静态分析与沙箱动态行为检测，重点甄别数据外泄、隐藏网络请求等异常模式。再次，实施分级审核机制，对涉及敏感数据访问或高权限操作的插件生态与技能工作流（Skills）实施人工复审，并建立持续监控机制，对已上架插件生态与技能工作流（Skills）的运行行为进行周期性审计。以上措施的最终目标是构建一个以可验证信任为基础的插件生态与技能工作流（Skills）市场，使平台中每一项能力组件的行为边界均处于可控、可审计的状态。

四、生态层治理：多主体协同能力与智能体商业生态规范

（一）核心能力：从单一工具走向智能体经济

生态层代表了自主智能体从单一工具向更广泛协作网络的重要拓展。前述本体层与交互层的能力使智能体具备了理解意图、规划任务、调用工具的基础能力。然而，当真实世界的复杂任务需要跨越多个平台、整合多方服务、协调多个主体时，单一智能体的能力边界便显现出明显局限。生态协同能力的核心价值在于，通过构建多主体参与、权责分工明确的协作网络，智能体能够将分散于不同平台的数字服务统一编排，实现此前只有大型组织才能完成的复杂任务交付。以“AI＋电商”领域为例，用户向智能体发出“帮我找一双适合徒步的轻量化登山靴，预算400元以内，尽快送达”的指令，智能体需同时调用商品搜索服务、价格比对数据库、用户偏好记录、库存与物流查询系统，并在用户确认后完成支付与订单跟踪。这一全流程的实现，依赖的正是多主体在生态层的深度协同。谷歌在其年度报告中指出，生态协同能力的成熟将推动人工智能从工具层面的服务提供者转变为具有一定独立性的经济活动参与者。智能体将能够代表用户自主完成交易、资源配置与价值创造，推动形成以“意图经济”为特征的新型商业范式。这一愿景的实现，既取决于技术标准与协议的成熟度，也高度依赖生态各方能否就权责边界、数据共享规则与利益分配机制达成可持续的协作框架。

当前，智能体生态建设正逐步形成两种代表性路线，可分别用“破窗”模式与“握手”模式加以概括。（1）“破窗”模式以计算机使用（Computer Use能力为技术基础，凭借视觉感知与界面操控（如GUI技术），智能体能够与任意图形用户界面进行交互，无需目标应用提供专用接口。答案引擎AI公司（Perplexity AI）的购物功能即为典型案例，其智能体直接模拟用户操作访问亚马逊等电商平台，绕过平台官方渠道实现商品信息抓取与结账流程自动化。这一路径虽然在技术层面具有较强的穿透力，但其对目标平台数据隔离机制的系统性突破引发了显著的合规争议。（2）“握手”模式则以API深度集成为技术基础，通过与平台官方接口的合作，可实现多平台数据的底层汇聚与跨系统工作流的无缝编排。谷歌Gemini与Shopify、沃尔玛等零售商的合作，以及阿里“千问”App接入淘宝、支付宝、飞猪、高德等阿里生态体系业务，均是“握手”模式的代表性实践。这一路径基于可鉴权、可追溯的技术接口实现平等协作，为责任划分提供了清晰的界面，也为技术创新与安全监管的动态平衡奠定了基础。在商业协议层面，行业内已涌现出多种合作框架，如OpenAI提出的智能体商业协议（Agentic Commerce Protocol，ACP）、谷歌提出的通用商业协议（Universal Commerce Protocol，UCP）以及蚂蚁提出的智能体商业可信协议（Agentic Commerce Trust Protocol，ACT）等，通过标准化、可审计的技术接口，实现了技术创新与安全监管的动态平衡。

（二）伴生风险：“破窗”模式与“握手”模式的权衡判断

“破窗”模式的核心风险在于其对目标平台数据隔离机制的强侵犯性。在竞争法语境下，这一路线可能触发多类规制路径：大规模自动化界面操控是否构成对平台数据库权的侵犯；当智能体聚合多平台服务向用户提供竞争性替代界面时，是否触发不正当竞争的认定标准。这些问题在现行竞争法框架下尚无清晰定论。“握手”模式的主要挑战在于产业落地进程中的高协商成本与商业惯性阻力。意图框架在技术架构和安全性上具备显著优势，但在实践推广中进展较为缓慢。这并非技术层面的障碍，而是受制于移动互联网时代的商业路径依赖。长期以来，应用平台通过锁定用户入口来构建广告变现与流量分发的竞争壁垒，开放标准应用程序编程接口（API）实质上意味着让渡入口控制权，对既有商业模式形成结构性冲击，各平台在缺乏明确收益预期的情况下，自愿开放的内生动力天然不足。在美国司法部诉谷歌案中，法院禁止谷歌签订与分发其核心应用相关的排他性合同的做法，可视为对这一商业惯性的司法矫正。然而，近期业界的实践表明，“握手”模式可以通过商业契约的重构和技术实现的升级，实现生态的增量共赢。OpenAI与艺搜公司（Etsy）的合作案例印证了平等协作模式的可行性，双方确立了“Agent意图捕捉＋平台交付履约”的合作模式，在这一模式下，智能体并未取代第三方平台，而是为其高效引流；艺搜公司（Etsy）最新财报数据显示，来自ChatGPT的流量展现出显著的高转化率特征，且契合艺搜公司（Etsy）作为工艺品电商所特有的非标品、长尾化交易场景。在商业模式上，双方构建了保护私域利益与增量价值付费的良性闭环机制。商户无须改变原有的销售方式，仅需为成交的增量订单支付小额技术服务费。这一模式实现了智能体平台、电商平台与商户三方的共同增益。

（三）治理路径：鼓励API协同，规范界面自动化操作

面对两种模式在竞争法效应上的分野，本文建议确立“鼓励握手协同、规范破窗操作”的差异化治理原则。对于基于平台官方API授权的智能体集成，宜采取包容性立场，推动平台以合理条件开放必要数据接口；应参照欧盟《数字市场法案》对“守门人”平台的互操作性义务，以标准化技术协议为基础建立行业级协作框架。当前业界已涌现的智能体商业协议（ACP）、通用商业协议（UCP）、智能体商业可信协议（ACT）等协议框架，有助于降低多方协作的交易成本，为生态层的协同治理提供技术支撑。

对于界面自动化方式的无授权访问，则应在现行竞争法框架下厘清其合规边界，明确大规模自动化界面操控的法律性质与责任归属。值得特别关注的是，当用户明确授权智能体代理其访问特定平台数据时，平台以竞争利益为由设置技术壁垒的正当性将大幅削减，监管应在此方向上予以明确引导，推动平台在用户明确授权情形下提供标准化的数据访问接口。与此同时，应建立多主体参与的生态治理协调机制，将平台、智能体开发者、用户代表与监管机构纳入统一的协商框架，就数据访问规则、责任分担原则与收益分配机制形成可持续的行业共识。技术标准的中立性是生态治理的重要保障。通过中立、统一的协议规范，将碎片化的连接需求标准化并实现跨平台的深度协作，才能为构建一个全球性、可信赖且具备高度扩展性的智能体协作生态奠定基础。

结语

本文遵循OpenClaw类智能体能力与风险的伴生性原理，提出“本体—交互—生态”智能体风险分层治理制度方案。在此基础上，对智能体治理的后续方案提出以下建议。

第一，风险形态的质变要求治理逻辑实现根本转型。自主智能体将人工智能的主要风险形态从内容层面的信息风险升级为行为层面的执行风险，以内容审查与信息合规为核心的传统监管范式已不足以应对这一转变。风险的穿透性、隐蔽性与链式放大特征要求将“行为安全”与“动态执行约束”纳入治理框架的核心坐标。

第二，能力与风险的同步演进是有效治理的关键。科林格里奇困境的破解之道在于放弃“等待问题出现再行干预”的被动逻辑，转向“每一层能力突破均对应一套约束机制”的主动内嵌逻辑。本文在本体层、交互层与生态层分别提出的治理路径，正是这一逻辑在三个维度上的具体展开。

第三，技术治理与制度治理的协同是构建可信智能体生态的双轮驱动。无论是本体层的模型规范内化与权限最小化等软硬结合机制、交互层的零信任架构与可信插件生态与技能工作流（Skills）生态建设，还是生态层的标准应用程序编程接口（API）协同规范与多主体协调治理机制，有效的治理方案均需在工程技术路径与法律制度设计之间形成相互强化、互为背书的协同结构。

随着智能体能力的持续迭代，若干前沿议题有待进一步研究。其一，多智能体系统中的涌现行为与集体风险。当大量智能体在开放网络中相互交互时，系统层面的涌现行为将超越单体智能体分析框架的解释边界，需要借鉴复杂系统理论构建新的分析工具。其二，智能体治理的跨境协调。智能体的跨境服务能力使得单一司法管辖区的监管措施面临显著的效力局限，如何在国际层面建立智能体安全标准的协调机制，是亟待探索的制度议题。其三，随着本文所识别的三层风险持续演化，分层治理框架本身的动态更新机制亦需纳入后续研究议程。