类openclaw智能体的四类风险与四个工程防护原则

最近两个月，围绕 OpenClaw 一类智能体的讨论，很多都集中在“会不会被提示注入攻破”“会不会乱执行命令”“某个恶意 skill 到底多危险”这些具体问题上。今天要介绍的这篇文章把问题往上提了一层：类 OpenClaw 智能体的安全，本质上不是单点漏洞问题，而是系统工程问题。 因为这类系统把不可信输入、自主执行、插件扩展和真实权限，放进了同一个运行闭环里，所以它天然不是“默认安全”的。

https://arxiv.org/pdf/2603.13151

这篇论文标题叫 Defensible Design for OpenClaw: Securing Autonomous Tool-Invoking Agents。作者没有把 OpenClaw 当成某一个孤立产品，而是把它当作一类“环境交互型智能体”的代表：它们不只是聊天，而是会浏览网页、读写本地文件、调用外部工具、连接 API，并且在真实操作环境里持续完成任务。也正因为如此，安全问题不能只看模型回答对不对，而要看它在什么权限下运行、如何调用工具、如何加载扩展、如何被审计和约束。

论文给出的一个非常关键的判断是：能力已经不能和执行上下文分开来看。 同样一句模型输出，在普通聊天机器人里可能只是“说错了一句话”；但在类 OpenClaw 智能体里，它可能会直接变成读文件、发请求、装插件、调用命令、修改状态的一连串动作。也就是说，真正需要治理的，不只是“模型内容”，而是“模型输出如何进入执行链条”。

从这个角度看，这篇论文最核心的贡献，就是给出了一套非常清晰的框架：四类风险，四个工程防护原则。 这套框架最大的好处，是它把大家过去零散讨论的提示注入、误操作、插件投毒、部署漏洞，统一收束到了一个完整的安全视角里。

类OpenClaw智能体“默认不安全”

论文开宗明义地指出，类 OpenClaw 智能体之所以危险，不是因为某一项能力本身不可控，而是因为四种特征叠加后，形成了结构性风险：

第一，它会持续摄入网页、文档、截图、文件、邮件等混合信任输入；

第二，它不是只给建议，而是会自主继续执行任务；

第三，它可以通过 skill、plugin、tool integration 等方式不断扩展能力；

第四，它通常还持有文件、凭证、API、系统功能等现实权限。这四点单独看都不算新鲜，但放在一个统一控制环里，就会彼此放大。

论文中的架构图也很说明问题：用户请求、网页文档截图、本地工作区、记忆状态、云端 LLM、工具调用、浏览器和系统执行，以及权限、监督、日志这些治理信号，都被纳入同一个操作闭环。换句话说，这已经不是一个“文本生成系统”，而是一套具备感知、决策、执行和状态积累能力的操作系统雏形。 一旦其中任一环节被污染、误导或越权，问题就会沿着整个链条放大。

这也是为什么，论文反复强调：OpenClaw 安全不能只理解为“模型安全”，而应该理解为“软件安全工程”。因为真正需要回答的问题，不是“模型会不会乱说话”，而是“一个能够持续读取环境、自动决策、并调用真实能力的智能体，如何被设计成可约束、可治理、可审计”。

四类风险

第一类风险：提示注入

论文把 Prompt Injection 放在第一类，而且定义得非常准确：它不是一般意义上的“坏内容污染”，而是混合信任输入改变了智能体的有效控制流。隐藏在网页、文档、邮件、截图、本地笔记甚至元数据里的文本，可能会在预处理后依然保留下来，并被系统当成合法任务指令，从而与用户原始目标竞争。

这一定义非常重要。因为它直接把 Prompt Injection 从“内容合规问题”提升成了“指令通道劫持问题”。论文明确说，问题核心不是 hallucination，而是通过不可信输入实施的间接指令劫持。在普通聊天系统里，恶意文本可能只是让模型给出错误答案；但在环境交互型智能体里，同样的文本却可能把一个自主且有权限的执行闭环，重定向到秘密读取、危险跳转、未授权传输等真实动作上。

论文还特别指出，提示注入的影响不只是当下这一轮。它还可能进入历史记录、检索结果、缓存状态和长期记忆，形成持续上下文污染，在后续计划和执行中继续发挥作用。也就是说，对类 OpenClaw 智能体来说，提示注入不是“一次性绕过”，而更像是一种能够跨轮次、跨状态残留的控制污染。

从“模安局”的视角看，这里最值得强调的一点是：不要再把提示注入简单理解为“让模型说了不该说的话”。 对 Agent 来说，它更接近控制流劫持。文本只是载体，真正被接管的是后续动作链条。

第二类风险：有害误操作

论文第二类风险叫 Harmful Misoperation，这是很有价值的一类。它专门强调：这类事故不一定需要攻击者。很多时候，用户目标本身就带有歧义，环境状态又不完整，智能体会在不确定下继续推断、扩展任务范围、自动补全意图，最后把一个原本模糊但无害的请求，执行成了真实世界里的有害动作。

论文在表述中用了一个很有意思的词，叫 authority drift。意思是说，智能体会在连续执行中逐渐漂移：它以为自己理解了用户意图，于是继续做、继续扩、继续调工具，结果权限和行为边界也跟着一路扩大。到了执行面，这种误操作还会进一步表现为过度授权工具、危险命令构造、未经检查的外部动作，最终把模型输出直接转化为系统 compromise。

这类问题为什么特别值得单独拎出来？因为它提醒我们，Agent 安全不只是对抗攻击者，很多时候还要对抗系统自己的“过度自信”。模型不是被坏人骗了才会出错，它可能在“好心帮忙”的过程中就把事情做坏。对于企业场景尤其如此：不是每一次越权删除、错误发送、误调用接口，背后都有恶意攻击；更多时候，是系统在高自治下把模糊目标执行过头了。这个判断，其实比单纯讨论越狱攻击更贴近真实落地。

第三类风险：扩展供应链风险

第三类风险是 Extension Supply-Chain Risk。论文对这一点的表述很硬核：扩展、插件、工具封装、工作流组件、更新通道，都不应该被当作安全模型之外的“便利层”。因为每新增一个 extension，系统引入的不只是新功能，而是新的 prompt、新的代码、新的权限、新的行为假设，整个可信计算基都在跟着扩大。

论文列举的失败模式很典型：安装或调用恶意插件导致本地数据被外传；任务经由被攻陷的工具封装转发，访问范围被悄悄扩大；一次更新改变执行行为，朝着更有利于攻击者的方向演化；或者导入一个工作流组件，里面藏着足以篡改用户任务的隐含指令。这些问题麻烦的地方在于，Agent 不是“建议你去装插件”，而是会把这些组件直接装进自己的自治闭环里。

所以，插件风险在 Agent 体系里和传统软件还不完全一样。传统软件装了恶意插件，可能只是某个功能被污染；但类 OpenClaw 智能体一旦加载了有问题的 skill，它继承的是已有的浏览、读写、调用工具、访问状态等现实能力。于是，一个看起来“挺好用”的第三方扩展，实际上可能变成长期数据外流、工作流操纵和权限滥用的持久入口。

这也是为什么，未来的 skill 生态一定不只是“谁功能多谁赢”，而会迅速演变成“谁的来源可信、声明清楚、权限可控、能被吊销”的治理竞争。

第四类风险：部署漏洞

论文第四类风险是 Deployment Vulnerabilities。这一类表面上看有点“传统”，但恰恰说明作者没有把 Agent 安全窄化成模型安全。论文指出，网关认证与路由、会话绑定、暴露端点、返回内容传播、日志和持久化存储等环节，都可能出现控制面信任失败、敏感外泄和取证污染。

比如网关层若认证弱、端点暴露、session 绑定错误，未授权请求就可能继承合法执行上下文；响应阶段如果把本地状态、秘密或危险内容向外返回，又被继续转发到下游聊天、平台或工作流中，风险会继续扩散；日志和持久化阶段如果记录被污染，甚至会让攻击内容在后续会话中再次被读到和复用。

为什么这些“老问题”在 Agent 场景里更危险？因为 Agent 通常是持续在线、连接外部服务、带有记忆状态、持有系统权限的。一个普通聊天机器人就算部署不严，很多时候伤害面还停留在文本层；但一个会自动执行、还能长期累积凭证和工件的环境交互型智能体，一旦部署面失守，拿到的就不再只是一个对话窗口，而是一套能持续替你做事的自动化系统。

风险执行链

这篇论文还有一个特别值得借鉴的点，是它没有只停留在“四类风险”的标签层，而是又给出了一张按执行阶段重排的风险表。也就是说，它提醒我们，这四类风险不是并列摆在 PPT 上的四个框，而是会沿着同一条运行链条发生：消息摄入、上下文拼装、运行时规划、工具执行、插件加载、响应输出、日志留存，每一步都有不同主导风险，但它们之间是连着的。

这其实比“分类”本身更重要。因为很多团队今天做防护，还是按问题类型堆补丁：这里加个提示过滤，那里加个人工审批，再给插件做个黑白名单。可论文真正想说的是：Agent 风险是链式积累的。 输入污染、计划漂移、工具越权、插件投毒、部署薄弱，往往不是谁单独致命，而是一路串起来后才致命。

四个工程防护原则

第一个工程原则：最小权限

在风险分类之后，论文提出第一个工程原则：Least Privilege。作者强调，对环境交互型智能体来说，最小权限和能力边界控制，是基础中的基础。因为这类系统会浏览、读文件、调工具，并在没有人工重新授权的情况下连续执行任务，所以它只能拿到当前任务所需的最小权限、最小资源和最小动作范围。即便碰到异常输入，或者它对用户意图只有部分理解，这个边界也不能失效。

为什么这一条这么重要？因为它能同时对两类问题起作用。一方面，提示注入再厉害，如果智能体压根拿不到广泛的文件、网络和账号访问，就很难把文本操纵转成大范围破坏；另一方面，误操作再频繁，如果系统一开始就把动作边界卡得足够窄，错误分支的伤害半径也会被限制住。

很多团队现在一提权限控制，想到的还是“要不要弹个确认框”。但论文的意思并不是再多做几个弹窗，而是要把权限设计做到架构层：智能体到底能读哪些目录、调用哪些接口、访问哪个知识库、执行哪类动作，这些要在任务开始之前就被限定清楚。对类 OpenClaw 智能体来说，确认框不是权限架构，能力边界才是权限架构。 这也是这篇文章最值得企业 Agent 产品经理认真吸收的一点。

第二个工程原则：运行时隔离

第二个原则是 Runtime Isolation。论文指出，这类系统的部署环境里，浏览器、工具调用、文件访问、凭证使用，往往都在同一个运行路径上。因此，系统必须有明确的隔离边界：不同 session、不同 tool、不同 extension，到底能访问什么，必须被隔开；secret 也应该按需暴露，而不是默认放进智能体的环境上下文里。

这条原则的意义，是把很多本来“局部”的问题限制在局部。无论是传统软件漏洞、错误部署配置、提示注入，还是恶意插件，如果它们可以自由接触 token、本地状态、邻近服务和更多上下文，就很容易从一个点扩成整面。论文说得很清楚：类 OpenClaw 智能体不是单进程的小程序，而是跨 session 持续运行、连接外部服务、积累凭证、日志和工件的部署系统。如果没有真正的隔离和严格的 secret hygiene，一个被攻陷的浏览器 session、一次过度授权的工具调用、一个不安全的扩展，都可能从局部失败升级成更大范围的组织级 breach。

换句话说，Agent 再聪明，也不该直接继承宿主运行时的全部 blast radius。浏览器隔离、文件系统隔离、容器/沙箱隔离、临时令牌、最小可见 secret，这些在 Agent 时代都不再是“安全加分项”，而是基本盘。

第三个工程原则：扩展治理

第三个原则是 Extension Governance。论文认为，扩展的信任、来源和权限治理，应该被视为一等公民的工程原则。因为环境交互型智能体的大部分实用性，恰恰就来自 skills、plugins、tool wrappers、packaged workflows 和 update channels；而这些机制每引入一次，就在扩大可信计算基。

论文在这里的态度非常鲜明：可扩展性不是安全模型之外的便利层。 每一个扩展路径，导入的都是新的 prompt、新的代码、新的权限和新的行为假设。如果 provenance 弱、权限治理模糊、更新通道不可追踪，那么一个恶意或被静默修改的依赖，就会成为长期的数据外流和权限滥用通道。

因此，未来真正靠谱的 Agent 平台，不会只比拼“有多少 skill”，而会比拼有没有发布者身份、权限声明、来源证明、完整性校验、attestation 和吊销机制。论文在研究议程里甚至明确提到，signed extension manifest 是值得探索的设计方向。这个思路很像移动应用商店、浏览器扩展商店、容器制品签名那一套，只不过现在要被迁移到智能体技能生态里。

第四个工程原则：可审计性

第四个原则是 Auditability。这部分很容易被低估，但其实特别关键。论文强调，日志、审计和取证可见性，对自治环境交互型智能体来说不是附加功能，而是基础能力。因为这类系统的失败往往不是一个孤立 bug，而是一连串多步动作：它读了什么混合信任内容，走了哪条决策路径，用了哪种权限，调用了哪个外部组件，最后在哪里越过了边界，这些都必须能被追溯。

论文明确指出，没有决策轨迹，就很难在事后区分到底是 prompt injection 还是 harmful misoperation；没有组件可见性和 provenance，就很难定位扩展滥用和供应链入侵；只有普通 debugging logs，没有安全相关证据，也很难处理部署和运行时 compromise。也就是说，没有可归因执行轨迹，就没有真正意义上的运营治理。

这一点尤其值得企业场景重视。很多团队做 Agent 日志，今天还停留在“调用了哪个 tool、返回了什么结果”这种粗粒度记录上。但论文真正要求的是：输入来源、上下文拼装、权限使用、决策路径、工具调用、外部组件影响，都要形成可观察、可归因的执行链。这种能力，既服务于问责和取证，也服务于后续的规则优化和风险处置。

四个研究方向

论文最后没有停在原则层，而是把这些内容进一步转成了四个研究方向：评测基础设施、权限架构、扩展治理、自适应监督与可归因遥测。它希望未来的环境交互型智能体，不是靠一次次补漏洞维持运转，而是从一开始就被设计成testable、bounded、governable、auditable。

这个收束其实很漂亮。因为它说明，论文最关心的不是“怎么多挡住几个攻击样本”，而是怎么把智能体安全真正制度化、工程化。尤其是在权限架构这部分，作者明确提出：下一步不是继续堆 warning，而是要研究如何把自然语言层面的任务目标，映射成受边界约束的 delegated authority。说白了，未来真正难的不是让 Agent 更会做事，而是让它只在该做的范围内做事。

结语

如果用一句话概括这篇论文的价值，那就是：它把类 OpenClaw 智能体的安全问题，从“模型会不会出错”，升级成了“一个会持续看、持续想、持续调工具、还能直接操作系统的自治体，如何被设计在可治理的权力边界里”。

这也是为什么，论文给出的答案不是继续做更强的内容过滤，也不是指望模型本身永远不犯错，而是回到四个最硬的工程原则：最小权限、运行时隔离、扩展治理、可审计性。它想告诉行业的是，Agent 的问题从来不只是“说什么”，而是“看什么、信什么、调什么、能做什么、出了事怎么追”。

对今天所有想把类 OpenClaw 智能体推向企业、工作流和真实业务系统的人来说，这篇论文最大的提醒也许就是：没有权限架构，就没有真正的 Agent 落地；没有隔离和治理，自治能力就只是在放大事故半径；没有可审计性，所谓安全运营也无从谈起。