从 OpenClaw 到具身智能:为什么“会用工具”之后,安全问题开始质变

摘要

过去，我们讨论大模型安全，更多关注的是“它会不会说错话”。
但当模型开始调用工具、读写文件、修改状态、驱动动作之后，问题已经从“内容风险”升级为“行为风险”。

以 OpenClaw 一类智能体系统为代表，模型正在从“回答者”变成“执行者”；
而在具身智能场景下，这种能力又进一步从数字世界延伸到了现实世界。

这意味着，安全问题的边界已经发生变化。
真正值得警惕的，不再只是模型是否被攻击，而是模型一旦被影响，到底能做什么，又能影响到哪里。

正文

过去几年里，大家谈大模型安全，更多讨论的是：

会不会胡说八道；
会不会输出有害内容；
会不会被提示词绕过；
会不会生成不该生成的信息。

但到了今天，这个问题已经明显不够用了。

原因很简单：

现在很多智能体系统，已经不只是“会说”，而是开始“会做”了。

以 OpenClaw 这类智能体框架为代表，模型不再只停留在对话层，而是逐步具备了：

读取文件；
执行命令；
调用插件；
维护会话记忆；
访问外部服务；
操作消息渠道。

而到了具身智能场景，这种“会做”的能力又进一步向现实世界延伸，开始影响：

视觉感知；
动作规划；
路径决策；
机械执行；
真实环境交互。

这意味着，安全问题的边界已经发生了根本变化。

过去，模型输出错误，通常只是“内容风险”；
现在，模型一旦具备工具能力，错误就可能演变为“系统风险”；
而当这种能力进一步接入机器人和真实设备之后，错误最终甚至可能变成“物理风险”。

也正因为如此，我们今天讨论智能体安全时，真正需要关注的问题已经变成了：

模型是否还处于可控边界之内。

一、为什么“会用工具”是一次安全上的质变

很多人会觉得，工具调用只是给模型多接几个接口。

但从安全角度看，这一步不是简单的功能增加，而是一次非常典型的风险质变。

因为当模型只能输出文本时，它大多数时候只是“建议者”；
但当模型可以调用工具时，它就开始变成“执行者”。

这时候，攻击目标就不再只是“让模型说错话”，而是“让模型做错事”。

一旦系统允许模型调用工具，攻击面就会迅速扩展到以下几个层次：

1. 输入面被放大

攻击者不再只盯着输入框，而是可以从更多入口影响模型：

文档内容
外部网页
消息记录
长期记忆
插件返回结果
工作区文件
系统启动上下文

2. 权限面被放大

如果模型具备以下能力：

读文件
写文件
改配置
执行命令
发消息
调外部 API

那它的每一次被误导，都不再只是“理解偏差”，而可能变成“权限滥用”。

3. 状态面被放大

很多智能体系统有会话、记忆、任务和历史状态。

这意味着，一次攻击不一定只影响当前这轮任务，还可能影响后续很多轮行为。

4. 链路面被放大

攻击路径会逐渐变成：

恶意输入 -> 影响推理 -> 诱导工具调用 -> 改写状态 -> 持续生效

这时风险就不再是单点，而是链式的。

二、从 OpenClaw 一类系统看，风险是如何一步步升级的

OpenClaw 这类框架的价值，本质上就是让模型具备更强的执行能力。
而安全问题，也正是在这个过程中逐步升级的。

1. 启动上下文开始成为攻击入口

很多智能体系统在启动时，会自动读取一批文件，例如：

系统角色定义
用户偏好
记忆内容
技能说明
工作区上下文
历史会话片段

这些机制本来是为了增强连续性和实用性。
但从攻击视角看，它们同时也构成了非常有价值的“持久影响入口”。

因为一旦这些内容被污染，问题就不再局限于某一轮问答，而会影响后续多轮任务。

这种风险的危险之处在于它往往是静默的：

不一定当场触发；
不一定立刻报错；
但可能在未来某次任务中逐步显现。

换句话说，攻击者不一定非要直接控制模型，
只要能提前控制模型将来会读取的环境，就可能间接控制模型。

2. 长期记忆会带来“持久化风险”

记忆能力是智能体体验提升的重要基础。
但安全上，它也非常像一块“天然适合投毒的缓存区”。

如果模型会把某些信息写入记忆，并在未来检索出来继续使用，那么攻击者就可能利用这一机制，制造“延迟触发型风险”：

写入伪造规则；
写入错误约束；
混入伪造身份信息；
制造长期偏差；
让单次攻击影响多个后续任务。

这和传统安全里的缓存污染、配置污染、状态污染非常相似。
只是到了智能体场景中，这些污染往往披着自然语言的外衣，更不容易被规则系统直接发现。

3. 工具调用把文本风险升级成执行风险

这是最关键的一点。

如果模型只能输出一句错误建议，问题还相对可控；
但如果模型可以：

执行 shell 命令；
修改文件；
发送外部消息；
创建或更新文档；
调用第三方服务；
影响后续状态；

那么它每一次被误导，都有可能落地成真实动作。

这时问题已经不再是“输出安不安全”，而是“行为能不能被约束”。

很多传统内容安全机制，到了这里就不够用了。
因为它们擅长检查文本，不擅长约束行为链。

4. 多智能体与任务链会放大传播能力

如果系统进一步支持：

子代理；
多会话协同；
插件转发；
自动任务分派；
跨渠道执行；

那么风险传播能力就会变得更强。

攻击者甚至不一定要直接打主代理，
只要污染链条中的一个环节，就有机会逐步扩散到更多任务和更多状态对象中。

这也是为什么近来的很多研究，已经开始把注意力放到“跨智能体传播”和“轨迹级安全审计”上。
因为当系统具备任务继承、上下文转发和自动协同时，攻击自然会向生态级风险演化。

三、具身智能为什么让这个问题更进一步

如果说 OpenClaw 这类系统的风险，更多还是“数字世界里的执行风险”，
那么具身智能面对的，就是“现实世界里的执行风险”。

因为在具身智能中，模型不只是读文件、写配置，而是在影响真实动作链：

摄像头看到什么；
机器人如何理解环境；
机械臂如何选择目标；
移动平台如何规划路径；
系统如何和物理对象发生交互。

也就是说，攻击面不再局限于软件系统本身，而开始延伸到现实环境。

1. 视觉输入会成为新的攻击入口

在很多具身系统里，视觉是最重要的环境理解方式。
这就意味着，攻击者可以通过环境本身进行干扰：

贴纸
标识
屏幕内容
反光
遮挡
特定视觉图案

这些都可能对感知结果造成影响。

从本质上看，这就是把传统 prompt injection，从文本空间搬到了物理空间。

过去是“模型读到恶意提示”；
现在可能变成“机器人看见恶意标识”。

2. 动作错误会带来连续性后果

文本系统里的错误，大多数时候只影响单轮输出。
但具身智能里的动作是连续的、状态相关的。

一次误判，可能进一步引发：

错误路径；
错误抓取；
接触错误对象；
进入危险区域；
与人或设备发生不安全交互。

也就是说，具身智能的安全问题往往不是“一次答错”，
而是“错误动作开始连锁扩散”。

3. 很多具身系统默认环境是可信的

这是一个很容易被忽视的问题。

很多系统天然假设：

看到的标签是真实的；
传感器反馈基本可信；
语音来源是可信的；
物理环境不会主动攻击系统。

但一旦这些前提失效，上层决策很可能全都建立在错误基础上。

这和传统网络安全里“默认信任内网”的问题，其实是同一种逻辑。
区别只是，今天这个问题开始出现在机器人和物理系统上。

四、今天真正值得警惕的，不只是攻击本身

把 OpenClaw 一类系统和具身智能放在一起看，会发现一个非常明显的共同变化：

攻击重点，正在从“影响回答”转向“影响行为”。

而这背后，至少有四个趋势值得警惕。

趋势一：攻击入口越来越分散

输入框不再是唯一入口。
文档、网页、消息、记忆、环境标识、视觉输入，都可能成为攻击源。

趋势二：系统边界越来越模糊

模型、工具、插件、设备、外部服务之间正在被快速打通。
能力增强的同时，边界和责任也在变模糊。

趋势三：验证难度越来越高

很多智能体风险不是不能复现，而是不容易稳定复现。
因为它们往往依赖上下文、状态和动态路径组合。

趋势四：现实世界开始成为攻击场的一部分

当具身系统开始依赖视觉、动作和环境理解时，安全就不再只是软件问题，而是“软件+环境+设备”的联合问题。

五、如果要做防守，什么原则最重要

无论是通用智能体，还是具身智能系统，我认为下面几条原则都会越来越重要。

1. 权限必须最小化

能读的不要默认能写；
能建议的不要默认能执行；
低风险动作可以自动化，不代表高风险动作也应该自动化。

2. 高风险动作必须强确认

尤其是这些动作，不应只依赖模型判断直接放行：

改配置
发外部消息
执行命令
改长期记忆
触发真实设备动作

3. 上下文必须区分可信级别

不是所有输入都应该平等进入上下文。
系统应尽量区分：

系统定义
用户输入
外部文档
插件返回
记忆内容
环境感知结果

否则，恶意内容很容易被当成高优先级事实或指令。

4. 记忆与会话必须可审计、可回滚

只要一段内容能影响后续任务，就必须能回答三个问题：

是谁写进去的？
它什么时候被写进去的？
它能不能被撤销？

5. 具身系统必须保留独立安全制动层

不能把所有安全都押给模型。
对于具身系统，至少应保留独立于模型之外的：

硬件急停
区域限制
动作速度/力度约束
传感器交叉校验
人工接管机制

因为现实世界中的错误成本，远高于对话系统中的错误成本。

结语

今天再看智能体安全，已经不能只停留在“提示词攻击”四个字上了。

真正的问题是：

当模型开始读取环境、调用工具、改写状态、驱动动作之后，我们是否还拥有足够清晰的控制边界。

OpenClaw 一类系统，让我们更早看见了这个问题：
当大模型从“回答者”变成“执行者”，安全就必然从内容层走向系统层。

而具身智能，则进一步把这个问题推到了现实世界：
当智能系统开始真正影响物体、空间和动作时，安全就不再只是“模型安全”，而是“行为安全”和“物理安全”。

所以，今天真正值得问的，不是：

模型会不会被攻击？

而是：

模型一旦被影响，它到底能做什么？它又会把这种影响带到哪里去？

这，才是今天讨论智能体安全和具身智能安全时，最不能回避的问题。

从 OpenClaw 到具身智能，风险边界的变化，本质上是“语言能力”向“行动能力”的外溢。