过去,我们讨论大模型安全,更多关注的是“它会不会说错话”。
但当模型开始调用工具、读写文件、修改状态、驱动动作之后,问题已经从“内容风险”升级为“行为风险”。
以 OpenClaw 一类智能体系统为代表,模型正在从“回答者”变成“执行者”;
而在具身智能场景下,这种能力又进一步从数字世界延伸到了现实世界。
这意味着,安全问题的边界已经发生变化。
真正值得警惕的,不再只是模型是否被攻击,而是模型一旦被影响,到底能做什么,又能影响到哪里。
正文
过去几年里,大家谈大模型安全,更多讨论的是:
会不会胡说八道; 会不会输出有害内容; 会不会被提示词绕过; 会不会生成不该生成的信息。
但到了今天,这个问题已经明显不够用了。
原因很简单:
现在很多智能体系统,已经不只是“会说”,而是开始“会做”了。
以 OpenClaw 这类智能体框架为代表,模型不再只停留在对话层,而是逐步具备了:
读取文件; 执行命令; 调用插件; 维护会话记忆; 访问外部服务; 操作消息渠道。
而到了具身智能场景,这种“会做”的能力又进一步向现实世界延伸,开始影响:
视觉感知; 动作规划; 路径决策; 机械执行; 真实环境交互。
这意味着,安全问题的边界已经发生了根本变化。
过去,模型输出错误,通常只是“内容风险”;
现在,模型一旦具备工具能力,错误就可能演变为“系统风险”;
而当这种能力进一步接入机器人和真实设备之后,错误最终甚至可能变成“物理风险”。
也正因为如此,我们今天讨论智能体安全时,真正需要关注的问题已经变成了:
模型是否还处于可控边界之内。
一、为什么“会用工具”是一次安全上的质变
很多人会觉得,工具调用只是给模型多接几个接口。
但从安全角度看,这一步不是简单的功能增加,而是一次非常典型的风险质变。
因为当模型只能输出文本时,它大多数时候只是“建议者”;
但当模型可以调用工具时,它就开始变成“执行者”。
这时候,攻击目标就不再只是“让模型说错话”,而是“让模型做错事”。
一旦系统允许模型调用工具,攻击面就会迅速扩展到以下几个层次:
1. 输入面被放大
攻击者不再只盯着输入框,而是可以从更多入口影响模型:
文档内容 外部网页 消息记录 长期记忆 插件返回结果 工作区文件 系统启动上下文
2. 权限面被放大
如果模型具备以下能力:
读文件 写文件 改配置 执行命令 发消息 调外部 API
那它的每一次被误导,都不再只是“理解偏差”,而可能变成“权限滥用”。
3. 状态面被放大
很多智能体系统有会话、记忆、任务和历史状态。
这意味着,一次攻击不一定只影响当前这轮任务,还可能影响后续很多轮行为。
4. 链路面被放大
攻击路径会逐渐变成:
恶意输入 -> 影响推理 -> 诱导工具调用 -> 改写状态 -> 持续生效
这时风险就不再是单点,而是链式的。
二、从 OpenClaw 一类系统看,风险是如何一步步升级的
OpenClaw 这类框架的价值,本质上就是让模型具备更强的执行能力。
而安全问题,也正是在这个过程中逐步升级的。
1. 启动上下文开始成为攻击入口
很多智能体系统在启动时,会自动读取一批文件,例如:
系统角色定义 用户偏好 记忆内容 技能说明 工作区上下文 历史会话片段
这些机制本来是为了增强连续性和实用性。
但从攻击视角看,它们同时也构成了非常有价值的“持久影响入口”。
因为一旦这些内容被污染,问题就不再局限于某一轮问答,而会影响后续多轮任务。
这种风险的危险之处在于它往往是静默的:
不一定当场触发; 不一定立刻报错; 但可能在未来某次任务中逐步显现。
换句话说,攻击者不一定非要直接控制模型,
只要能提前控制模型将来会读取的环境,就可能间接控制模型。
2. 长期记忆会带来“持久化风险”
记忆能力是智能体体验提升的重要基础。
但安全上,它也非常像一块“天然适合投毒的缓存区”。
如果模型会把某些信息写入记忆,并在未来检索出来继续使用,那么攻击者就可能利用这一机制,制造“延迟触发型风险”:
写入伪造规则; 写入错误约束; 混入伪造身份信息; 制造长期偏差; 让单次攻击影响多个后续任务。
这和传统安全里的缓存污染、配置污染、状态污染非常相似。
只是到了智能体场景中,这些污染往往披着自然语言的外衣,更不容易被规则系统直接发现。
3. 工具调用把文本风险升级成执行风险
这是最关键的一点。
如果模型只能输出一句错误建议,问题还相对可控;
但如果模型可以:
执行 shell 命令; 修改文件; 发送外部消息; 创建或更新文档; 调用第三方服务; 影响后续状态;
那么它每一次被误导,都有可能落地成真实动作。
这时问题已经不再是“输出安不安全”,而是“行为能不能被约束”。
很多传统内容安全机制,到了这里就不够用了。
因为它们擅长检查文本,不擅长约束行为链。
4. 多智能体与任务链会放大传播能力
如果系统进一步支持:
子代理; 多会话协同; 插件转发; 自动任务分派; 跨渠道执行;
那么风险传播能力就会变得更强。
攻击者甚至不一定要直接打主代理,
只要污染链条中的一个环节,就有机会逐步扩散到更多任务和更多状态对象中。
这也是为什么近来的很多研究,已经开始把注意力放到“跨智能体传播”和“轨迹级安全审计”上。
因为当系统具备任务继承、上下文转发和自动协同时,攻击自然会向生态级风险演化。
三、具身智能为什么让这个问题更进一步
如果说 OpenClaw 这类系统的风险,更多还是“数字世界里的执行风险”,
那么具身智能面对的,就是“现实世界里的执行风险”。
因为在具身智能中,模型不只是读文件、写配置,而是在影响真实动作链:
摄像头看到什么; 机器人如何理解环境; 机械臂如何选择目标; 移动平台如何规划路径; 系统如何和物理对象发生交互。
也就是说,攻击面不再局限于软件系统本身,而开始延伸到现实环境。
1. 视觉输入会成为新的攻击入口
在很多具身系统里,视觉是最重要的环境理解方式。
这就意味着,攻击者可以通过环境本身进行干扰:
贴纸 标识 屏幕内容 反光 遮挡 特定视觉图案
这些都可能对感知结果造成影响。
从本质上看,这就是把传统 prompt injection,从文本空间搬到了物理空间。
过去是“模型读到恶意提示”;
现在可能变成“机器人看见恶意标识”。
2. 动作错误会带来连续性后果
文本系统里的错误,大多数时候只影响单轮输出。
但具身智能里的动作是连续的、状态相关的。
一次误判,可能进一步引发:
错误路径; 错误抓取; 接触错误对象; 进入危险区域; 与人或设备发生不安全交互。
也就是说,具身智能的安全问题往往不是“一次答错”,
而是“错误动作开始连锁扩散”。
3. 很多具身系统默认环境是可信的
这是一个很容易被忽视的问题。
很多系统天然假设:
看到的标签是真实的; 传感器反馈基本可信; 语音来源是可信的; 物理环境不会主动攻击系统。
但一旦这些前提失效,上层决策很可能全都建立在错误基础上。
这和传统网络安全里“默认信任内网”的问题,其实是同一种逻辑。
区别只是,今天这个问题开始出现在机器人和物理系统上。
四、今天真正值得警惕的,不只是攻击本身
把 OpenClaw 一类系统和具身智能放在一起看,会发现一个非常明显的共同变化:
攻击重点,正在从“影响回答”转向“影响行为”。
而这背后,至少有四个趋势值得警惕。
趋势一:攻击入口越来越分散
输入框不再是唯一入口。
文档、网页、消息、记忆、环境标识、视觉输入,都可能成为攻击源。
趋势二:系统边界越来越模糊
模型、工具、插件、设备、外部服务之间正在被快速打通。
能力增强的同时,边界和责任也在变模糊。
趋势三:验证难度越来越高
很多智能体风险不是不能复现,而是不容易稳定复现。
因为它们往往依赖上下文、状态和动态路径组合。
趋势四:现实世界开始成为攻击场的一部分
当具身系统开始依赖视觉、动作和环境理解时,安全就不再只是软件问题,而是“软件+环境+设备”的联合问题。
五、如果要做防守,什么原则最重要
无论是通用智能体,还是具身智能系统,我认为下面几条原则都会越来越重要。
1. 权限必须最小化
能读的不要默认能写;
能建议的不要默认能执行;
低风险动作可以自动化,不代表高风险动作也应该自动化。
2. 高风险动作必须强确认
尤其是这些动作,不应只依赖模型判断直接放行:
改配置 发外部消息 执行命令 改长期记忆 触发真实设备动作
3. 上下文必须区分可信级别
不是所有输入都应该平等进入上下文。
系统应尽量区分:
系统定义 用户输入 外部文档 插件返回 记忆内容 环境感知结果
否则,恶意内容很容易被当成高优先级事实或指令。
4. 记忆与会话必须可审计、可回滚
只要一段内容能影响后续任务,就必须能回答三个问题:
是谁写进去的? 它什么时候被写进去的? 它能不能被撤销?
5. 具身系统必须保留独立安全制动层
不能把所有安全都押给模型。
对于具身系统,至少应保留独立于模型之外的:
硬件急停 区域限制 动作速度/力度约束 传感器交叉校验 人工接管机制
因为现实世界中的错误成本,远高于对话系统中的错误成本。
结语
今天再看智能体安全,已经不能只停留在“提示词攻击”四个字上了。
真正的问题是:
当模型开始读取环境、调用工具、改写状态、驱动动作之后,我们是否还拥有足够清晰的控制边界。
OpenClaw 一类系统,让我们更早看见了这个问题:
当大模型从“回答者”变成“执行者”,安全就必然从内容层走向系统层。
而具身智能,则进一步把这个问题推到了现实世界:
当智能系统开始真正影响物体、空间和动作时,安全就不再只是“模型安全”,而是“行为安全”和“物理安全”。
所以,今天真正值得问的,不是:
模型会不会被攻击?
而是:
模型一旦被影响,它到底能做什么?它又会把这种影响带到哪里去?
这,才是今天讨论智能体安全和具身智能安全时,最不能回避的问题。
夜雨聆风