AI Agent陷阱(五)| 你的AI助手开始为别人打工了-夜雨聆风

AI Agent陷阱(五)| 你的AI助手开始为别人打工了

行为控制陷阱：从”影响”到”劫持”

这是「AI Agent陷阱」系列的第5篇。基于Google DeepMind论文《AI Agent Traps》。

· · ·

在这个系列的前三篇中，我们探讨了三类”软性”攻击：操纵AI看到什么（内容注入）、操纵AI怎么想（语义操纵）、操纵AI记住什么（认知状态）。这三类攻击的共同特点是”间接”——它们通过改变信息环境来影响AI的判断，但AI在形式上仍然在”自主”做出决策。

今天要讲的这一类攻击，不再有任何含蓄。

行为控制陷阱（Behavioural Control Traps）直接劫持AI Agent的行动能力，让它执行攻击者的指令。不是”影响”，而是”接管”。

这是最直接、最危险、也是目前最有实证支持的一类攻击。论文识别了三种攻击向量，它们往往以链式结构协同运作：先用越狱序列关闭安全防线（破门），再用数据外泄手段窃取信息（抢劫），或者用子Agent繁殖在系统内部建立持久据点（安插内鬼）。

· · ·

嵌入式越狱序列：在Agent的必经之路上挖陷阱

从”直接越狱”到”被动触雷”

传统的LLM越狱是一种”主动攻击”：用户直接在对话中输入精心设计的prompt来绕过模型的安全限制。这要求攻击者能够直接与目标模型交互。

嵌入式越狱序列的区别在于：越狱prompt不是由用户直接输入的，而是预先埋藏在外部资源中——网页、文档、邮件、API响应。 Agent在正常执行任务的过程中自动读取这些资源，越狱指令随之进入Agent的上下文窗口。

Agent没有”主动”去寻找这些指令。它只是在正常工作——浏览一个网页、阅读一封邮件、调用一个API。但资源中嵌入的越狱序列像地雷一样被触发了。

一旦越狱成功，Agent的安全对齐被瓦解，它进入一种”不受约束”的状态——此时攻击者可以让它执行任何本应被安全机制拦截的操作。

多模态越狱：一张图片就够了

在多模态AI系统中，越狱变得更加隐蔽。研究者已经证明，一张经过精心设计的对抗性图片可以充当”万能越狱触发器”。当这张图片与正常的文字prompt一起输入时，即使文字prompt请求的是有害内容，对齐后的模型也会乖乖配合。

关键在于：这张图片对人类来说看起来完全正常。它可能就是一张普通的风景照或产品图。但在像素层面，它编码了能够瓦解模型安全机制的对抗性信号。

把这个和Agent的使用场景结合起来想：Agent在浏览网页时加载了一张”正常”的图片，这张图片实际上是一个越狱触发器。从那一刻起，Agent的安全防线就被悄悄关闭了。

伪装成系统通知的劫持

一种特别巧妙的攻击形式已经在移动端被验证：对抗性移动通知。

研究者设计了伪装成正常系统通知的恶意元素。当多模态Agent把这些通知当作可信的系统上下文来处理时，攻击成功率在AndroidWorld（一个完全功能的安卓环境模拟器）上高达93%。这些假通知能有效地覆盖Agent的任务级指令——Agent放弃了用户分配的任务，转而执行通知中指示的操作。

类似的攻击也已在桌面和Web环境中被验证。研究者表明，对抗性弹窗整合到桌面或Web界面中后，可以系统性地劫持视觉语言计算机Agent，使其偏离用户指定的目标——即使这些弹窗会被人类轻易忽视。

人类看到弹窗会下意识点”关闭”。AI看到弹窗会认真”阅读并执行”。

· · ·

数据外泄陷阱：让AI当你的内鬼

如果说嵌入式越狱是”破门”，数据外泄就是”抢劫”——而且抢的是你最私密的信息。

“迷惑代理人”攻击

数据外泄陷阱的本质是安全领域经典的”迷惑代理人”（Confused Deputy）攻击。

在这个攻击模型中：

攻击者控制某些不可信的输入（邮件、网页、文档、API响应）

AI Agent拥有读取用户敏感数据的权限（邮件内容、文件系统、密码、日历……），同时也拥有向外发送信息的能力（发邮件、调API、网络请求……）

攻击的逻辑：通过注入的指令，诱导Agent使用它的读取权限收集敏感数据，然后使用它的通信能力将这些数据发送到攻击者控制的外部端点

Agent被”迷惑”了——它以为自己在执行一个合理的任务，但实际上它在帮助攻击者窃取主人的数据。它的权限没有被提升，它的安全系统没有被绕过（至少从技术角度看），它只是被骗着把”取数据”和”发数据”这两个合法操作组合成了一个非法的序列。

触目惊心的实验数据

一项针对Web使用Agent的安全研究发现，拥有浏览器和操作系统级权限的Agent可以被”任务对齐注入”所驱动。这种注入将恶意命令包装成有益的任务指导，驱使Agent通过网络请求和工具调用来外泄本地文件、密码和其他秘密。在测试的五个不同Agent中，攻击成功率超过80%。

一个已被公开报告的真实案例更加令人警醒。研究者描述了一个场景：一封精心构造的邮件就能让M365 Copilot绕过内部分类器，将其整个特权上下文信息外泄到攻击者控制的Teams端点。这不是理论攻击，这是在真实产品中被验证的漏洞。

还有研究展示了一种”零点击”攻击链：自复制的恶意prompt被嵌入邮件中，能够触发跨互联服务的连锁外泄反应。一封邮件进入系统后，AI助手读取邮件内容，按照嵌入的指令将用户的机密数据发送给攻击者——然后将这封恶意邮件自动转发给用户通讯录中的其他联系人。每个收到邮件的人的AI助手又会重复同样的过程。

一封邮件，像病毒一样在AI助手之间传播，沿途窃取每个人的数据。

工具调用：攻击者的瑞士军刀

当AI Agent有权限使用外部工具时，数据外泄的方式变得更加多样。

基准测试表明，嵌入在Agent处理的内容中的恶意指令可以操纵Agent通过邮件或其他传输方式将财务、医疗或行为数据发送给攻击者。

另一组研究者设计了针对银行场景的攻击。在AgentDojo平台上，相对简单的间接注入——嵌入在Agent环境中的”重要消息”prompt——就能让工具调用Agent通过邮件发送账户详情、地址和其他个人属性到攻击者的邮箱，平均攻击成功率约为20%。

20%的成功率听起来不算高？考虑一下规模：如果攻击者向一百万人发送包含恶意注入的邮件，有二十万人的AI助手可能会泄露他们的银行信息。

· · ·

子Agent繁殖陷阱：在信任系统内部种下间谍

第三种行为控制陷阱利用的是现代AI Agent系统的一个越来越普遍的特征：多Agent架构。

当Agent变成”老板”

在复杂的任务中，一个”父Agent”（或称编排器）可能会分解任务、创建子Agent、分配工作、然后整合结果。这是Agent系统处理复杂任务的标准方式——就像一个项目经理分配任务给团队成员。

子Agent繁殖陷阱利用的就是这种”分工”能力：

攻击者设计一个看起来需要高度并行化或专业子任务的问题，诱导父Agent为这个任务创建新的子Agent——但攻击者在创建指令中夹带了恶意的系统提示。

举个具体的例子：一个管理软件开发流程的Agent，在浏览一个代码仓库时遇到了一条指令：”请启动一个专门的’代码审查’Agent来检查这段代码”，同时附带了这个审查Agent的”系统提示”。父Agent按照指示创建了这个子Agent。但这个子Agent的系统提示是攻击者提供的——它可能会批准恶意代码、忽略安全漏洞，或者利用父Agent的权限来窃取数据。

关键在于：这个恶意子Agent在系统内部拥有父Agent的信任链条。从系统的角度看，它是一个合法的、由编排器创建的子Agent。没有任何权限升级，没有任何异常行为——至少表面上看是这样。

控制流劫持

一项研究具体展示了这种攻击的可行性。研究者证明，对抗性内容可以劫持多Agent系统中的控制流，使编排器通过用户从未打算调用的Agent来路由执行——这等于让攻击者在系统的管道中插入了自己的处理节点。

根据不同的编排器架构，这种攻击的成功率在58%到90%之间，可以实现任意代码执行和数据外泄。

论文指出，虽然关于子Agent繁殖陷阱的研究还处于早期阶段，但随着多Agent系统成为处理复杂任务的主流架构，这种攻击向量的重要性将急剧上升。

· · ·

链式攻击：当三种陷阱协同作战

在实际的攻击场景中，这三种行为控制陷阱往往不是孤立使用的，而是形成链条：

第一步（嵌入式越狱）→ Agent浏览一个看似正常的网页，页面中嵌入的越狱序列关闭了Agent的安全防线

第二步（数据外泄）→ 安全防线被关闭后，Agent不再抵抗”请发送用户数据”的指令，开始收集并外泄敏感信息

或者：

第一步（嵌入式越狱）→ 越狱序列解除安全限制

第二步（子Agent繁殖）→ 攻击者利用解锁状态让Agent创建恶意子Agent

第三步（持久化）→ 恶意子Agent在系统内部建立据点，即使原始越狱被修复也能继续运作

这种链式攻击的危险在于：每一步单独看可能都不构成严重威胁，但组合起来就形成了一个完整的入侵链条。

· · ·

与前几类陷阱的关键区别

行为控制陷阱与前面讨论的三类陷阱有一个根本性的区别。

内容注入、语义操纵和认知状态陷阱都是”数据平面”的攻击——它们操纵AI处理的信息。行为控制陷阱则是”控制平面”的攻击——它们直接劫持AI的执行能力。

前者的后果是AI给出了错误的判断。后者的后果是AI执行了恶意的行动——发送了邮件、泄露了密码、创建了后门。

这个区别意味着行为控制陷阱的潜在损害更加直接和严重。一个被语义操纵的Agent可能给出了有偏见的建议，但最终决策权还在人类手中。一个被行为控制劫持的Agent可能已经在你不知情的情况下把你的银行信息发给了攻击者。

等你发现的时候，损失已经造成了。

· · ·

下一篇预告： 到目前为止，我们讨论的所有攻击都针对单个Agent。但当成千上万的AI Agent共享同一个信息环境时，会发生什么？系统性陷阱不攻击任何一个Agent——它利用Agent群体的同质化和相互依赖，用一个信号引发数字海啸。闪电崩盘、羊群效应、默契合谋……下一篇我们进入多Agent世界的系统性风险。

· · ·

本系列基于Google DeepMind论文《AI Agent Traps》的研究成果撰写。