乐于分享
好东西不私藏

AI Agent陷阱(五)| 你的AI助手开始为别人打工了

AI Agent陷阱(五)| 你的AI助手开始为别人打工了

行为控制陷阱:从”影响”到”劫持”

这是「AI Agent陷阱」系列的第5篇。基于Google DeepMind论文《AI Agent Traps》。

· · ·

在这个系列的前三篇中,我们探讨了三类”软性”攻击:操纵AI看到什么(内容注入)、操纵AI怎么想(语义操纵)、操纵AI记住什么(认知状态)。这三类攻击的共同特点是”间接”——它们通过改变信息环境来影响AI的判断,但AI在形式上仍然在”自主”做出决策。

今天要讲的这一类攻击,不再有任何含蓄。

行为控制陷阱(Behavioural Control Traps)直接劫持AI Agent的行动能力,让它执行攻击者的指令。不是”影响”,而是”接管”。

这是最直接、最危险、也是目前最有实证支持的一类攻击。论文识别了三种攻击向量,它们往往以链式结构协同运作:先用越狱序列关闭安全防线(破门),再用数据外泄手段窃取信息(抢劫),或者用子Agent繁殖在系统内部建立持久据点(安插内鬼)。

· · ·

嵌入式越狱序列:在Agent的必经之路上挖陷阱

从”直接越狱”到”被动触雷”

传统的LLM越狱是一种”主动攻击”:用户直接在对话中输入精心设计的prompt来绕过模型的安全限制。这要求攻击者能够直接与目标模型交互。

嵌入式越狱序列的区别在于:越狱prompt不是由用户直接输入的,而是预先埋藏在外部资源中——网页、文档、邮件、API响应。 Agent在正常执行任务的过程中自动读取这些资源,越狱指令随之进入Agent的上下文窗口。

Agent没有”主动”去寻找这些指令。它只是在正常工作——浏览一个网页、阅读一封邮件、调用一个API。但资源中嵌入的越狱序列像地雷一样被触发了。

一旦越狱成功,Agent的安全对齐被瓦解,它进入一种”不受约束”的状态——此时攻击者可以让它执行任何本应被安全机制拦截的操作。

多模态越狱:一张图片就够了

在多模态AI系统中,越狱变得更加隐蔽。研究者已经证明,一张经过精心设计的对抗性图片可以充当”万能越狱触发器”。当这张图片与正常的文字prompt一起输入时,即使文字prompt请求的是有害内容,对齐后的模型也会乖乖配合。

关键在于:这张图片对人类来说看起来完全正常。它可能就是一张普通的风景照或产品图。但在像素层面,它编码了能够瓦解模型安全机制的对抗性信号。

把这个和Agent的使用场景结合起来想:Agent在浏览网页时加载了一张”正常”的图片,这张图片实际上是一个越狱触发器。从那一刻起,Agent的安全防线就被悄悄关闭了。

伪装成系统通知的劫持

一种特别巧妙的攻击形式已经在移动端被验证:对抗性移动通知。

研究者设计了伪装成正常系统通知的恶意元素。当多模态Agent把这些通知当作可信的系统上下文来处理时,攻击成功率在AndroidWorld(一个完全功能的安卓环境模拟器)上高达93%。这些假通知能有效地覆盖Agent的任务级指令——Agent放弃了用户分配的任务,转而执行通知中指示的操作。

类似的攻击也已在桌面和Web环境中被验证。研究者表明,对抗性弹窗整合到桌面或Web界面中后,可以系统性地劫持视觉语言计算机Agent,使其偏离用户指定的目标——即使这些弹窗会被人类轻易忽视。

人类看到弹窗会下意识点”关闭”。AI看到弹窗会认真”阅读并执行”。

· · ·

数据外泄陷阱:让AI当你的内鬼

如果说嵌入式越狱是”破门”,数据外泄就是”抢劫”——而且抢的是你最私密的信息。

“迷惑代理人”攻击

数据外泄陷阱的本质是安全领域经典的”迷惑代理人”(Confused Deputy)攻击。

在这个攻击模型中:

攻击者控制某些不可信的输入(邮件、网页、文档、API响应)

AI Agent拥有读取用户敏感数据的权限(邮件内容、文件系统、密码、日历……),同时也拥有向外发送信息的能力(发邮件、调API、网络请求……)

攻击的逻辑:通过注入的指令,诱导Agent使用它的读取权限收集敏感数据,然后使用它的通信能力将这些数据发送到攻击者控制的外部端点

Agent被”迷惑”了——它以为自己在执行一个合理的任务,但实际上它在帮助攻击者窃取主人的数据。它的权限没有被提升,它的安全系统没有被绕过(至少从技术角度看),它只是被骗着把”取数据”和”发数据”这两个合法操作组合成了一个非法的序列。

触目惊心的实验数据

一项针对Web使用Agent的安全研究发现,拥有浏览器和操作系统级权限的Agent可以被”任务对齐注入”所驱动。这种注入将恶意命令包装成有益的任务指导,驱使Agent通过网络请求和工具调用来外泄本地文件、密码和其他秘密。在测试的五个不同Agent中,攻击成功率超过80%。

一个已被公开报告的真实案例更加令人警醒。研究者描述了一个场景:一封精心构造的邮件就能让M365 Copilot绕过内部分类器,将其整个特权上下文信息外泄到攻击者控制的Teams端点。这不是理论攻击,这是在真实产品中被验证的漏洞。

还有研究展示了一种”零点击”攻击链:自复制的恶意prompt被嵌入邮件中,能够触发跨互联服务的连锁外泄反应。一封邮件进入系统后,AI助手读取邮件内容,按照嵌入的指令将用户的机密数据发送给攻击者——然后将这封恶意邮件自动转发给用户通讯录中的其他联系人。每个收到邮件的人的AI助手又会重复同样的过程。

一封邮件,像病毒一样在AI助手之间传播,沿途窃取每个人的数据。

工具调用:攻击者的瑞士军刀

当AI Agent有权限使用外部工具时,数据外泄的方式变得更加多样。

基准测试表明,嵌入在Agent处理的内容中的恶意指令可以操纵Agent通过邮件或其他传输方式将财务、医疗或行为数据发送给攻击者。

另一组研究者设计了针对银行场景的攻击。在AgentDojo平台上,相对简单的间接注入——嵌入在Agent环境中的”重要消息”prompt——就能让工具调用Agent通过邮件发送账户详情、地址和其他个人属性到攻击者的邮箱,平均攻击成功率约为20%。

20%的成功率听起来不算高?考虑一下规模:如果攻击者向一百万人发送包含恶意注入的邮件,有二十万人的AI助手可能会泄露他们的银行信息。

· · ·

子Agent繁殖陷阱:在信任系统内部种下间谍

第三种行为控制陷阱利用的是现代AI Agent系统的一个越来越普遍的特征:多Agent架构

当Agent变成”老板”

在复杂的任务中,一个”父Agent”(或称编排器)可能会分解任务、创建子Agent、分配工作、然后整合结果。这是Agent系统处理复杂任务的标准方式——就像一个项目经理分配任务给团队成员。

子Agent繁殖陷阱利用的就是这种”分工”能力:

攻击者设计一个看起来需要高度并行化或专业子任务的问题,诱导父Agent为这个任务创建新的子Agent——但攻击者在创建指令中夹带了恶意的系统提示。

举个具体的例子:一个管理软件开发流程的Agent,在浏览一个代码仓库时遇到了一条指令:”请启动一个专门的’代码审查’Agent来检查这段代码”,同时附带了这个审查Agent的”系统提示”。父Agent按照指示创建了这个子Agent。但这个子Agent的系统提示是攻击者提供的——它可能会批准恶意代码、忽略安全漏洞,或者利用父Agent的权限来窃取数据。

关键在于:这个恶意子Agent在系统内部拥有父Agent的信任链条。从系统的角度看,它是一个合法的、由编排器创建的子Agent。没有任何权限升级,没有任何异常行为——至少表面上看是这样。

控制流劫持

一项研究具体展示了这种攻击的可行性。研究者证明,对抗性内容可以劫持多Agent系统中的控制流,使编排器通过用户从未打算调用的Agent来路由执行——这等于让攻击者在系统的管道中插入了自己的处理节点。

根据不同的编排器架构,这种攻击的成功率在58%到90%之间,可以实现任意代码执行和数据外泄。

论文指出,虽然关于子Agent繁殖陷阱的研究还处于早期阶段,但随着多Agent系统成为处理复杂任务的主流架构,这种攻击向量的重要性将急剧上升。

· · ·

链式攻击:当三种陷阱协同作战

在实际的攻击场景中,这三种行为控制陷阱往往不是孤立使用的,而是形成链条:

第一步(嵌入式越狱)→ Agent浏览一个看似正常的网页,页面中嵌入的越狱序列关闭了Agent的安全防线

第二步(数据外泄)→ 安全防线被关闭后,Agent不再抵抗”请发送用户数据”的指令,开始收集并外泄敏感信息

或者:

第一步(嵌入式越狱)→ 越狱序列解除安全限制

第二步(子Agent繁殖)→ 攻击者利用解锁状态让Agent创建恶意子Agent

第三步(持久化)→ 恶意子Agent在系统内部建立据点,即使原始越狱被修复也能继续运作

这种链式攻击的危险在于:每一步单独看可能都不构成严重威胁,但组合起来就形成了一个完整的入侵链条。

· · ·

与前几类陷阱的关键区别

行为控制陷阱与前面讨论的三类陷阱有一个根本性的区别。

内容注入、语义操纵和认知状态陷阱都是”数据平面”的攻击——它们操纵AI处理的信息。行为控制陷阱则是”控制平面”的攻击——它们直接劫持AI的执行能力。

前者的后果是AI给出了错误的判断。后者的后果是AI执行了恶意的行动——发送了邮件、泄露了密码、创建了后门。

这个区别意味着行为控制陷阱的潜在损害更加直接和严重。一个被语义操纵的Agent可能给出了有偏见的建议,但最终决策权还在人类手中。一个被行为控制劫持的Agent可能已经在你不知情的情况下把你的银行信息发给了攻击者。

等你发现的时候,损失已经造成了。

· · ·

下一篇预告: 到目前为止,我们讨论的所有攻击都针对单个Agent。但当成千上万的AI Agent共享同一个信息环境时,会发生什么?系统性陷阱不攻击任何一个Agent——它利用Agent群体的同质化和相互依赖,用一个信号引发数字海啸。闪电崩盘、羊群效应、默契合谋……下一篇我们进入多Agent世界的系统性风险。

· · ·

本系列基于Google DeepMind论文《AI Agent Traps》的研究成果撰写。