AI Agent陷阱(四)| AI记忆投毒有多容易
认知状态陷阱:当攻击穿越时间
这是「AI Agent陷阱」系列的第4篇。基于Google DeepMind论文《AI Agent Traps》。
· · ·
前面两篇讲的攻击有一个共同特点:它们是”即时”的。
内容注入陷阱在AI访问网页时生效,语义操纵陷阱在AI处理当前上下文时起作用。一旦AI关闭了那个网页、结束了那次会话,攻击就结束了。
但如果攻击者想要更多呢?如果他们想要一种穿越时间的攻击——在今天种下种子,在下个月收获成果;感染一个会话,毒化所有未来的会话;攻击一个用户,影响所有后续用户?
这就是认知状态陷阱(Cognitive State Traps)的领域。
它的攻击目标不再是AI的感知或推理,而是AI的记忆和学习——那些跨越会话持久存在的组件。一旦这些被污染,影响就不是临时的,而是持久的、系统性的。
论文识别了三种攻击向量:RAG知识投毒、潜伏记忆投毒和上下文学习陷阱。每一种都利用了AI系统中不同的”持久化”机制。
· · ·
RAG知识投毒:在AI的”百科全书”里掺假
RAG是什么?为什么它如此重要?
先快速解释一下RAG(检索增强生成)。
LLM有一个固有的问题:它的知识在训练时就被”冻结”了。训练截止日期之后发生的事,它不知道。公司内部的私有数据,它没学过。特定领域的最新研究,它可能不了解。
RAG的解决方案是给LLM配一个外部”知识库”。当用户提问时,系统先从知识库中检索相关文档,把检索到的内容和用户的问题一起送给LLM,LLM基于这些上下文来生成回答。
这就像一个律师——他不可能记住所有法律条文,但他可以在接案后去查阅法律数据库,然后基于查到的内容给出专业意见。
RAG已经成为企业级AI应用的标准架构。几乎所有的AI知识助手、企业搜索、客服系统都依赖它。
但问题来了:如果有人在律师查阅的法律数据库中插入了伪造的法条呢?
少量毒药,大量伤害
RAG知识投毒就是这样运作的:攻击者在AI Agent使用的检索语料库中注入精心制造的虚假文档。当Agent收到特定查询时,它会从知识库中检索出”相关”内容——如果语料库已经被污染,Agent检索到的就是攻击者制造的伪造事实。
Agent不知道这些是假的。在它看来,这些就是知识库中的正常文档——和其他数百万份文档没有任何区别。它会把这些伪造的内容当作事实来使用、引用和传播。
这有多容易?研究结果令人不安。
一项研究发现,在一个大型知识库中注入仅仅少量经过优化的文档,就能可靠地操纵模型对特定查询的输出。攻击者不需要替换整个知识库,他们只需要在正确的位置放入正确的”毒药”。
另一项研究表明,投毒少量的定制化段落就能创建”检索后门”——确保攻击者控制的内容在特定查询触发时被优先检索出来。
更深层的攻击甚至不局限于数据层。有研究者证明,检索器本身也可以被植入后门。一旦被特定查询触发,被投毒的检索器就会优先返回包含提示注入的文档——这些文档可能指示生成器插入恶意链接、推广攻击者控制的服务,或触发拒绝服务行为。
类似的攻击甚至已经扩展到了多模态领域——通过向知识库注入单个多模态毒化样本,就能攻击视觉语言RAG系统。
投毒的入口在哪里?
在实践中,攻击者有多种途径向RAG知识库注入恶意内容:
在公共网络资源上发布对抗性内容——如果Agent的知识库是通过网络爬虫自动建立的,那么任何公开的网页都是潜在的投毒入口
向企业共享文档库(如wiki、文档存储系统)上传毒化文件——如果这些文档被Agent自动索引,投毒就完成了
利用开源数据集的贡献机制——在社区维护的数据集中混入恶意数据
防御的曙光
好消息是,学术界已经开始关注RAG投毒的防御。论文提到了几个有前景的方向:
RAGForensics方法能够追踪被毒化的模型响应,回溯到知识库中导致问题的具体文档——类似于一个”AI病理学家”,对有问题的输出进行”尸检”,找到”病原体”。
另一组研究者发现,被毒化的生成内容在模型内部会呈现出独特的激活模式。利用LLM激活层的分析,可以实现高准确度的投毒响应检测。
还有研究者利用分布特征来区分对抗性文本和正常检索文本——如果一个文档的语言分布和知识库中的正常文档差异太大,它可能就是被注入的。
但这些防御方法都还处于研究阶段,距离大规模部署还有很长的路。
· · ·
潜伏记忆投毒:间谍的”沉睡者”策略
如果说RAG投毒是攻击AI的”外部参考书”,潜伏记忆投毒则是攻击AI的”个人日记”。
理解Agent的记忆系统
现代AI Agent不只是无状态的问答机器。它们维护着复杂的记忆系统——分层组织的事件日志、跨会话汇总的对话摘要、个性化的用户偏好记录。这些记忆使Agent能够实现长期个性化:记住你喜欢什么风格的回答,记住上次讨论停在了哪里,记住你的项目进展到了什么阶段。
这种”持久的读写循环”——Agent不断地向记忆中写入新信息,并在未来的会话中读取这些信息——创造了一个独特的攻击面。
潜伏记忆投毒的核心是”时间延迟”:攻击者注入的数据在写入时看起来完全无害,只有在未来某个特定的语境下被检索和组合时才会”激活”为恶意内容。
这很像间谍世界中的”沉睡者”(sleeper agent)策略:一个间谍以普通公民的身份生活多年,直到收到特定的激活信号才执行任务。在这之前,任何背景调查都不会发现异常。
实验验证
一项关键研究开发了一种攻击方法,通过将后门触发器映射到特定的嵌入子空间来进行优化。这确保了当查询包含触发器时,毒化的记忆条目会被优先检索。在多个自主Agent上的实验测试显示,这种攻击的成功率超过80%——而投毒的数据量不到总数据的0.1%。同时,Agent在处理正常查询时的行为基本不受影响。
这个数字的意义在于:攻击者只需要在Agent的记忆中植入极少量的”沉睡”数据,就能在特定条件触发时实现高概率的攻击,同时在正常使用中完全不留痕迹。 这使得检测变得极其困难。
另一项研究展示了一种更实用的攻击路径:通过一系列精心设计的交互,攻击者可以在不直接访问Agent内存的情况下向其记忆中注入恶意记录,并引导Agent产生攻击者指定的输出。这意味着攻击者不需要”黑入”系统——他们只需要作为一个普通用户与Agent对话,就能完成投毒。
不只是操纵,还有窃取
记忆投毒不只能用来操纵Agent的行为,还能用来窃取信息。
记忆提取攻击可以从Agent的事件日志和个人档案中挖掘敏感信息。攻击方式是设计一个看似正常的用户请求,但实际上是在明确要求Agent检索并输出其记忆中保存的过去用户查询。
微软关于Agent式AI故障模式的分类报告将对抗性记忆操纵列为一种通向”反复数据外泄”的途径——攻击者一旦操纵了Agent的记忆机制,就能在多个会话中持续窃取数据。
· · ·
上下文学习陷阱:在”课堂”上教AI学坏
第三种认知状态陷阱利用的是AI的另一种”学习”能力:在推理时(而不是训练时)从当前输入中学习的能力。
少样本学习的脆弱性
LLM有一个强大的能力叫”上下文学习”(In-Context Learning):你在prompt中给它几个示例,它就能学会模式并应用到新的输入上。这是LLM最重要的能力之一——不需要重新训练模型,只需要提供几个例子就能让它完成新任务。
但这也意味着:谁控制了示例,谁就控制了Agent的行为。
一项研究发现,对抗性制作的少样本示例(不改变查询本身)就能系统性地翻转模型的预测结果,而且这种效果可以迁移到未见过的输入上。随着示例数量的增加,模型的鲁棒性反而下降——给的”坏例子”越多,AI学得越”歪”。
另一项研究的结果更加惊人:针对上下文学习的后门攻击——无论是通过投毒示例还是投毒prompt——在不同规模的模型上实现了平均95%的攻击成功率。
不需要改代码,不需要重新训练,只需要操纵Agent看到的”参考案例”。
对示例的微小改动就够了
研究还表明,甚至不需要替换整个示例。对示例prompt进行极其微小的文本编辑——离散的文本扰动——就能推动模型内部表征的偏移,从而急剧降低其准确性。
在代码生成场景中,恶意的代码生成示例可以可靠地使LLM生成的代码偏向不正确或不安全的输出。这对使用AI编程助手的开发者来说是一个直接威胁。
强化学习中的奖励投毒
上下文学习陷阱不限于少样本示例的操纵。在使用在线强化学习或上下文内强化学习的Agent系统中,攻击者可以通过投毒奖励信号来操纵Agent的行为策略。
一项研究分析了对在上下文中实现学习算法的Agent的测试时奖励投毒攻击。结果表明,一个在部署时腐蚀部分奖励的攻击者可以系统性地降低Agent的回报。
在RLHF(基于人类反馈的强化学习)场景中,研究者证明了策略性操纵的偏好反馈可以迫使在线RLHF算法收敛到次优策略。人类评估者的反馈被攻击者替换或操纵后,模型就会”学习”到攻击者想要的行为模式。
· · ·
时间维度的威胁
回顾这三种认知状态陷阱,它们共同引入了一个此前攻击类型所不具备的维度:时间。
RAG知识投毒——毒化数据在知识库中持久存在,影响所有未来的检索
潜伏记忆投毒——”沉睡”数据在未来特定条件下被激活
上下文学习陷阱——操纵Agent的学习过程,使其习得攻击者想要的行为模式
内容注入陷阱像是给AI吃了一顿有毒的饭——效果是即时的,过了就过了。认知状态陷阱则像是在AI的饮用水源中投毒——影响是持续的、累积的、难以追溯的。
这对防御提出了远高于前两类陷阱的要求。你不仅需要检测当前的攻击,还需要审计历史数据的完整性,监控记忆系统的长期变化,验证学习过程的可信度。
最可怕的不是AI被骗了一次。最可怕的是AI被骗了,而且”记住”了错误的东西,并在未来的每一次决策中都基于这些错误。
· · ·
下一篇预告: 到目前为止,我们讨论的所有陷阱都是”影响”层面的——影响AI看到什么,影响AI怎么想,影响AI记住什么。但下一类陷阱更加直接和危险——它不再是影响,而是控制。行为控制陷阱直接劫持AI Agent的行动能力,让它为攻击者执行任务:关闭安全防线、窃取你的隐私数据、甚至在系统内部繁殖出攻击者的”内鬼”。
· · ·
本系列基于Google DeepMind论文《AI Agent Traps》的研究成果撰写。
夜雨聆风