AI Agent陷阱(四)| AI记忆投毒有多容易-夜雨聆风

本文最后更新于2026-04-27，某些文章具有时效性，若有错误或已失效，请在下方留言或联系老夜。

AI Agent陷阱(四)| AI记忆投毒有多容易

认知状态陷阱：当攻击穿越时间

这是「AI Agent陷阱」系列的第4篇。基于Google DeepMind论文《AI Agent Traps》。

· · ·

前面两篇讲的攻击有一个共同特点：它们是”即时”的。

内容注入陷阱在AI访问网页时生效，语义操纵陷阱在AI处理当前上下文时起作用。一旦AI关闭了那个网页、结束了那次会话，攻击就结束了。

但如果攻击者想要更多呢？如果他们想要一种穿越时间的攻击——在今天种下种子，在下个月收获成果；感染一个会话，毒化所有未来的会话；攻击一个用户，影响所有后续用户？

这就是认知状态陷阱（Cognitive State Traps）的领域。

它的攻击目标不再是AI的感知或推理，而是AI的记忆和学习——那些跨越会话持久存在的组件。一旦这些被污染，影响就不是临时的，而是持久的、系统性的。

论文识别了三种攻击向量：RAG知识投毒、潜伏记忆投毒和上下文学习陷阱。每一种都利用了AI系统中不同的”持久化”机制。

· · ·

RAG知识投毒：在AI的”百科全书”里掺假

RAG是什么？为什么它如此重要？

先快速解释一下RAG（检索增强生成）。

LLM有一个固有的问题：它的知识在训练时就被”冻结”了。训练截止日期之后发生的事，它不知道。公司内部的私有数据，它没学过。特定领域的最新研究，它可能不了解。

RAG的解决方案是给LLM配一个外部”知识库”。当用户提问时，系统先从知识库中检索相关文档，把检索到的内容和用户的问题一起送给LLM，LLM基于这些上下文来生成回答。

这就像一个律师——他不可能记住所有法律条文，但他可以在接案后去查阅法律数据库，然后基于查到的内容给出专业意见。

RAG已经成为企业级AI应用的标准架构。几乎所有的AI知识助手、企业搜索、客服系统都依赖它。

但问题来了：如果有人在律师查阅的法律数据库中插入了伪造的法条呢？

少量毒药，大量伤害

RAG知识投毒就是这样运作的：攻击者在AI Agent使用的检索语料库中注入精心制造的虚假文档。当Agent收到特定查询时，它会从知识库中检索出”相关”内容——如果语料库已经被污染，Agent检索到的就是攻击者制造的伪造事实。

Agent不知道这些是假的。在它看来，这些就是知识库中的正常文档——和其他数百万份文档没有任何区别。它会把这些伪造的内容当作事实来使用、引用和传播。

这有多容易？研究结果令人不安。

一项研究发现，在一个大型知识库中注入仅仅少量经过优化的文档，就能可靠地操纵模型对特定查询的输出。攻击者不需要替换整个知识库，他们只需要在正确的位置放入正确的”毒药”。

另一项研究表明，投毒少量的定制化段落就能创建”检索后门”——确保攻击者控制的内容在特定查询触发时被优先检索出来。

更深层的攻击甚至不局限于数据层。有研究者证明，检索器本身也可以被植入后门。一旦被特定查询触发，被投毒的检索器就会优先返回包含提示注入的文档——这些文档可能指示生成器插入恶意链接、推广攻击者控制的服务，或触发拒绝服务行为。

类似的攻击甚至已经扩展到了多模态领域——通过向知识库注入单个多模态毒化样本，就能攻击视觉语言RAG系统。

投毒的入口在哪里？

在实践中，攻击者有多种途径向RAG知识库注入恶意内容：

在公共网络资源上发布对抗性内容——如果Agent的知识库是通过网络爬虫自动建立的，那么任何公开的网页都是潜在的投毒入口

向企业共享文档库（如wiki、文档存储系统）上传毒化文件——如果这些文档被Agent自动索引，投毒就完成了

利用开源数据集的贡献机制——在社区维护的数据集中混入恶意数据

防御的曙光

好消息是，学术界已经开始关注RAG投毒的防御。论文提到了几个有前景的方向：

RAGForensics方法能够追踪被毒化的模型响应，回溯到知识库中导致问题的具体文档——类似于一个”AI病理学家”，对有问题的输出进行”尸检”，找到”病原体”。

另一组研究者发现，被毒化的生成内容在模型内部会呈现出独特的激活模式。利用LLM激活层的分析，可以实现高准确度的投毒响应检测。

还有研究者利用分布特征来区分对抗性文本和正常检索文本——如果一个文档的语言分布和知识库中的正常文档差异太大，它可能就是被注入的。

但这些防御方法都还处于研究阶段，距离大规模部署还有很长的路。

· · ·

潜伏记忆投毒：间谍的”沉睡者”策略

如果说RAG投毒是攻击AI的”外部参考书”，潜伏记忆投毒则是攻击AI的”个人日记”。

理解Agent的记忆系统

现代AI Agent不只是无状态的问答机器。它们维护着复杂的记忆系统——分层组织的事件日志、跨会话汇总的对话摘要、个性化的用户偏好记录。这些记忆使Agent能够实现长期个性化：记住你喜欢什么风格的回答，记住上次讨论停在了哪里，记住你的项目进展到了什么阶段。

这种”持久的读写循环”——Agent不断地向记忆中写入新信息，并在未来的会话中读取这些信息——创造了一个独特的攻击面。

潜伏记忆投毒的核心是”时间延迟”：攻击者注入的数据在写入时看起来完全无害，只有在未来某个特定的语境下被检索和组合时才会”激活”为恶意内容。

这很像间谍世界中的”沉睡者”（sleeper agent）策略：一个间谍以普通公民的身份生活多年，直到收到特定的激活信号才执行任务。在这之前，任何背景调查都不会发现异常。

实验验证

一项关键研究开发了一种攻击方法，通过将后门触发器映射到特定的嵌入子空间来进行优化。这确保了当查询包含触发器时，毒化的记忆条目会被优先检索。在多个自主Agent上的实验测试显示，这种攻击的成功率超过80%——而投毒的数据量不到总数据的0.1%。同时，Agent在处理正常查询时的行为基本不受影响。

这个数字的意义在于：攻击者只需要在Agent的记忆中植入极少量的”沉睡”数据，就能在特定条件触发时实现高概率的攻击，同时在正常使用中完全不留痕迹。 这使得检测变得极其困难。

另一项研究展示了一种更实用的攻击路径：通过一系列精心设计的交互，攻击者可以在不直接访问Agent内存的情况下向其记忆中注入恶意记录，并引导Agent产生攻击者指定的输出。这意味着攻击者不需要”黑入”系统——他们只需要作为一个普通用户与Agent对话，就能完成投毒。

不只是操纵，还有窃取

记忆投毒不只能用来操纵Agent的行为，还能用来窃取信息。

记忆提取攻击可以从Agent的事件日志和个人档案中挖掘敏感信息。攻击方式是设计一个看似正常的用户请求，但实际上是在明确要求Agent检索并输出其记忆中保存的过去用户查询。

微软关于Agent式AI故障模式的分类报告将对抗性记忆操纵列为一种通向”反复数据外泄”的途径——攻击者一旦操纵了Agent的记忆机制，就能在多个会话中持续窃取数据。

· · ·

上下文学习陷阱：在”课堂”上教AI学坏

第三种认知状态陷阱利用的是AI的另一种”学习”能力：在推理时（而不是训练时）从当前输入中学习的能力。

少样本学习的脆弱性

LLM有一个强大的能力叫”上下文学习”（In-Context Learning）：你在prompt中给它几个示例，它就能学会模式并应用到新的输入上。这是LLM最重要的能力之一——不需要重新训练模型，只需要提供几个例子就能让它完成新任务。

但这也意味着：谁控制了示例，谁就控制了Agent的行为。

一项研究发现，对抗性制作的少样本示例（不改变查询本身）就能系统性地翻转模型的预测结果，而且这种效果可以迁移到未见过的输入上。随着示例数量的增加，模型的鲁棒性反而下降——给的”坏例子”越多，AI学得越”歪”。

另一项研究的结果更加惊人：针对上下文学习的后门攻击——无论是通过投毒示例还是投毒prompt——在不同规模的模型上实现了平均95%的攻击成功率。

不需要改代码，不需要重新训练，只需要操纵Agent看到的”参考案例”。

对示例的微小改动就够了

研究还表明，甚至不需要替换整个示例。对示例prompt进行极其微小的文本编辑——离散的文本扰动——就能推动模型内部表征的偏移，从而急剧降低其准确性。

在代码生成场景中，恶意的代码生成示例可以可靠地使LLM生成的代码偏向不正确或不安全的输出。这对使用AI编程助手的开发者来说是一个直接威胁。

强化学习中的奖励投毒

上下文学习陷阱不限于少样本示例的操纵。在使用在线强化学习或上下文内强化学习的Agent系统中，攻击者可以通过投毒奖励信号来操纵Agent的行为策略。

一项研究分析了对在上下文中实现学习算法的Agent的测试时奖励投毒攻击。结果表明，一个在部署时腐蚀部分奖励的攻击者可以系统性地降低Agent的回报。

在RLHF（基于人类反馈的强化学习）场景中，研究者证明了策略性操纵的偏好反馈可以迫使在线RLHF算法收敛到次优策略。人类评估者的反馈被攻击者替换或操纵后，模型就会”学习”到攻击者想要的行为模式。

· · ·

时间维度的威胁

回顾这三种认知状态陷阱，它们共同引入了一个此前攻击类型所不具备的维度：时间。

RAG知识投毒——毒化数据在知识库中持久存在，影响所有未来的检索

潜伏记忆投毒——”沉睡”数据在未来特定条件下被激活

上下文学习陷阱——操纵Agent的学习过程，使其习得攻击者想要的行为模式

内容注入陷阱像是给AI吃了一顿有毒的饭——效果是即时的，过了就过了。认知状态陷阱则像是在AI的饮用水源中投毒——影响是持续的、累积的、难以追溯的。

这对防御提出了远高于前两类陷阱的要求。你不仅需要检测当前的攻击，还需要审计历史数据的完整性，监控记忆系统的长期变化，验证学习过程的可信度。

最可怕的不是AI被骗了一次。最可怕的是AI被骗了，而且”记住”了错误的东西，并在未来的每一次决策中都基于这些错误。

· · ·

下一篇预告： 到目前为止，我们讨论的所有陷阱都是”影响”层面的——影响AI看到什么，影响AI怎么想，影响AI记住什么。但下一类陷阱更加直接和危险——它不再是影响，而是控制。行为控制陷阱直接劫持AI Agent的行动能力，让它为攻击者执行任务：关闭安全防线、窃取你的隐私数据、甚至在系统内部繁殖出攻击者的”内鬼”。

· · ·

本系列基于Google DeepMind论文《AI Agent Traps》的研究成果撰写。