本周arXiv论文中,LLM Agent安全占据绝对C位。从上下文感知提示注入、终止中毒攻击,到持久化内存数据外传,再到电磁侧信道检测、TEE隔离防御,攻击手法和防御手段都在快速升级。一组数据感受下冲击力:ARGUS防御将上下文注入攻击成功率降至3.8%,但若不加防御,LoopTrap自动化攻击让Agent陷入无限循环,步数放大平均3.57倍,峰值25倍。
三个关键发现:
- “动态上下文”成为攻防新战场:
传统假设任务无关的静态防御已失效,攻击方可利用上下文动态演化实施复杂攻击(如Trojan Hippo休眠载荷、LoopTrap递归循环),验证了“长期威胁”正成为主流风险。 - 基于隔离的硬件/架构级防御初见成效:
TEE(Intel TDX)、电磁侧信道(SDR)、影子内存等带外/隔离机制,能抵御主机被攻陷场景,为关键业务Agent提供了“最后防线”级别的保障。 - 最小权限原则在Agent技能生态中落地:
SkillScope、SkCC等框架表明,编译时安全检查+细粒度权限约束可大幅降低权限滥用,且不牺牲任务效用(技能执行通过率提升12-13pp)。
详细论文解读
1. ARGUS:用“溯源图”终结上下文感知提示注入,攻击降至3.8%
一句话贡献:提出ARGUS防御机制,通过构建影响溯源图追踪不可信上下文对LLM Agent决策的影响,在执行前验证决策是否由可信证据支撑,将上下文感知提示注入攻击成功率降至3.8%。
英文标题:ARGUS: Defending Against Contextual Prompt Injection Attacks for LLM Agents
原文链接:https://arxiv.org/abs/2605.03378v1
- 主要发现1:
现有防御机制在上下文感知攻击面前全面溃败。基于工具过滤等方法,攻击成功率飙升至超过90%;而ARGUS将攻击成功率压制在3.8%,任务效用仍保持87.5%。 - 主要发现2:
ARGUS的核心是“影响溯源图”(Influence Provenance Graph, IPG)。它持续记录哪些上下文元素影响了Agent的每一步决策,并在执行关键操作前验证决策是否仅由可信证据支撑。 - 主要发现3:
ARGUS对自适应白盒攻击者同样具有鲁棒性。即便攻击者知晓ARGUS的内部逻辑,仍无法有效绕过——归功于IPG的不可篡改性和来源感知审计。

2. LoopTrap:让Agent“永远无法完成任务”,步数放大25倍
一句话贡献:提出Termination Poisoning攻击,通过注入恶意提示使LLM Agent陷入无限执行循环,并开发LoopTrap自动化框架实现自适应攻击,平均步数放大3.57倍,峰值25倍。
英文标题:LoopTrap: Termination Poisoning Attacks on LLM Agents
原文链接:https://arxiv.org/abs/2605.05846v1
- 主要发现1:
在8个主流LLM Agent和60个真实任务上,即使使用静态对抗提示,平均也能实现2.33倍的步数放大。这意味着攻击者无需自适应优化,即可让Agent花费两倍以上的计算资源。 - 主要发现2:
不同Agent在四个维度上具有稳定行为特征,权威遵从性、阶段推进偏好、验证彻底性、递归敏感性。LoopTrap通过轻量级探测构建目标Agent的“脆弱性画像”,然后自适应合成恶意提示。 - 主要发现3:
开放式任务(如创意写作、策略规划)比客观可验证任务(如数学推理)更易受攻击。在开放式任务上,LoopTrap实现了平均3.57倍步数放大,部分任务峰值达25倍。

3. Trojan Hippo:植入一次性“休眠载荷”,100次对话后仍能窃取数据
一句话贡献:Trojan Hippo攻击首次系统揭示在更现实威胁模型下。通过单次非可信工具调用植入休眠载荷,针对LLM Agent持久内存的高成功率数据窃取风险,攻击成功率达85-100%。
英文标题:Trojan Hippo: Exfiltrating Data from LLM Agents via Persistent Memory
原文链接:https://arxiv.org/abs/2605.01970v2
- 主要发现1:
无防御情况下,在GPT-5-mini和Gemini-3.1-pro等前沿模型上攻击成功率达85-100%。植入的恶意记忆在100次良性会话后仍能激活,表明持久化内存攻击具有高度隐蔽性和长时效性。 - 主要发现2:
四种基本安全防御措施(如输入输出过滤、会话隔离等)可将攻击成功率降至0-5%,但不同防御的效用成本差异显著。例如,严格过滤在保护隐私的同时会大幅降低合法任务完成率。 - 主要发现3:
攻击采用“捕获-潜伏-提取”三阶段模型。攻击者通过一封精心设计的邮件(单次不可信工具调用)写入休眠载荷;载荷仅在用户后续讨论金融、健康等敏感话题时触发,自动外传数据。

对企业安全建设者的启示
- Agent安全需要分层防御:
单一基于LLM的审核或规则过滤已不足够。建议采用“输入层+执行层+隔离层”三层架构:输入层进行上下文溯源(类似ARGUS),执行层进行细粒度权限约束(类似SkillScope),隔离层使用TEE或侧信道监控(类似ClawGuard)。 - 关注长期交互场景中的“慢攻击”:
Trojan Hippo和LoopTrap表明,攻击者可能利用多次对话逐步植入、激活恶意行为。企业应部署长期会话行为分析模型,检测异常长链执行或数据外传模式。 - 技能生态治理是下一个热点:
37%的社区技能存在安全漏洞(SkCC论文),最小权限违反普遍(7,039个技能)。企业若引入第三方技能市场,必须建立编译时安全检查机制,而非仅依赖运行时行为。
本周的论文清晰展示了一个趋势:LLM Agent安全正从“提示注入”的单一维度,快速演化为涵盖内存、执行流、侧信道、硬件的系统性战场。只有提前布局多层、纵深防御体系,才能在下一个“AI原生企业”时代立于不败之地。
其他有趣的研究
通过数学编码揭示LLM的安全漏洞:新的攻击方法和系统分析 - Through Mathematical Encoding, We Unveil the Safety Vulnerabilities of LLMs: A New Attack Method and Systematic Analysis
https://arxiv.org/abs/2605.03441v1奖励破解基准:通过工具使用来衡量大型语言模型代理中的 exploit 行为 - Reward Hacking Benchmark: Measuring Exploitability in Tool-Use LLM Agents via Reward Hacking
https://arxiv.org/abs/2605.02964v1用于数学推理的验证器支持的难题生成 - Verifier-Supported Hard Problem Generation for Mathematical Reasoning
https://arxiv.org/abs/2605.06660v1需要多少次迭代才能实现越狱?多轮LLM评估的动态预算分配 - How Many Iterations to Jailbreak? Dynamic Budget Allocation for Multi-Turn LLM Evaluation
https://arxiv.org/abs/2605.06605v1对Roblox中聊天安全审核机制的评估 - An Evaluation of Chat Safety Moderation in Roblox
https://arxiv.org/abs/2605.04491v1ClawGuard:通过EM侧信道检测LLM代理工作流程劫持现象 - ClawGuard: Detecting LLM Agent Workflow Hijacking via EM Side Channels
https://arxiv.org/abs/2605.06205v1从先验到感知:将视频LLM建立在物理现实中 - From Priors to Perception: Grounding Video LLMs in Physical Reality
https://arxiv.org/abs/2605.04515v1关于大型语言模型淘汰的难点 - On the Difficulty of Unlearning Large Language Models
https://arxiv.org/abs/2605.05116v1通过基于TEE的隔离技术,限制自托管计算机使用代理中的主机级滥用行为 - Limiting Host-Level Abuse in Self-Hosted Computer-Use Agents via TEE-Based Isolation
https://arxiv.org/abs/2605.06393v1SkCC:跨框架LLM智能体所需的便携且安全的技能编译工具 - SkCC: Portable and Secure Skill Compilation for Cross-Framework LLM Agents
https://arxiv.org/abs/2605.03353v1SkillScope:迈向针对代理技能的细粒度最小权限执行 - SkillScope: Toward Fine-Grained Least-Privilege Execution for Agent Skills
https://arxiv.org/abs/2605.05868v1MAGE:通过影子记忆保护大语言模型代理免受长期威胁的侵害 - MAGE: Protecting LLM Agents from Long-Horizon Threats via Shadow Memory
https://arxiv.org/abs/2605.03228v1打破 echo 效应:手稿中隐藏的保障措施,防止人工智能主导同行评审 - Breaking the Echo: Manuscripts with Hidden Safeguards Against AI-Dominated Peer Review
https://arxiv.org/abs/2605.05271v1
2026 RSAC 创新沙盒十强深度调研:智能体安全的颠覆者与奠基者
Token Security:8个月完成A轮,这家以色列公司凭什么?
本周Arxiv论文深度解读:Agent安全三大“核弹级”漏洞曝光
夜雨聆风