AI安全周报 | LLM Agent攻防进入“白热化”阶段

本周arXiv论文中，LLM Agent安全占据绝对C位。从上下文感知提示注入、终止中毒攻击，到持久化内存数据外传，再到电磁侧信道检测、TEE隔离防御，攻击手法和防御手段都在快速升级。一组数据感受下冲击力：ARGUS防御将上下文注入攻击成功率降至3.8%，但若不加防御，LoopTrap自动化攻击让Agent陷入无限循环，步数放大平均3.57倍，峰值25倍。

三个关键发现：

“动态上下文”成为攻防新战场：
传统假设任务无关的静态防御已失效，攻击方可利用上下文动态演化实施复杂攻击（如Trojan Hippo休眠载荷、LoopTrap递归循环），验证了“长期威胁”正成为主流风险。
基于隔离的硬件/架构级防御初见成效：
TEE（Intel TDX）、电磁侧信道(SDR)、影子内存等带外/隔离机制，能抵御主机被攻陷场景，为关键业务Agent提供了“最后防线”级别的保障。
最小权限原则在Agent技能生态中落地：
SkillScope、SkCC等框架表明，编译时安全检查+细粒度权限约束可大幅降低权限滥用，且不牺牲任务效用（技能执行通过率提升12-13pp）。

详细论文解读

1. ARGUS：用“溯源图”终结上下文感知提示注入，攻击降至3.8%

一句话贡献：提出ARGUS防御机制，通过构建影响溯源图追踪不可信上下文对LLM Agent决策的影响，在执行前验证决策是否由可信证据支撑，将上下文感知提示注入攻击成功率降至3.8%。

英文标题：ARGUS: Defending Against Contextual Prompt Injection Attacks for LLM Agents
原文链接：https://arxiv.org/abs/2605.03378v1

主要发现1：
现有防御机制在上下文感知攻击面前全面溃败。基于工具过滤等方法，攻击成功率飙升至超过90%；而ARGUS将攻击成功率压制在3.8%，任务效用仍保持87.5%。
主要发现2：
ARGUS的核心是“影响溯源图”（Influence Provenance Graph, IPG）。它持续记录哪些上下文元素影响了Agent的每一步决策，并在执行关键操作前验证决策是否仅由可信证据支撑。
主要发现3：
ARGUS对自适应白盒攻击者同样具有鲁棒性。即便攻击者知晓ARGUS的内部逻辑，仍无法有效绕过——归功于IPG的不可篡改性和来源感知审计。

2. LoopTrap：让Agent“永远无法完成任务”，步数放大25倍

一句话贡献：提出Termination Poisoning攻击，通过注入恶意提示使LLM Agent陷入无限执行循环，并开发LoopTrap自动化框架实现自适应攻击，平均步数放大3.57倍，峰值25倍。

英文标题：LoopTrap: Termination Poisoning Attacks on LLM Agents
原文链接：https://arxiv.org/abs/2605.05846v1

主要发现1：
在8个主流LLM Agent和60个真实任务上，即使使用静态对抗提示，平均也能实现2.33倍的步数放大。这意味着攻击者无需自适应优化，即可让Agent花费两倍以上的计算资源。
主要发现2：
不同Agent在四个维度上具有稳定行为特征，权威遵从性、阶段推进偏好、验证彻底性、递归敏感性。LoopTrap通过轻量级探测构建目标Agent的“脆弱性画像”，然后自适应合成恶意提示。
主要发现3：
开放式任务（如创意写作、策略规划）比客观可验证任务（如数学推理）更易受攻击。在开放式任务上，LoopTrap实现了平均3.57倍步数放大，部分任务峰值达25倍。

3. Trojan Hippo：植入一次性“休眠载荷”，100次对话后仍能窃取数据

一句话贡献：Trojan Hippo攻击首次系统揭示在更现实威胁模型下。通过单次非可信工具调用植入休眠载荷，针对LLM Agent持久内存的高成功率数据窃取风险，攻击成功率达85-100%。

英文标题：Trojan Hippo: Exfiltrating Data from LLM Agents via Persistent Memory
原文链接：https://arxiv.org/abs/2605.01970v2

主要发现1：
无防御情况下，在GPT-5-mini和Gemini-3.1-pro等前沿模型上攻击成功率达85-100%。植入的恶意记忆在100次良性会话后仍能激活，表明持久化内存攻击具有高度隐蔽性和长时效性。
主要发现2：
四种基本安全防御措施（如输入输出过滤、会话隔离等）可将攻击成功率降至0-5%，但不同防御的效用成本差异显著。例如，严格过滤在保护隐私的同时会大幅降低合法任务完成率。
主要发现3：
攻击采用“捕获-潜伏-提取”三阶段模型。攻击者通过一封精心设计的邮件（单次不可信工具调用）写入休眠载荷；载荷仅在用户后续讨论金融、健康等敏感话题时触发，自动外传数据。

对企业安全建设者的启示

Agent安全需要分层防御：
单一基于LLM的审核或规则过滤已不足够。建议采用“输入层+执行层+隔离层”三层架构：输入层进行上下文溯源（类似ARGUS），执行层进行细粒度权限约束（类似SkillScope），隔离层使用TEE或侧信道监控（类似ClawGuard）。
关注长期交互场景中的“慢攻击”：
Trojan Hippo和LoopTrap表明，攻击者可能利用多次对话逐步植入、激活恶意行为。企业应部署长期会话行为分析模型，检测异常长链执行或数据外传模式。
技能生态治理是下一个热点：
37%的社区技能存在安全漏洞（SkCC论文），最小权限违反普遍（7,039个技能）。企业若引入第三方技能市场，必须建立编译时安全检查机制，而非仅依赖运行时行为。

本周的论文清晰展示了一个趋势：LLM Agent安全正从“提示注入”的单一维度，快速演化为涵盖内存、执行流、侧信道、硬件的系统性战场。只有提前布局多层、纵深防御体系，才能在下一个“AI原生企业”时代立于不败之地。

其他有趣的研究

通过数学编码揭示LLM的安全漏洞：新的攻击方法和系统分析 - Through Mathematical Encoding, We Unveil the Safety Vulnerabilities of LLMs: A New Attack Method and Systematic Analysis
https://arxiv.org/abs/2605.03441v1
奖励破解基准：通过工具使用来衡量大型语言模型代理中的 exploit 行为 - Reward Hacking Benchmark: Measuring Exploitability in Tool-Use LLM Agents via Reward Hacking
https://arxiv.org/abs/2605.02964v1
用于数学推理的验证器支持的难题生成 - Verifier-Supported Hard Problem Generation for Mathematical Reasoning
https://arxiv.org/abs/2605.06660v1
需要多少次迭代才能实现越狱？多轮LLM评估的动态预算分配 - How Many Iterations to Jailbreak? Dynamic Budget Allocation for Multi-Turn LLM Evaluation
https://arxiv.org/abs/2605.06605v1
对Roblox中聊天安全审核机制的评估 - An Evaluation of Chat Safety Moderation in Roblox
https://arxiv.org/abs/2605.04491v1
ClawGuard：通过EM侧信道检测LLM代理工作流程劫持现象 - ClawGuard: Detecting LLM Agent Workflow Hijacking via EM Side Channels
https://arxiv.org/abs/2605.06205v1
从先验到感知：将视频LLM建立在物理现实中 - From Priors to Perception: Grounding Video LLMs in Physical Reality
https://arxiv.org/abs/2605.04515v1
关于大型语言模型淘汰的难点 - On the Difficulty of Unlearning Large Language Models
https://arxiv.org/abs/2605.05116v1
通过基于TEE的隔离技术，限制自托管计算机使用代理中的主机级滥用行为 - Limiting Host-Level Abuse in Self-Hosted Computer-Use Agents via TEE-Based Isolation
https://arxiv.org/abs/2605.06393v1
SkCC：跨框架LLM智能体所需的便携且安全的技能编译工具 - SkCC: Portable and Secure Skill Compilation for Cross-Framework LLM Agents
https://arxiv.org/abs/2605.03353v1
SkillScope：迈向针对代理技能的细粒度最小权限执行 - SkillScope: Toward Fine-Grained Least-Privilege Execution for Agent Skills
https://arxiv.org/abs/2605.05868v1
MAGE：通过影子记忆保护大语言模型代理免受长期威胁的侵害 - MAGE: Protecting LLM Agents from Long-Horizon Threats via Shadow Memory
https://arxiv.org/abs/2605.03228v1
打破 echo 效应：手稿中隐藏的保障措施，防止人工智能主导同行评审 - Breaking the Echo: Manuscripts with Hidden Safeguards Against AI-Dominated Peer Review
https://arxiv.org/abs/2605.05271v1

2026 RSAC 创新沙盒十强深度调研：智能体安全的颠覆者与奠基者

Geordie AI：AI智能体安全赛道的逆袭故事

Token Security：8个月完成A轮，这家以色列公司凭什么？

本周AI安全论文解读：Agent安全防御迎来虚拟化思路创新

本周Arxiv论文深度解读：Agent安全三大“核弹级”漏洞曝光

本周AI安全论文速览：智能体攻防战白热化，听觉劫持与奖励黑客成新焦点

本周AI安全论文速递：智能体安全成焦点，防御体系需重构