本周(2026年5月18日-24日),ArXiv 上共发表 19 篇 AI 安全相关论文,呈现出三大令人警醒的攻击趋势。
最震撼的发现来自 LLM 部署管线本身:攻击者可以利用编译器优化过程向模型植入后门,成功率达 90%,且完全绕过了不开启编译优化的标准安全评测。这意味着你下载了一个"干净"的模型权重,一旦开启推理优化,模型就可能变成攻击者的傀儡。
在智能体安全方面,一项系统化基准测试在真实虚拟机环境中评估了 GPT-5.3、Claude Opus 4.6、Gemini 3.1 Pro 等 5 个主流模型面对间接提示注入的表现。群聊注入在所有模型中均告成功,仓库链接攻击虽触发次数少却产生高危后果。好消息是,一套由提示过滤和工具调用预授权组成的两层防御方案,成功拦截了所有恶意目标。
音频 LLM 领域同样不容乐观。此前业界普遍相信编解码器压缩可以清洗掉对抗扰动,但最新研究从编解码器自身潜空间出发构造攻击,在 Opus 中等码率下达到 85.5% 的攻击成功率,跨编解码器迁移至 MP3 更高达 100%。有损压缩不是防线,而是攻击者可以利用的通道。
本周关键发现
1. 推理优化管线成为新攻击面:编译优化虽假设语义等价,但其数值副作用可被恶意利用,攻击成功率均值 90%,而标准安全评测完全无法检测,因为评测通常在未编译状态下进行。2. 智能体间接提示注入威胁全面升级:7 种输入面、12 种攻击类型覆盖真实生产环境,群聊注入在所有测试模型上成功,攻防两端都在快速迭代。两层防御方案展示了拦截全部恶意目标的可行性,但上下文完整性理论暗示这可能是一场攻不破的军备竞赛。3. 多模态 LLM 的压缩防线全面失守:编解码器压缩无法防御对抗音频攻击,多图像组合越狱在 GPT-4o、Gemini 2.5 Pro、Claude Sonnet 4 上突破 90%,低资源语言多轮对话越狱达到 52.7%-83.6% 的有害响应率。
重点论文详解
1、真实虚拟机环境下的智能体间接提示注入系统性评测
在包含真实邮件、聊天、网页、文件、代码仓库和钱包接口的虚拟机环境中,首次系统化评估了 5 个主流模型面对 7 种输入面的间接提示注入风险,并证明两层防御可拦截全部恶意目标。
LivePI: More Realistic Benchmarking of Agents Against Indirect Prompt Injection (https://arxiv.org/abs/2605.17986)
• 覆盖 7 种输入面(邮件、下载文件、网页、代码仓库、群聊消息等)和 12 种攻击类型,5 个恶意目标包括信息窃取、安全控制篡改、恶意代码执行和加密货币转账。• GPT-5.3-Codex、Claude Opus 4.6、Gemini 3.1 Pro、Kimi K2.5、GLM-5 的总攻击成功率从 10.7% 到 29.6% 不等,群聊注入在所有模型中均成功。• 提示过滤 + 工具调用预授权的两层防御方案,在 GPT-5.3-Codex 上拦截了所有恶意目标,同时保留了良性功能。

2、编译器优化触发后门:当"可信权重"遇上"不可信优化"
首次发现 LLM 推理编译优化的数值副作用可被恶意利用植入后门,攻击在未编译状态下完全静默,编译后触发,平均成功率 90%。
Trusted Weights, Treacherous Optimizations? Optimization-Triggered Backdoor Attacks on LLMs (https://arxiv.org/abs/2605.20641)
• 提出统一的编译触发后门框架,包含两种互补策略:预测翻转攻击仅影响编译后的特定输入,通用触发器在未编译时休眠、编译后劫持任意输入。• 在 4 个主流开源 LLM 和 4 类任务上验证,攻击成功率平均 90%,干净准确率几乎保持在 100%,标准安全评测完全无法检测。• 揭示 LLM 部署管线中"优化与安全的交叉面"这一全新攻击面,研究同时探讨了实用防御方案。

3、音频 LLM 编解码器攻击:当压缩本身成为攻击通道
从神经音频编解码器的连续潜空间出发构造对抗扰动,证明有损压缩完全不是可靠防线,编解码器感知攻击在 Opus、MP3、AAC-LC 上均取得高成功率。
Codec-Robust Attacks on Audio LLMs (https://arxiv.org/abs/2605.20519)
• 在 Opus 中等码率下达到 85.5% 的目标子串攻击成功率,波形基线在相同 EoT 加固下任何码率均未超过 26%。• 攻击在未重新训练的情况下跨编解码器迁移,MP3 达到 100%,AAC-LC 达到 84%。• 频谱能量分析显示潜空间扰动集中在 4kHz 以下(编解码器比特分配最多的频段),而波形基线扩散到编解码器丢弃的高频段,解释了压缩为何反而传输了潜空间攻击。

其他有趣的研究
多图像组合越狱框架在多模态 LLM 上突破 90% 攻击成功率,利用分布式指令、多模态证据和数字链任务三重组合。 DMN: A Compositional Framework for Jailbreaking Multimodal LLMs with Multi-Image Inputs (https://arxiv.org/abs/2605.18915)
低资源非洲语言多轮对话越狱,翻译质量是关键因素,人工红队将平均越狱率从 59.8% 推升至 75.8%。 Multilingual jailbreaking of LLMs using low-resource languages (https://arxiv.org/abs/2605.18239)
从上下文完整性理论视角论证提示注入防御的不可能性:攻击者总能构造使被阻断流看似合法的上下文。 AI Agents May Always Fall for Prompt Injections (https://arxiv.org/abs/2605.17634)
提出 Hack-Verifiable 评估范式,将可检测的奖励黑客机会直接嵌入环境,实现自动化的奖励黑客行为测量。 Hack-Verifiable Environments: Towards Evaluating Reward Hacking at Scale (https://arxiv.org/abs/2605.20744)
开放书本良性改写(OBBR)防御数据投毒,在 5 种后门攻击和 4 种 LLM 上平均提升安全性 51%,且不损害自然语言任务性能。 Be Kind, Rewrite: Benign Projections via Rewriting Defend Against LLM Data Poisoning Attacks (https://arxiv.org/abs/2605.19147)
对抗重构框架:通过对抗攻击实现语言模型的定向生成。 Adversarial Reframing: A Framework for Targeted Generation in Language Models (https://arxiv.org/abs/2605.21674)
频域正则化对抗对齐,实现针对闭源多模态 LLM 的可迁移攻击。 Frequency-Domain Regularized Adversarial Alignment for Transferable Attacks against Closed-Source MLLMs (https://arxiv.org/abs/2605.21541)
FuzzingBrain V2:多智能体 LLM 系统用于自动化漏洞发现与复现。 FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction (https://arxiv.org/abs/2605.21779)
VIPER-MCP:检测和利用 MCP 服务器中的污点式漏洞,直击 LLM 智能体的工具调用安全。 VIPER-MCP: Detecting and Exploiting Taint-Style Vulnerabilities in Model Context Protocol Servers (https://arxiv.org/abs/2605.21392)
RADAR:RAG 系统动态防御检索投毒攻击的新框架。 RADAR: Defending RAG Dynamically against Retrieval Corruption (https://arxiv.org/abs/2605.22041)
领域伪装注入攻击在多智能体 LLM 系统中规避检测的盲点研究。 Blind Spots in the Guard: How Domain-Camouflaged Injection Attacks Evade Detection in Multi-Agent LLM Systems (https://arxiv.org/abs/2605.22001)
12 篇 LLM 智能体基准论文的自审计:平均披露得分仅 0.38/1.0,成本披露为零。 What Twelve LLM Agent Benchmark Papers Disclose About Themselves: A Pilot Audit and an Open Scoring Schema (https://arxiv.org/abs/2605.21404)
黑盒聊天机器人环境中的隐私泄漏链:通过提示注入、越狱引导和网页工具调用的组合攻击。 An Empirical Study of Privacy Leakage Chains via Prompt Injection in Black-Box Chatbot Environments (https://arxiv.org/abs/2605.18133)
自主 LLM 智能体在 CTF 挑战中的能力与局限性的再审视。 Autonomous LLM Agents & CTFs: A Second Look (https://arxiv.org/abs/2605.21497)
面向用户理解的智能体技能规范可读性研究:878 个安全技能中仅 2.3% 具备完整的理解锚点。 Toward User Comprehension Supports for LLM Agent Skill Specifications (https://arxiv.org/abs/2605.19362)
智能体面对时间、空间和语义规避的基准评测。 Benchmarking Autonomous Agents against Temporal, Spatial, and Semantic Evasions (https://arxiv.org/abs/2605.22321)
2026 RSAC 创新沙盒十强深度调研:智能体安全的颠覆者与奠基者
Token Security:8个月完成A轮,这家以色列公司凭什么?
AI安全周报:80%技能名不副实,智能体正沦为黑客“提线木偶”?
本周Arxiv论文深度解读:Agent安全三大“核弹级”漏洞曝光
夜雨聆风