AI安全周报:三大攻击面全面告急,你的编译器在偷偷开后门!

本周（2026年5月18日-24日），ArXiv 上共发表 19 篇 AI 安全相关论文，呈现出三大令人警醒的攻击趋势。

最震撼的发现来自 LLM 部署管线本身：攻击者可以利用编译器优化过程向模型植入后门，成功率达 90%，且完全绕过了不开启编译优化的标准安全评测。这意味着你下载了一个"干净"的模型权重，一旦开启推理优化，模型就可能变成攻击者的傀儡。

在智能体安全方面，一项系统化基准测试在真实虚拟机环境中评估了 GPT-5.3、Claude Opus 4.6、Gemini 3.1 Pro 等 5 个主流模型面对间接提示注入的表现。群聊注入在所有模型中均告成功，仓库链接攻击虽触发次数少却产生高危后果。好消息是，一套由提示过滤和工具调用预授权组成的两层防御方案，成功拦截了所有恶意目标。

音频 LLM 领域同样不容乐观。此前业界普遍相信编解码器压缩可以清洗掉对抗扰动，但最新研究从编解码器自身潜空间出发构造攻击，在 Opus 中等码率下达到 85.5% 的攻击成功率，跨编解码器迁移至 MP3 更高达 100%。有损压缩不是防线，而是攻击者可以利用的通道。

本周关键发现

1. 推理优化管线成为新攻击面：编译优化虽假设语义等价，但其数值副作用可被恶意利用，攻击成功率均值 90%，而标准安全评测完全无法检测，因为评测通常在未编译状态下进行。2. 智能体间接提示注入威胁全面升级：7 种输入面、12 种攻击类型覆盖真实生产环境，群聊注入在所有测试模型上成功，攻防两端都在快速迭代。两层防御方案展示了拦截全部恶意目标的可行性，但上下文完整性理论暗示这可能是一场攻不破的军备竞赛。3. 多模态 LLM 的压缩防线全面失守：编解码器压缩无法防御对抗音频攻击，多图像组合越狱在 GPT-4o、Gemini 2.5 Pro、Claude Sonnet 4 上突破 90%，低资源语言多轮对话越狱达到 52.7%-83.6% 的有害响应率。

重点论文详解

1、真实虚拟机环境下的智能体间接提示注入系统性评测

在包含真实邮件、聊天、网页、文件、代码仓库和钱包接口的虚拟机环境中，首次系统化评估了 5 个主流模型面对 7 种输入面的间接提示注入风险，并证明两层防御可拦截全部恶意目标。

LivePI: More Realistic Benchmarking of Agents Against Indirect Prompt Injection (https://arxiv.org/abs/2605.17986)

• 覆盖 7 种输入面（邮件、下载文件、网页、代码仓库、群聊消息等）和 12 种攻击类型，5 个恶意目标包括信息窃取、安全控制篡改、恶意代码执行和加密货币转账。• GPT-5.3-Codex、Claude Opus 4.6、Gemini 3.1 Pro、Kimi K2.5、GLM-5 的总攻击成功率从 10.7% 到 29.6% 不等，群聊注入在所有模型中均成功。• 提示过滤 + 工具调用预授权的两层防御方案，在 GPT-5.3-Codex 上拦截了所有恶意目标，同时保留了良性功能。

2、编译器优化触发后门：当"可信权重"遇上"不可信优化"

首次发现 LLM 推理编译优化的数值副作用可被恶意利用植入后门，攻击在未编译状态下完全静默，编译后触发，平均成功率 90%。

Trusted Weights, Treacherous Optimizations? Optimization-Triggered Backdoor Attacks on LLMs (https://arxiv.org/abs/2605.20641)

• 提出统一的编译触发后门框架，包含两种互补策略：预测翻转攻击仅影响编译后的特定输入，通用触发器在未编译时休眠、编译后劫持任意输入。• 在 4 个主流开源 LLM 和 4 类任务上验证，攻击成功率平均 90%，干净准确率几乎保持在 100%，标准安全评测完全无法检测。• 揭示 LLM 部署管线中"优化与安全的交叉面"这一全新攻击面，研究同时探讨了实用防御方案。

3、音频 LLM 编解码器攻击：当压缩本身成为攻击通道

从神经音频编解码器的连续潜空间出发构造对抗扰动，证明有损压缩完全不是可靠防线，编解码器感知攻击在 Opus、MP3、AAC-LC 上均取得高成功率。

Codec-Robust Attacks on Audio LLMs (https://arxiv.org/abs/2605.20519)

• 在 Opus 中等码率下达到 85.5% 的目标子串攻击成功率，波形基线在相同 EoT 加固下任何码率均未超过 26%。• 攻击在未重新训练的情况下跨编解码器迁移，MP3 达到 100%，AAC-LC 达到 84%。• 频谱能量分析显示潜空间扰动集中在 4kHz 以下（编解码器比特分配最多的频段），而波形基线扩散到编解码器丢弃的高频段，解释了压缩为何反而传输了潜空间攻击。

其他有趣的研究

多图像组合越狱框架在多模态 LLM 上突破 90% 攻击成功率，利用分布式指令、多模态证据和数字链任务三重组合。 DMN: A Compositional Framework for Jailbreaking Multimodal LLMs with Multi-Image Inputs (https://arxiv.org/abs/2605.18915)

低资源非洲语言多轮对话越狱，翻译质量是关键因素，人工红队将平均越狱率从 59.8% 推升至 75.8%。 Multilingual jailbreaking of LLMs using low-resource languages (https://arxiv.org/abs/2605.18239)

从上下文完整性理论视角论证提示注入防御的不可能性：攻击者总能构造使被阻断流看似合法的上下文。 AI Agents May Always Fall for Prompt Injections (https://arxiv.org/abs/2605.17634)

提出 Hack-Verifiable 评估范式，将可检测的奖励黑客机会直接嵌入环境，实现自动化的奖励黑客行为测量。 Hack-Verifiable Environments: Towards Evaluating Reward Hacking at Scale (https://arxiv.org/abs/2605.20744)

开放书本良性改写（OBBR）防御数据投毒，在 5 种后门攻击和 4 种 LLM 上平均提升安全性 51%，且不损害自然语言任务性能。 Be Kind, Rewrite: Benign Projections via Rewriting Defend Against LLM Data Poisoning Attacks (https://arxiv.org/abs/2605.19147)

对抗重构框架：通过对抗攻击实现语言模型的定向生成。 Adversarial Reframing: A Framework for Targeted Generation in Language Models (https://arxiv.org/abs/2605.21674)

频域正则化对抗对齐，实现针对闭源多模态 LLM 的可迁移攻击。 Frequency-Domain Regularized Adversarial Alignment for Transferable Attacks against Closed-Source MLLMs (https://arxiv.org/abs/2605.21541)

FuzzingBrain V2：多智能体 LLM 系统用于自动化漏洞发现与复现。 FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction (https://arxiv.org/abs/2605.21779)

VIPER-MCP：检测和利用 MCP 服务器中的污点式漏洞，直击 LLM 智能体的工具调用安全。 VIPER-MCP: Detecting and Exploiting Taint-Style Vulnerabilities in Model Context Protocol Servers (https://arxiv.org/abs/2605.21392)

RADAR：RAG 系统动态防御检索投毒攻击的新框架。 RADAR: Defending RAG Dynamically against Retrieval Corruption (https://arxiv.org/abs/2605.22041)

领域伪装注入攻击在多智能体 LLM 系统中规避检测的盲点研究。 Blind Spots in the Guard: How Domain-Camouflaged Injection Attacks Evade Detection in Multi-Agent LLM Systems (https://arxiv.org/abs/2605.22001)

12 篇 LLM 智能体基准论文的自审计：平均披露得分仅 0.38/1.0，成本披露为零。 What Twelve LLM Agent Benchmark Papers Disclose About Themselves: A Pilot Audit and an Open Scoring Schema (https://arxiv.org/abs/2605.21404)

黑盒聊天机器人环境中的隐私泄漏链：通过提示注入、越狱引导和网页工具调用的组合攻击。 An Empirical Study of Privacy Leakage Chains via Prompt Injection in Black-Box Chatbot Environments (https://arxiv.org/abs/2605.18133)

自主 LLM 智能体在 CTF 挑战中的能力与局限性的再审视。 Autonomous LLM Agents & CTFs: A Second Look (https://arxiv.org/abs/2605.21497)

面向用户理解的智能体技能规范可读性研究：878 个安全技能中仅 2.3% 具备完整的理解锚点。 Toward User Comprehension Supports for LLM Agent Skill Specifications (https://arxiv.org/abs/2605.19362)

智能体面对时间、空间和语义规避的基准评测。 Benchmarking Autonomous Agents against Temporal, Spatial, and Semantic Evasions (https://arxiv.org/abs/2605.22321)

2026 RSAC 创新沙盒十强深度调研：智能体安全的颠覆者与奠基者

Geordie AI：AI智能体安全赛道的逆袭故事

Token Security：8个月完成A轮，这家以色列公司凭什么？

AI安全周报：80%技能名不副实，智能体正沦为黑客“提线木偶”？

AI安全周报 | LLM Agent攻防进入“白热化”阶段

本周AI安全论文解读：Agent安全防御迎来虚拟化思路创新

本周Arxiv论文深度解读：Agent安全三大“核弹级”漏洞曝光

本周AI安全论文速览：智能体攻防战白热化，听觉劫持与奖励黑客成新焦点

本周AI安全论文速递：智能体安全成焦点，防御体系需重构