AI 作为攻击目标与武器:网络空间安全攻防新范式

5 月，谷歌威胁情报小组（GTIG）披露了 AI 辅助生成的零日漏洞用于真实网络攻击的事件。本文从攻击面分析、武器化实证、防御架构三个维度，总结和思考了AI 时代网络安全攻防的技术演进方向。

核心速览

1、AI 武器化已进入实战阶段，AI 辅助生成的零日漏洞已在真实攻击中被用于绕过身份认证。

2、Agent 安全风险得到实证，实验表明极少数提示词即可触发 Agent 异常行为，完整攻击链路已打通。

3、传统安全范式面临结构性挑战，自然语言到系统调用的转换点是现有防御体系的盲区。

4、顶级 AI 模型在特定攻击场景下已接近人类专家水平，但整体能力仍有显著差距。

5、需要前瞻布局 AI 安全基础设施，建立覆盖技术、人才、标准的综合体系。

一、问题定义：武器-靶子双螺旋模型

网络空间中 AI 系统的角色可形式化为两个互加速的维度。

AI as Weapon，AI 能力被攻击者整合到攻击链中，提升攻击的自动化程度、规模和隐蔽性。

AI as Target，AI 系统（模型、训练数据、推理服务、Agent 运行时）自身构成攻击面。

二者满足正反馈关系，对 AI 系统的攻击能力越强，AI 武器化的攻击潜力越大；AI 武器化程度越高，AI 系统自身的安全需求越紧迫。这不是线性因果，而是攻防双螺旋。

二、AI as Target，攻击面分析

2.1 三层攻击面

AI 系统的攻击面已从单一模型层扩展为数据层、模型层、应用层三个层次。

数据层攻击面

核心威胁是训练数据投毒和 RAG（检索增强生成）知识库污染。

杜克大学的 CleanBase 研究首次系统验证了向 RAG 知识库注入恶意文档的可行性。对于使用知识库增强的 LLM 系统，知识库构成新的信任边界，如果知识库本身被污染，检索增强机制反而成为攻击放大器。

模型层攻击面

包含三个子方向，越狱（jailbreak）、提示注入（prompt injection）、模型窃取。

AttackEval 系统对十类提示注入攻击进行了系统评估，混淆攻击成功率达到 76%，载荷拆分达到 52%，复合攻击更是高达 97.6%。混淆和载荷拆分之所以难防御，是因为它们绕过了基于文本模式匹配的检测器。

清华大学段海新团队的 LLMThief（IEEE S&P 2026）将攻击面扩展到模型知识产权保护，当 LLM 被训练为网络防御工具后，对手可通过查询接口逆向窃取模型能力。

应用层（Agent 层）攻击面

这是当前演进最快的子领域，包括工具调用劫持和 Skill 注入。Agent 将自然语言指令映射为系统级操作，如果输入未被充分收敛，攻击者可通过精心构造的提示词实现未授权操作。

2.2 Agent 安全，从理论到实证的证据链

近期多个研究和事件构成了 Agent 安全从理论到实证的证据链。

Palisade研究，理论突破

实验表明，极少数提示词即可触发 Agent 自我复制和链式繁殖。核心发现是 Agent 的攻击面不是边界问题，而是系统性风险，只要 Agent 有自我复制和传播能力，提示注入就可能产生指数级扩散。

AgentVisor，防御架构

将操作系统虚拟化思想引入 Agent 安全，提出 trap-audit-recover 运行时框架。核心创新是在模型输出与工具调用之间设置 STI 协议（工具适配性、目标来源、参数完整性），检测逻辑从「文本像不像攻击」转为「这个动作该不该做」。实验数据显示，攻击成功率被有效压制，正常任务能力仅小幅下降。

微软披露的 Agent 安全漏洞，实证验证

在现实系统中完整打通了 Agent 攻击链路，提示注入导致 Agent 执行异常操作，最终实现主机远程代码执行。关键教训是，基于静态规则的阻止列表被绕过，证明在代码层防御提示注入是不够的，必须在执行层做行为拦截。

当前业界对 Agent 安全的共识是，传统安全防线在 Agent 场景下面临三重挑战，模型输出可控性、工具调用安全性、权限传递规范性。

Agent 安全不是 AI 领域的新问题，而是传统输入验证问题在 Agent 时代的高权限回归。模型可控的自然语言未经收敛直接映射为系统工具调用，这是传统纵深防御模型未覆盖的攻击面。

2.3 LLM 实战能力评估，基准与现实的鸿沟

Cyber Defense Benchmark 对 LLM 在真实威胁狩猎场景中的能力进行了量化评估。实验将多个前沿模型投入包含数万至十余万条原始日志的数据库，要求自主发现恶意行为。最佳模型平均正确标记率仅个位数百分比。

这不是 LLM 能力不足，而是评估方法论的问题。主流安全基准采用问题明确、上下文完整的格式，但真实威胁狩猎是从零开始的证据挖掘，日志量级大、噪声高、攻击信号稀疏。二者之间存在巨大的性能鸿沟。

荷兰阿姆斯特丹自由大学等机构的研究对 LLM 在网络威胁情报全任务链上的表现进行了系统实测，入侵指标召回率仅约四成，归因一致性仅三成余。结论很明确，纯 LLM 驱动的威胁情报管线当前不可靠，需要与传统规则引擎和人工审核形成混合体系。

三、AI as Weapon，武器化实证分析

3.1 里程碑，AI 辅助生成漏洞的首次实战

2026 年 5 月，谷歌威胁情报小组（GTIG）披露，攻击者使用 AI 生成了针对某流行开源 Web 管理工具的漏洞利用程序，成功绕过双因素认证。这是首次观察到 AI 辅助生成的漏洞利用被用于真实网络攻击。

AI 辅助生成的识别依据有三点：一是代码包含大量教学性质的文档字符串，正常攻击代码追求简洁和隐蔽，AI 生成的代码则倾向于「自我解释」；二是代码包含虚构的 CVSS 评分，LLM 在生成安全相关代码时会模仿评分格式，但数值与漏洞实际特征不匹配；三是教科书式的编码风格，变量命名规范、异常处理完整，这些都是 LLM 训练数据的特征，而非实战攻击代码的典型特征。

该漏洞是典型的高层语义逻辑漏洞，这类漏洞通常由业务逻辑设计缺陷导致，既不属于内存损坏等传统二进制漏洞，也不是输入过滤不严导致的注入类问题。AI 在学习海量代码模式的过程中，反而能够识别传统安全工具长期忽略的语义层面漏洞。

3.2 漏洞利用能力量化评估

ExploitGym提供了首个系统性的 AI 漏洞利用能力基准，实验包含数百个漏洞实例。特定模型成功率约为一成多，而人类专家的成功率约在三成至五成之间。

在特定攻击类型上，AI 已达到可用水平，整体能力虽仍低于人类专家，但差距在逐步缩小。

在模型安全评测方面，某闭源超大模型在多项基准测试中表现突出，并发现了存在多年的知名开源软件漏洞。

3.3 APT 组织的 AI 武器化部署

AI 武器化已在多类攻击组织的实战中落地。

朝鲜半岛相关组织组织

观察到集成商用大模型 API 的安卓后门，实现自主设备交互。该后门可自动分析屏幕内容、执行操作，降低了对人工干预的依赖。

俄相关组织

在针对特定目标的行动中使用 AI 生成诱饵代码混淆，在信息战行动中利用 AI 语音克隆和虚假视频进行社会工程攻击。

AI 访问供应链

自动注册账号、代理中继、账号池管理已形成流程化运作。攻击者不再需要手动维护大量账号，AI 自动完成整个生命周期管理。

3.4 五大本质差异

与传统攻击相比，AI 武器化在五个维度上改变了攻防博弈。

1、攻击主体从人类黑客转向 AI 自主或辅助攻击，攻击者从「操作者」变为「指挥官」。

2、攻击速度大幅压缩，AI 可在短时间内完成漏洞扫描、利用代码生成、执行。

3、攻击规模从单点扩展到大规模并行，AI 可同时生成针对不同目标的定制化攻击载荷。

4、攻击适应性从固定脚本进化为自适应变异，AI 生成的攻击代码持续变异，传统基于签名的检测器快速失效。

5、攻击入口从已知漏洞利用转向语义理解绕过，AI 擅长发现传统工具盲区中的语义逻辑漏洞。

四、防御架构，三层应对框架

4.1 用 AI 发现 AI，攻击痕迹检测

AI 生成的攻击代码具有可识别的特征，教学式文档字符串、虚构元数据、结构化的编码风格。相关研究从汇编和源码级别建立了 AI 生成代码的归因特征体系，防御架构应构建 AI 痕迹检测与传统规则的混合检测体系。

4.2 用 AI 对抗 AI，AI 驱动的防御武器

核心思路是用 AI 执行传统工具无法完成的防御任务。

自动化漏洞发现与验证，在攻击者之前发现和修复自身系统的漏洞。

智能欺骗防御，动态蜜罐和自适应诱饵，AI 根据攻击者行为动态调整诱饵内容。

对抗性测试，用 AI 红队持续冲击自身防线，在攻击发生前暴露薄弱环节。

AI 在威胁情报自动化处理、APT 猎杀辅助、异常行为检测等方面也展现出重要价值，可大幅提升安全运营效率。

4.3 用 AI 追踪 AI，攻击归因与溯源

AI 生成代码的归因面临两个挑战，一是 AI 生成代码的伪装性增强，二是归因系统本身面对对抗扰动的脆弱性。相关研究揭示了归因系统的脆弱性，这表示归因的鲁棒性本身就是一个需要独立研究的安全问题。

4.4 Agent 安全的防御架构

从底向上三个层次。

1、执行层硬拦截，在 Agent 工具调用出口部署语义审计。不在代码层拦截提示注入，而在行为执行层做「这个动作该不该做」的判断。核心原则是安全边界必须从编排层下移到行为执行层。

2、编排层权限收敛，Skill 安全审计、Agent 间通信安全、权限最小化，减少攻击面。

3、模型层对抗训练，分层防御、混淆感知的输入规范化、对齐利用感知。

4.5 安全投入决策框架

1、企业级，模型安全评估、数据供应链审计，建立基础安全基线。

2、行业级，AI 红队常态化、攻击面持续监测、行业威胁情报共享。

3、国家级，自主 AI 安全基础设施，训练数据溯源体系、模型指纹库、Agent 运行时安全框架、AI 安全标准制定。

五、研究方向建议

AI 安全评估体系

现有安全基准多为问答格式，无法反映真实场景。需要面向 Agent 的开放式攻防对抗基准、多维度 AI 安全能力图谱、中文语境下的 AI 安全评测体系。国际方面，MITRE、ENISA 等机构也在推进相关工作，可加强国际合作与标准对接。

Agent 运行时安全

现有方案仍处于学术或早期产业阶段。执行层安全拦截框架的产业化落地、跨 Agent 信息流追踪和共谋攻击检测、Skill 安全审计的产业化，都是亟待解决的问题。

AI 攻击归因与溯源

AI 生成代码的归因面临对抗扰动挑战。需要建立 AI 生成代码的「水印」识别体系、LLM 驱动的跨平台归因知识迁移、对抗鲁棒归因方法。

基础设施安全假设重审

越来越多的研究表明，传统基础设施安全假设正在被推翻。USENIX Security 2025 发表的 X.509DoS 研究揭示了通过构造特殊 X.509 证书发起拒绝服务攻击的新方法；针对 NAT 设备等核心网络组件的新型攻击也不断出现。需要 AI 驱动的安全假设自动化验证、AI 系统自身的基础设施依赖安全评估。

物理-信息跨域攻击

物理层安全是新兴的研究方向。NDSS 2025 发表的研究表明，电磁干扰可以攻击光伏逆变器等工业设备的嵌入式传感器；中国海洋大学团队在 CCS 2025 发表论文《Threat from Windshield》，证明声波可以穿透挡风玻璃攻击车载语音助手。攻击面在物理层设计盲区，需要 AI 辅助的物理域漏洞发现、物理域攻击的 AI 检测方法。

攻防经济学与 AI 安全治理

AI 攻防投入产出比尚未量化，标准化体系缺位。需要建立 AI 攻防投入产出经济学模型、AI 安全标准化体系、AI 安全能力成熟度模型。

六、结论与展望

AI as Weapon 已进入实战阶段。多源情报表明，AI 辅助的网络攻击能力正在快速演进，这不是「将来会发生」，而是「已经在发生且正在加速」。

AI as Target 的紧迫性需要引起足够重视。从理论研究到防御架构到实证验证，Agent 的完整攻击链路已经得到验证，而防御方案仍需进一步产业化落地。

传统安全范式在 AI 面前面临结构性挑战。AI 系统将「自然语言到系统级工具调用」的转换点暴露在不可信输入端，这是传统纵深防御模型需要覆盖的新攻击面。

需要在以下方面加强技术布局：

▸ 建设 AI 安全基础设施，包括训练数据溯源体系、模型指纹库、Agent 运行时安全框架

▸ 推动 AI 安全标准化工作，建立漏洞分类体系、责任归属框架

▸ 加强 AI 安全人才培养，建立跨学科研究团队

时间窗口正在收窄。Mythos之类超级攻防大模型已存在但不公开，公开模型的漏洞利用能力持续演进。前瞻性投入 AI 安全基础设施，建立覆盖技术、人才、标准的综合防护体系，是应对这一挑战的必由之路。

参考文献

[1] W. Jin, X. Wang, W. Zou, J. Jia, N. Gong. CleanBase: Detecting Malicious Documents in RAG Knowledge Databases. arXiv:2605.00460, 2026.

[2] AttackEval: A Systematic Empirical Study of Prompt Injection Attack Effectiveness Against Large Language Models. arXiv:2604.03598, 2026.

[3] 清华大学段海新团队. LLMThief: Stealing LLMs as Cyber Defense Weapons. IEEE S&P, 2026.

[4] Palisade Research. A Realistic Evaluation of Self-Replication Risk in LLM Agents. Palisade Research Report, 2026.

[5] AgentVisor: Trap-Audit-Recover Sandboxing for AI Agents. arXiv:2604.24118, 2026.

[6] Microsoft Security Response Center. Agent Security Vulnerability Disclosure. Official Security Advisory, 2026-05-07.

[7] CCF-INFORSEC 2026 网络空间安全前沿创新论坛论文集. 中国计算机学会, 2026.

[8] A. Chona, I. Kozlov, A. Kumar. Cyber Defense Benchmark: Agentic Threat Hunting Evaluation for LLMs in SecOps. arXiv:2604.19533, 2026.

[9] E. Mezzi, F. Massacci, K. Tuma. Large Language Models Are Unreliable for Cyber Threat Intelligence. arXiv:2503.23175, 2025.

[10] Google Threat Intelligence Group. First Observation of AI-Generated Zero-Day Exploit Used in Active Attacks. GTIG Security Advisory, 2026-05-12.

[11] 16位学者联合（CMU/Berkeley/UIUC等）. ExploitGym: A Benchmark for Evaluating AI Agents on Exploit Generation. arXiv:2605.11086, 2026.

[12] Anthropic. Mythos Model Security Evaluation Results. Official Technical Report, 2026.

[13] LCC-LLM: Code-Centric LLM for Malware Attribution. arXiv:2605.05807, 2026.

[14] Y. Sun et al. UAP4MA: Leveraging Multi-Agent Bandits to Generate Universal Adversarial Perturbations for Malware Attribution. IEEE TDSC, 2026.

[15] AARM Alliance. Autonomous Agent Runtime Manager (AARM) Specification v1.0. 2026.

[16] SkillGuard: Towards Secure Agent Skills. arXiv:2604.02837, 2026.

[17] Ghost in the Agent: Information Flow Tracking for LLM Agents. arXiv, 2026.

[18] Shi B et al. X.509DoS: Exploiting and Detecting Denial-of-Service Vulnerabilities in X.509 Certificate Validation. USENIX Security, 2025.

[19] Wang P et al. Threat from Windshield: Vehicle Windows as Involuntary Attack Sources on Automotive Voice Assistants. ACM CCS, 2025.

[20] Rethink: Reveal the Threat of Electromagnetic Interference on Power Inverters. NDSS, 2025.