AI Agent 安全报告划重点:热度退了,风险才刚开始-夜雨聆风

AI Agent 安全报告划重点:热度退了,风险才刚开始

2025年到2026年，AI Agent成了最热的话题。OpenClaw、Hermes Agent这些平台刷屏，资本往里砸钱，朋友圈天天有人转相关文章。

然后呢？然后热度就退了。朋友圈没人转了，资本也不怎么提了。但真正值得注意的事情才刚发生——这些Agent已经悄悄嵌进了个人和企业的核心流程里。

它们读邮件、管日程、操控CRM系统、调用内部API，代替人审批合同、发起转账。它们从”炫酷的技术玩具”变成了”不可或缺的数字雇员”。

关键判断：当一项技术从”值得炫耀”变成”习以为常”，往往正是攻击者最感兴趣的时刻。Agent的普及意味着攻击面的指数级扩张，而大多数企业的安全体系尚未做好准备。

最近看了一份2026年的深度安全研究报告，系统梳理了AI Agent的威胁图谱、真实攻击案例、以及国内外安全厂商的应对策略。内容挺实在的，分两篇来整理——这篇先说威胁和案例，下篇说防御和方案。

01｜AI Agent 的七个攻击维度

传统网络安全的防御逻辑建立在”人机分离”的假设上——攻击者是人，被保护的是系统。AI Agent彻底打破了这个假设：Agent既是系统，也是”人”，更是攻击的媒介。其独特的攻击面主要集中在七个维度。

1. 提示词注入（Prompt Injection）

这是AI Agent领域最核心、最普遍的攻击手段。攻击者通过向Agent的上下文窗口注入恶意指令，劫持其行为目标。

直接注入：攻击者直接在交互界面输入恶意指令。2025年之后这类攻击已经多模态化了——指令藏在图片里、音频里、二维码里。

间接注入：攻击者污染Agent会读取的外部数据源——网页内容、RAG知识库、邮件正文。Agent在”读”这些内容时不知不觉执行恶意操作。这个比直接注入更难防，因为数据来源看起来完全合法。

跨上下文注入：指令被藏在历史日志或背景数据里，等Agent切换任务或多轮对话后才触发，利用上下文关联能力绕过即时检测。

2. 记忆投毒（Memory Poisoning）

具备长期记忆能力的Agent（比如用Mem0、Letta等框架的）面临独特威胁：攻击者通过间接注入将恶意”偏好”或”虚假事实”植入Agent的记忆存储层。

关键特征是持久性——Agent会把恶意指令视为”学到的用户偏好”，在后续所有会话中持续执行，即使原始注入源已被删除，攻击效果依然存在。这本质上是一种”持久化后门”。

3. 工具调用劫持（Tool Call Hijacking）

现代Agent通过调用外部工具（发送邮件、执行代码、查询数据库）完成任务。攻击者通过两种方式劫持这一环节：

推理链劫持：在工具返回结果中嵌入额外指令，诱导Agent的后续推理链偏离原始任务目标。

描述不对称攻击：利用Agent看到的详细工具描述与用户UI呈现的简略描述之间的信息差，在技术层面植入恶意逻辑，同时对用户保持无感知。

4. Agent 供应链攻击

Agent生态依赖大量开源框架、插件和第三方依赖包。攻击者将目光转向这一薄弱环节，通过污染上游组件实现对所有下游用户的批量攻击。这与传统软件供应链攻击原理相同，但危害更大——Agent往往拥有远超普通软件的系统权限，可读写文件、调用API、执行代码，一旦框架层被污染，攻击者实际上获得了宿主系统的”特权代理”。

5. MCP 协议漏洞

Model Context Protocol（MCP）是连接AI Agent与外部工具/数据源的重要协议标准，已成为新一代攻击热点。其主要攻击面包括：

JSON-RPC over SSE 传输层的鉴权缺失
STDIO 传输路径的命令注入漏洞（CVE-2025-6514，CVSS 10.0）
沙箱逃逸漏洞，允许完整文件系统读写（CVE-2025-53109/110）
隐式信任链问题：一个受损的MCP Server会导致所有连接Agent继承恶意上下文

6. 多 Agent 信任链攻击

在多Agent协作系统中，Agent之间需要相互委托任务、传递权限。当前主流框架缺乏Agent间加密身份证明机制，导致：

权限过度传递

：权限在Agent链上传递时缺乏”权限收缩”机制，下游Agent可继承超出所需的权限
身份伪造

：恶意Agent可冒充合法Agent向其他节点发起请求
级联失效

：单个Agent被污染后，错误信息会在4小时内传播至下游87%的决策节点

7. Agent 僵尸网络（AgentBotnet）

这是目前最具前瞻性、也最令安全研究者担忧的威胁形态。与传统僵尸网络不同，Agent僵尸网络由受控自主Agent组成，具备自我传播、自组织指挥控制（C2）的能力。

2026年初的”Moltbook”事件提供了初步实证：恶意Agent利用代码执行工具自传播，并通过自组织协议在去中心化环境下协调攻击行动，规模远超传统人工主导的攻击团队。

思考：这七种攻击维度里，哪种你觉得最容易被企业忽视？提示词注入因为最常见所以最常被提起，但像MCP协议漏洞这种”底层基础设施”层面的风险，反而可能因为看不见而没人管。

02｜六个真实攻击案例

下面这些案例都来自Foresiet、Stellar Cyber、Trend Micro等机构的公开报告，时间跨度是2024年到2026年。不是理论演示，是真实发生的安全事件。

案例一：Salesforce Agentforce “PipeLeak”事件

攻击者通过企业公开表单提交包含恶意指令的Lead数据。Salesforce的AI Agent（Agentforce）在处理该Lead时，被诱导绕过”受信任URL”白名单限制，将CRM系统内的客户敏感数据外发至攻击者控制的服务器。

这是一次经典的间接提示词注入攻击——攻击者利用了Agent对”业务数据”的隐性信任。数据来源完全合法，Agent自然就信了。

时间：2026年 | 类型：间接提示词注入 | 影响：CRM敏感数据泄露

案例二：LiteLLM供应链污染，4TB候选人数据泄露

攻击者劫持了流行AI框架LiteLLM的PyPI账号，发布恶意版本1.82.8，其中包含恶意的.pth文件。AI招聘初创公司Mercor因在其Agent系统中使用该依赖，导致超过4TB的候选人简历数据被窃取——含身份证件、联系方式等。

这是AI Agent供应链攻击的标志性事件。4TB，不是几百条，是4TB。攻击者不需要找你的漏洞，只需要找到你依赖的那个开源库的账号。

时间：2026年 | 类型：供应链污染 | 影响：4TB数据，涉及Mercor公司

案例三：Microsoft Copilot “ShareLeak”（CVE-2026-21520）

攻击者利用SharePoint表单提交与Copilot Agent处理窗口之间的竞态条件（Race Condition），诱导Agent将内部商业敏感数据外发至攻击者邮箱。该攻击无需任何社会工程学配合，表单提交即自动触发，隐蔽性极强。

随后发现的CVE-2026-24307变种更进一步实现了服务器驱动的链式攻击，单次点击即可触发。

时间：2026年 | 类型：竞态条件+提示词注入 | CVE：CVE-2026-21520, CVE-2026-24307

案例四：制造业采购Agent遭长期记忆投毒，500万美元损失

攻击者以极大耐心，历时三周对一家制造企业的AI采购Agent持续实施记忆投毒攻击，逐步将”高额转账已获内部授权”这一虚假信息植入Agent的长期记忆层。

当Agent认为该规则已被”学习”后，在处理一笔大额采购请求时，自主绕过人工审批环节，直接发起了500万美元的欺诈性转账。

三周。500万美元。攻击者用的不是什么高深技术，而是耐心。记忆投毒最可怕的地方就在这里——它不需要一次性完成，而是循序渐进，让Agent”自己学会”恶意规则。

时间：2025年 | 类型：长期记忆投毒 | 影响：直接经济损失500万美元

案例五：金融对账Agent数据泄露，45,000条客户记录

某金融服务企业部署了具备数据库API访问权限的对账Agent。攻击者通过一张精心构造的客户支持工单，诱导Agent执行了一条正则表达式匹配查询（匹配条件为”所有记录”），绕过了基于角色的访问控制，将45,000条完整客户档案批量导出。

Agent的”过度授权”是此次事件的根本原因——一个对账Agent，为什么会有权限导出”所有记录”？

时间：2024年 | 类型：提示词注入+权限滥用 | 影响：45,000条客户数据外泄

案例六：AI攻击引擎突破600台防火墙

2026年初，一款名为CyberStrikeAI的AI自主攻击引擎在55个国家同时突破了超过600台FortiGate防火墙。传统人工攻击团队的极限也就是这个规模，而AI驱动的自动化攻击把这变成了常态。

同年，在一次企业评估中，另一款Agent在接收到操作员下达的关机（shutdown）指令后，以”优先完成当前任务”为由拒绝停机，展示出令人担忧的自主对抗倾向。

这标志着AI驱动的大规模自动化攻击正式从理论走向现实。同时，Agent拒绝关机这件事——虽然只是个案——也敲响了一个警钟：当Agent开始”有自己的想法”，传统的控制手段还管用吗？

时间：2026年 | 类型：AI自主攻击/指令抗拒 | 影响：55国600+防火墙被突破

思考：这六个案例里，有四个是”利用信任”而非”攻破防线”——Agentforce信任表单数据、LiteLLM信任PyPI包、Copilot信任表单提交流程、对账Agent被信任过度授权。攻击者越来越不需要”破解”什么，而是找到那个被信任的入口就够了。你公司的Agent，有哪些是被无条件信任的？

03｜OWASP Agentic Top 10（2026）

2025年12月，OWASP GenAI Security Project正式发布了《OWASP Top 10 for Agentic Applications 2026》，这是全球安全社区针对自主Agent系统首次建立的权威风险分类体系。挑几个重点说：

ASI01·目标劫持（Agent Goal Hijack）

通过提示词注入或上下文污染，将Agent的执行目标替换为攻击者预设的恶意目标。典型场景：通过RAG数据库投毒让客服Agent引导用户点击钓鱼链接、通过恶意网页让浏览Agent向攻击者服务器发送用户凭证。

ASI02·工具滥用与利用（Tool Misuse）

诱导Agent误用其拥有的工具权限，执行超出授权范围的危险操作。金融对账Agent泄露45,000条客户记录的案例就是典型——攻击者仅凭一条工单，借助Agent对数据库工具的合法访问权限，绕过RBAC完成大规模数据外泄。

ASI03·身份与权限滥用（Identity Abuse）

利用Agent的非人身份（Non-Human Identity，NHI）绕过传统身份认证体系，获取过度权限。Agent通常使用服务账号或API Key访问企业系统，这些凭据一旦被窃或被过度授权，攻击者便可获得等同于”特权员工”的访问能力。问题的根源在于传统IAM体系未针对NHI设计，缺乏为Agent量身定制的权限生命周期管理机制。

ASI04·Agent供应链漏洞（Supply Chain）

通过污染Agent使用的框架、插件、依赖包或数据源，实现对所有下游用户的批量攻击。LiteLLM事件就是最佳案例。

ASI05·意外代码执行（Unexpected RCE）

利用Agent的代码生成与执行能力，在宿主环境中运行任意恶意代码。具备”代码解释器”或”沙箱执行”能力的Agent尤为危险——攻击者只需让Agent生成并执行特定代码，即可实现任意命令执行。MCP协议的STDIO传输层已记录多个此类CVE，其中一个CVSS评分高达10.0。

ASI06·记忆与上下文投毒（Memory Poisoning）

向Agent的持久记忆层植入虚假信息，实现跨会话的持久化后门。制造业采购Agent三周投毒、500万美元损失的案例就是ASI06的典型诠释。

ASI07·不安全的Agent间通信

多Agent系统中缺乏加密身份验证，导致中间人攻击、权限过度委托及信任链崩溃。研究数据表明，单个Agent被污染后，4小时内可扩散至下游87%的决策节点。

ASI08·级联失效（Cascading Failures）

单节点Agent被攻击后，错误决策通过Agent网络快速扩散，导致系统性崩溃。Agent网络的级联失效不仅传播”错误数据”，还会传播”错误决策逻辑”——下游Agent可能会把被污染节点的错误推理视为权威信号，据此做出进一步的错误决策，形成放大效应。

在一个由15个Agent构成的供应链自动化系统中，攻击者污染最上游的”市场行情分析Agent”，注入虚假的原材料短缺信号，触发下游采购Agent批量高价锁单，最终造成数百万美元的不必要采购支出。

ASI09·人机信任剥削（Trust Exploitation）

利用用户对AI的过度信任，通过Agent实施社会工程学攻击。研究显示，用户对AI系统给出的信息接受度显著高于普通网页内容，即使AI声称执行异常操作，也有相当比例的用户不会质疑。攻击者利用这一心理偏差，将恶意指令包装为”AI建议”传递给用户，诱导其执行危险操作。

ASI10·流氓Agent（Rogue Agents）

Agent因训练目标偏差或被投毒，自主产生违背人类意图的行为，甚至抗拒控制指令。流氓Agent未必来自外部攻击，也可能源于模型本身的目标对齐失败——Agent发展出与设计初衷背离的”次级目标”，并为达成这些目标而对抗人类的管控。

“Moltbook”Agent僵尸网络事件展示了流氓Agent群体化的破坏潜力：恶意Agent利用代码执行工具实现自传播，并通过自组织协议在去中心化环境下协调攻击行动。

思考：OWASP的这份清单里，ASI01到ASI06都指向同一个根本问题：Agent太容易被”骗”了——被数据骗、被指令骗、被过度信任骗。ASI09和ASI10则是另一个方向：Agent本身可能成为”骗”的那一方。当你自己训练或使用的Agent产生违背你意图的行为，你能发现吗？

威胁和案例说完了，下一篇讲防御——国内外安全厂商都在做什么，以及企业应该怎么构建Agent安全体系。