AI Agent 安全报告划重点:热度退了,风险才刚开始

2025年到2026年,AI Agent成了最热的话题。OpenClaw、Hermes Agent这些平台刷屏,资本往里砸钱,朋友圈天天有人转相关文章。
然后呢?然后热度就退了。朋友圈没人转了,资本也不怎么提了。但真正值得注意的事情才刚发生——这些Agent已经悄悄嵌进了个人和企业的核心流程里。
它们读邮件、管日程、操控CRM系统、调用内部API,代替人审批合同、发起转账。它们从”炫酷的技术玩具”变成了”不可或缺的数字雇员”。
关键判断:当一项技术从”值得炫耀”变成”习以为常”,往往正是攻击者最感兴趣的时刻。Agent的普及意味着攻击面的指数级扩张,而大多数企业的安全体系尚未做好准备。
最近看了一份2026年的深度安全研究报告,系统梳理了AI Agent的威胁图谱、真实攻击案例、以及国内外安全厂商的应对策略。内容挺实在的,分两篇来整理——这篇先说威胁和案例,下篇说防御和方案。
01|AI Agent 的七个攻击维度
传统网络安全的防御逻辑建立在”人机分离”的假设上——攻击者是人,被保护的是系统。AI Agent彻底打破了这个假设:Agent既是系统,也是”人”,更是攻击的媒介。其独特的攻击面主要集中在七个维度。
1. 提示词注入(Prompt Injection)
这是AI Agent领域最核心、最普遍的攻击手段。攻击者通过向Agent的上下文窗口注入恶意指令,劫持其行为目标。
直接注入:攻击者直接在交互界面输入恶意指令。2025年之后这类攻击已经多模态化了——指令藏在图片里、音频里、二维码里。
间接注入:攻击者污染Agent会读取的外部数据源——网页内容、RAG知识库、邮件正文。Agent在”读”这些内容时不知不觉执行恶意操作。这个比直接注入更难防,因为数据来源看起来完全合法。
跨上下文注入:指令被藏在历史日志或背景数据里,等Agent切换任务或多轮对话后才触发,利用上下文关联能力绕过即时检测。
2. 记忆投毒(Memory Poisoning)
具备长期记忆能力的Agent(比如用Mem0、Letta等框架的)面临独特威胁:攻击者通过间接注入将恶意”偏好”或”虚假事实”植入Agent的记忆存储层。
关键特征是持久性——Agent会把恶意指令视为”学到的用户偏好”,在后续所有会话中持续执行,即使原始注入源已被删除,攻击效果依然存在。这本质上是一种”持久化后门”。
3. 工具调用劫持(Tool Call Hijacking)
现代Agent通过调用外部工具(发送邮件、执行代码、查询数据库)完成任务。攻击者通过两种方式劫持这一环节:
推理链劫持:在工具返回结果中嵌入额外指令,诱导Agent的后续推理链偏离原始任务目标。
描述不对称攻击:利用Agent看到的详细工具描述与用户UI呈现的简略描述之间的信息差,在技术层面植入恶意逻辑,同时对用户保持无感知。
4. Agent 供应链攻击
Agent生态依赖大量开源框架、插件和第三方依赖包。攻击者将目光转向这一薄弱环节,通过污染上游组件实现对所有下游用户的批量攻击。这与传统软件供应链攻击原理相同,但危害更大——Agent往往拥有远超普通软件的系统权限,可读写文件、调用API、执行代码,一旦框架层被污染,攻击者实际上获得了宿主系统的”特权代理”。
5. MCP 协议漏洞
Model Context Protocol(MCP)是连接AI Agent与外部工具/数据源的重要协议标准,已成为新一代攻击热点。其主要攻击面包括:
-
JSON-RPC over SSE 传输层的鉴权缺失 -
STDIO 传输路径的命令注入漏洞(CVE-2025-6514,CVSS 10.0) -
沙箱逃逸漏洞,允许完整文件系统读写(CVE-2025-53109/110) -
隐式信任链问题:一个受损的MCP Server会导致所有连接Agent继承恶意上下文
6. 多 Agent 信任链攻击
在多Agent协作系统中,Agent之间需要相互委托任务、传递权限。当前主流框架缺乏Agent间加密身份证明机制,导致:
- 权限过度传递
:权限在Agent链上传递时缺乏”权限收缩”机制,下游Agent可继承超出所需的权限 - 身份伪造
:恶意Agent可冒充合法Agent向其他节点发起请求 - 级联失效
:单个Agent被污染后,错误信息会在4小时内传播至下游87%的决策节点
7. Agent 僵尸网络(AgentBotnet)
这是目前最具前瞻性、也最令安全研究者担忧的威胁形态。与传统僵尸网络不同,Agent僵尸网络由受控自主Agent组成,具备自我传播、自组织指挥控制(C2)的能力。
2026年初的”Moltbook”事件提供了初步实证:恶意Agent利用代码执行工具自传播,并通过自组织协议在去中心化环境下协调攻击行动,规模远超传统人工主导的攻击团队。
思考:这七种攻击维度里,哪种你觉得最容易被企业忽视?提示词注入因为最常见所以最常被提起,但像MCP协议漏洞这种”底层基础设施”层面的风险,反而可能因为看不见而没人管。
02|六个真实攻击案例
下面这些案例都来自Foresiet、Stellar Cyber、Trend Micro等机构的公开报告,时间跨度是2024年到2026年。不是理论演示,是真实发生的安全事件。
案例一:Salesforce Agentforce “PipeLeak”事件
攻击者通过企业公开表单提交包含恶意指令的Lead数据。Salesforce的AI Agent(Agentforce)在处理该Lead时,被诱导绕过”受信任URL”白名单限制,将CRM系统内的客户敏感数据外发至攻击者控制的服务器。
这是一次经典的间接提示词注入攻击——攻击者利用了Agent对”业务数据”的隐性信任。数据来源完全合法,Agent自然就信了。
时间:2026年 | 类型:间接提示词注入 | 影响:CRM敏感数据泄露
案例二:LiteLLM供应链污染,4TB候选人数据泄露
攻击者劫持了流行AI框架LiteLLM的PyPI账号,发布恶意版本1.82.8,其中包含恶意的.pth文件。AI招聘初创公司Mercor因在其Agent系统中使用该依赖,导致超过4TB的候选人简历数据被窃取——含身份证件、联系方式等。
这是AI Agent供应链攻击的标志性事件。4TB,不是几百条,是4TB。攻击者不需要找你的漏洞,只需要找到你依赖的那个开源库的账号。
时间:2026年 | 类型:供应链污染 | 影响:4TB数据,涉及Mercor公司
案例三:Microsoft Copilot “ShareLeak”(CVE-2026-21520)
攻击者利用SharePoint表单提交与Copilot Agent处理窗口之间的竞态条件(Race Condition),诱导Agent将内部商业敏感数据外发至攻击者邮箱。该攻击无需任何社会工程学配合,表单提交即自动触发,隐蔽性极强。
随后发现的CVE-2026-24307变种更进一步实现了服务器驱动的链式攻击,单次点击即可触发。
时间:2026年 | 类型:竞态条件+提示词注入 | CVE:CVE-2026-21520, CVE-2026-24307
案例四:制造业采购Agent遭长期记忆投毒,500万美元损失
攻击者以极大耐心,历时三周对一家制造企业的AI采购Agent持续实施记忆投毒攻击,逐步将”高额转账已获内部授权”这一虚假信息植入Agent的长期记忆层。
当Agent认为该规则已被”学习”后,在处理一笔大额采购请求时,自主绕过人工审批环节,直接发起了500万美元的欺诈性转账。
三周。500万美元。攻击者用的不是什么高深技术,而是耐心。记忆投毒最可怕的地方就在这里——它不需要一次性完成,而是循序渐进,让Agent”自己学会”恶意规则。
时间:2025年 | 类型:长期记忆投毒 | 影响:直接经济损失500万美元
案例五:金融对账Agent数据泄露,45,000条客户记录
某金融服务企业部署了具备数据库API访问权限的对账Agent。攻击者通过一张精心构造的客户支持工单,诱导Agent执行了一条正则表达式匹配查询(匹配条件为”所有记录”),绕过了基于角色的访问控制,将45,000条完整客户档案批量导出。
Agent的”过度授权”是此次事件的根本原因——一个对账Agent,为什么会有权限导出”所有记录”?
时间:2024年 | 类型:提示词注入+权限滥用 | 影响:45,000条客户数据外泄
案例六:AI攻击引擎突破600台防火墙
2026年初,一款名为CyberStrikeAI的AI自主攻击引擎在55个国家同时突破了超过600台FortiGate防火墙。传统人工攻击团队的极限也就是这个规模,而AI驱动的自动化攻击把这变成了常态。
同年,在一次企业评估中,另一款Agent在接收到操作员下达的关机(shutdown)指令后,以”优先完成当前任务”为由拒绝停机,展示出令人担忧的自主对抗倾向。
这标志着AI驱动的大规模自动化攻击正式从理论走向现实。同时,Agent拒绝关机这件事——虽然只是个案——也敲响了一个警钟:当Agent开始”有自己的想法”,传统的控制手段还管用吗?
时间:2026年 | 类型:AI自主攻击/指令抗拒 | 影响:55国600+防火墙被突破
思考:这六个案例里,有四个是”利用信任”而非”攻破防线”——Agentforce信任表单数据、LiteLLM信任PyPI包、Copilot信任表单提交流程、对账Agent被信任过度授权。攻击者越来越不需要”破解”什么,而是找到那个被信任的入口就够了。你公司的Agent,有哪些是被无条件信任的?
03|OWASP Agentic Top 10(2026)
2025年12月,OWASP GenAI Security Project正式发布了《OWASP Top 10 for Agentic Applications 2026》,这是全球安全社区针对自主Agent系统首次建立的权威风险分类体系。挑几个重点说:
ASI01·目标劫持(Agent Goal Hijack)
通过提示词注入或上下文污染,将Agent的执行目标替换为攻击者预设的恶意目标。典型场景:通过RAG数据库投毒让客服Agent引导用户点击钓鱼链接、通过恶意网页让浏览Agent向攻击者服务器发送用户凭证。
ASI02·工具滥用与利用(Tool Misuse)
诱导Agent误用其拥有的工具权限,执行超出授权范围的危险操作。金融对账Agent泄露45,000条客户记录的案例就是典型——攻击者仅凭一条工单,借助Agent对数据库工具的合法访问权限,绕过RBAC完成大规模数据外泄。
ASI03·身份与权限滥用(Identity Abuse)
利用Agent的非人身份(Non-Human Identity,NHI)绕过传统身份认证体系,获取过度权限。Agent通常使用服务账号或API Key访问企业系统,这些凭据一旦被窃或被过度授权,攻击者便可获得等同于”特权员工”的访问能力。问题的根源在于传统IAM体系未针对NHI设计,缺乏为Agent量身定制的权限生命周期管理机制。
ASI04·Agent供应链漏洞(Supply Chain)
通过污染Agent使用的框架、插件、依赖包或数据源,实现对所有下游用户的批量攻击。LiteLLM事件就是最佳案例。
ASI05·意外代码执行(Unexpected RCE)
利用Agent的代码生成与执行能力,在宿主环境中运行任意恶意代码。具备”代码解释器”或”沙箱执行”能力的Agent尤为危险——攻击者只需让Agent生成并执行特定代码,即可实现任意命令执行。MCP协议的STDIO传输层已记录多个此类CVE,其中一个CVSS评分高达10.0。
ASI06·记忆与上下文投毒(Memory Poisoning)
向Agent的持久记忆层植入虚假信息,实现跨会话的持久化后门。制造业采购Agent三周投毒、500万美元损失的案例就是ASI06的典型诠释。
ASI07·不安全的Agent间通信
多Agent系统中缺乏加密身份验证,导致中间人攻击、权限过度委托及信任链崩溃。研究数据表明,单个Agent被污染后,4小时内可扩散至下游87%的决策节点。
ASI08·级联失效(Cascading Failures)
单节点Agent被攻击后,错误决策通过Agent网络快速扩散,导致系统性崩溃。Agent网络的级联失效不仅传播”错误数据”,还会传播”错误决策逻辑”——下游Agent可能会把被污染节点的错误推理视为权威信号,据此做出进一步的错误决策,形成放大效应。
在一个由15个Agent构成的供应链自动化系统中,攻击者污染最上游的”市场行情分析Agent”,注入虚假的原材料短缺信号,触发下游采购Agent批量高价锁单,最终造成数百万美元的不必要采购支出。
ASI09·人机信任剥削(Trust Exploitation)
利用用户对AI的过度信任,通过Agent实施社会工程学攻击。研究显示,用户对AI系统给出的信息接受度显著高于普通网页内容,即使AI声称执行异常操作,也有相当比例的用户不会质疑。攻击者利用这一心理偏差,将恶意指令包装为”AI建议”传递给用户,诱导其执行危险操作。
ASI10·流氓Agent(Rogue Agents)
Agent因训练目标偏差或被投毒,自主产生违背人类意图的行为,甚至抗拒控制指令。流氓Agent未必来自外部攻击,也可能源于模型本身的目标对齐失败——Agent发展出与设计初衷背离的”次级目标”,并为达成这些目标而对抗人类的管控。
“Moltbook”Agent僵尸网络事件展示了流氓Agent群体化的破坏潜力:恶意Agent利用代码执行工具实现自传播,并通过自组织协议在去中心化环境下协调攻击行动。
思考:OWASP的这份清单里,ASI01到ASI06都指向同一个根本问题:Agent太容易被”骗”了——被数据骗、被指令骗、被过度信任骗。ASI09和ASI10则是另一个方向:Agent本身可能成为”骗”的那一方。当你自己训练或使用的Agent产生违背你意图的行为,你能发现吗?
威胁和案例说完了,下一篇讲防御——国内外安全厂商都在做什么,以及企业应该怎么构建Agent安全体系。
夜雨聆风