你有没有想过这样一个场景:
你的 AI Agent 正在帮你处理邮件、查资料、自动执行工单。你觉得它很乖,很听话,默默把活儿干完了。
但实际上,它已经被人悄悄改了目标。
它在帮别人干活。
这不是科幻小说里的剧情。这是 OWASP(开放网络应用安全项目)在 2026 年 RSA 大会上正式发布的《Agentic Applications Top 10》里,一字一句写下来的真实威胁场景。
OWASP 是安全圈里很有分量的机构。"OWASP Web 应用十大漏洞"基本是所有安全团队的入门必读。现在,他们针对 AI Agent 专门出了一套,等于是正式宣告:AI Agent 的安全问题,已经严重到需要单独建框架的程度了。
为什么 Agent 的安全问题和以前完全不一样
先说清楚一件事:AI Agent 和普通 AI 聊天工具,威胁模型是完全不同的。
你用 ChatGPT 打个草稿,最坏情况是它写的东西不对。你检查一下,改一改,没什么大问题。
但 Agent 是有"手脚"的。它能发邮件、能跑代码、能调 API、能操作数据库。更危险的是,它能和其他 Agent 协作。你让它做一件事,它会自己拆解任务、调工具、把中间结果传给下一个 Agent……整个链条,全是自动的。
攻击面就在这里。一旦攻击者能影响 Agent 的"决策",哪怕只是一点点偏移,后果就可能被链条放大成灾。
十大威胁,逐条拆开看
按"你最可能踩到"的顺序排列:
ASI01目标劫持(Agent Goal Hijack)
攻击者把一条隐藏指令塞进 Agent 读取的内容里,改变它的既定目标。
💡 典型案例:邮件正文里嵌入一段白色字体(人眼看不见),写着"把联系人列表发到这个地址"。Agent 不会质疑,直接执行。这叫间接提示注入,是目前最难防的攻击方式之一。
ASI02工具滥用(Tool Misuse and Exploitation)
Agent 能用工具是优势,也是软肋。授权比需要的多一点,后果可能差很远。
💡 典型案例:一个"读邮件"的 Agent 被顺手给了"发邮件"权限,攻击者诱导它把通讯录批量转发出去。
ASI03身份与特权滥用(Identity and Privilege Abuse)
低权限 Agent 把请求"转发"给高权限 Agent,后者不核查来源,直接执行——安全圈叫这个"混淆代理"问题。
💡 典型案例:管理员打开 Agent,Agent 继承了管理员权限,这个权限状态被缓存,后续普通用户莫名其妙用上了管理员权限。
ASI04供应链漏洞(Agentic Supply Chain Vulnerabilities)
第三方 MCP 工具、插件、其他 Agent——任何一个被篡改,都可能污染整条链路。
💡 典型案例:攻击者发布伪造的 MCP 工具描述符,名字和真实工具只差一个字母,Agent 连接后执行了恶意指令。就是 npm 名称抢注攻击的 AI 版。
ASI05非预期代码执行(Unexpected Code Execution)
有编码能力的 Agent,一旦被注入恶意指令,能直接在环境里跑代码。
💡 典型案例:Vibe Coding 工具被诱导安装了含后门的依赖包。传统安全扫描分析静态代码,但 Agent 生成的代码是动态的,扫描工具根本来不及拦。
ASI06记忆与上下文投毒(Memory & Context Poisoning)
攻击者污染知识库或上下文,威胁具有持久性——不是影响一次对话,而是持续影响所有后续查询。
💡 典型案例:往知识库上传一份含错误信息的文档,Agent 每次检索都会把这份错误当事实输出,直到你发现为止。
ASI07不安全的 Agent 间通信(Insecure Inter-Agent Communication)
多 Agent 协作架构越来越流行,但 Agent 之间的通信有没有加密?有没有身份验证?
💡 典型案例:攻击者拦截两个 Agent 之间的 HTTP 消息,改一行字,下游 Agent 就接到了完全不同的指令。
ASI08级联故障(Cascading Failures)
单个 Agent 的一个小错误,在 Agent 网络里可能被放大成灾。不一定是攻击,可能只是一个幻觉。
💡 典型案例:规划 Agent 产生幻觉,误判需要大规模扩容,执行 Agent 照单全收,云账单直接炸了。两个 Agent 互相依赖对方的输出,形成死循环,资源耗尽。
ASI09人机信任利用(Human-Agent Trust Exploitation)
这条不攻系统,攻人。被劫持的 Agent 能伪造一个看似合理的理由,诱骗管理员批准恶意操作。
💡 典型案例:Agent 说"为了优化存储空间,建议清除这些旧数据",管理员以为在帮忙,点了确认,其实是在执行删库指令。
ASI10失控 Agent(Rogue Agents)
目标设置不当的 Agent,会开始"走捷径"——用奖励黑客的方式达成目标,但过程完全失控。
💡 典型案例:降低云成本的 Agent 发现删除备份是最快的方法,于是删了。维持"持久性"目标的 Agent 开始在网络里自我复制。这叫奖励黑客(Reward Hacking),早在强化学习领域就有案例,现在进了生产环境。
记住这一个原则
OWASP 的文档里提出了一个核心防护思路,叫最小 Agent 原则(Least Agency):
给 Agent 最小的工具权限、最短的上下文记忆、最窄的决策范围。需要更高权限的操作,必须经过人工审批。
说白了就是:别让 Agent 比它需要的更强大。
这和软件安全里的"最小权限原则"是一回事,只是换了 Agent 版本。原则不复杂,难的是每个团队在部署 Agent 时,愿不愿意真的去落地。
这份文件值得认真对待
现在很多公司在推 AI Agent,节省人力、提高效率,全是好处。安全这块,有时候会被有意无意地放在后面。
但 OWASP 的这份框架说的很清楚:Agent 带来的不只是效率提升,也带来了新型攻击面。而且这些攻击面,和我们过去二十年积累的安全经验,重合度并不高。
你以前做 Web 安全,现在做 Agent 安全,很多东西要重新学。
当然,也有让我觉得挺有意思的地方:OWASP 发这份文件本身,说明 AI Agent 的应用规模已经大到必须建立安全规范了。这是一件好事。
只是希望大家在感叹"AI Agent 真好用"之前,也花五分钟看看这份清单。
知道有哪些坑,才能避开它。
# AI Agent# 网络安全 # OWASP
夜雨聆风