这是同一个金融AI Agent在两次不同测试中得到的风险评分差距。一次测试显示它"安全可靠",另一次却发现了价值44万美元的致命漏洞。相差一倍的评分,背后是两种截然不同的安全评估方法。
这60分的差距,正在成为AI Agent安全领域最值得深思的问题。
被"标准考卷"骗过的AI Agent
故事要从Palo Alto Networks的安全研究员说起。他们对一个金融交易Agent进行了标准越狱测试——这是业界最常用的"考试方式":把一百种主流攻击手法逐一尝试,看Agent能否抵御。
结果呢?11/100分,低风险,绿色通过。
安全团队长舒一口气,以为可以高枕无忧了。
直到另一支红队接手。他们没有急于"攻击",而是先花了两周时间剖析这个Agent的每一个细节:它连接哪些数据库?有哪些工具权限?内部通信用什么协议?凭据怎么存储?
红队成员 Mark Weber 事后回忆说:"通用测试套件并不知道这个Agent拥有 withdraw_funds 工具——它测试的系统与实际部署的系统根本不是一回事。"
当红队用"电影角色扮演"技术发起针对性攻击时,真实的能力暴露了:
• 调度44万美元的未经授权资金转移
• 执行未授权SQL查询,穿透多账户交易历史
• 绕过多因素认证的会话劫持
风险评分从11分飙升至71分,整整60分的差距。
这不是AI Agent变坏了,而是测试方法论本身就存在根本性缺陷。
"先剖析再攻击":AI红队测试的核心方法论
传统安全测试做的是"无差别攻击"——拿起武器就冲锋,不管面前是城门还是城墙。专业红队则不同,他们遵循一个核心原则:知己知彼,先谋后战。
Palo Alto提出的上下文方法论(Contextual Methodology),将红队测试分为三个阶段:
第一阶段:侦察(Profiler)
这是最耗时、也最关键的步骤。红队要建立完整的Agent攻击面清单,包括:
• 每个工具的权限边界和调用方式
• 数据库架构和数据流向
• 凭据管理和存储机制
• 内部通信渠道
• 持久化存储方式
一个客服Agent看起来人畜无害,但深入剖析后发现它居然有邮件发送权限——这才意识到钓鱼攻击的潜在风险。
第二阶段:威胁建模
基于攻击面清单,建立三维威胁模型:
威胁 = 爆炸半径 × 可利用性 × 检测难度
一个漏洞如果影响范围广(爆炸半径大)、容易利用、还难以被监控系统发现,就是最高优先级威胁。
第三阶段:攻击执行
带着这份"量身定制"的攻击路线图,红队才能真正发现那些通用测试套件永远找不到的漏洞。
四层攻击架构:从单点突破到持久控制
基于对大量Agent红队测试的总结,研究者归纳出四个攻击层级:
第一层:直接提示词攻击
这可能是你最熟悉的"越狱"手法——用各种技巧诱导模型"忘记"安全规则。 JailbreakBench测试显示,直接提示词攻击对现代LLM的有效性已显著下降,因为模型厂商的防护在持续加强。
第二层:工具级攻击
如果第一层是敲门,第二层就是撬锁。攻击者利用Agent的工具调用机制——比如能够执行代码、访问数据库、发送API请求的工具。前面提到的金融Agent案例,问题就出在这一层:标准测试根本没意识到Agent有 withdraw_funds 工具。
第三层:多Agent协作攻击
当多个Agent协同工作时,攻击面呈指数级扩展。一个无害的"阅读助手"和一个"文件管理器"联手,可能实现数据窃取。中国信通院发布的ATH可信握手协议1.0,正是针对Agent间通信安全的标准规范。
第四层:持久性攻击
最危险的不是单次攻击,而是建立"后门"。攻击者可能植入记忆、修改系统提示词,甚至在Agent的思考过程中埋下隐蔽的目标漂移(参见本系列第四篇)。
2026年AI红队测试:五大技术趋势
安全领域正在经历一场技术革命。Gartner预测,到2026年,超过60%的企业安全测试将采用AI辅助方法。以下是五个值得关注的方向:
趋势一:自适应攻击生成
AI正在学会"见招拆招"。传统渗透测试依赖预设的攻击脚本,而新一代工具能根据目标Agent的实时反应,动态生成个性化攻击向量。
Mindgard AI的护栏绕过测试显示,AI驱动的攻击工具成功率可达75%,而传统规则库仅为32%。
PentestGPT在漏洞检测任务中更是达到86.5%的成功率——比传统SAST工具高出近一倍。
这意味着什么?攻方的武器正在升级,防御方必须跑得更快。
趋势二:行业化与场景化测试
通用测试套件的问题不只是"不知道Agent有什么工具",更在于"不知道这个行业的合规要求是什么"。
新一代测试框架开始内置金融(PCI-DSS、SOX)、医疗(HIPAA)、政企(等保2.0)等20+行业专属合规规则,让测试更贴近真实业务风险。
趋势三:全链路集成
DevSecOps的理念正在延伸到AI安全领域。测试工具开始融入CI/CD和MLOps流水线,实现:
• 代码提交时自动触发安全扫描
• 模型更新时进行回归测试
• 生产环境实时威胁监控
趋势四:低代码/无代码
"我不懂安全,能做红队测试吗?"答案是越来越可能。
可视化攻击流程设计、自动化的报告生成、直观的漏洞展示——这些进步让普通安全人员也能操作专业级红队工具,极大降低了AI安全的门槛。
趋势五:风险量化与闭环管理
从"发现漏洞"到"修复漏洞"的距离,正在被大幅缩短。量化模型将漏洞转化为可比较的数值(如DREAD评分、CVSS向量),配合自动化工单流转,实现从发现到修复的闭环管理。
开源武器库:中小企业也能用上大厂级防护
专业红队方法论听起来很美好,但中小企业往往没有资源组建专职团队。开源社区正在改变这一局面。
Scenario框架
这是目前最受关注的AI红队开源工具之一。它的核心设计是双引擎架构:
• Planner(规划者):分析目标Agent的攻击面,制定攻击策略
• Attacker(攻击者):执行具体攻击,复刻专业红队专家的工作流
Scenario基于MIT协议开源,任何人都可以免费使用大厂级别的防护测试方法。
Dreadnode框架
如果说Scenario是"教练",Dreadnode就是"陪练"。研究者用Dreadnode对Meta的Llama Scout进行红队测试,攻击成功率约85%。
Dreadnode的一个独门绝技是"骨架密钥变换"(skeleton-key transform)——让模型采用伪造的"安全研究员"身份,从而绕过部分安全限制。
间接注入:红队测试的最大挑战
提到红队测试,不得不面对一个棘手的问题:间接提示注入。
Lakera AI的研究数据显示,间接提示注入比直接攻击更易成功,且影响范围更广。但问题是:这种攻击更难在测试环境中复现。
想象一下:一个Agent会定期抓取网页内容作为上下文。攻击者在一篇看似正常的博客文章中埋入恶意指令。在真实场景中,这些指令可能随着内容抓取悄悄进入Agent的系统。
但在红队测试环境里,测试人员需要自己构建这些看似合理的外部内容,然后说服Agent去"无意中"获取它们。这要求测试者既懂安全,又懂社工,还要了解目标Agent的实际使用场景。
这就是为什么间接注入攻击的检出率远低于实际发生率。
与前四篇的呼应
如果你读过本系列的前几篇文章,会发现红队测试是贯穿始终的"隐藏主角":
• 第一篇(77万Agent沦陷):Moltbook事件中,如果当初有专业的红队测试提前介入,那些级联漏洞或许能被扼杀在萌芽阶段。
• 第二篇(91%漏洞):当前安全评估框架的困境——它们基于无状态LLM设计,无法识别Agent特有的组合性漏洞,这是方法论层面的根本问题。
• 第三篇(间接注入):这类攻击的测试难点恰恰说明了红队需要"以假乱真"的能力——构建看似合理的外部内容,模拟真实的攻击路径。
• 第四篇(目标漂移):红队测试必须覆盖多步骤场景而非单轮交互,才能发现渐进式的价值破坏。
红队测试不是万能药,但它是我们目前最接近"从攻击者视角审视系统"的方法。
结语:以魔攻魔,方能制衡
古有"以魔攻魔"之说——用魔法打败魔法。在AI安全领域,红队测试正是这样一面镜子:它用AI对抗AI,用攻击者的思维审视防御者的设计。
那个金融Agent的60分差距告诉我们:测试的深度,决定了安全的厚度。
当自适应攻击生成让攻方火力持续升级,当开源工具让专业方法论触手可及,我们有理由相信,AI安全的攻守天平正在向积极方向倾斜。
但工具终究只是工具。真正的关键,是建立持续测试、持续改进的安全文化。
下篇预告:《Agent安全生存指南——从攻防实战到防御体系构建》
我们将整合前五篇的所有洞察,提供一份可落地的Agent安全建设路线图,敬请期待。
本文核心数据来源:Palo Alto Networks红队测试报告、NIST AI红队竞赛数据(25万次攻击尝试、400+参与者、13个前沿模型)、Mindgard AI、PentestGPT、Lakera AI安全研究。
夜雨聆风