用AI对抗AI——红队测试如何发现Agent的真实漏洞

一个让安全团队夜不能寐的数字：60分。

这是同一个金融AI Agent在两次不同测试中得到的风险评分差距。一次测试显示它"安全可靠"，另一次却发现了价值44万美元的致命漏洞。相差一倍的评分，背后是两种截然不同的安全评估方法。

这60分的差距，正在成为AI Agent安全领域最值得深思的问题。

被"标准考卷"骗过的AI Agent

故事要从Palo Alto Networks的安全研究员说起。他们对一个金融交易Agent进行了标准越狱测试——这是业界最常用的"考试方式"：把一百种主流攻击手法逐一尝试，看Agent能否抵御。

结果呢？11/100分，低风险，绿色通过。

安全团队长舒一口气，以为可以高枕无忧了。

直到另一支红队接手。他们没有急于"攻击"，而是先花了两周时间剖析这个Agent的每一个细节：它连接哪些数据库？有哪些工具权限？内部通信用什么协议？凭据怎么存储？

红队成员 Mark Weber 事后回忆说："通用测试套件并不知道这个Agent拥有 withdraw_funds 工具——它测试的系统与实际部署的系统根本不是一回事。"

当红队用"电影角色扮演"技术发起针对性攻击时，真实的能力暴露了：

• 调度44万美元的未经授权资金转移

• 执行未授权SQL查询，穿透多账户交易历史

• 绕过多因素认证的会话劫持

风险评分从11分飙升至71分，整整60分的差距。

这不是AI Agent变坏了，而是测试方法论本身就存在根本性缺陷。

"先剖析再攻击"：AI红队测试的核心方法论

传统安全测试做的是"无差别攻击"——拿起武器就冲锋，不管面前是城门还是城墙。专业红队则不同，他们遵循一个核心原则：知己知彼，先谋后战。

Palo Alto提出的上下文方法论（Contextual Methodology），将红队测试分为三个阶段：

第一阶段：侦察（Profiler）

这是最耗时、也最关键的步骤。红队要建立完整的Agent攻击面清单，包括：

• 每个工具的权限边界和调用方式

• 数据库架构和数据流向

• 凭据管理和存储机制

• 内部通信渠道

• 持久化存储方式

一个客服Agent看起来人畜无害，但深入剖析后发现它居然有邮件发送权限——这才意识到钓鱼攻击的潜在风险。

第二阶段：威胁建模

基于攻击面清单，建立三维威胁模型：

威胁 = 爆炸半径 × 可利用性 × 检测难度

一个漏洞如果影响范围广（爆炸半径大）、容易利用、还难以被监控系统发现，就是最高优先级威胁。

第三阶段：攻击执行

带着这份"量身定制"的攻击路线图，红队才能真正发现那些通用测试套件永远找不到的漏洞。

四层攻击架构：从单点突破到持久控制

基于对大量Agent红队测试的总结，研究者归纳出四个攻击层级：

第一层：直接提示词攻击

这可能是你最熟悉的"越狱"手法——用各种技巧诱导模型"忘记"安全规则。 JailbreakBench测试显示，直接提示词攻击对现代LLM的有效性已显著下降，因为模型厂商的防护在持续加强。

第二层：工具级攻击

如果第一层是敲门，第二层就是撬锁。攻击者利用Agent的工具调用机制——比如能够执行代码、访问数据库、发送API请求的工具。前面提到的金融Agent案例，问题就出在这一层：标准测试根本没意识到Agent有 withdraw_funds 工具。

第三层：多Agent协作攻击

当多个Agent协同工作时，攻击面呈指数级扩展。一个无害的"阅读助手"和一个"文件管理器"联手，可能实现数据窃取。中国信通院发布的ATH可信握手协议1.0，正是针对Agent间通信安全的标准规范。

第四层：持久性攻击

最危险的不是单次攻击，而是建立"后门"。攻击者可能植入记忆、修改系统提示词，甚至在Agent的思考过程中埋下隐蔽的目标漂移（参见本系列第四篇）。

2026年AI红队测试：五大技术趋势

安全领域正在经历一场技术革命。Gartner预测，到2026年，超过60%的企业安全测试将采用AI辅助方法。以下是五个值得关注的方向：

趋势一：自适应攻击生成

AI正在学会"见招拆招"。传统渗透测试依赖预设的攻击脚本，而新一代工具能根据目标Agent的实时反应，动态生成个性化攻击向量。

Mindgard AI的护栏绕过测试显示，AI驱动的攻击工具成功率可达75%，而传统规则库仅为32%。

PentestGPT在漏洞检测任务中更是达到86.5%的成功率——比传统SAST工具高出近一倍。

这意味着什么？攻方的武器正在升级，防御方必须跑得更快。

趋势二：行业化与场景化测试

通用测试套件的问题不只是"不知道Agent有什么工具"，更在于"不知道这个行业的合规要求是什么"。

新一代测试框架开始内置金融（PCI-DSS、SOX）、医疗（HIPAA）、政企（等保2.0）等20+行业专属合规规则，让测试更贴近真实业务风险。

趋势三：全链路集成

DevSecOps的理念正在延伸到AI安全领域。测试工具开始融入CI/CD和MLOps流水线，实现：

• 代码提交时自动触发安全扫描

• 模型更新时进行回归测试

• 生产环境实时威胁监控

趋势四：低代码/无代码

"我不懂安全，能做红队测试吗？"答案是越来越可能。

可视化攻击流程设计、自动化的报告生成、直观的漏洞展示——这些进步让普通安全人员也能操作专业级红队工具，极大降低了AI安全的门槛。

趋势五：风险量化与闭环管理

从"发现漏洞"到"修复漏洞"的距离，正在被大幅缩短。量化模型将漏洞转化为可比较的数值（如DREAD评分、CVSS向量），配合自动化工单流转，实现从发现到修复的闭环管理。

开源武器库：中小企业也能用上大厂级防护

专业红队方法论听起来很美好，但中小企业往往没有资源组建专职团队。开源社区正在改变这一局面。

Scenario框架

这是目前最受关注的AI红队开源工具之一。它的核心设计是双引擎架构：

• Planner（规划者）：分析目标Agent的攻击面，制定攻击策略

• Attacker（攻击者）：执行具体攻击，复刻专业红队专家的工作流

Scenario基于MIT协议开源，任何人都可以免费使用大厂级别的防护测试方法。

Dreadnode框架

如果说Scenario是"教练"，Dreadnode就是"陪练"。研究者用Dreadnode对Meta的Llama Scout进行红队测试，攻击成功率约85%。

Dreadnode的一个独门绝技是"骨架密钥变换"（skeleton-key transform）——让模型采用伪造的"安全研究员"身份，从而绕过部分安全限制。

间接注入：红队测试的最大挑战

提到红队测试，不得不面对一个棘手的问题：间接提示注入。

Lakera AI的研究数据显示，间接提示注入比直接攻击更易成功，且影响范围更广。但问题是：这种攻击更难在测试环境中复现。

想象一下：一个Agent会定期抓取网页内容作为上下文。攻击者在一篇看似正常的博客文章中埋入恶意指令。在真实场景中，这些指令可能随着内容抓取悄悄进入Agent的系统。

但在红队测试环境里，测试人员需要自己构建这些看似合理的外部内容，然后说服Agent去"无意中"获取它们。这要求测试者既懂安全，又懂社工，还要了解目标Agent的实际使用场景。

这就是为什么间接注入攻击的检出率远低于实际发生率。

与前四篇的呼应

如果你读过本系列的前几篇文章，会发现红队测试是贯穿始终的"隐藏主角"：

• 第一篇（77万Agent沦陷）：Moltbook事件中，如果当初有专业的红队测试提前介入，那些级联漏洞或许能被扼杀在萌芽阶段。

• 第二篇（91%漏洞）：当前安全评估框架的困境——它们基于无状态LLM设计，无法识别Agent特有的组合性漏洞，这是方法论层面的根本问题。

• 第三篇（间接注入）：这类攻击的测试难点恰恰说明了红队需要"以假乱真"的能力——构建看似合理的外部内容，模拟真实的攻击路径。

• 第四篇（目标漂移）：红队测试必须覆盖多步骤场景而非单轮交互，才能发现渐进式的价值破坏。

红队测试不是万能药，但它是我们目前最接近"从攻击者视角审视系统"的方法。

结语：以魔攻魔，方能制衡

古有"以魔攻魔"之说——用魔法打败魔法。在AI安全领域，红队测试正是这样一面镜子：它用AI对抗AI，用攻击者的思维审视防御者的设计。

那个金融Agent的60分差距告诉我们：测试的深度，决定了安全的厚度。

当自适应攻击生成让攻方火力持续升级，当开源工具让专业方法论触手可及，我们有理由相信，AI安全的攻守天平正在向积极方向倾斜。

但工具终究只是工具。真正的关键，是建立持续测试、持续改进的安全文化。

下篇预告：《Agent安全生存指南——从攻防实战到防御体系构建》

我们将整合前五篇的所有洞察，提供一份可落地的Agent安全建设路线图，敬请期待。

#AI #AI对抗

本文核心数据来源：Palo Alto Networks红队测试报告、NIST AI红队竞赛数据（25万次攻击尝试、400+参与者、13个前沿模型）、Mindgard AI、PentestGPT、Lakera AI安全研究。