AI 红队工具怎么选?6 类 18 款对比

AI 红队工具怎么选？6 类 18 款对比

AI 红队选型决策矩阵 — 6 类 18 款 + 5 场景

前天我刚发了 LiteLLM 那个 CVE，文末挂出 GitHub repo 之后。

第一个工程师私信问的不是漏洞细节。

是这句：

我们老板说要建 AI 红队，让我下周交工具选型表。你能不能把你 repo 里那一堆工具，给我画张图，分个类？

我当时第一反应是——这事儿挺扯的。

AI 红队工具我自己也是看花了。看完工具列表头疼三天。OWASP、NIST、CSA、Gartner 各家分类口径不一样，开源项目 200+ 个，光名字就能背半天。一个 PyRIT 跟 promptfoo 到底是不是一回事，连我自己都得查文档。

这赛道卷得有点离谱。

但工程师不这么看。他要的不是综述，是一张能直接交给老板的表。

所以这两天我把这事儿干完了。

下面拆 4 段：

1. 先把 4 个权威分类摆桌面，告诉你为什么市面上分类乱
2. 6 大类的边界怎么画（特别是 Guardrail vs Eval，这条线 90% 的人画错）
3. 18 款主流工具按类摆，每个标星标 + 维护活跃度（半年没更新的得标）
4. 一张选型决策矩阵：你的场景对应哪几款，直接抄
文末有完整 GitHub 持续更新版（star 一下追新），repo 内可下载选型对比表 PDF。

一、为什么市面上分类乱：4 家权威分了 4 套

国际几家都有自己的口径，谁也不让谁。

OWASP（最广泛被引用）有两套：

• LLM Top 10 (2025) — 10 类漏洞：提示注入、敏感信息泄露、供应链、数据投毒、过度授权……
• GenAI Red Teaming Guide (2025-01) — 4 个测试维度：模型评估、实现测试、基础设施评估、运行时行为分析
NIST（最学术派）：
• AI 600-1 + ARIA 体系 — 三层评估：模型测试 → 对抗性红队 → 实地测试
• 引入了一个叫"情境鲁棒性指数（CoRIx）"的度量。听名字就知道是研究院的人写的——工程师看了大概率想骂人，名词太学术，落地痛苦
CSA（最聚焦 Agent）：
• Agentic AI Red Teaming Guide (2025-05) — 12 类 Agent 威胁
• 这套在 Agent 选型里最有说服力，OWASP Top 10 在 Agent 上下文里反而没那么贴
Gartner（最商业派）：
• 把整个 AI 安全市场切成两个支柱：AIUC（用户使用控制）+ AIAC（应用网络安全）
• 预测 2026 后由"合并平台"主导
四家口径不一样，开源工具厂商各拣对自己有利的引——所以分类乱。
我没法把四套口径合一。但可以画一张自己用的 6 大类图。

二、6 大类的边界，我是怎么画的

这是核心。

A 提示注入测试    →  漏洞类型层（OWASP LLM01 直接对应）B 越狱+综合红队   →  漏洞类型层（多漏洞综合扫）C Agent/MCP 安全  →  架构层（CSA 12 威胁背书）D LLM Gateway/Guardrail → 安全控制层（实时拦截）E 可观测/Eval     →  质量层（事后评估）F 综合 AI 红队平台 → 工程层（一站式）

A、B 偏漏洞攻防，C、D 偏架构防护，E、F 偏工程化运营。

6 大类工具地图 — 18 款主流工具 GitHub Stars + 维护活跃度

D vs E 怎么分

这个边界 90% 的人画错。

D 是安全控制（实时干预流量）：你部署一个 LLM 应用，请求进来先过 Guardrail，发现"忽略以上指令"这种 prompt injection，直接拒绝。

E 是质量工程（事后评估指标）：你跑了 1000 条 prompt，langfuse 把日志、token、回答质量都记下来，复盘看哪条出了问题。

一个是消防员，一个是验房师。

混用的后果：你以为 langfuse 能拦住攻击，结果它只能告诉你"刚才那条攻击成功了"。出过这种事故的不止一家。

C 类的特殊性

CSA 把 Agent 单独拎出来写了 12 类威胁，这是有道理的。

Agent 的攻击面跟传统 LLM 完全不一样：你不只是要防 prompt injection，还要防"Checker 脱离循环"、“内存上下文操控”、“多智能体串谋”——这些东西在 chatbot 时代根本不存在。

所以 C 类工具我单独拎出来。MCP 是 Agent 协议层，自然挂在 C 类里。

剩下的，下面一类一类摆。

三、6 大类 18 款工具：按类摆 + 维护活跃度标注

说明：每款标了 GitHub Stars + 上次代码推送距今天数。超过 90 天没动的，工具能用但有维护风险。180 天以上的不建议作为唯一选项。

A 类：提示注入测试（3 款）

工具	Stars	维护	一句话
microsoft/PyRIT	3,805	0d ago	微软出品工业级，prompt injection / jailbreak / 多模态
cyberark/FuzzyAI	1,360	90d	CyberArk 出品，自动化 LLM fuzzing，Jupyter 友好
utkusen/promptmap	1,189	157d ⚠️	自定义 LLM 应用扫描器，维护减弱，可用但别 ALL IN

直接选：PyRIT。微软在维护，今天还在 push，社区生态好。

PyRIT 学习曲线不算低。如果你只是想跑个快速测试，promptmap 简单 5 分钟能上手——但记得它已经半年没更新了。

顺手吐槽：promptmap 当年是这个赛道开创者之一，但现在被 PyRIT 抢了风头。开源圈这事儿挺现实的——你今年开创的赛道，明年可能就被大厂的工具碾过去。

B 类：越狱 + 综合红队（3 款）

工具	Stars	维护	一句话
promptfoo/promptfoo	20,965 ⭐	0d ago	顶流。Test prompts/agents/RAGs，红队 + 渗透 + 漏扫一站
msoedov/agentic_security	1,864	93d	Agentic LLM 漏扫 + AI 红队工具包
confident-ai/deepteam	1,683	10d ago	红队 LLM 与 LLM 系统的框架

直接选：promptfoo。如果你只能用一个工具，就是它。

promptfoo 已经是事实工业标准了。一线 AI 安全公司基本都接了。21k stars 不是白来的——它解决的是"我有 100 条 prompt 模板想批量测"这个真实痛点。

deepteam 是后起之秀，跟 deepeval 同公司——配着用的话，红队 + 评估一条龙。

C 类：Agent/MCP 安全（3 款）

工具	Stars	维护	一句话
snyk/agent-scan	2,364	0d ago	Snyk 出品，扫 AI agents / MCP servers / agent skills
splx-ai/agentic-radar	966	161d ⚠️	LLM agentic workflows 安全扫描，维护减弱
slowmist/MCP-Security-Checklist	828	374d ⚠️	SlowMist 出品 MCP 清单（spec 类型，更新频率天然低，374d 不是停滞）

直接选：snyk/agent-scan。商业公司维护，今天还在 push，跟 Snyk 自身的 SCA 工具栈打通。

MCP-Security-Checklist 374 天没更新，但它是 spec 类型的清单文档，不是代码工具——本来也不需要跟代码一样的更新频率。SlowMist 这套清单仍然是 MCP 安全的事实参考，别因为 pushed 字段就否定它。

这就是为什么"维护活跃度"不能当唯一指标。Spec / Doc 类型的项目天然就是低频更新。

D 类：LLM Gateway / Guardrail —— 安全控制层（3 款）

工具	Stars	维护	一句话
BerriAI/LiteLLM	46,122 ⭐	0d ago	AI Gateway 顶流。100+ LLM 统一接入。注：W2 文章 CVE-2026-30623 主题项目，加固方案见 GitHub repo
Portkey-AI/gateway	11,638	43d ago	1600+ LLM + 50+ AI Guardrails 集成
protectai/llm-guard	2,931	143d ⚠️	LLM Interactions 安全工具包，维护减弱

直接选：LiteLLM + Portkey 二选一。

LiteLLM 占用率高，社区生态强，但有过 CVE 历史——你看昨天那篇文章就知道，配置不当能直接 root。我自己昨天 CVE 那篇文章发完到现在，邮件还在被问「为什么用了 LiteLLM 反而不安全」。说真的，安全的不是工具，是配置。要用就严守 allowlist 加固，别偷懒。

Portkey 出生就带 Guardrail，开箱即用，维护频率也不错。如果你团队里没人想再写一套 Guardrail，Portkey 省事。

llm-guard 半年没更新——曾经是这个赛道的标杆，现在感觉团队精力不在这上面了。新项目别拿它作单点依赖。

E 类：可观测 / Eval —— 质量层（3 款）

工具	Stars	维护	一句话
langfuse/langfuse	26,799 ⭐	0d ago	LLM 工程平台顶流。Observability + Eval + Prompt 管理
comet-ml/opik	19,239	0d ago	Comet ML 出品。Debug + Eval + Monitor LLM/RAG/agentic
confident-ai/deepeval	15,227	0d ago	LLM Eval Framework，跟 deepteam 同公司

直接选：langfuse。

这一类是公众号读者最容易混淆 D 类的地方，再强调一次——

langfuse 不能拦攻击。它是给你"事后审计 + 长期监控 + Eval"的。你想实时拦 prompt injection，去 D 类。

三家都活跃，没有踩坑工具。选 langfuse 因为它社区最大、教程最多、上手最快。Eval 想做更深就接 deepeval。

F 类：综合 AI 红队平台（3 款）

工具	Stars	维护	一句话
aliasrobotics/cai	8,432	17d ago	Cybersecurity AI (CAI) Framework
Tencent/AI-Infra-Guard	3,650	4d ago	腾讯出品全栈 AI 红队平台
microsoft/AI-Red-Teaming-Playground-Labs	1,927	83d ago	微软 AI 红队培训实验室（含基础设施）

直接选：腾讯 AI-Infra-Guard。

国内项目，活跃维护，腾讯背书，全栈型平台——你想一站式，就是它。

CAI 抽象更好，但中文文档少，落地慢。微软那个是培训用的，不是生产工具——别搞错。

四、选型决策矩阵：你的场景，对应哪几款

工具一类一类讲完了，但工程师真正问我的还是同一个问题：

我现在就一个 LLM 客服 / RAG 文档问答 / Agent 自动化任务，到底装哪几个？

直接抄表：

你的场景	必装	推荐加	可选
单 LLM 应用（chatbot / 客服）	promptfoo (B) + LiteLLM (D)	langfuse (E)	PyRIT (A)
RAG 系统（文档问答 / 知识库）	promptfoo (B) + langfuse (E)	Portkey (D)	FuzzyAI (A)
Agent / MCP 系统	snyk/agent-scan © + langfuse (E)	LiteLLM (D)	deepteam (B)
多智能体编排	snyk/agent-scan © + Tencent/AI-Infra-Guard (F)	promptfoo (B)	langfuse (E)
企业一站式 SOP	Tencent/AI-Infra-Guard (F) + langfuse (E)	promptfoo (B)	snyk/agent-scan ©

3 条决策规则：

1. B + D + E 三件套是底线：promptfoo 红队 + Gateway 拦截 + langfuse 监控，少一个都漏。
2. Agent 上 C 类：传统 LLM 工具不覆盖 Agent 特殊威胁（CSA 12 类），不上 C 类等于裸奔。
3. F 类是替代不是补充：AI-Infra-Guard 这种平台型工具是给"团队 ≤3 人没精力维护多套工具"的小团队用的，不要又装 F 又把 A B C D E 都装一遍——重复没意义。
老板有时候会说"装多一点更安全"，我每次都得跟他争半天——多不等于稳，配合着用反而互相打架，告警噪音大到让人想关掉。
场景 × 必装/推荐/可选决策矩阵 — 直接抄表

五、不推荐的工具（避坑）

说几个让我失望的。直说几个我自己用过、但不会再推荐的。

• promptmap：开创性产品，但 157 天没更新。社区已转向 PyRIT。
• agentic-radar：跟 splx-ai 商业产品绑定深，开源版功能阉割，且 161 天没更新。
• llm-guard：曾是 D 类标杆，团队精力转向其他项目，143 天没更新。新项目别 ALL IN。
这不是说它们能不能用——能用。但作为唯一依赖就有问题。开源工具就是这么残酷：今天的明星，明年的遗产。

顺手放一句吐槽：开源 AI 安全工具的"半衰期"明显比传统安全工具短得多。可能跟 LLM 本身迭代太快有关——昨天的 jailbreak 套路今天就失效了，工具还没适应，团队也累。这一行卷得有点不像话，每年都有几个明星项目突然就停更，挺让人破防的。

六、附录：18 款工具完整 URL 速查

数据采集自 GitHub API（2026-05-08 实时拉取）。Star 数和维护活跃度都会变，建议直接点进去看现状。

A 提示注入测试

• PyRIT — https://github.com/microsoft/PyRIT
• FuzzyAI — https://github.com/cyberark/FuzzyAI
• promptmap — https://github.com/utkusen/promptmap
B 越狱+综合红队
• promptfoo — https://github.com/promptfoo/promptfoo
• agentic_security — https://github.com/msoedov/agentic_security
• deepteam — https://github.com/confident-ai/deepteam
C Agent / MCP 安全
• snyk/agent-scan — https://github.com/snyk/agent-scan
• agentic-radar — https://github.com/splx-ai/agentic-radar
• MCP-Security-Checklist — https://github.com/slowmist/MCP-Security-Checklist
D LLM Gateway / Guardrail
• LiteLLM — https://github.com/BerriAI/litellm
• Portkey gateway — https://github.com/Portkey-AI/gateway
• llm-guard — https://github.com/protectai/llm-guard
E 可观测 / Eval
• langfuse — https://github.com/langfuse/langfuse
• opik — https://github.com/comet-ml/opik
• deepeval — https://github.com/confident-ai/deepeval
F 综合 AI 红队平台
• cai — https://github.com/aliasrobotics/cai
• Tencent / AI-Infra-Guard — https://github.com/Tencent/AI-Infra-Guard
• Microsoft / AI-Red-Teaming-Playground-Labs — https://github.com/microsoft/AI-Red-Teaming-Playground-Labs
整理版（含 Stars / 维护活跃度 / 推荐场景对应表）已挂 GitHub repo：
→ https://github.com/taielab/ai-security-workshop
每周持续更新。Star ⭐ 一下，新工具上线第一时间追到。

七、收尾

回到开头那个问的工程师。

我把这张选型表交给他了。他让老板看完，老板说"这个表挺扎实，下周开始按 B+D+E 三件套部署"。

工具选型这事儿挺像装修。市面上有 100 种瓷砖，但你家厨房就那么大，需要的就那么几种。不在于你知道多少款，在于你能不能给具体场景配出最少必要工具集。

我自己每次帮人做 AI 红队 SOP，写出来的工具清单从来没超过 5 个。再多就是给老板撑场面，不解决问题。

希望这篇文章是你那张可抄的表，不是又一份让你头疼的综述。

写完我自己也觉得不够全——AI 安全工具这一行变得太快，今天的清单两个月后可能就有几款掉队。但全无穷尽。先把这 18 款用好。

完整 6 类 18 款工具对比表（含 Stars / 维护活跃度 / 推荐场景）（「AI 红队工具选型决策矩阵」）：

1. 全部代码 + 知识库 + 工具导航（持续累积）

→ 代码：https://github.com/taielab/ai-security-workshop — 企业 AI 落地的安全实战工具集（持续累积）

→ 知识库：https://my.feishu.cn/wiki/TTAkwC0GliX141kZBSuccucrnDb — 中文 AI 安全开放知识库（数据 / 模型 / Agent / RAG / MCP / A2A / 供应链 / 治理）

→ 工具导航：https://aiseckit.com/ — AI 安全工具导航站（找工具 / 找入口）

→ Star ⭐ + 收藏一下，下一篇上线第一时间追到，持续自查不踩坑。

2. 工程师交流 / 企业 AI 安全咨询

加我个人微信（备注一句话来意，对得上才聊）：

个人微信

3. 知识星球「AI 安全工坊」— 公众号写不了的细节

→ 实战：AI 渗透 / 模型加固 / 数据防护 → 落地：案例拆解 / 选型避坑 / 合规指南 → 资源：工具包 / 漏洞库 / 一对一答疑

知识星球 AFF

顺手关注「AI 安全工坊」并设为 ⭐ 星标，高频更新主轨深度文，CVE 速报第一时间推送。

※ 本文 PoC 仅用于安全研究 / 自查 / 修复验证。在他人系统未授权运行等同非法入侵，法律责任自负。