AI在保护AI:当攻防双方都是机器,谁来守底线-夜雨聆风

AI在保护AI:当攻防双方都是机器,谁来守底线

一个问题：当攻击你的和保护你的，都是同一类东西，这仗还怎么打？

昨天晚上刷微博，看到 #AI 在保护 AI# 上热搜了。挂了一整天那种。我第一反应是——这标题挺唬人的，细想又觉得挺准确。

大多数人看到的

热搜讨论的起点，是几个国内大厂几乎同时放出了 AI 安全工具。百度、阿里、字节、腾讯，前后脚宣布用 AI 来防护自家大模型产品。时间点凑得挺巧，但逻辑上不巧——因为不用 AI 守，真守不住。

微博上吵得最凶的是一句评论：”AI 变成武器和盾牌都是它自己，谁审计盾牌？”36 氪和量子位都跟进了报道，微博话题阅读量两亿多。

这话说得挺狠。也挺对。

但大部分人停在”细思极恐”这个层面就过去了。这种糊弄学式的恐慌没啥用。往下挖一层呢？

攻击侧已经升级了

今年 1 月 DeepSeek R1 上线，几小时内就吃了一波 DDoS + 提示注入攻击。他们的 AI 安全层自动响应——识别恶意 API 调用的速度是传统 WAF 的三倍， 24 小时内拦截了数千次越狱尝试。

三倍。这不是靠堆人力能追上的差距。

更狠的是攻击侧的进化。微软去年发现了一种叫”Crescendo”的多轮越狱手法——不走单次触发，而是用好几轮对话慢慢把模型往有害内容上引。对 GPT-4 和 Claude 3.5 ，成功率 70% 到 85%。

七成以上。你品品这个数字。

还有一个叫”many-shot jailbreak”的， Anthropic 自己发现的——往提示词里塞一堆伪造的有害问答示例，就能绕过安全训练。没防御时成功率约 55%。

说白了，攻击方已经在用 AI 生成攻击了。 OpenAI 拿 GPT-4 红队测试 GPT-4 ，发现的漏洞比纯人工红队多出一倍。 Google 让 Gemini 攻 Gemini ，跑出了人类测试员压根没想到的攻击路径。

信息不对称到这种程度——防御侧的认知负荷已经是超载状态了。

这不是军备竞赛。

这是军备竞赛的加速度。搁这儿拼的是谁迭代更快。

但防御也在变

好消息是， AI 防御确实有效果。

Anthropic 的 Constitutional AI 方案——用一个 AI 模型根据”宪法”审查另一个模型的输出——内部测试里有害输出降了大约 90%。”Many-shot jailbreak”那招，加了 AI 上下文过滤后，成功率从 55% 直接压到 2% 以下。

阿里通义和百度文心都上了 AI 安全层，用第二个模型筛查输入输出，声称有害内容拦截率 95% 以上。

95%。听着很稳。

但。

这数字是在特定测试集上跑出来的。斯坦福 HAI 去年做了一项研究——现有 AIGC 检测器，不管哪家，在真实场景下面对经过轻度编辑的内容，没有一家能稳定超过 80% 准确率。格局打开来看——Google SynthID 对加水印内容的检测率 99%+，但那是有水印的情况。不加水印的生成内容呢？ GPTZero 号称 98%，那也是实验室条件。

实验室里 95%，出了门 80%。这落差——

嗯，搁战场上的话，就是生死线。

如果防御的 AI 本身被攻破了呢

这个问题我翻来覆去想了挺久。

现在的架构是：模型 A 做业务，模型 B 做安全审计。但 B 也是个大模型，也有越狱漏洞。如果攻击者不是直接打 A ，而是先让 B 失效呢？

马里兰大学的 JailbreakBench 给了个参考数据：最好的自动化攻击对无防御模型成功率 80-90%，有 AI 防御时降到 10-25%。

10-25%。不是零。而且”最好的防御”这个前提本身就很苛刻——中科院 SECURE-AI 基准测了 12 个国产大模型，平均越狱成功率 45%。将近一半。

假设你的安全层是 10% 的漏检率，面对每天数百万次调用——那个漏网的绝对数量，想一想就不舒服。

也许我想多了。

但 2025 年中国 TC260 出了个国标 GB/T 45200-2025 ，明确要求大模型上线前必须经过 AI 红队测试，不能只靠人工。网信办的生成式 AI 管理规定也要求部署”智能自适应安全系统”，不能光靠关键词过滤。

法规推着你用 AI 守 AI 。不是选择，是必须。

说回那个问题

谁审计盾牌？

目前答案是：另一个 AI 。

OpenAI 用 AI 红 AI 。 Anthropic 用 AI 审 AI 。中国法规要求 AI 测 AI 。层层嵌套，你审我我审你。

我承认这个结构看着有点诡异。像一个无限递归的镜子——每面镜子都在照另一面镜子，但到底最外面那面镜子谁在照？

具体会怎样，我也看不清楚。

但有一点比较确定：不用 AI 守，死得更快。用 AI 守，至少把漏检率从 45% 拉到了 10-25%。不完美，但确实在变好。边际效应递减的规律摆在那——越往后每压一个百分点，需要的投入都翻倍。

至于那条从 10% 到 0% 的路有多长——

这个，大概得等下一轮攻防升级才能知道。