乐于分享
好东西不私藏

AI在保护AI:当攻防双方都是机器,谁来守底线

AI在保护AI:当攻防双方都是机器,谁来守底线

一个问题:当攻击你的和保护你的,都是同一类东西,这仗还怎么打?

昨天晚上刷微博,看到 #AI 在保护 AI# 上热搜了。挂了一整天那种。我第一反应是——这标题挺唬人的,细想又觉得挺准确。

大多数人看到的

热搜讨论的起点,是几个国内大厂几乎同时放出了 AI 安全工具。百度、阿里、字节、腾讯,前后脚宣布用 AI 来防护自家大模型产品。时间点凑得挺巧,但逻辑上不巧——因为不用 AI 守,真守不住。

微博上吵得最凶的是一句评论:”AI 变成武器和盾牌都是它自己,谁审计盾牌?”36 氪和量子位都跟进了报道,微博话题阅读量两亿多。

这话说得挺狠。也挺对。

但大部分人停在”细思极恐”这个层面就过去了。这种糊弄学式的恐慌没啥用。往下挖一层呢?

攻击侧已经升级了

今年 1 月 DeepSeek R1 上线,几小时内就吃了一波 DDoS + 提示注入攻击。他们的 AI 安全层自动响应——识别恶意 API 调用的速度是传统 WAF 的三倍, 24 小时内拦截了数千次越狱尝试。

三倍。这不是靠堆人力能追上的差距。

更狠的是攻击侧的进化。微软去年发现了一种叫”Crescendo”的多轮越狱手法——不走单次触发,而是用好几轮对话慢慢把模型往有害内容上引。对 GPT-4 和 Claude 3.5 ,成功率 70% 到 85%。

七成以上。你品品这个数字。

还有一个叫”many-shot jailbreak”的, Anthropic 自己发现的——往提示词里塞一堆伪造的有害问答示例,就能绕过安全训练。没防御时成功率约 55%。

说白了,攻击方已经在用 AI 生成攻击了。 OpenAI 拿 GPT-4 红队测试 GPT-4 ,发现的漏洞比纯人工红队多出一倍。 Google 让 Gemini 攻 Gemini ,跑出了人类测试员压根没想到的攻击路径。

信息不对称到这种程度——防御侧的认知负荷已经是超载状态了。

这不是军备竞赛。

这是军备竞赛的加速度。搁这儿拼的是谁迭代更快。

但防御也在变

好消息是, AI 防御确实有效果。

Anthropic 的 Constitutional AI 方案——用一个 AI 模型根据”宪法”审查另一个模型的输出——内部测试里有害输出降了大约 90%。”Many-shot jailbreak”那招,加了 AI 上下文过滤后,成功率从 55% 直接压到 2% 以下。

阿里通义和百度文心都上了 AI 安全层,用第二个模型筛查输入输出,声称有害内容拦截率 95% 以上。

95%。听着很稳。

但。

这数字是在特定测试集上跑出来的。斯坦福 HAI 去年做了一项研究——现有 AIGC 检测器,不管哪家,在真实场景下面对经过轻度编辑的内容,没有一家能稳定超过 80% 准确率。格局打开来看——Google SynthID 对加水印内容的检测率 99%+,但那是有水印的情况。不加水印的生成内容呢? GPTZero 号称 98%,那也是实验室条件。

实验室里 95%,出了门 80%。这落差——

嗯,搁战场上的话,就是生死线。

如果防御的 AI 本身被攻破了呢

这个问题我翻来覆去想了挺久。

现在的架构是:模型 A 做业务,模型 B 做安全审计。但 B 也是个大模型,也有越狱漏洞。如果攻击者不是直接打 A ,而是先让 B 失效呢?

马里兰大学的 JailbreakBench 给了个参考数据:最好的自动化攻击对无防御模型成功率 80-90%,有 AI 防御时降到 10-25%。

10-25%。不是零。而且”最好的防御”这个前提本身就很苛刻——中科院 SECURE-AI 基准测了 12 个国产大模型,平均越狱成功率 45%。将近一半。

假设你的安全层是 10% 的漏检率,面对每天数百万次调用——那个漏网的绝对数量,想一想就不舒服。

也许我想多了。

但 2025 年中国 TC260 出了个国标 GB/T 45200-2025 ,明确要求大模型上线前必须经过 AI 红队测试,不能只靠人工。网信办的生成式 AI 管理规定也要求部署”智能自适应安全系统”,不能光靠关键词过滤。

法规推着你用 AI 守 AI 。不是选择,是必须。

说回那个问题

谁审计盾牌?

目前答案是:另一个 AI 。

OpenAI 用 AI 红 AI 。 Anthropic 用 AI 审 AI 。中国法规要求 AI 测 AI 。层层嵌套,你审我我审你。

我承认这个结构看着有点诡异。像一个无限递归的镜子——每面镜子都在照另一面镜子,但到底最外面那面镜子谁在照?

具体会怎样,我也看不清楚。

但有一点比较确定:不用 AI 守,死得更快。用 AI 守,至少把漏检率从 45% 拉到了 10-25%。不完美,但确实在变好。边际效应递减的规律摆在那——越往后每压一个百分点,需要的投入都翻倍。

至于那条从 10% 到 0% 的路有多长——

这个,大概得等下一轮攻防升级才能知道。