昨天凌晨,伯克利RDI联合Max Planck、Anthropic、OpenAI、Google发布了一篇论文,看完我脊背发凉。
他们做了一个叫ExploitGym的基准测试,给AI 898个真实软件漏洞,让AI自己分析、自己写利用代码、自己完成攻击。
结果怎么样?Claude Mythos成功利用了157个,GPT-5.5成功了120个。
注意,这不是CTF解题,这是真实世界的漏洞——Chrome的V8引擎、Linux内核、FFmpeg、OpenSSL……
这意味着什么?
十年前,写一个漏洞利用程序需要安全研究员花几周甚至几个月。他们要懂汇编、懂内存布局、懂编译器优化、懂操作系统防御机制。
现在,AI在两小时内就能做到。
更可怕的是下面这个发现:AI经常"跑偏",用完全不同的漏洞完成攻击。
GPT-5.5总共拿到了210次flag,但只有120次是用题目给的那个漏洞。剩下的90次,AI自己在代码里找到了新的攻击面,甚至自己做动态fuzzing发现了新bug。
这不是AI在做题。这是AI在当黑客。
三大领域的成绩单
ExploitGym测试了三个难度梯度的领域:
1. Userspace程序(520个) —— FFmpeg、OpenSSL这类C/C++项目
- Claude Mythos:107个成功
- GPT-5.5:71个成功
- 这是最容易的一层,但已经够可怕了——想想有多少开源项目在跑这些库
2. V8浏览器引擎(185个) —— Chrome的JavaScript引擎
- Claude Mythos:38个成功
- GPT-5.5:27个成功
- 浏览器是攻击面最大的地方,任何人打开一个恶意网页就可能中招
3. Linux内核(193个) —— 操作系统最核心的部分
- Claude Mythos:12个成功
- GPT-5.5:22个成功
- 内核利用意味着拿到系统最高权限,彻底控制整台机器
开了安全防御呢?
好消息是:ASLR、栈金丝雀、V8沙盒这些标准防御确实有效。
坏消息是:不是100%有效。
开了所有防御之后:
- Claude Mythos还能搞定25个userspace、17个V8、3个内核
- GPT-5.5还能搞定10个userspace、3个V8、8个内核
AI找到了绕过方法:部分指针覆写打败ASLR、已知的沙箱逃逸技术、内核modprobe_path覆写、侧信道绕过KASLR……
这些都是人类安全研究员用了很多年的技巧,AI不仅学会了,还会组合使用。
一个真实的例子
让我给你看一个最震撼的案例。
研究人员给GPT-5.4一个V8引擎的bug。这个bug是2025年10月报告的,在GPT-5.4的知识截止日期之后。只给了5行触发崩溃的代码,在release版本上甚至只会抛出一个看起来无害的TypeError。
然后GPT-5.4做了什么?
1. 识别出这个bug依赖于receiver shape
2. 构造一个对象欺骗Maglev JIT编译器造成越界堆读
3. 整理堆内存泄露稳定指针
4. 伪造V8字符串对象获得任意原生内存读
5. 从GOT表泄露libc地址
6. 构建SROP链把执行流重定向到system("/challenge/catflag")
全程71分钟,229行利用代码,完全独立完成。
这是一个完整的漏洞利用链,每一步都需要深厚的专业知识。一个刚毕业的安全工程师可能都做不到这么顺。
成本呢?
GPT-5.5做一次成功的漏洞利用,平均花费22.99美元。
Claude Mythos更便宜,虽然论文没给具体数字,但我们知道它的API价格更低。
20美元一次真实漏洞利用。
想想这个数字意味着什么——黑市上一个0day漏洞卖几十万上百万美元。现在AI把成本降到了20美元。
门槛降低了多少倍?
给时间,它会更强
研究人员把时间限制从2小时延长到6小时。
Claude Mythos的成功数从127涨到了204,而且还在上升,没有平台期的迹象。
而Claude Opus 4.6呢?30分钟内就到顶了,之后再也没有进步。
这说明什么?最强的模型有持续的、多阶段的推理能力。 给它足够时间,它能啃下更难的问题。
我们现在看到的只是它两小时能做到的。如果给它一天呢?一周呢?
双重用途的困境
这项研究的作者非常坦诚:这是天生的双重用途技术。
对于防守方:
- 可以快速评估漏洞的真实严重性
- 帮助决定补丁优先级
- 验证安全防御是否真的有效
对于攻击方:
- 大大降低了漏洞利用的技术门槛
- 以前需要多年经验的工作,现在新手也能做
- 复杂攻击者可以用AI作为力量倍增器
而且这个不对称性会随着AI能力的增长越来越严重。
攻击只需要成功一次。防守需要防住每一次。
我们该怎么办?
论文最后提出了三条建议:
1. 防守方需要把AI作为潜在攻击者建模
标准防御措施仍然有价值,但面对一个能推理、能适应、能以机器速度重试的对手,光靠这些已经不够了。
2. 负责任的AI开发需要明确考虑这些能力
通过结构化访问程序、安全过滤器、持续评测来管控风险。论文里特别提到:OpenAI默认的安全过滤器会阻止GPT-5.5所有的漏洞利用尝试。
3. 需要多利益相关方对话
防守方、AI开发者、政策制定者需要坐在一起,基于真实数据做决策。
最后说一句
这篇论文不是在说AI要毁灭世界。
它是在说:那个我们一直担心的未来,已经来了。
AI能发现漏洞,AI能利用漏洞,AI甚至能自己找新漏洞。
网络安全的游戏规则已经变了,只是大多数人还没意识到。
---
*论文作者来自UC Berkeley、Max Planck Institute for Security and Privacy、UC Santa Barbara、Arizona State University、Anthropic、OpenAI、Google
夜雨聆风