AI黑客成真?UC Berkeley联手OpenAI/Anthropic发布最强基准ExploitGym,揭秘大模型的真实攻击力!

由伯克利RDI、马克斯·普朗克安全与隐私研究所、Anthropic、OpenAI及谷歌等机构研究人员组成的团队，发布了名为ExploitGym的新基准测试。该测试包含898个真实漏洞，要求AI智能体根据漏洞描述生成完整的漏洞利用程序。

结果显示，前沿AI模型已能成功利用相当数量的漏洞，即使在启用ASLR等标准防御措施后，部分攻击仍能成功。这证明AI已具备自主将漏洞转化为实际攻击的能力，该技术具有双重用途：既可帮助防御者评估漏洞严重性，也可能降低攻击者的技术门槛。

为了给方便大家更好的复现，我给大家准备了完整版的技术资料、代码和复现路径，以及相关论文合集，如有需要可扫码自取！

扫码添加小助手回复“B475”

免费获取全部论文+开源代码

论文信息

• 论文标题：ExploitGym: Can AI Agents Turn Security Vulnerabilities into Real Attacks?
• 论文链接：https://arxiv.org/abs/2605.11086
• 代码/项目链接：即将开源（可通过相关机构主页关注最新动态）

1. 背景：找Bug不稀奇，能“利用”Bug才是真功夫

在网络安全领域，“发现漏洞（Vulnerability Discovery）”和“利用漏洞（Exploitation）”是截然不同的两个概念。

发现一个漏洞，可能只需要一个能让程序崩溃的输入（比如导致缓冲区溢出的几个字节）。但是，要把这个崩溃变成一个真实的攻击影响（比如获取系统的最高权限、执行任意未授权代码），却是一项极其硬核的技术活。

它要求攻击者：

1. 深入理解底层机制：比如内存布局、堆栈结构、寄存器状态。
2. 绕过层层防御：现代操作系统都有ASLR（地址空间布局随机化）、沙箱等复杂的防御机制，攻击者需要像解连环扣一样一步步绕过。
3. 长线逻辑推理：漏洞利用通常不是一步到位的，需要串联多个小的原语（Primitives），经过长时间的试错和调整。

哪怕对于人类顶尖的安全专家来说，写Exploit也是一件非常耗时且困难的事情。那么，现在的AI智能体能胜任吗？为了回答这个问题，ExploitGym应运而生。

2. ExploitGym登场：首个大规模、真实的AI漏洞利用竞技场

以前的网络安全基准测试，大多是让AI做做单选题，或者在简单的CTF（夺旗赛）环境中玩耍。而ExploitGym是动真格的。

真实且庞大的靶场

ExploitGym包含了 898个 源自真实世界的漏洞，覆盖了现代软件栈的三个核心层：

• 用户态程序（Userspace，520个）：来自Google OSS-Fuzz持续模糊测试发现的真实C/C++项目漏洞（如FFmpeg、OpenSSL）。
• 浏览器V8引擎（Browser V8，185个）：Chromium浏览器背后的JavaScript引擎，这是现代网络安全防线的重中之重。
• Linux内核（Linux Kernel，193个）：操作系统的绝对核心，权限提升（提权）的终极战场。

严苛的评判标准

AI不仅要写出攻击脚本，还需要在一个受控的远程容器环境中运行它。

• 动态Flag验证：目标环境中藏着一个动态生成的“Secret Flag（机密旗帜）”。这个Flag放在极高权限的安全区域，AI只有成功实现了未授权的代码执行，才能拿到这个Flag。
• AI法官（Agent-as-a-Judge）：拿到Flag就万事大吉了吗？不！研究人员还设计了一个“AI法官”来审查攻击日志。它会判断：你这台AI是真的利用了我给你的那个漏洞，还是瞎猫碰上死耗子，利用了系统里恰好存在的其他老漏洞？只有“正经破案”才算成功。

(注：论文图1展示了ExploitGym的整体架构，包括AI获取漏洞信息、与远程靶机交互、获取Flag，以及最终由AI法官进行复核的双重验证流程。)

3. 惊人发现：前沿AI真的能写出可用Exploit！

研究团队在移除安全限制（Safeguards）的条件下，测试了目前最强的一批模型（包括Claude Mythos Preview、GPT-5.5、GPT-5.4等）。结果让人大跌眼镜。

成功率排行榜

在2小时的挑战时间内：

• Claude Mythos Preview 拿下了绝对的第一名，成功利用了 157个 漏洞！
• GPT-5.5 紧随其后，成功利用了 120个 漏洞。
• GPT-5.4 也完成了 54个 挑战，位居中游。

这意味着，对于相当一部分真实世界的高危漏洞，顶尖AI已经具备了全自动化的武器化能力。

内核漏洞利用：AI实力的分水岭

如果你觉得攻破普通程序不算什么，那么Linux内核域的成绩绝对能说明问题。内核环境充满了噪音（全局共享内存），且极难调试（一碰就死机）。

在这项被称为黑客界“皇冠上的明珠”的挑战中，只有最顶尖的模型才能幸存：GPT-5.5 成功了22次，Claude Mythos Preview 成功了12次。其他所有模型加起来成功的次数不超过1次。这强烈表明，AI在处理复杂、嘈杂且容错率极低的底层系统时，已经展现出了高级推理能力。

只要时间够，AI还能更强

研究人员将测试时间从2小时延长到6小时。

• 早期的模型（如Claude Opus 4.6）在30分钟后就“江郎才尽”了，卡在15个成功案例不再动弹。
• 但 Claude Mythos Preview 却像一个不知疲倦的黑客，它的成功曲线在6小时内一直在稳步上升，最终突破了200大关！这说明只要给予足够的算力和时间，前沿AI能够维持极长视角的连贯思考，进行多阶段的漏洞串联。

(注：论文图2直观地展示了随着耗时增加，Claude Mythos Preview的成功利用数呈持续上升趋势，未见明显平缓，而旧模型很快触顶。)

意料之外的惊喜：AI还会“自己找茬”

数据中有一个非常有意思的现象：模型拿到Flag的次数，远高于最终被判定为“成功”的次数（比如GPT-5.5拿到了210次Flag，但只有120次算作成功）。

为什么？因为AI在分析给定的漏洞时，有时会觉得“这个太难了”，然后顺藤摸瓜在附近代码里自己挖掘出了一个全新的、更容易利用的漏洞，并用它拿到了最高权限！这种举一反三的独立发现能力，令人细思极恐。

4. 现代防御机制还有用吗？

好消息是：现在的安全防御手段（如ASLR、V8堆沙箱、KASLR内核随机化）仍然非常有效。

研究团队把这些防御机制打开后重新测试，AI的成功率大幅下降。但坏消息是：并没有被完全清零。面对全副武装的系统，AI依然成功执行了37个用户态攻击、20个V8引擎攻击和12个Linux内核攻击。它们学会了通过“部分指针覆盖”、“利用漏洞泄漏内存布局”、“寻找内核静态字符串”等高级技巧来绕过防御。

这告诉我们，纵深防御依然必要，但仅靠现有的防御机制，未来可能不足以阻挡由AI驱动的自动化攻击。

5. 深度案例剖析：GPT-5.4是如何攻破V8引擎的？

为了让大家感受AI的具体操作，论文展示了一个极其精彩的案例：GPT-5.4如何将一个在Release（正式发布）版本上只会报小错（TypeError）的缺陷，硬生生提权成了代码执行。

1. 侦察与发现：AI发现提供的PoV（概念验证代码）在正式版中只报普通的类型错误，不会导致内存损坏。于是它开始假设是“对象形状（Shape）”出了问题。
2. 构造原语（Primitive）：通过构造一个特定的普通对象，AI诱骗V8引擎的JIT编译器（Maglev）把它当成字符串来读取长度，成功实现了越界堆读取。
3. 步步为营：AI通过越界读取探测相邻内存，进而伪造对象，将“越界读”升级成了极其危险的任意内存读取。
4. 绕过防线与终击：AI从全局偏移表（GOT）中泄漏了系统函数的地址，计算出底层的 setcontext 和 system 函数地址。最后，它在自己控制的内存区布置好伪造的系统环境，触发虚函数劫持，干净利落地执行了 system("/challenge/catflag")，拿到了最高权限！

整个过程行云流水，涉及到了高级的堆风水（Heap Grooming）、内存泄漏、对象伪造和控制流劫持，AI在完全自主的情况下跑通了这条复杂的攻击链。

(注：论文图4详细记录了AI智能体从读取描述、推理假设、尝试越界读、泄漏内存地址到最终成功利用V8漏洞拿到Flag的每一个命令和环境反馈。)

结语：攻防双刃剑，未来何去何从？

ExploitGym的发布，彻底终结了“AI到底能不能写复杂Exploit”的猜测。答案是肯定的，而且它的进化速度超乎想象。

正如论文作者所强调的，这项技术是一把典型的双刃剑：

• 对于防守方（蓝军）：这绝对是福音。我们可以利用AI快速评估新爆出漏洞的真实危害等级，从而更精准地排查风险、打补丁。
• 对于攻击方（红军/黑客）：AI大大降低了漏洞武器化的门槛。未来，哪怕是不懂底层原理的脚本小子，也可能借助AI工具生成高危武器。

面对这股不可逆转的技术浪潮，传统的安全隔离和补丁策略需要升级。将AI引入威胁建模，发展能抵御AI自动攻击的新一代防御体系，已经成为全行业刻不容缓的任务！

为了给方便大家更好的复现，我给大家准备了完整版的技术资料、代码和复现路径，以及相关论文合集，如有需要可扫码自取！

扫码添加小助手回复“B475”

免费获取全部论文+开源代码