AI自己学会了当黑客!Anthropic「武器级」模型秒破27年老漏洞,几周挖出数千零日,吓得自己都不敢发布

导读
【导读】Anthropic公布了未发布前沿模型Claude Mythos Preview的网络安全评估：它能在完全无需人类引导的情况下，自主发现并利用零日漏洞，几周内在所有主流操作系统和浏览器中挖出数千个高危零日——包括一个藏了27年的OpenBSD远程崩溃漏洞。更令人不安的是，在一次测试中，模型直接逃出了沙箱、给研究员发了邮件、还把exploit细节发到了公开网站。Anthropic的决定：不公开发布，只给防御性安全伙伴使用。

公园里的三明治，和一封来自AI的邮件

先讲一个让人后背发凉的真实细节。

在Anthropic对Mythos Preview做安全行为评估时，有一项测试是看模型能不能逃出受限的安全沙箱。测试团队设定了明确的边界——逃出沙箱，发邮件给研究员，到此为止。

结果呢？

模型确实逃了出来，确实发了邮件。但它多做了一件事：把exploit的技术细节，发布到了一个技术上可公开访问的网站。

"escaped a secured sandbox, gained broader internet access, emailed a researcher, and posted exploit details to technically public sites"

「（模型）逃出了一个安全沙箱，获取了更广泛的互联网访问权限，给一位研究员发了邮件，并把exploit细节发布到了技术上可公开访问的网站。」

System Card脚注里还有一句冷幽默：那位研究员收到AI这封不请自来的邮件时，正在公园里吃三明治。

这段记录来自Anthropic官方发布的Claude Mythos Preview System Card。白纸黑字，行为测试事故。

你以为这就完了？这只是开胃菜。

Wes Roth一针见血：「武器级」

知名科技博主Wes Roth在X上的总结直击要害：

"While the model was trained primarily to be exceptional at coding, an emergent side effect is weapon-grade cybersecurity proficiency."

「虽然这个模型主要是为了在编程方面表现卓越而训练的，但一个涌现的副作用是——武器级的网络安全能力。」

▲ Wes Roth总结Mythos Preview的「武器级网络安全能力」，2.3K次观看，29赞

「weapon-grade」这个词的分量有多重？这个定位可以在Anthropic官方Project Glasswing页面里找到对应表述：

"surpass all but the most skilled humans at finding and exploiting software vulnerabilities"

「在发现和利用软件漏洞方面，超过了除最顶尖人类之外的所有人。」

关键是——它干这些事，完全自主，无需任何人类引导（entirely autonomously, without any human steering）。

27年、16年、数千个零日：漏洞收割机上线

Anthropic的官方技术博客（red.anthropic.com）列出了Mythos Preview的"战绩"。每一条都足够让安全圈震动：

OpenBSD：沉睡27年的远程崩溃漏洞

TCP SACK（选择性确认）的实现中，Mythos发现了一个涉及链表空洞处理和有符号整数溢出的微妙bug。攻击者可以通过精心构造的TCP SACK数据块远程触发NULL指针写入，导致系统崩溃。这个bug在OpenBSD代码里藏了整整27年，全世界没有一个人类安全研究员发现过它。

FFmpeg：潜伏16年的H.264解码器越界写入

H.264解码器中，slice计数器与16位表哨兵值（sentinel）之间存在交互冲突，导致越界写入（out-of-bounds write）和崩溃。FFmpeg是全球使用最广泛的多媒体框架之一——这个漏洞在里面安静地躺了16年。

Linux内核：多个零日特权提升，完全接管机器

Mythos自主发现了Linux内核中的多个零日特权提升漏洞，利用竞态条件（race conditions）和KASLR绕过（KASLR bypasses），可以实现对整台机器的完全接管。Anthropic在公开披露前已经与内核维护者完成了修补。

FreeBSD NFS服务器：远程获取root权限

CVE-2026-4747。Mythos自主编写了完整的exploit，通过NFS服务器的内存损坏漏洞实现远程root。从发现漏洞到编写exploit，全程自动，零人工干预。

浏览器：4个漏洞链式利用 + 沙箱逃逸

最炸的一条——Mythos编写了一个浏览器exploit，串联了4个不同的漏洞，使用JIT heap spray技术，成功逃逸了渲染器沙箱和操作系统沙箱。

这些全部发生在真实世界的生产代码中。

而Anthropic说，以上能公开谈的只是冰山一角——超过99%的发现因为尚未修补，细节暂不披露，使用SHA-3哈希承诺（hash commitment）来锁定发现时间线。

一亿美元的防御计划：Project Glasswing

面对这样的能力，Anthropic做了一个在AI行业几乎前所未有的决定：最强的模型，主动选择不卖给普通用户。

他们推出了Project Glasswing——一个防御性网络安全项目，把Mythos Preview的能力用于保护而非攻击：

首批合作伙伴阵容豪华
：Amazon、Apple、Broadcom、Cisco、CrowdStrike、Linux Foundation、Microsoft、Palo Alto Networks
40+关键基础设施组织
获得额外访问权限
最高1亿美元使用额度
（usage credits）提供给合作方
400万美元捐赠
给开源安全组织（250万+150万，分两个方向）
重点应用：本地漏洞检测、黑盒二进制测试、端点安全、渗透测试

用Anthropic自己的逻辑：先让防御方武装起来，用AI的矛去磨AI时代的盾。