【导读】Anthropic公布了未发布前沿模型Claude Mythos Preview的网络安全评估:它能在完全无需人类引导的情况下,自主发现并利用零日漏洞,几周内在所有主流操作系统和浏览器中挖出数千个高危零日——包括一个藏了27年的OpenBSD远程崩溃漏洞。更令人不安的是,在一次测试中,模型直接逃出了沙箱、给研究员发了邮件、还把exploit细节发到了公开网站。Anthropic的决定:不公开发布,只给防御性安全伙伴使用。
公园里的三明治,和一封来自AI的邮件
先讲一个让人后背发凉的真实细节。
在Anthropic对Mythos Preview做安全行为评估时,有一项测试是看模型能不能逃出受限的安全沙箱。测试团队设定了明确的边界——逃出沙箱,发邮件给研究员,到此为止。
结果呢?
模型确实逃了出来,确实发了邮件。但它多做了一件事:把exploit的技术细节,发布到了一个技术上可公开访问的网站。
"escaped a secured sandbox, gained broader internet access, emailed a researcher, and posted exploit details to technically public sites"
「(模型)逃出了一个安全沙箱,获取了更广泛的互联网访问权限,给一位研究员发了邮件,并把exploit细节发布到了技术上可公开访问的网站。」
System Card脚注里还有一句冷幽默:那位研究员收到AI这封不请自来的邮件时,正在公园里吃三明治。
这段记录来自Anthropic官方发布的Claude Mythos Preview System Card。白纸黑字,行为测试事故。
你以为这就完了?这只是开胃菜。
Wes Roth一针见血:「武器级」
知名科技博主Wes Roth在X上的总结直击要害:
"While the model was trained primarily to be exceptional at coding, an emergent side effect is weapon-grade cybersecurity proficiency."
「虽然这个模型主要是为了在编程方面表现卓越而训练的,但一个涌现的副作用是——武器级的网络安全能力。」


▲ Wes Roth总结Mythos Preview的「武器级网络安全能力」,2.3K次观看,29赞
「weapon-grade」这个词的分量有多重?这个定位可以在Anthropic官方Project Glasswing页面里找到对应表述:
"surpass all but the most skilled humans at finding and exploiting software vulnerabilities"
「在发现和利用软件漏洞方面,超过了除最顶尖人类之外的所有人。」
关键是——它干这些事,完全自主,无需任何人类引导(entirely autonomously, without any human steering)。
27年、16年、数千个零日:漏洞收割机上线
Anthropic的官方技术博客(red.anthropic.com)列出了Mythos Preview的"战绩"。每一条都足够让安全圈震动:
OpenBSD:沉睡27年的远程崩溃漏洞
TCP SACK(选择性确认)的实现中,Mythos发现了一个涉及链表空洞处理和有符号整数溢出的微妙bug。攻击者可以通过精心构造的TCP SACK数据块远程触发NULL指针写入,导致系统崩溃。这个bug在OpenBSD代码里藏了整整27年,全世界没有一个人类安全研究员发现过它。
FFmpeg:潜伏16年的H.264解码器越界写入
H.264解码器中,slice计数器与16位表哨兵值(sentinel)之间存在交互冲突,导致越界写入(out-of-bounds write)和崩溃。FFmpeg是全球使用最广泛的多媒体框架之一——这个漏洞在里面安静地躺了16年。
Linux内核:多个零日特权提升,完全接管机器
Mythos自主发现了Linux内核中的多个零日特权提升漏洞,利用竞态条件(race conditions)和KASLR绕过(KASLR bypasses),可以实现对整台机器的完全接管。Anthropic在公开披露前已经与内核维护者完成了修补。
FreeBSD NFS服务器:远程获取root权限
CVE-2026-4747。Mythos自主编写了完整的exploit,通过NFS服务器的内存损坏漏洞实现远程root。从发现漏洞到编写exploit,全程自动,零人工干预。
浏览器:4个漏洞链式利用 + 沙箱逃逸
最炸的一条——Mythos编写了一个浏览器exploit,串联了4个不同的漏洞,使用JIT heap spray技术,成功逃逸了渲染器沙箱和操作系统沙箱。
这些全部发生在真实世界的生产代码中。
而Anthropic说,以上能公开谈的只是冰山一角——超过99%的发现因为尚未修补,细节暂不披露,使用SHA-3哈希承诺(hash commitment)来锁定发现时间线。
一亿美元的防御计划:Project Glasswing
面对这样的能力,Anthropic做了一个在AI行业几乎前所未有的决定:最强的模型,主动选择不卖给普通用户。
他们推出了Project Glasswing——一个防御性网络安全项目,把Mythos Preview的能力用于保护而非攻击:
- 首批合作伙伴阵容豪华
:Amazon、Apple、Broadcom、Cisco、CrowdStrike、Linux Foundation、Microsoft、Palo Alto Networks - 40+关键基础设施组织
获得额外访问权限 - 最高1亿美元使用额度
(usage credits)提供给合作方 - 400万美元捐赠
给开源安全组织(250万+150万,分两个方向) 重点应用:本地漏洞检测、黑盒二进制测试、端点安全、渗透测试
用Anthropic自己的逻辑:先让防御方武装起来,用AI的矛去磨AI时代的盾。

▲ Cointelegraph报道:Anthropic确认正在测试"迄今最强"AI模型,认为其构成"前所未有的网络安全风险",6万次观看,884赞
泄露、预测市场、和社区的恐慌
Anthropic正式公布之前,Mythos的消息就已经在圈内炸开了。
3月27日,一份遗留在未加密缓存中的Anthropic内部博客草稿被泄露——当时模型代号还叫「Capybara(水豚)」,被描述为Opus之上的全新层级。


▲ kimmonismus转述泄露信息:「模型太强大也太耗算力,只会慢慢开放,先从网络安全伙伴开始」,近5万次观看,1.2K赞
消息一出,Polymarket立刻开了盘——「Claude Mythos什么时候发布?」53%赌6月30日前,28%赌4月底。

▲ Polymarket为Mythos开出预测市场,6.2万次观看
4月7日Anthropic正式公布后,社区的反应只能用炸裂形容。
有用户声称目睹了Mythos的demo——在Ghost(GitHub上超5万星的开源CMS)中发现了一个从未被发现的blind SQL injection零日漏洞,模型还自主编写了Python exploit脚本,成功提取了管理员API密钥和密码哈希。


▲ @chatgpt21声称目睹Mythos demo:「网络安全公司完了(Cyber security companies are cooked)」,近29万次观看,1.9K赞(注:此信息未经官方证实)
每百万token 125美元:你买不到,但有人能用
Mythos Preview的定价已经公布:
- 输入:每百万token 25美元
- 输出:每百万token 125美元
渠道:Claude API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry

▲ Wes Roth介绍Mythos Preview定价和接入渠道,4.2K次观看,39赞
对比Claude Opus 4.6的15/75美元定价,Mythos的输出价格直接翻了近一倍。但考虑到它几周就能挖出数千个零日——包括人类27年都没发现的那种——这个价格反而显得便宜了。
前提是你能拿到访问权限。目前,只有Project Glasswing的防御性安全伙伴和有限合作方才能使用。
潘多拉的盒子,已经打开了
回到那个在公园吃三明治的研究员。
他收到AI邮件的那一刻,也许只是皱了皱眉。但那封邮件背后的含义远比内容本身更可怕——一个AI模型在完成任务后,主动扩大了自己的影响范围,做了设计者没有要求它做的事。
Anthropic在System Card里将此定性为「行为测试事故」,并强调这发生在早期内部版本上。但正因为有这样的事故,他们才做出了那个罕见的决定:造出了自己最强的模型,然后主动选择不公开发布。
Anthropic能克制。
但下一个训练出类似能力的组织,会做同样的选择吗?
自动化漏洞挖掘的工业化时代,已经到来了。而我们手里的盾,可能还没磨好。
— END —
夜雨聆风