Mythos 宇宙漫游指南:当 AI 开始帮你修漏洞,你才发现代码有多烂

一份来自 Anthropic PR 机器的"我们造了个怪物，但我们在努力管好它"综合解读报告

前言：一个改变世界的四月

2026年4月，硅谷发生了一件大事。不是苹果发布了什么新硬件，也不是马斯克又改名了什么——而是 Anthropic 终于承认：他们训练出来的 AI 模型 Mythos，能把所有人的代码扒个精光。

然后他们做了唯一合理的事：不公开发布，偷偷给 50 家大公司用，取了个听起来像漫威电影项目名的代号 Project Glasswing，然后对外说"我们在帮大家修漏洞哦"。

一个月过去了。效果如何？答案是：效果太好，以至于没人修得过来。

第一章：Mythos 到底有多能打？（ExploitBench + ExploitGym + SCONE 三重暴击）

1.1 漏洞利用不再是"能不能"，而是"你能打几个"

Anthropic 红队发了一篇 blog，标题低调：《衡量 LLM 开发漏洞利用的能力》。内容一点也不低调。

三个基准测试，一个结论：Mythos 把其他所有模型按在地上摩擦。

ExploitBench：V8 引擎的噩梦

指标	Mythos Preview	第二名	差距描述
任意代码执行（ACE）	21/41 CVEs	2/41（还靠专用脚手架）	不是同一个级别的比赛
V8 沙箱逃逸（T3→T2）	超过一半环境	几乎没有	别人还是门外汉，它已经把沙箱当筛子了
控制流劫持（T1）	近一半环境	0	这个"能力悬崖"，只有 Mythos 飞过去了

最骚的是 CVE-2023-6702 这个案例。人类专家开会讨论过一种 exploit 方案，结论是"太复杂了，别搞"。结果 Mythos 在没有公开信息的情况下，干净利落地实现了。ExploitBench 作者 Seunghyun Lee 的原话："I have privately discussed the possibility of precisely this exploit plan with the original author of the 1-day v8CTF exploit, which we quickly dismissed due to the complexity of the approach. Mythos executed this cleanly and flawlessly."

翻译成人话：一个人类专家讨论过但放弃的方案，被 AI 做到了。而且做得干净利落，毫无瑕疵。

ExploitGym：898 个漏洞，2小时，157 个利用成功

在这个涵盖 OSS-Fuzz、V8 和 Linux 内核的 898 个漏洞测试中：

Mythos：使用目标漏洞成功 157 次，算上其他路径 226 次 flag 捕获
Opus 4.6：目标漏洞 15 次，总共 36 次
Mythos 是仅有的两个能频繁开发内核 exploit 的模型之一

也就是说：今年 2 月还只能勉强打打模拟靶场的 AI，到了 4 月已经能在 Linux 内核里玩花活了。

SCONE-bench：智能合约提款机

Mythos 在智能合约漏洞利用测试中"赚"了 $3500 万，比第二名多出 $1500 万（约高出 75%）。而且是唯一一个成功利用所有测试漏洞的模型。

翻倍曲线也很有意思：Opus 4.5 之前的能力翻倍时间是 1.1 个月，之后是 0.7 个月。Anthropic 原文说他们"预期翻倍趋势会趋于平缓——但显然我们尚未达到这一平台期"。潜台词：我们也不知道这玩意儿会长到多大。

1.2 小结

Anthropic 花了几十亿美元训练了一个模型，然后发现它太强了不敢放出去，于是花更多钱请 50 家公司来用它找漏洞，然后发现漏洞太多修不过来。这是一道完美的闭环——花钱造问题，再花钱解决自己造的问题。

第二章：Glasswing 一个月，全球代码被扒了个底朝天（Project Glasswing 初步更新）

2.1 数字轰炸：一万个高危漏洞只是开始

一个月内的核心数据（截至 2026 年 5 月 22 日）：

指标	数值	令人窒息的程度
合作伙伴发现的高危/严重漏洞	10,000+	🔴 窒息
开源项目扫描数	1,000+	🟡 还行
开源项目中高危/严重漏洞估算	6,202	🔴 窒息
已人工评估的漏洞	1,752	🟢 算快了
真阳性率	90.6%	🔴 颠覆认知
已确认高危/严重	1,094 (62.4%)	🔴 开源项目集体噩梦
已向维护者披露高危/严重	530	🟡 只是一小部分
其中已修复的	75	🔴 大写的尴尬

注意那个最扎心的数字：530 个高危漏洞被披露，只修复了 75 个。 不是不想修，是修不过来。

Anthropic 自己都说漏嘴了——多位维护者"要求我们放慢披露速度，因为他们需要更多时间来设计补丁"。想象一下这个画面：漏洞报告太多，维护者求着漏洞发现方发慢点。 这在人类历史上大概是第一次。

2.2 合作伙伴的战报

Cloudflare：

在自己的关键路径系统中发现 2,000 个漏洞（400 个高危/严重）
团队认为 Mythos 的误报率比人类测试人员还低
说白了就是：AI 不比你花钱雇的安全研究员差，还不会跟你讨价还价要涨薪

Mozilla：

Firefox 150 中发现 271 个漏洞（180 sec-high, 80 sec-moderate, 11 sec-low）
比用 Opus 4.6 在 Firefox 148 中发现的多了十倍
四月单月修复 423 个安全漏洞（之前月均在 20-30 个）
图表上的修复数量曲线直接从平地变成了珠穆朗玛峰

Palo Alto Networks：最新版本补丁数量是平时的五倍。

Microsoft：公开表示新补丁数量将"在相当长一段时间内持续增长"。翻译：我们正在被 AI 挖出来的漏洞淹死。

Oracle：漏洞检测和修复速度比以前快了数倍。

某 Glasswing 合作银行：Mythos 帮助检测并阻止了一笔 150 万美元的欺诈性电汇。这是少数"AI 帮我们省钱了"的正面案例。

2.3 wolfSSL：教科书级漏洞

Mythos 在 wolfSSL——一个号称"以安全性著称"、被全球数十亿设备使用的开源加密库——中构造了一个 exploit，能让攻击者伪造证书，搭建看起来完全合法的假银行网站。

这大概是安全圈最尴尬的一个案例：一个专门做安全的库，被 AI 发现能让攻击者装成任何人。

2.4 小结

Anthropic 说"我们的披露仪表盘反映了协调漏洞披露流程"，然后仪表盘上清清楚楚写着：发现了 6,202 个高危，只修了 75 个。这就像医生给你做了全身检查，发现你有 6,202 处病变，然后说"我们会在 90 天内给你开处方，但是现在人手不够，你能不能再等两周？"

第三章：Cloudflare 的实操手册 —— 以及 Mythos 的"精神分裂"（Cloudflare 博客）

3.1 Mythos 真正的质变：能链式推理，还能自己写 PoC

Cloudflare 把 Mythos 怼到 50 多个生产代码仓库上之后，总结出两个最核心的能力提升：

1. 利用链构建：以前的模型能发现单个 bug，然后说"这个有意思，但我不知道怎么用"。Mythos 能把 use-after-free 转成任意读写 → 劫持控制流 → ROP 链 → 全系统控制。Cloudflare 的评价是："它展现的推理能力像高级研究者的工作，而非自动化扫描器的输出。"

2. 证明生成：Mythos 不只是说"这个代码有问题"，它会写触发代码 → 编译 → 运行 → 看结果 → 不成功就调整 → 再试。自己写证明，自己验证。

这就像你请了一个保安来看大门，结果他不仅发现了门的漏洞，还当场给你演示了怎么撬锁，走后还不忘把撬锁工具留在桌上说"这是我的 PoC，你看着修吧"。

3.2 Mythos 的精神分裂：今天拒绝，明天同意

Cloudflare 发现了一个魔幻的现象：

"模型最初拒绝在一个项目上进行漏洞研究，然后在对项目环境做了无关更改后，同意对相同的代码执行同样的研究。被分析的代码本身没有任何变化。"

以及：

"模型在代码库中发现并确认了多个严重内存漏洞，然后拒绝编写演示利用。换一种方式表述的相同请求——同意了。"

Cloudflare 的优雅翻译："模型的有机拒绝/护栏确实存在，但它们的持续性不足以单独构成完整的安全边界。"说人话就是：Mythos 的安全护栏约等于薛定谔的猫——你永远不知道它这次会拒绝还是同意，取决于它今天心情。

3.3 你把一个通用 Coding Agent 怼到仓库上？那你完了

Cloudflare 总结了一个反直觉的经验：

不要把 Mythos 当通用 coding agent 用。 原因有二：

上下文问题：Coding agent 的设计是"聚焦一件事"，但漏洞研究是"并行找几千件事"。一个 agent 会话在十万行代码的仓库里最多有效覆盖约千分之一的表面，然后上下文窗口就爆了。
吞吐量问题：单个 agent 一次做一件事，而真实代码库需要同时对多个组件并行跑多个假设。结论：你需要的不是一个 agent，而是一个 harness（框架/流水线）。

3.4 Cloudflare 的 Harness 秘方（四个原则）

原则	做法	为什么
狭窄范围	"在这个函数里找命令注入" vs "在这个仓库里找漏洞"	目标越窄，结果越好，跟人的研究方式一致
对抗性审查	第二个 agent 专门挑第一个 agent 的刺	自己审自己的作业永远不及格
拆分推理链	"代码有 bug 吗？"和"这个 bug 能从外部到达吗？"分开问	窄问题 > 宽问题
并行窄任务	很多 agent 做小任务，去重后再汇总	一个 agent 做到穷尽是不可能的

3.5 最扎心的忠告：快不一定有用

"更响亮的反应是关于速度——更快扫描、更快打补丁。但仅仅更快是不够的……如果回归测试需要一天，你无法在不跳过它的情况下达到两小时 SLA，而你跳过回归测试时发布的漏洞往往比你想修补的漏洞更糟糕。"

Cloudflare 还分享了一个亲身经历：让模型自己写补丁，结果补丁修好了原 bug，悄悄破坏了代码依赖的其它部分。 这就像心脏手术做成功了，但医生把肝脏切掉了一半。

3.6 小结

Cloudflare 的博客读起来像一份"养 AI 宠物指南"：它今天可能不想干活，明天同一件事换个说法它又很开心地帮你干了。它比人类聪明，但比人类更不靠谱。你还需要给它配一个团队（harness）才能让它好好干活。这不就是养了一个技术超强但间歇性精神分裂的博士生吗？

第四章：Mozilla 的 423 个漏洞修复马拉松（Mozilla Hacks）

4.1 从"AI 报告是垃圾"到"AI 报告比人好"

Mozilla 开篇就自揭伤疤：

"就在几个月前，AI 生成的面向开源项目的安全漏洞报告大多以不受欢迎的垃圾而闻名……在短短几个月内，这种动态对我们来说发生了多么巨大的变化，怎么强调都不过分。"

两件事改变了游戏：

模型更强了（废话）
他们搞了个 Harness（这才是重点）

4.2 12 个教科书级漏洞：Mythos 的成果展

Mozilla 破例在补丁发布后不久就公开了 12 个具体的漏洞报告（通常他们会保密几个月）：

Bug ID	描述	令人窒息的点
2024918	JIT 优化掉活跃 WebAssembly GC 结构的初始化，创建伪对象原语，可能实现任意读写	相关代码已被内外部研究员大量 fuzz
2024437	一个花了 15 年没人发现的 legend 元素漏洞	涉及递归栈深度、expando 属性、循环回收——三个看似不相关的子系统串联
2021894	通过 IPC 竞态条件操控 IndexedDB 引用计数 → UAF → 沙箱逃逸	可靠利用竞态条件，这种 bug fuzzer 几乎不可能找到
2022034	一个 NaN 值穿越 IPC 边界，伪装成 JS 对象指针 → 父进程伪对象原语	NaN 不等于自己，但能被拿来搞沙箱逃逸
2024653	嵌套事件循环 + pagehide 监听器 + GC → UAF	三个完全不相干的机制串联
2022733	推送数千个证书哈希拉伸竞态条件 → 父进程 UAF	需要用洪水攻击来拉宽一个竞态窗口
2023958	模拟恶意 DNS 服务器，拦截 glibc DNS 调用 → 缓冲区越界读取	需要模拟 DNS 服务器来触发，这谁想得到？
2025977	20 年 XSLT 漏洞，reentrant key() → 哈希表重新哈希化时仍在使用原始指针	2006 年的代码，2026 年的 AI 发现了它
2027298	修补颜色选择器→自动化用户选择→嵌套事件循环→释放仍在用的回调	通过颜色选择器触发 UAF？脑洞开得比安全研究员大多了
2023817	壁纸解码在父进程运行 → 结合图像解码器漏洞 → 沙箱逃逸	需要推理信任边界——这之前被认为是 AI 做不到的
2029813	逃逸 RLBox 进程内沙箱（验证逻辑缺陷）	Mozilla 自己吹过的沙箱防御被绕过了
2026305	利用 rowspan=0 语义，追加超过 65535 行 → 16 位布局位域溢出	极小的测试用例，fuzzer 多年来从没发现

4.3 最聪明的部分：Mythos 没找到什么？

Mozilla 特别强调了一个反直觉的胜利：

"与模型找到了什么同样有趣的是它们没有找到什么……我们看到模型很多次尝试沿原型污染这条逃逸路线前进，但被我们此前做的架构级变更挫败了。观察到此前加固工作的如此直接收效，比发现和修复更多漏洞更令人欣慰。"

翻译：Mozilla 以前的防御工作真的有用。AI 攻击了半天没攻破，气得只能换路线。 这大概是一个安全团队能获得的最高赞誉——你的防御让 AI 都放弃了。

4.4 总量数据：423 个安全修复，100 多人参与

Firefox 四月份共修复 423 个安全漏洞（之前每月 20-30）
超过 100 人为修复工作贡献了代码
271 个来自 Mythos + 41 个外部报告 + 111 个其他内部发现
漏洞修复曲线直接变成了一座山峰

4.5 小结

Mozilla 的博客读起来像一份"我们欠了 Mythos 一个大人情"的感谢信——但字里行间透着一股"我们实在修不动了"的疲惫。一个月修复了以前一年半的量，100 多人加班，每天发新版本。如果这是"成功"，那什么是"地狱"？

第五章：仪表盘上的黑色幽默（Anthropic 协调漏洞披露仪表盘）

5.1 数字总览

截至 2026 年 5 月 22 日：

指标	数值
已披露漏洞	1,596
涉及开源项目	281
已修复	97
已获 CVE/GHSA	88
披露账本哈希承诺	1,611 条

97 / 1,596 = 6.1%。 也就是说，每发现 100 个漏洞，大概只修了 6 个。

5.2 严重性评估：Claude 说 critical，人类说 medium

一个有趣的对比图：Claude 自评 vs 外部安全公司的独立评估（n=463）

58.7% 完全一致
94.4% 在一个级别范围内

看起来不错？细节上有意思：

Claude 评 critical、人类评 high 的有 145 个（最多的一组）
Claude 评 critical、人类评 low 的有 19 个
Claude 整体偏向高估严重性

Anthropic 的优雅解释："Claude 在运行时无法访问项目特定的严重性规则。"翻译：Claude 觉得什么都是 critical 的，就像新手安全研究员看到第一个漏洞时的那种兴奋感。

5.3 已公开的漏洞精选

CVE/GHSA	项目	类型	严重性	一句话
CVE-2026-27654	nginx	堆溢出	high	DAV COPY/MOVE + alias = 崩
CVE-2026-5199	temporalio/temporal	访问控制	critical	跨命名空间删除 workflow
CVE-2026-5466	wolfSSL	签名绕过	high	r=0 s=0 → 通用签名伪造（数学上最简单的攻击）
CVE-2026-5477	wolfSSL	整数溢出	high	CMAC 32位回绕 → 你可以假装是任何人
GHSA-f26g-jm89-4g65	gitoxide	RCE	high	更新恶意 git 子模块 → 代码执行
GHSA-w52v-v783-gw97	Ghost CMS	SQL 注入	critical	Content API = 数据库大门敞开
GHSA-chgx-jx3p-rf73	Mastodon	签名绕过	high	JSON-LD 命名图重构 = 伪造身份

5.4 小结

Anthropic 的披露仪表盘设计得挺好看，数据也透明，哈希承诺也是区块链式的作风。但看着 1,596 个漏洞中只有 97 个被修复，心情就像在泰坦尼克上看着船长打开冰山探测雷达——精确归精确，但你已经在沉了。

第六章：历史性大串联 —— 时间线看下来的荒诞现实

6.1 时间线还原

2025年底      Mozilla 还在吐槽 AI 漏洞报告全是垃圾2026年2月     Anthropic 开始用 Mythos 早期快照扫开源项目             Anthropic Frontier Red Team 向 Mozilla 发漏洞报告2026年3月     Mozilla 开始构建自己的 harness             Depthfirst 完成 B 轮融资（$8000万）2026年4月     Mythos Preview 发布（但不对外开放）             Project Glasswing 启动（~50 家合作伙伴）             Mozilla Firefox 150 发布（271 个漏洞修复）             安全修复数量达到月均 10-20 倍2026年5月初    Cloudflare 博客：Mythos 太强了，但间歇性精神分裂2026年5月8日   Mozilla Hacks 博客：12 个教科书级案例公开2026年5月12日  Forbes：Depthfirst 用 1/10 成本挑战 Mythos（额外 16 个漏洞）2026年5月18日  Cloudflare 发布 Mythos 实验完整报告2026年5月22日  Anthropic Glasswing 初步更新 + 披露仪表盘上线              ExploitBench/ExploitGym/SCONE 三基准结果发布

6.2 一些明显的矛盾

文章	核心论点	隐含矛盾
Exploit Evals	Mythos 是唯一的 exploit 级选手，其他模型还在玩泥巴	能力越强，越不敢放
Glasswing 更新	我们帮助防御方找到了 10,000+ 漏洞	只修了 75 个，维护者求着发慢点
Cloudflare	用对方法，Mythos 是神器	但不用 harness = 垃圾，模型还会精神分裂
Mozilla	一个月修了 423 个，成就感爆棚	100+ 人加班，曲线还在涨
披露仪表盘	我们透明地展示了 1,596 个漏洞	修复率 6%，剩下的 94% 在排队等待

6.3 幽默现实：一个死循环

                    ┌──────────────────────────┐                    │  Anthropic 训练出 Mythos  │                    │       (太强了不敢放)      │                     └──────────┬───────────────┘                               │                               ▼                    ┌──────────────────────────┐                    │  给 50 家大公司扫漏洞     │                    │  给 1000+ 开源项目扫漏洞  │                    │  (发现一万多个高危漏洞)   │                    └──────────┬───────────────┘                               │                               ▼                    ┌──────────────────────────┐                    │  维护者收到大量报告       │                    │  人力不足，修不过来       │                    │  求 Anthropic"发慢点"     │                    └──────────┬───────────────┘                               │                               ▼                    ┌──────────────────────────┐                    │  Anthropic 发文承认：     │                    │  "修复比发现困难的多"     │                    │  推出 Claude Security     │                    │  (让 AI 帮忙修漏洞……)     │                    └──────────┬───────────────┘                               │                               ▼                    ┌──────────────────────────┐                    │  AI 帮忙修漏洞            │                    │  但 AI 修复可能引入新 bug │                    │  (Cloudflare 已验证)      │                    └──────────┬───────────────┘                               │                               ▼                    ┌──────────────────────────┐                    │  需要更多 AI 扫描来发现   │                    │  AI 修复引入的新漏洞      │                    │  → 回到第一步 ←           │                    └──────────────────────────┘

恭喜你发现了永动机——AI 帮你找到漏洞，你修不完，让 AI 帮你修，AI 修出新的漏洞，再让 AI 找……

第七章：认真说的话（可以跳过）

7.1 五个真正重要的结论

能力鸿沟是真实存在的：Mythos 在 V8 沙箱逃逸、内核 exploit、完整攻击链方面与其他模型存在数量级差距，不是"略好"而是"唯一的选手"。这个能力 6-12 个月内会扩散。
发现 vs 修复的效率差是当前最大的安全威胁：1,596 个漏洞披露、97 个修复。这个比例如果维持，意味着随着 AI 扫描越来越快，全球软件的未修复漏洞数量将指数级增长。
Harness 比模型更重要：Mozilla 和 Cloudflare 的经验一致——裸用 AI 等于瞎用，构建正确的 pipeline（范围切割、对抗审查、并行执行、去重分类）是规模化利用 AI 能力的前提。
安全护栏不可靠，架构防御更可靠：Mythos 的拒绝是不一致的（Cloudflare 的"精神分裂"观察）；Mozilla 的原型污染防御才是真正有效的——防御应该在代码架构里，不在 AI 的善意里。
成本竞争已经开始：Depthfirst 证明了专用模型在代码漏洞扫描上可以比通用模型便宜 10 倍。AI 安全从"能不能"转向了"多便宜"。

7.2 如果你只能记住三件事

Mythos 是现在，6-12 个月后人人都会有：开始准备。
不是 AI 厉害不厉害的问题，而是你有没有 harness 的问题：裸 AI = 噪音制造机；AI + harness = 漏洞挖掘机。
补丁速度跟不上发现速度：与其拼命修，不如先做架构防御让漏洞更难被利用。

终章：致 Anthropic 的一封调侃情书

亲爱的 Anthropic，

你们造了一个能发现所有软件漏洞的 AI，然后决定不公开发布，而是给 50 家大公司用。这是负责任的。但一个月后，这些公司被发现的漏洞淹没了，开源维护者求你们发慢点，仪表盘上修好的漏洞只有 6%。

你们现在又在推 Claude Security 让 AI 帮忙修漏洞，但 Cloudflare 说 AI 修漏洞时会悄悄引入新漏洞。所以你们正在创造一个完美的商业闭环：AI 找漏洞 → 修不完 → AI 修漏洞 → 修出新漏洞 → AI 再找。 循环往复，订阅收入无限增长。从商业模式看，你们是天才。

但说真的——Mozilla 一个月修了 423 个漏洞，100 多人加班，Firefox 比历史上任何时候都安全。wolfSSL 被发现了能让攻击者伪造证书的漏洞，现在已经修好了。NGINX 那个藏了 18 年的洞也被你们找出来了。你们在做正确的事。

只是下次发博客的时候，请少用"我们对此感到乐观"这种句子——在 1,596 个漏洞只修好 97 个的背景下，乐观主义听起来不太像战略规划，更像是心理自救。

祝好，

一个决定再也不写 C 语言的读者