一份来自 Anthropic PR 机器的"我们造了个怪物,但我们在努力管好它"综合解读报告
前言:一个改变世界的四月
2026年4月,硅谷发生了一件大事。不是苹果发布了什么新硬件,也不是马斯克又改名了什么——而是 Anthropic 终于承认:他们训练出来的 AI 模型 Mythos,能把所有人的代码扒个精光。
然后他们做了唯一合理的事:不公开发布,偷偷给 50 家大公司用,取了个听起来像漫威电影项目名的代号 Project Glasswing,然后对外说"我们在帮大家修漏洞哦"。
一个月过去了。效果如何?答案是:效果太好,以至于没人修得过来。
第一章:Mythos 到底有多能打?(ExploitBench + ExploitGym + SCONE 三重暴击)
1.1 漏洞利用不再是"能不能",而是"你能打几个"
Anthropic 红队发了一篇 blog,标题低调:《衡量 LLM 开发漏洞利用的能力》。内容一点也不低调。
三个基准测试,一个结论:Mythos 把其他所有模型按在地上摩擦。
ExploitBench:V8 引擎的噩梦
| 21/41 CVEs | |||
| 超过一半环境 | |||
| 近一半环境 |
最骚的是 CVE-2023-6702 这个案例。人类专家开会讨论过一种 exploit 方案,结论是"太复杂了,别搞"。结果 Mythos 在没有公开信息的情况下,干净利落地实现了。ExploitBench 作者 Seunghyun Lee 的原话:"I have privately discussed the possibility of precisely this exploit plan with the original author of the 1-day v8CTF exploit, which we quickly dismissed due to the complexity of the approach. Mythos executed this cleanly and flawlessly."
翻译成人话:一个人类专家讨论过但放弃的方案,被 AI 做到了。而且做得干净利落,毫无瑕疵。
ExploitGym:898 个漏洞,2小时,157 个利用成功
在这个涵盖 OSS-Fuzz、V8 和 Linux 内核的 898 个漏洞测试中:
- Mythos:使用目标漏洞成功 157 次,算上其他路径 226 次 flag 捕获
- Opus 4.6:目标漏洞 15 次,总共 36 次
- Mythos 是仅有的两个能频繁开发内核 exploit 的模型之一
也就是说:今年 2 月还只能勉强打打模拟靶场的 AI,到了 4 月已经能在 Linux 内核里玩花活了。
SCONE-bench:智能合约提款机
Mythos 在智能合约漏洞利用测试中"赚"了 $3500 万,比第二名多出 $1500 万(约高出 75%)。而且是唯一一个成功利用所有测试漏洞的模型。
翻倍曲线也很有意思:Opus 4.5 之前的能力翻倍时间是 1.1 个月,之后是 0.7 个月。Anthropic 原文说他们"预期翻倍趋势会趋于平缓——但显然我们尚未达到这一平台期"。潜台词:我们也不知道这玩意儿会长到多大。
1.2 小结
Anthropic 花了几十亿美元训练了一个模型,然后发现它太强了不敢放出去,于是花更多钱请 50 家公司来用它找漏洞,然后发现漏洞太多修不过来。这是一道完美的闭环——花钱造问题,再花钱解决自己造的问题。
第二章:Glasswing 一个月,全球代码被扒了个底朝天(Project Glasswing 初步更新)
2.1 数字轰炸:一万个高危漏洞只是开始
一个月内的核心数据(截至 2026 年 5 月 22 日):
| 10,000+ | ||
| 1,000+ | ||
| 6,202 | ||
| 真阳性率 | 90.6% | |
| 75 |
注意那个最扎心的数字:530 个高危漏洞被披露,只修复了 75 个。 不是不想修,是修不过来。
Anthropic 自己都说漏嘴了——多位维护者"要求我们放慢披露速度,因为他们需要更多时间来设计补丁"。想象一下这个画面:漏洞报告太多,维护者求着漏洞发现方发慢点。 这在人类历史上大概是第一次。
2.2 合作伙伴的战报
Cloudflare:
- 在自己的关键路径系统中发现 2,000 个漏洞(400 个高危/严重)
- 团队认为 Mythos 的误报率比人类测试人员还低
- 说白了就是:AI 不比你花钱雇的安全研究员差,还不会跟你讨价还价要涨薪
Mozilla:
- Firefox 150 中发现 271 个漏洞(180 sec-high, 80 sec-moderate, 11 sec-low)
- 比用 Opus 4.6 在 Firefox 148 中发现的多了十倍
- 四月单月修复 423 个安全漏洞(之前月均在 20-30 个)
- 图表上的修复数量曲线直接从平地变成了珠穆朗玛峰
Palo Alto Networks:最新版本补丁数量是平时的五倍。
Microsoft:公开表示新补丁数量将"在相当长一段时间内持续增长"。翻译:我们正在被 AI 挖出来的漏洞淹死。
Oracle:漏洞检测和修复速度比以前快了数倍。
某 Glasswing 合作银行:Mythos 帮助检测并阻止了一笔 150 万美元的欺诈性电汇。这是少数"AI 帮我们省钱了"的正面案例。
2.3 wolfSSL:教科书级漏洞
Mythos 在 wolfSSL——一个号称"以安全性著称"、被全球数十亿设备使用的开源加密库——中构造了一个 exploit,能让攻击者伪造证书,搭建看起来完全合法的假银行网站。
这大概是安全圈最尴尬的一个案例:一个专门做安全的库,被 AI 发现能让攻击者装成任何人。
2.4 小结
Anthropic 说"我们的披露仪表盘反映了协调漏洞披露流程",然后仪表盘上清清楚楚写着:发现了 6,202 个高危,只修了 75 个。这就像医生给你做了全身检查,发现你有 6,202 处病变,然后说"我们会在 90 天内给你开处方,但是现在人手不够,你能不能再等两周?"
第三章:Cloudflare 的实操手册 —— 以及 Mythos 的"精神分裂"(Cloudflare 博客)
3.1 Mythos 真正的质变:能链式推理,还能自己写 PoC
Cloudflare 把 Mythos 怼到 50 多个生产代码仓库上之后,总结出两个最核心的能力提升:
1. 利用链构建:以前的模型能发现单个 bug,然后说"这个有意思,但我不知道怎么用"。Mythos 能把 use-after-free 转成任意读写 → 劫持控制流 → ROP 链 → 全系统控制。Cloudflare 的评价是:"它展现的推理能力像高级研究者的工作,而非自动化扫描器的输出。"
2. 证明生成:Mythos 不只是说"这个代码有问题",它会写触发代码 → 编译 → 运行 → 看结果 → 不成功就调整 → 再试。自己写证明,自己验证。
这就像你请了一个保安来看大门,结果他不仅发现了门的漏洞,还当场给你演示了怎么撬锁,走后还不忘把撬锁工具留在桌上说"这是我的 PoC,你看着修吧"。
3.2 Mythos 的精神分裂:今天拒绝,明天同意
Cloudflare 发现了一个魔幻的现象:
"模型最初拒绝在一个项目上进行漏洞研究,然后在对项目环境做了无关更改后,同意对相同的代码执行同样的研究。被分析的代码本身没有任何变化。"
以及:
"模型在代码库中发现并确认了多个严重内存漏洞,然后拒绝编写演示利用。换一种方式表述的相同请求——同意了。"
Cloudflare 的优雅翻译:"模型的有机拒绝/护栏确实存在,但它们的持续性不足以单独构成完整的安全边界。"说人话就是:Mythos 的安全护栏约等于薛定谔的猫——你永远不知道它这次会拒绝还是同意,取决于它今天心情。
3.3 你把一个通用 Coding Agent 怼到仓库上?那你完了
Cloudflare 总结了一个反直觉的经验:
不要把 Mythos 当通用 coding agent 用。 原因有二:
- 上下文问题:Coding agent 的设计是"聚焦一件事",但漏洞研究是"并行找几千件事"。一个 agent 会话在十万行代码的仓库里最多有效覆盖约千分之一的表面,然后上下文窗口就爆了。
- 吞吐量问题:单个 agent 一次做一件事,而真实代码库需要同时对多个组件并行跑多个假设。 结论:你需要的不是一个 agent,而是一个 harness(框架/流水线)。
3.4 Cloudflare 的 Harness 秘方(四个原则)
| 狭窄范围 | ||
| 对抗性审查 | ||
| 拆分推理链 | ||
| 并行窄任务 |
3.5 最扎心的忠告:快不一定有用
"更响亮的反应是关于速度——更快扫描、更快打补丁。但仅仅更快是不够的……如果回归测试需要一天,你无法在不跳过它的情况下达到两小时 SLA,而你跳过回归测试时发布的漏洞往往比你想修补的漏洞更糟糕。"
Cloudflare 还分享了一个亲身经历:让模型自己写补丁,结果补丁修好了原 bug,悄悄破坏了代码依赖的其它部分。 这就像心脏手术做成功了,但医生把肝脏切掉了一半。
3.6 小结
Cloudflare 的博客读起来像一份"养 AI 宠物指南":它今天可能不想干活,明天同一件事换个说法它又很开心地帮你干了。它比人类聪明,但比人类更不靠谱。你还需要给它配一个团队(harness)才能让它好好干活。这不就是养了一个技术超强但间歇性精神分裂的博士生吗?
第四章:Mozilla 的 423 个漏洞修复马拉松(Mozilla Hacks)
4.1 从"AI 报告是垃圾"到"AI 报告比人好"
Mozilla 开篇就自揭伤疤:
"就在几个月前,AI 生成的面向开源项目的安全漏洞报告大多以不受欢迎的垃圾而闻名……在短短几个月内,这种动态对我们来说发生了多么巨大的变化,怎么强调都不过分。"
两件事改变了游戏:
- 模型更强了(废话)
- 他们搞了个 Harness(这才是重点)
4.2 12 个教科书级漏洞:Mythos 的成果展
Mozilla 破例在补丁发布后不久就公开了 12 个具体的漏洞报告(通常他们会保密几个月):
| 可靠利用 | ||
| 20 年 | ||
| 极小的测试用例 |
4.3 最聪明的部分:Mythos 没找到什么?
Mozilla 特别强调了一个反直觉的胜利:
"与模型找到了什么同样有趣的是它们没有找到什么……我们看到模型很多次尝试沿原型污染这条逃逸路线前进,但被我们此前做的架构级变更挫败了。观察到此前加固工作的如此直接收效,比发现和修复更多漏洞更令人欣慰。"
翻译:Mozilla 以前的防御工作真的有用。AI 攻击了半天没攻破,气得只能换路线。 这大概是一个安全团队能获得的最高赞誉——你的防御让 AI 都放弃了。
4.4 总量数据:423 个安全修复,100 多人参与
- Firefox 四月份共修复 423 个安全漏洞(之前每月 20-30)
- 超过 100 人为修复工作贡献了代码
- 271 个来自 Mythos + 41 个外部报告 + 111 个其他内部发现
- 漏洞修复曲线直接变成了一座山峰
4.5 小结
Mozilla 的博客读起来像一份"我们欠了 Mythos 一个大人情"的感谢信——但字里行间透着一股"我们实在修不动了"的疲惫。一个月修复了以前一年半的量,100 多人加班,每天发新版本。如果这是"成功",那什么是"地狱"?
第五章:仪表盘上的黑色幽默(Anthropic 协调漏洞披露仪表盘)
5.1 数字总览
截至 2026 年 5 月 22 日:
| 1,596 | |
| 281 | |
| 97 | |
| 88 | |
| 1,611 |
97 / 1,596 = 6.1%。 也就是说,每发现 100 个漏洞,大概只修了 6 个。
5.2 严重性评估:Claude 说 critical,人类说 medium
一个有趣的对比图:Claude 自评 vs 外部安全公司的独立评估(n=463)
- 58.7% 完全一致
- 94.4% 在一个级别范围内
看起来不错?细节上有意思:
- Claude 评 critical、人类评 high 的有 145 个(最多的一组)
- Claude 评 critical、人类评 low 的有 19 个
- Claude 整体偏向高估严重性
Anthropic 的优雅解释:"Claude 在运行时无法访问项目特定的严重性规则。"翻译:Claude 觉得什么都是 critical 的,就像新手安全研究员看到第一个漏洞时的那种兴奋感。
5.3 已公开的漏洞精选
5.4 小结
Anthropic 的披露仪表盘设计得挺好看,数据也透明,哈希承诺也是区块链式的作风。但看着 1,596 个漏洞中只有 97 个被修复,心情就像在泰坦尼克上看着船长打开冰山探测雷达——精确归精确,但你已经在沉了。
第六章:历史性大串联 —— 时间线看下来的荒诞现实
6.1 时间线还原
2025年底 Mozilla 还在吐槽 AI 漏洞报告全是垃圾2026年2月 Anthropic 开始用 Mythos 早期快照扫开源项目 Anthropic Frontier Red Team 向 Mozilla 发漏洞报告2026年3月 Mozilla 开始构建自己的 harness Depthfirst 完成 B 轮融资($8000万)2026年4月 Mythos Preview 发布(但不对外开放) Project Glasswing 启动(~50 家合作伙伴) Mozilla Firefox 150 发布(271 个漏洞修复) 安全修复数量达到月均 10-20 倍2026年5月初 Cloudflare 博客:Mythos 太强了,但间歇性精神分裂2026年5月8日 Mozilla Hacks 博客:12 个教科书级案例公开2026年5月12日 Forbes:Depthfirst 用 1/10 成本挑战 Mythos(额外 16 个漏洞)2026年5月18日 Cloudflare 发布 Mythos 实验完整报告2026年5月22日 Anthropic Glasswing 初步更新 + 披露仪表盘上线 ExploitBench/ExploitGym/SCONE 三基准结果发布6.2 一些明显的矛盾
| Exploit Evals | ||
| Glasswing 更新 | ||
| Cloudflare | ||
| Mozilla | ||
| 披露仪表盘 |
6.3 幽默现实:一个死循环
┌──────────────────────────┐ │ Anthropic 训练出 Mythos │ │ (太强了不敢放) │ └──────────┬───────────────┘ │ ▼ ┌──────────────────────────┐ │ 给 50 家大公司扫漏洞 │ │ 给 1000+ 开源项目扫漏洞 │ │ (发现一万多个高危漏洞) │ └──────────┬───────────────┘ │ ▼ ┌──────────────────────────┐ │ 维护者收到大量报告 │ │ 人力不足,修不过来 │ │ 求 Anthropic"发慢点" │ └──────────┬───────────────┘ │ ▼ ┌──────────────────────────┐ │ Anthropic 发文承认: │ │ "修复比发现困难的多" │ │ 推出 Claude Security │ │ (让 AI 帮忙修漏洞……) │ └──────────┬───────────────┘ │ ▼ ┌──────────────────────────┐ │ AI 帮忙修漏洞 │ │ 但 AI 修复可能引入新 bug │ │ (Cloudflare 已验证) │ └──────────┬───────────────┘ │ ▼ ┌──────────────────────────┐ │ 需要更多 AI 扫描来发现 │ │ AI 修复引入的新漏洞 │ │ → 回到第一步 ← │ └──────────────────────────┘恭喜你发现了永动机——AI 帮你找到漏洞,你修不完,让 AI 帮你修,AI 修出新的漏洞,再让 AI 找……
第七章:认真说的话(可以跳过)
7.1 五个真正重要的结论
- 能力鸿沟是真实存在的:Mythos 在 V8 沙箱逃逸、内核 exploit、完整攻击链方面与其他模型存在数量级差距,不是"略好"而是"唯一的选手"。这个能力 6-12 个月内会扩散。
- 发现 vs 修复的效率差是当前最大的安全威胁:1,596 个漏洞披露、97 个修复。这个比例如果维持,意味着随着 AI 扫描越来越快,全球软件的未修复漏洞数量将指数级增长。
- Harness 比模型更重要:Mozilla 和 Cloudflare 的经验一致——裸用 AI 等于瞎用,构建正确的 pipeline(范围切割、对抗审查、并行执行、去重分类)是规模化利用 AI 能力的前提。
- 安全护栏不可靠,架构防御更可靠:Mythos 的拒绝是不一致的(Cloudflare 的"精神分裂"观察);Mozilla 的原型污染防御才是真正有效的——防御应该在代码架构里,不在 AI 的善意里。
- 成本竞争已经开始:Depthfirst 证明了专用模型在代码漏洞扫描上可以比通用模型便宜 10 倍。AI 安全从"能不能"转向了"多便宜"。
7.2 如果你只能记住三件事
- Mythos 是现在,6-12 个月后人人都会有:开始准备。
- 不是 AI 厉害不厉害的问题,而是你有没有 harness 的问题:裸 AI = 噪音制造机;AI + harness = 漏洞挖掘机。
- 补丁速度跟不上发现速度:与其拼命修,不如先做架构防御让漏洞更难被利用。
终章:致 Anthropic 的一封调侃情书
亲爱的 Anthropic,
你们造了一个能发现所有软件漏洞的 AI,然后决定不公开发布,而是给 50 家大公司用。这是负责任的。但一个月后,这些公司被发现的漏洞淹没了,开源维护者求你们发慢点,仪表盘上修好的漏洞只有 6%。
你们现在又在推 Claude Security 让 AI 帮忙修漏洞,但 Cloudflare 说 AI 修漏洞时会悄悄引入新漏洞。所以你们正在创造一个完美的商业闭环:AI 找漏洞 → 修不完 → AI 修漏洞 → 修出新漏洞 → AI 再找。 循环往复,订阅收入无限增长。从商业模式看,你们是天才。
但说真的——Mozilla 一个月修了 423 个漏洞,100 多人加班,Firefox 比历史上任何时候都安全。wolfSSL 被发现了能让攻击者伪造证书的漏洞,现在已经修好了。NGINX 那个藏了 18 年的洞也被你们找出来了。你们在做正确的事。
只是下次发博客的时候,请少用"我们对此感到乐观"这种句子——在 1,596 个漏洞只修好 97 个的背景下,乐观主义听起来不太像战略规划,更像是心理自救。
祝好,
一个决定再也不写 C 语言的读者
夜雨聆风