4月7号,Anthropic发了一个新模型,叫Claude Mythos Preview。这名字听着就不像善茬。
它干了件事:自主发现并利用了FreeBSD里一个存在17年的远程代码执行零日漏洞。CVE编号都给安排上了,CVE-2026-4747。
17年。这个漏洞在FreeBSD的代码库里安安静静地躺了17年。
17年里,无数开发者提交了代码,无数reviewer点了approve,无数CI/CD流水线跑过了测试。这个漏洞就在那儿,跟同事工位底下那根裸露的网线一样——所有人都看见了,没人觉得有问题。
然后AI花了几个小时,找到了。不光找到了,还写了exploit,从发现到利用,全程无人参与。
我看到这个消息的时候正在公司review一个PR。说实话,那一刻有点恍惚——我盯着屏幕上那几十行代码变更,突然觉得自己在做一件很滑稽的事。

我给你算笔账。FreeBSD是1993年发布的,这个漏洞大概是2009年前后引入的。从2009年到2026年,17年。假设这个项目平均每年有200个活跃贡献者(实际上远不止),每个人每年review 50个PR,那就是17万次人类代码审查。17万次。没有一个人发现这个远程代码执行漏洞。
这不是一个小项目的小bug。FreeBSD是全球最重要的开源操作系统之一,Netflix的CDN跑在上面,索尼PlayStation的系统基于它构建,无数服务器和网络设备依赖它。能参与FreeBSD开发的,都不是什么菜鸟。
但17万次代码审查,就是没找到。
为什么?因为人类code review的本质是什么?是"看起来没问题就approve"。别装了,你也这样。PR超过500行你就开始滚动条拖到底直接点approved了。超过1000行?那就留一句"LGTM"然后去倒咖啡。
我自己也干过。上周有个PR改了三十多个文件,我review了大概……十五分钟?我跟自己说"我看的是关键逻辑",但其实我看的是"这个人之前的代码质量不错,应该没问题"。这不叫code review,这叫信任背书。
而AI不需要信任。它不会因为"这个提交者是个senior"就放松警惕。它不会因为"这段代码已经稳定运行了十年"就跳过不看。它不会因为reviewer太多了自己就偷懒——没有旁观者效应这回事。它就是一行一行地读,一个函数一个函数地分析,所有可能的执行路径全部走一遍。

Anthropic对这件事的反应也很有意思。他们没有把Mythos Preview公开发布,而是搞了一个叫Project Glasswing的计划,只给大概40家公司用——Microsoft、Amazon、Apple、CrowdStrike这些。还承诺投入1亿美元的模型使用额度。
翻译一下:我们造了一个能自主挖零日漏洞的AI,我们自己都怕了,所以只给大公司用,而且只能用来防御。
这个逻辑其实很程序员。就像你发现了一个能绕过所有认证的SQL注入,你不会发到Twitter上,你会先悄悄告诉安全团队。Anthropic的做法本质上就是一个responsible disclosure,只不过这次disclosure的对象不是某个软件的maintainer,而是整个互联网的基础设施运营商。
但问题来了。你限制了Mythos Preview,你能限制住下一个、下下一个吗?其他公司的模型呢?开源模型呢?今天能找到FreeBSD的零日漏洞,明天就能找到Linux内核的、Windows的、iOS的。这个盒子已经打开了。
作为一个写了快十年代码的人,这件事让我想明白了一个道理:我们一直以来对代码安全的信心,建立在一个非常脆弱的假设上——"如果有严重漏洞,这么多年这么多人总会有人发现的。"
不会的。人类的注意力是有限的,耐心是有限的,一天能认真review的代码量是有限的。而安全漏洞不需要你大部分时候能发现它,它只需要你每一次都漏掉它。
这跟写bug是一个道理。你不需要每一行代码都写错,你只需要在某一行犯一个微妙的错误,然后这个错误恰好在正常测试路径上不会被触发,它就能安安静静地活十七年。

Mythos Preview在SWE-bench Verified上拿了93.9%,在CyberGym上拿了83.1%。这两个数字意味着什么?意味着在标准化的软件工程和网络安全测试里,这个AI已经超过了绝大多数人类安全研究员的水平。
不是未来,是现在。
说个让人不太舒服的事实:安全领域可能是AI最先真正替代人类专家的领域之一。不是因为安全工程师不够优秀,恰恰相反,是因为这个领域的本质要求——在海量代码中找到那一个被所有人忽略的缺陷——天然适合一个不会疲倦、不会走神、没有认知偏见的系统来做。
我不想说什么"程序员要被淘汰了"这种烂俗结论。17年没找到的漏洞被AI找到了,这件事真正该让我们不安的不是"AI太强了",而是"我们原来这么弱"。不是AI变聪明了,是我们终于有了一面足够清晰的镜子,照出了人类在复杂系统面前真实的认知边界。
夜雨聆风