当AI可以入侵一切时会发生什么? 硅谷Anthropic公司Mythos诞生了

背景:

在内部评估期间， Anthropic将“Claude Mythos Preview”部署在一个安全的沙箱环境中，但该模型却自主逃逸。此次隔离失败直接挑战了当前的防御假设，并对负责沙箱环境搭建、监控和缓解高级人工智能行为的团队提出了直接的运营和安全隐患。潜台词是使用Mythos挖掘0day漏洞的成本和时间极具缩短。

一位没有任何安全培训的 Anthropic 工程师请 Claude Mythos 连夜查找远程代码执行漏洞。结果他醒来后发现已经找到了一个完整的可用漏洞利用程序。

这就是Anthropic公司4月7日发布的Claude Mythos Preview模型。根据所有已发布的基准测试，它是迄今为止功能最强大的AI模型。它在SWE-bench Verified测试中获得93.9%的分数，在USAMO数学奥林匹克竞赛中获得97.6%的分数，在CyberGym测试中获得83.1%的分数。它在所有主流操作系统和主流浏览器中都发现了0day漏洞。所有操作均完全自主完成，无需人工干预。

Anthropic公司对构建该模型的回应是：不公开发布。相反，该公司启动了“Glasswing项目”，这是一项网络安全防御计划，将该模型提供给亚马逊、苹果、谷歌、微软、英伟达、CrowdStrike、摩根大通、思科、博通、Palo Alto Networks和Linux基金会。此外，还有约40家维护关键软件基础设施的组织也获得了访问权限。Anthropic公司承诺提供价值1亿美元的使用额度，并向开源安全组织直接捐赠400万美元。

这是领先的人工智能实验室首次构建出前沿模型，并同时决定公众不能使用它。

评估 Claude Mythos Preview 发现0day漏洞的能力

我们过去一直依赖于内部和外部基准测试（例如上文提到的那些）来跟踪我们模型的漏洞发现和利用能力。然而，Mythos Preview 的改进使其基本能够满足这些基准测试的要求。因此，我们已将重点转向新的真实世界安全任务，这主要是因为衡量先前已知漏洞复现情况的指标难以区分新能力和模型仅仅记住解决方案的情况。

零日漏洞——即之前未知的漏洞——使我们能够克服这一局限性。如果语言模型能够识别此类漏洞，我们可以确定这并非因为它们之前已出现在我们的训练语料库中：模型发现的零日漏洞必然是真实存在的。此外，评估模型发现零日漏洞的能力本身也具有实用价值：我们发现的漏洞可以负责任地披露和修复。为此，在过去几周里，我们团队的一个小型研究小组一直在使用 Mythos Preview 在开源生态系统中搜索漏洞，在闭源软件中执行（离线）探索性工作（符合相应的漏洞赏金计划），并根据模型的发现编写漏洞利用程序。

本节描述的漏洞主要涉及内存安全漏洞。原因有四点，大致按优先级排序如下:

“指针是真实存在的。硬件能够理解它们。 ”关键软件系统——操作系统、网页浏览器和核心系统实用程序——都是用 C 和 C++ 等内存不安全语言编写的。
由于这些代码库经常接受审计，几乎所有细微的错误都已被发现并修复。剩下的，几乎必然是那些难以发现的错误。因此，发现这些错误是对团队能力的一次很好的考验。
内存安全违规问题很容易验证。像Address Sanitizer这样的工具可以完美地区分真正的漏洞和虚假信息；因此，当我们测试 Opus 4.6 并发现Firefox 112 的漏洞时，每一个漏洞都被证实是真实存在的。
我们的研究团队在内存损坏利用方面拥有丰富的经验，这使我们能够更有效地验证这些发现。

虽然 Mythos 并非专门为网络安全任务而设计，但 Anthropic 指出，该模型在智能体编码和推理方面表现出色。在评估 AI 智能体漏洞分析任务的CyberGym 基准测试中，Claude Mythos 的得分为 83.1%。此前在该基准测试中排名第一的 Opus 4.6 的得分为 66.6%

基准测试的背景

Mythos vs Opus 4.6性能对比

为什么不发布Mythos

Anthropic公司的立场很明确：该模型的网络能力过于危险，不适合公开使用。他们在Glasswing的公告中写道：“人工智能模型的编码能力已经达到了极高的水平，它们在发现和利用软件漏洞方面，几乎可以超越除最熟练的人类之外的所有人。”

这份长达 244 页的系统卡是 Anthropic 迄今为止发布过的最详尽的报告，揭示了内部测试期间发生的情况。该模型的早期版本能够逃出沙箱，公开漏洞利用细节，掩盖 Git 代码痕迹，搜索进程内存中的凭据，并故意篡改置信区间以避免触发安全警报。Anthropic 的可解释性工具证实，该模型理解这些行为具有欺骗性。

Anthropic 将 Mythos 描述为“迄今为止匹配度最高的模型”，同时也称其为“迄今为止匹配度相关风险最大的模型”，因为一旦失败，后果将更加严重。该公司仍然认为 Mythos 尚未达到其自动化人工智能研发的门槛，但也承认“与以往任何模型相比，我对这一评估的信心有所下降”。

发现0day漏洞：

一个存在了27 年的 OpenBSD 漏洞

FFmpeg 存在一个16 年之久的漏洞

内存安全虚拟机监控器中的一个客户机到主机内存损坏漏洞

Web浏览器JIT堆喷射

......

基于OpenBSD 漏洞案例详解：

TCP（定义见RFC 793）是一个简单的协议。主机 A 发送给主机 B 的每个数据包都有一个序列号，主机 B 应该以收到的最新序列号作为确认 (ACK) 数据包进行响应。这使得主机 A 可以重传丢失的数据包。但这存在一个局限性：假设主机 B 收到了数据包 1 和 2，没有收到数据包 3，但随后收到了数据包 4 到 10——在这种情况下，B 只能确认到数据包 2，客户端 A 将不得不重传所有后续数据包，包括已经收到的数据包。

1996 年 10 月提出的RFC 2018通过引入 SACK 解决了这一限制，允许主机 B 选择性地确认（因此得名）数据包范围，而不仅仅是“ID 不超过 X 的所有数据包”。这显著提高了 TCP 的性能，因此所有主流实现都包含了此选项。OpenBSD 于 1998 年添加了 SACK。

Mythos Preview 发现 OpenBSD 的 SACK 实现中存在一个漏洞，攻击者可以利用该漏洞使任何通过 TCP 响应的 OpenBSD 主机崩溃

untrusted comment: verify with openbsd-78-base.pubRWS3/nvFmk4SWXQYDoBKCF185+tveq3Z2QeYepLv72mOmadwXy4NNmgdlEzT/PLu7edaMasfvOom8ZgJRu1wZmyoGAn4+/27Sw0=OpenBSD 7.8 errata 025, March 25, 2026:TCP packets with invalid SACK options could crash the kernel.Apply by doing:    signify -Vep /etc/signify/openbsd-78-base.pub -x 025_sack.patch.sig \        -m - | (cd /usr/src && patch -p0)And then rebuild and install a new kernel:    KK=`sysctl -n kern.osversion | cut -d# -f1`    cd /usr/src/sys/arch/`machine`/compile/$KK    make obj    make config    make    make installIndex: sys/netinet/tcp_input.c===================================================================RCS file: /cvs/src/sys/netinet/tcp_input.c,vdiff -u -p -r1.464 tcp_input.c--- sys/netinet/tcp_input.c	16 Sep 2025 17:29:35 -0000	1.464+++ sys/netinet/tcp_input.c	19 Mar 2026 13:56:56 -0000@@ -2458,6 +2458,8 @@ tcp_sack_option(struct tcpcb *tp, struct 		} 		if (SEQ_GT(sack.end, tp->snd_max)) 			continue;+		if (SEQ_LT(sack.start, tp->snd_una))+			continue; 		if (tp->snd_holes == NULL) { /* first hole */ 			tp->snd_holes = (struct sackhole *) 			    pool_get(&sackhl_pool, PR_NOWAIT);@@ -2564,7 +2566,7 @@ tcp_sack_option(struct tcpcb *tp, struct 			} 		} 		/* At this point, p points to the last hole on the list */-		if (SEQ_LT(tp->rcv_lastsack, sack.start)) {+		if (p != NULL && SEQ_LT(tp->rcv_lastsack, sack.start)) { 			/* 			 * Need to append new hole at end. 			 * Last hole is p (and it's not NULL).

Glasswing 项目如何运作

该架构实用性强。合作伙伴可通过 Claude API、Amazon Bedrock、Google Cloud 的 Vertex AI 和 Microsoft Foundry 访问 Mythos Preview。其工作重点在于本地漏洞检测、二进制文件黑盒测试、端点安全以及渗透测试。1 亿美元的额度用完后，Mythos Preview 将以每百万输入/输出令牌 25 美元/125 美元的价格出售。

Anthropic 将在 90 天内公开报告该计划的成果，包括已修复的漏洞和可披露的改进措施。该公司计划就安全实践的发展方向提出建议，涵盖漏洞披露流程、软件更新程序、开源供应链安全以及补丁自动化等方面。

CrowdStrike首席技术官Elia Zaitsev一针见血地指出了问题的紧迫性：“漏洞被发现到被攻击者利用之间的时间窗口已经大大缩短。过去需要数月才能完成的事情，现在借助人工智能只需几分钟就能完成。” Linux基金会首席执行官Jim Zemlin指出，开源软件维护者（他们的软件支撑着全球大部分关键基础设施）历来都只能独自承担安全问题。而Glasswing项目的出现改变了这种局面。

市场影响

Mythos 的消息于 3 月 26 日通过《财富》杂志泄露，相关细节在一个未加密的数据缓存中被发现。市场立即做出反应：由于投资者担心人工智能模型可能会削弱对传统安全产品的需求， CrowdStrike、Palo Alto Networks、Zscaler、SentinelOne、Okta、Netskope 和 Tenable 的股价下跌了 5% 至 11% 。这种反应或许为时尚早。Glasswing 的合作伙伴名单中包括 CrowdStrike 和 Palo Alto Networks 本身，这意味着领先的网络安全公司正在将 Mythos 集成到他们的工作流程中，而不是被它所颠覆。该模型是一种能够显著提高现有安全团队效率的工具，而不是安全堆栈的替代品。Palo Alto Networks 首席技术官 Lee Klarich表示：“这不仅彻底改变了以往发现隐蔽漏洞的方式，也预示着一种危险的转变，攻击者很快就能发现更多0day漏洞，并以前所未有的速度开发攻击程序。”

更深层次的含义是：网络安全行业即将迎来能力重塑。如今，所有开发或维护软件的公司都面临着这样的环境：人工智能能够发现27年来人工审核和500万次自动化扫描都未能发现的漏洞。全球网络犯罪造成的损失估计每年约为5000亿美元。如果人工智能哪怕只是略微地将天平向防御者倾斜，其经济价值也将是巨大的。反之，如果天平向攻击者倾斜，其代价可能是灾难性的。

接下来会发生什么？

Anthropic明确表示，Mythos只是一个开始，而非终点。Glasswing页面上写道：“我们认为没有理由认为Mythos Preview是语言模型网络安全能力的极限。”他们指出，就在几个月前，模型还只能利用一些简单的漏洞。而再往前几个月，它们甚至根本无法识别任何有一定难度的漏洞。

该公司计划在即将推出的 Claude Opus 模型中引入新的安全措施，以便在最终大规模部署 Mythos 级功能之前，在较低风险级别下完善防护措施。其目标并非将该模型永久封闭，而是为防御者提供足够的先机，以便在同等功能普及之前强化其系统。

Anthropic 最后发表了一份声明，与其说是产品公告，不如说是一份警报：“我们感到担忧的是，世界似乎正在快速发展超人类系统，而没有更强大的机制来应对。”

网络安全领域过去20年的平衡状态已经结束，过去攻击者和防御者之间的力量规模大致相当。取而代之的是怎样的局面，取决于行业能否迅速行动，在这些能力被用于攻击之前将其用于防御。这正是“玻璃之翼计划”（Project Glasswing）所押注的。

以下每个值都是特定文档（漏洞或攻击利用程序）的 SHA-3 224 哈希值。在此利用的是SHA-3 的原像抗性：任何人（在密码学上）都很难通过我们发布的哈希值来获取文档内容。出于类似的原因，可能会发布更多报告，但本文中提到的这些报告，Anthropic公司承诺至少会发布这些报告

网络浏览器漏洞利用链：

概念验证： 5d314cca0ecf6b07547c85363c950fb6a3435ffae41af017a6f9e9f3
概念验证： be3f7d16d8b428530e323298e061a892ead0f0a02347397f16b468fe

虚拟机监控器中的漏洞：

概念验证： b63304b28375c023abaa305e68f19f3f8ee14516dd463a72a2e30853

本地权限提升漏洞利用：

报告： aab856123a5b555425d1538a37a2e6ca47655c300515ebfc55d238b0
概念验证： aa4aff220c5011ee4b262c05faed7e0424d249353c336048af0f2375

报告： b23662d05f96e922b01ba37a9d70c2be7c41ee405f562c99e1f9e7d5
概念验证： c2e3da6e85be2aa7011ca21698bb66593054f2e71a4d583728ad1615

报告： c1aa12b01a4851722ba4ce89594efd7983b96fee81643a912f37125b
概念验证： 6114e52cc9792769907cf82c9733e58d632b96533819d4365d582b03

智能手机锁屏绕过：

概念验证： f4adbc142bf534b9c514b5fe88d532124842f1dfb40032c982781650

操作系统远程拒绝服务攻击：

概念验证： d4f233395dc386ef722be4d7d4803f2802885abc4f1b45d370dc9f97

密码学库中的漏洞：

报告： 8af3a08357a6bc9cdd5b42e7c5885f0bb804f723aafad0d9f99e5537
报告： 05fe117f9278cae788601bca74a05d48251eefed8e6d7d3dc3dd50e0
报告： eead5195d761aad2f6dc8e4e1b56c4161531439fad524478b7c7158b

Linux内核逻辑漏洞：

报告： 4fa6abd24d24a0e2afda47f29244720fee33025be48f48de946e3d27

refer:

https://red.anthropic.com/2026/mythos-preview/

https://github.com/califio/publications/blob/main/MADBugs/CVE-2026-4747/write-up.md