Mythos VS OpenAI VS Xint Code VS 阿里千问cyber

一句话总结Mythos或其他类似模型目前的能力：

AI漏洞发现、漏洞利用开发能力，已超越当今几乎所有的人类从业者。只要给予充足的算力，它就能找到路径，对几乎所有指向的目标实现漏洞利用。对于防御者来说，完全没有必要恐慌。但需密切关注AI模型的发展，AI的迭代以周计算，能力还在不断增长。今天我们认为不可能的事情，下周可能就会成为现实。

参考二：漏洞海啸

另外，不是搞漏洞研究的朋友，请谨慎进行评论。我们已经看到国内出现了错误的分析。

背景：

2026年4月7日，美国人工智能公司Anthropic 发布了 Claude Mythos 预览版和 Project Glasswing，披露了一个单一 AI 模型已自主发现数千个零日漏洞，这些漏洞覆盖了所有主流操作系统和网页浏览器。这一公告引发了业内一场旷日持久的争论。此举现今被认为是一场政治作秀和商业营销（>对网络安全行业的实际影响）。正如传奇黑客lcamtuf（传奇波兰黑客Michal Zalewski，对那些想进入网络安全行业的新人的几点经验教训）所言：“我可以确认，关于“Mythos”及其对信息安全（infosec）影响的荒谬观点正呈指数级激增。”

2026年4月9日，据外媒axios报道，OpenAI即将推出新模型，以应对Anthropic的压力。（https://www.axios.com/2026/04/09/openai-new-model-cyber-mythos-anthopic）

2026年4月15日，OpenAI发布没有防护栏的新模型，https://openai.com/index/scaling-trusted-access-for-cyber-defense/

SANS研究所的首席人工智能官表示，

因此，OpenAI 基本上是将其最新模型（甚至并非前沿模型）在实质上移除防护栏（guardrails）后重新发布。他们很可能试图借此提升研究人员发现代码漏洞的能力。然而，无论是 OpenAI 还是 Anthropic，都没有向网络安全社区说明究竟应该如何实现这一目标。

我们从多名 Mythos 相关人士那里了解到，他们甚至不清楚自己具体应该如何使用该模型。是对着应用程序说“找出漏洞”吗？还是有其他做法？该模型并未附带使用手册或 man page（操作手册）。

这无非是一家厂商试图在竞争中超越另一家厂商的举动。

我们需要开始对不同 AI 模型发现代码漏洞的能力及其发现速度进行基准测试。此事涉及切实的风险。

解决这一问题的办法，难道就是让人们在没有任何额外安全措施的情况下，通过这些模型进行代码分析和漏洞发现吗？

对于绝大多数并不具备模糊测试（fuzzing）或漏洞发现等进攻性训练的防御方而言，他们在此期间又该如何应对？

他们将如何验证那些申请访问权限的个人（以及企业内部人员）？

虽然我们对于这些模型优先向防御方开放这一做法表示赞赏，但真正的问题在于：当大家真正获得这些模型后，是否所有人都完全清楚应该如何使用它们？

同日，阿里千问Cyber负责人卓越（Terry Yue Zhuo）在X上表示：阿里千问很快也将推出类似模型。（https://x.com/terryyuezhuo/status/2044230726015693190，https://terryyz.github.io/）

同日，韩国漏洞研究公司Theori发布报告《你不需要 Mythos，你需要的是一个系统》，加入商业竞争。（https://go.xint.io/hubfs/Xint%20Whitepaper_You%20Dont%20Need%20Mythos.pdf）

Theori的漏洞研究员在X上表示：（https://x.com/tjbecker/status/2044528708044919259）

我们的 AI 代码扫描器 Xint Code 使用其默认管道（无需自定义提示或配置）发现了所有 4 个 Mythos 特色漏洞（OpenBSD、FreeBSD、firecracker、FFmpeg）。

这些相同的扫描在 OpenBSD、FFmpeg 和 FreeBSD 中发现了超过 10 个新的漏洞。

当我看到 Mythos 报告时，我的第一个想法是：“我想知道 Xint Code 是否会发现这些漏洞？”

Xint Code 在主要软件项目中已被归功于数十个 CVE，但它从未扫描过此帖中提到的任何代码库。

果然，它发现了它们！

对于每个特色漏洞，我们选择了一个包含漏洞的合理范围。我们没有挑选易受攻击的文件，而是选择了一组更广泛的代码。

示例：

OpenBSD：所有 sys/netinet（内核网络栈）
FFmpeg：所有 H.264 和 H.265 编解码器代码

除了识别 Mythos 特色漏洞之外，我们还在 OpenBSD 和 FFmpeg 中发现并报告了 12 个额外的漏洞。FreeBSD 的额外发现仍在分类中

报告全文如下：

你不需要 Mythos。你需要的是一个系统。

人工智能驱动的漏洞挖掘已经到来。以下是将它转化为您的安全团队今天就能使用的产品所需的一切。

作者： Tim Becker，Theori 高级安全研究员文本撰写： Jeffrey Martin，Theori 产品副总裁

2026年4月 - Xint.io，Theori 出品

01 > 执行摘要

2026年4月7日，Anthropic 发布了 Claude Mythos 预览版和 Project Glasswing，披露了一个单一 AI 模型已自主发现数千个零日漏洞，这些漏洞覆盖了所有主流操作系统和网页浏览器。这一公告终结了业内一场旷日持久的争论：AI 确实能够发现生产软件中真实、可利用的漏洞，包括那些经受住了数十年专家评审和数百万次自动化安全测试的漏洞。

本白皮书展示了由 Theori 构建的已出货产品 Xint Code 在针对 Anthropic 测试过的相同代码库上运行所获得的结果。Xint Code 使用其标准扫描流水线，复现了 Anthropic 展示的关键漏洞类别，识别了 Mythos 公开披露中强调的所有旗舰级漏洞，并在相同的代码库中发现了另外十二个不属于 Anthropic 公告范围的零日漏洞：其中五个位于 OpenBSD 的网络协议栈中，七个位于 FFmpeg 的编解码器库中，包括十一个高危漏洞和一个中危漏洞。没有任何函数被预先选定。也没有任何人类引导扫描过程。

这些结果指向了一个对每个安全组织都至关重要的结论：AI 漏洞挖掘中的关键变量不仅仅是模型本身，而是决定扫描目标、验证发现真实性与可利用性、消除误报并交付可操作修复方案的结构化系统。

Anthropic 间接地证明了这一点；他们的 Frontier Red Team 选择了目标，设计了扫描策略，签约了专业的人工分类人员，并管理了涉及数千个结果的披露流程。Xint Code 将所有这些功能产品化，使得任何工程团队无需配备研究团队或 Glasswing 邀请，即可在当下获得这种能力。

02 > Mythos 展示了什么

Anthropic 的公告及其 Frontier Red Team 附带的技术评估，是迄今为止最详细的公开证据，表明 AI 模型能够以规模化方式自主发现并利用关键软件中的零日漏洞。这些结果意义重大，值得精确总结，因为它们定义了衡量该领域任何声明所应依据的标准。

结果

在数周的测试中，Mythos Preview 识别了数千个零日漏洞，其中许多被归类为严重级别。这些发现覆盖了所有主流操作系统和所有主流网页浏览器。三个展示性漏洞说明了其能力范围：一个存在于 OpenBSD 的 TCP SACK 实现中、存在了 27 年之久的拒绝服务漏洞，这要求模型对两个相互作用的漏洞中的有符号整数溢出进行推理；一个存在于 FFmpeg 的 H.264 编解码器中、存在了 16 年之久的漏洞，自 2010 年重构以来，所有模糊测试器和人工审查者都未能发现它；以及一个存在于 FreeBSD 的 NFS 服务器中、存在了 17 年之久的远程代码执行漏洞（CVE-2026-4747），该漏洞可授予未经身份验证的 root 权限，Mythos 在初始提示后无需任何人工介入即发现并完全利用了该漏洞。

超越漏洞发现，Mythos 展示了远超前代模型的漏洞利用构建能力。

Opus 4.6 在针对 Firefox JavaScript 引擎的数百次尝试中，大约有两次成功将漏洞转化为可利用的 exploit。Mythos 成功了 181 次，并在另外 29 次中实现了寄存器控制。在 Anthropic 内部的 OSS-Fuzz 基准测试中，Mythos 在十个独立且已完全修补的目标上实现了完整的控制流劫持（第 5 级）；而 Opus 4.6 和 Sonnet 4.6 各自仅在第 3 级上实现了一次崩溃。

03 > 为何行业首批回应未能切中要害

Mythos 公告发布后数小时内，数个组织便发布了分析报告，声称使用更小、更便宜的模型复现了其旗舰级结果。其中最突出的是安全初创公司 Aisle 的一篇博文，他们通过隔离漏洞函数、提供架构上下文，并对八个模型运行单次零样本 API 调用来测试 Mythos 展示的漏洞。他们的头条发现是：所有八个模型，包括一个仅有 36 亿活跃参数的模型，都检测到了 FreeBSD NFS 漏洞。

安全社区的回应是质疑的，并且理由充分。该测试的方法论仅检验了漏洞发现流水线中一个狭窄且相对简单的步骤。将一个存在漏洞的函数交给模型，告诉它该函数处理网络解析的 RPC 凭证，然后询问它是否包含安全缺陷，这与 Mythos 所做的有着本质区别。Mythos 扫描了 FreeBSD 内核中的数百个文件，自主识别了相关的代码路径，发现了漏洞，然后构建了一个完整的、可工作的 exploit，其中包含一个分布在多个数据包中的 20 个 gadget 的 ROP 链。Aisle 的测试证实了模型能够识别孤立代码片段中的已知漏洞。它并未测试漏洞发现、目标选择、验证、误报消除或漏洞利用。

底层的技术结果是真实的：较小的模型在获得正确上下文时能够检测到已知的漏洞模式。这是一个真实且有价值的发现。但它掩盖了一个更重要的真相。一个将所有内容都标记为潜在漏洞的模型，在任何一个单独函数上都会拥有很高的真阳性率。真正困难的问题不在于模型在被指向某个代码时能否识别漏洞，而在于一个系统能否在拥有 900 万行代码的代码库中找到正确的代码进行审查，区分出那一个真正的漏洞与模型沿途标记出的数百个理论性弱点，并输出开发者可以采取行动的结果，而不会因为误报浪费一周时间。

这一点很重要，因为它反映了市场上关于 AI 漏洞挖掘真正需要什么的持续混淆。一旦有人识别出正确的函数，在函数级别进行检测正变得越来越容易，跨越不同模型层级。但这是最简单的一步。

真正的难题在上游（这个代码库中的 10,000 个文件，你应该检查哪一些？）和下游（这个发现在实际上下文中是否真的可利用，还是只会浪费你开发人员时间的理论性弱点？）。将整个流水线压缩成一个单一的检测步骤，然后宣称该能力已经“商品化”，既误判了问题的难度，也低估了 Mythos 成果的重要性。

Aisle 事件为该领域（包括本文）后续的任何声明确立了一个重要标准：端到端的、来自完整流水线的结果，没有预先选定的函数，扫描过程中没有人工引导，并且方法论完全透明。这正是本白皮书力求达到的标准。

04 > Xint Code 的方法论

测试目标

Xint Code 针对 Anthropic 的 Mythos Preview 披露中重点展示的四个代码库进行了运行，目标是包含那些展示性漏洞的相同子系统。对于每个代码库，团队使用了 Anthropic 提供补丁之前的特定提交或版本，以确保进行公平的比较。

目标如下：

FreeBSD (v15.0.0)。提交 1fddb5435315ca44c96960b16bdda8338afd15a1。NFS/RPCSEC_GSS 服务器实现，其中包含 Mythos 发现并利用 20-gadget ROP 链进行利用的 CVE-2026-4747 堆栈溢出漏洞。扫描目标是 lib/librpcsec_gss/ 及相关的 RPC 代码路径。
OpenBSD (v7.9)。提交 a71bcab410b6dd4b4fa17a16af0fb01c399b1be4。扫描了整个网络协议栈 (sys/netinet/)，包含大约 29,000 行代码，涵盖了 Anthropic 展示性拒绝服务漏洞所在的 TCP SACK 实现。
FFmpeg (v8.0.1)。提交 894da5ca7d742e4429ffb2af534fcdaa0103ef593，即 Anthropic 提供补丁之前的版本。扫描目标是 libavcodec/ 中的 H.264 和 H.265 编解码器代码。
Firecracker (v1.14.0)。提交 7137308817dc65e2ae85a39269bd09f3884f662d。扫描目标是 virtio 设备传输层，Anthropic 的披露在此处发现了一个 PCI 传输中的越界写入。

关于范围的一个重要说明：Xint Code 被指向了每个项目中的特定子系统，这与安全团队评估已知攻击面区域的方式一致。未执行全项目扫描。这也反映了 Anthropic 自身的方法，他们也是针对每个项目中的特定子系统进行扫描，而非端到端地扫描整个代码库。

测试方式

Xint Code 使用其标准扫描流水线运行：即任何客户均可获得的相同产品配置、分析阶段和默认参数。

没有手工选择函数进行分析。
没有针对特定漏洞类别精心设计提示词。
没有人类引导扫描或在执行过程中进行干预。
没有应用事后过滤来突出成功的检测或压制遗漏。

除非下文另有说明，流水线的可配置参数均保持其标准默认值。所有扫描均使用 Anthropic 和 OpenAI 公开可用的基础模型；未使用任何专有或预览版模型。发现结果通过 Xint Code 内置的验证流水线进行验证，然后通过人工分类进行确认，并在适用的情况下构建概念验证代码。

扫描使用了 Claude Opus 4.6 结合 GPT 5.4 模型。每个代码库的模型选择在第 5 节中有记录。

本报告中的所有结果都是可复现的。相同的代码库版本、流水线配置和模型选择均已按代码库记录在案，任何针对相同目标运行 Xint Code 的客户都应能得到等效的结果。

流水线的功能

Xint Code 的引擎作为一个结构化的流水线运行，自动化了 Anthropic 的 Frontier Red Team 围绕其脚手架所执行的相同功能。Anthropic 依赖 21 名专家研究员来选择目标、设计扫描策略并验证输出结果，而 Xint Code 将这些决策内嵌到产品中。

攻击面识别与目标锁定引擎分析目标代码库，识别出最可能包含可利用漏洞的代码路径。这是 Anthropic 文件排名步骤（Mythos 根据攻击面可能性对每个文件进行 1 到 5 级的评分，并优先分配代理从高分文件开始）的产品化模拟。Xint Code 自动执行此目标锁定，无需操作员知道要检查哪些文件或函数。
候选代码路径的深度分析一旦引擎识别出目标区域，基础模型会对代码进行深度推理：追踪数据流、评估控制流约束、识别可触发漏洞的条件。在这个阶段，模型能力最为重要，底层模型的改进会直接转化为更好的结果。
可利用性验证引擎通过评估识别出的问题在上下文中是否可利用，来区分理论性弱点和真正的漏洞。这对应于 Anthropic 的第二代理验证步骤（“请确认这是否真实且有趣？”）以及随后的人工分类步骤，但在本产品中作为一个自动化阶段内嵌。
结构化输出生成每个确认的发现都会附带 CVSS 严重性评分、复现步骤以及与开发者现有工作流的集成点交付。输出结果旨在供立即采取行动，无需进一步研究。

05 > 结果

A 部分：Mythos 展示性发现的复现

Xint Code 的标准流水线在所有四个测试的代码库中，都识别出了与 Anthropic 的 Mythos Preview 披露中的关键发现相匹配的漏洞。对于每一个漏洞，我们描述了 Xint Code 报告的发现、其与 Mythos 展示性漏洞的关系以及当前的披露状态。

FreeBSD：通过超大 RPC 凭证长度导致的堆栈溢出

严重性：严重 (9.3)
漏洞类别：堆栈缓冲区溢出
位置：lib/librpcsec_gss/svc_rpcsec_gss.c:771-775，函数 svc_rpc_gss_validate 中
CVE：CVE-2026-4747
Mythos 展示匹配：是
披露状态：已修补 (commit)
公告：FreeBSD-SA-26:08.rpcsec_gss

Xint Code 在 RPCSEC_GSS 验证路径中识别出一个堆栈缓冲区溢出漏洞。函数 svc_rpc_gss_validate 将一个 RPC 头重构到一个固定的 128 字节堆栈缓冲区中，然后通过 memcpy 无边界检查地复制整个凭证体。在写入 8 个 XDR 字（32 字节）后，缓冲区仅剩 96 字节。XDR 解码凭证时，xdr_callmsg 中仅将 oa_length 限制为 MAX_AUTH_BYTES（通常为 400），这超过了剩余空间。此外，凭证被解析到结构化的 rpc_gss_cred 时，未验证整个原始 blob 是否已被消费完，允许尾部字节夸大 oa_length。易受攻击的调用点位于 DATA/DESTROY 路径中，使得拥有有效句柄的远程攻击者能够在 MIC 验证之前触发堆栈溢出。

这正是 Anthropic 展示的那个存在了 17 年、授予未经身份验证 root 权限的远程代码执行漏洞。Mythos 发现了它，并构建了一个完整、可工作的 exploit，其中包含分布在多个数据包中的 20 个 gadget 的 ROP 链。Xint Code 通过其标准流水线识别出了相同的根本原因。

OpenBSD：通过精心构造的 SACK 选项导致的空指针解引用

严重性：高危 (8.7)
漏洞类别：空指针解引用（远程拒绝服务）
位置：tcp_input.c:2567-2586，函数 tcp_sack_option 中
Mythos 展示匹配：是
披露状态：已修补 (patch)

Xint Code 在 OpenBSD 的 TCP SACK 选项处理中识别出一个空指针解引用漏洞。在 tcp_sack_option 函数中，当从得分板列表头部删除空洞且 p == cur 时，p 和 cur 都被设置为 cur->next。如果这是最后一个空洞，p 变为 NULL。当内部 while 循环退出后，代码检查 SEQ_LT(tp->rcv_lastsack, sack.start)，如果为真，则在 p == NULL 的情况下解引用 p->next。

该触发利用了模 32 位序列号比较的非传递性（SEQ_LT 定义为 ((int)((a)-(b)) < 0)）。当 th_ack == snd_una 时，sack.start >= th_ack 的检查被绕过，允许攻击者将 sack.start 设置为任何 32 位值。通过选择 sack.start >= sack.end - 2^31 + 1，精心构造的值同时表现为“小于”所有空洞的起始（从而能够删除），又“大于” rcv_lastsack（从而触发解引用），因为当跨度超过 2^31 时，模比较的传递性失效。

这正是 Anthropic 强调的那个存在了 27 年的拒绝服务漏洞，要求模型对两个相互作用的 bug 中的有符号整数溢出进行推理。Xint Code 的发现匹配了相同的根本原因，并利用了相同的序列号算术漏洞。

Firecracker：未检查的队列大小写入导致越界访问

严重性：严重 (9.3)
漏洞类别：越界写入
位置：src/vmm/src/devices/virtio/transport/pci/common_config.rs，函数 write_common_config_word 中
CVE：CVE-2026-5747
Mythos 展示匹配：很可能（见下文说明）
披露状态：已修补 (commit)
公告：AWS Security Bulletin 2026-015

Xint Code 在 Firecracker 的 virtio PCI 传输层中识别出一个越界写入漏洞。PCI 传输允许客户机在队列已经初始化且其原始指针被缓存后重写 q.size。Queue::initialize() 会验证队列布局并缓存 desc_table_ptr、avail_ring_ptr 和 used_ring_ptr，但后续的 PCI BAR 写入会到达 write_common_config_word()，并直接覆盖 q.size 而无需重新运行初始化。后续的队列操作在解引用已缓存的指针时，使用了新的 self.size 进行边界和偏移量计算，导致在包括 avail_ring_used_event_get、used_ring_avail_event_set、pop_unchecked 和 write_used_element 等方法中发生越界访问。

归属说明：Mythos 博文对 Firecracker 发现的细节披露有限。Xint Code 的发现被归属于 Anthropic 披露的同一个 CVE (CVE-2026-5747)，并且该漏洞在同一提交中被修补。我们高度确信这是同一个底层漏洞，但在 Anthropic 发布其完整技术描述之前，无法确认根本原因分析是否完全一致。

FFmpeg：切片编号与 0xFFFF 哨兵值冲突

严重性：严重 (9.2)
漏洞类别：数值与类型逻辑错误 (CWE-125, CWE-787, CWE-197)
位置：libavcodec/h264_slice.c:1982-1984，函数 h264_slice_init 中
CVSS：CVSS:4.0/AV:N/AC:L/AT:P/PR:N/UI:N/VC:H/VI:H/VA:H/SC:N/SI:N/SA:N
Mythos 展示匹配：是
披露状态：已修补 (commit)

Xint Code 在 FFmpeg 的 H.264 解码器中识别出一个哨兵值冲突漏洞。一个 32 位的切片计数器被赋值给 sl->slice_num，并存储到 16 位的 slice_table 中，且未进行截断处理。当 sl->slice_num 达到 65535 时，其存储的值变得与用于标记无效或未初始化宏块的哨兵值 0xFFFF 无法区分。在“快速去块”路径（sl->deblocking_filter == 2）中，邻居有效性检查针对的是 sl->slice_num 而非哨兵值，因此，当真实切片编号为 0xFFFF 时，即使在顶部或左侧边缘，边界宏块也会被视为有效邻居。

这导致了多个内存安全问题。在 xchg_mb_border 函数中，当 sl->mb_x == 0 时计算 top_border_m1，结合哨兵值冲突，允许通过 XCHG 宏在 top_borders 缓冲区之外进行越界写入。在 fill_filter_caches_inter 函数中，在相同冲突下，顶部边界处的 top_type 保持非零，导致使用负索引读取 mb2b_xy。

触发条件需要启用切片线程，设置 AV_CODEC_FLAG2_FAST 标志，以及一个足够大的图像以允许在一帧中至少有 65,535 个切片（例如，4096x4096 像素产生 65,536 个宏块）。攻击者控制的 H.264 比特流可以诱导对解码器堆缓冲区的越界写入以及相关的越界读取，导致内存损坏或崩溃。在常见性能设置下，最严重的现实后果是通过媒体输入实现任意代码执行。

这正是 Anthropic 强调的那个存在了 16 年、自 2010 年重构以来所有模糊测试器和人工审查者都未能发现的漏洞。

B 部分：额外发现

除了复现 Mythos 展示性漏洞之外，Xint Code 还在相同的代码库中发现了另外十二个不属于 Anthropic 公开披露范围的漏洞。

在相同代码库中发现的、不属于 Anthropic 公开披露范围的额外漏洞

OpenBSD：Xint Code 在 sys/netinet/ 网络协议栈中，发现了除 Anthropic 展示的 SACK 问题之外的另外五个可远程触发的漏洞。其中三个被评为高危（两个拒绝服务，一个加密弱点）；两个被评为中危（一个信息泄露，一个拒绝服务）。所有五个目前正在负责任地披露中。
FFmpeg：Xint Code 在 FFmpeg 的编解码器库中，发现了除 Anthropic 展示的哨兵值冲突之外的另外七个漏洞。其中六个被评为高危（四个越界读取，一个越界读取/写入，一个越界写入）；一个被评为中危（未初始化读取）。所有七个等待披露。
FreeBSD：除 RPCSEC_GSS 堆栈溢出外，未发现其他高危或严重漏洞。
Firecracker：除 virtio PCI 传输越界写入外，未发现其他高危或严重漏洞。

所有额外发现的 SHA-3 哈希承诺在下面的汇总表和第七节中提供。

06 > 产品化的系统是核心

Anthropic 的结果是由一个极简的脚手架加上大量专家的判断产生的。将每个人工驱动的步骤映射到其 Xint Code 的等效功能，说明了产品化在实际中的含义。

目标选择Anthropic 的团队根据其安全专业知识，选择了要攻击的高价值开源基础设施项目和代码库。Xint Code 的引擎可在客户指向的任何代码库中识别攻击面。目标锁定智能内置于产品中，而非操作员的判断中。
扫描策略Anthropic 设计了一个并行扫描策略：每个文件一个代理，文件按攻击面可能性排序，代理按优先级顺序调用。Xint Code 在内部处理目标锁定和并行化。客户启动扫描；引擎决定如何分解工作并设定优先级。
发现验证Anthropic 签约了专业的人工分类人员在披露前验证每个发现。他们的数据显示，与模型的严重性评估有 89% 的完全一致率。Xint Code 的验证流水线内置于产品中。自动评估发现的可利用性，本文中的发现还通过人工专家评审进行了验证。
输出交付Anthropic 的输出是带有概念验证 exploit 的漏洞报告，通过一个定制的负责任披露流程进行管理。Xint Code 的输出是结构化的发现，包含严重性评分、复现步骤，并可集成到开发者的现有工作流中。

Anthropic 红队产生的信息确实令人印象深刻。Xint Code 的贡献在于，使这类信息现在即可供任何安全团队使用，结构化为可在现有工作流中立即采取行动的形式。

这些都不贬低 Anthropic 的成就。他们的方法对于一个研究团队向行业展示模型能力来说是合适的。关键在于，要在企业规模上，跨公司维护的每个代码库复现这些结果，需要将模型周围的每一步都产品化。这正是 Xint Code 所做的。

市场影响

Mythos Preview 通过 Project Glasswing 向大约 40 个组织提供，并得到高达 1 亿美元的使用额度支持。这些组织包括亚马逊、苹果、微软、谷歌以及其他关键基础设施的运营商。对他们来说，Glasswing 是一种非凡的资源。

对于其他数十万个正在交付代码的工程团队来说，Mythos 提出的问题比它提供的访问权限更为紧迫。每个阅读了相关报道的 CISO 现在都明白，AI 能够发现那种他们年度渗透测试才能发现的漏洞，甚至可能更多，而且速度达到软件级，规模达到软件级。问题不再是“我们是否应该探索将 AI 用于安全测试？”，而是“我们如何在那些能够发现这些漏洞的模型落入攻击者手中之前，将其投入实际应用？”

Anthropic 自己的时间线估计与此相关。Frontier Red Team 负责人 Logan Graham 告诉 Axios，其他 AI 实验室可能需要六到十八个月才能发布具有类似能力的模型。曾在 Facebook 任职、现在 Corridor 的 Alex Stamos 认为开源权重模型的差距大约为六个月。这两个估计都指向同一个结论：防御者能够抢占先机的窗口期，是以月为单位计算的，而不是年。

Xint Code 的存在就是为了关闭这个窗口。它使用公开可用的基础模型，按标准商业费率，无需特殊访问权限或研究合作伙伴关系，就能提供达到渗透测试深度的漏洞发现能力，且规模达软件级。结构化的流水线已经将 Anthropic 研究团队展示的相同工作流投入实际应用。你不需要成为那 40 个 Glasswing 组织之一来获得这种能力。你需要的是一个为交付这种能力而构建的产品。

07 > 负责任披露声明

Theori 致力于对本研究中发现的所有漏洞进行负责任披露。我们的流程遵循 Anthropic 为 Project Glasswing 建立的惯例，包括 90 天的披露窗口期，以及为复杂补丁提供 45 天的延期。

对于本研究中复现的四个 Mythos 展示性漏洞，各自维护者已发布补丁：

FreeBSD (CVE-2026-4747)：已修补。公告：FreeBSD-SA-26:08.rpcsec_gss。
OpenBSD (SACK)：已修补。补丁：025_sack.patch。
Firecracker (CVE-2026-5747)：已修补。公告：AWS Security Bulletin 2026-015。
FFmpeg (哨兵值冲突)：已修补。Commit。

对于在 OpenBSD 网络协议栈和 FFmpeg 编解码器库中发现的十二个额外漏洞，报告已提交给各自的维护者，目前正在积极披露中。完整漏洞报告和概念验证细节的加密哈希承诺（SHA-3）如下。这些承诺遵循 Anthropic 在其 Frontier Red Team 评估中建立的惯例，并将在补丁可用时被完整技术描述替换。

本研究中所有发现均由 Xint Code 的标准扫描流水线发现。没有任何漏洞是通过人工分析发现随后归因于产品的。第 4 节中描述的方法论的完整性适用于本报告中的每一个发现。