AI 一个月挖出 10,000 个高危漏洞,准确率超 90%!微软苹果谷歌都在用,安全行业坐不住了

导读
【导读】Anthropic 联合 50 多家合作伙伴发起 Project Glasswing，用 Claude Mythos Preview 模型在关键基础设施软件中挖出超过 10,000 个高危和严重漏洞——准确率 90.8%。安全行业的瓶颈正从「找漏洞」转向「修漏洞」，97 个补丁已上线，但还有上万条等着处理。

上线一个月，23,019 条候选发现

5 月 22 日，Anthropic 发布了 Project Glasswing 的首份进展报告。

Project Glasswing 是 Anthropic 主导的一项协作防御计划，目标明确：在更强大的 AI 模型被攻击者利用之前，先把全球最关键的软件漏洞找出来。

上线一个月，Claude Mythos Preview 和大约 50 个合作伙伴扫过了超过 1,500 个开源项目，产出了 23,019 条候选发现。其中被确认为高危或严重级别的，超过 10,000 条。

传统安全团队一年能挖几百个高危漏洞就算高产。AI 用一个月跑完了一个中型安全公司全年的工作量。

▲ Anthropic 官方发布的 Project Glasswing 项目首页

准确率 90.8%，外部安全公司独立验证

找到漏洞只是第一步。如果全是误报，数字再大也没用。

Anthropic 把其中 1,900 条发现交给了外部安全公司做独立审查。结果：1,726 条被确认有效，真阳率 90.8%。

十条里有九条是真的。

对比一下：传统静态分析工具的误报率通常在 30% 到 70% 之间。Claude Mythos Preview 直接把这个指标拉到了另一个量级。

独立安全平台 KNOW 的评价：Claude Mythos Preview 目前是第一个能同时覆盖漏洞发现和验证两端的模型。美国 AI 安全研究所（US AI Safety Institute）给出了类似的判断。

▲ Wes Roth 在 X 上分享的 Project Glasswing 完整漏洞处理流程图

微软、苹果、谷歌、Cloudflare 都在用

参与 Project Glasswing 的合作伙伴名单相当重量级：微软、苹果、谷歌、Cloudflare，加上超过 50 家技术组织。

几个关键案例：

CrowdStrike用 Claude Mythos Preview 在 Firefox 145 中发现了 271 个漏洞。

Mozilla自己的数据更夸张——用 Claude Mythos Preview 找到的漏洞数量，是此前 Claude Opus 4.5 手动测试的十倍以上。

还有一个高危案例：Claude Mythos Preview 在 MySQL 中发现了一个 CVSS 评分 9.1 的严重漏洞，攻击者可以利用它伪造证书、冒充合法服务。

▲ 官方公布的 Project Glasswing 早期成果与合作伙伴验证数据

从 23,019 到 97：发现快，修复慢

看完整的处理链条：

23,019
条候选发现
1,900
条提交外部审查，1,726条确认有效
467
条报告给维护者
1,129
条由 Anthropic 直接报告给维护者
合计1,596条报告提交
1,451
条被维护者确认
97
个漏洞已打上游补丁
88
份安全公告已发布

1,596 条报告，97 个补丁。发现端和修复端的差距是 16 倍。

Anthropic 在博客里写道：

"Progress on software security used to be limited by how quickly we could find new vulnerabilities. Now it's limited by how quickly we can verify, disclose, and patch the large number of vulnerabilities found by AI."

「过去，软件安全的进步取决于能多快发现新漏洞。现在，取决于能多快验证、披露和修补 AI 发现的大量漏洞。」

当 AI 能批量产出高质量漏洞线索时，安全团队的工作重心就被迫转移了。过去最稀缺的能力是发现漏洞，现在最稀缺的变成了处理漏洞。

安全行业要面对的四个问题

AI 发现漏洞的能力已经被验证了。但后续问题更难：

谁来修？开源项目的维护者本来就缺人缺钱。突然涌入几百条高质量漏洞报告，处理压力会成倍增加。

谁来审？每条漏洞都需要人工确认影响范围、制定修复方案、协调上下游依赖。这部分工作目前还没有被 AI 替代。

谁来付钱？扫描 1,500 个开源项目消耗的算力和 token，成本由谁承担？当 AI 安全变成基础设施级别的服务，定价模型还没有标准答案。

谁来兜底？如果 AI 漏报了一个高危漏洞，或者误报导致维护者浪费大量时间，责任怎么划分？

Anthropic 提到了他们的协调漏洞披露（Coordinated Vulnerability Disclosure）政策：给维护者 90 天修复窗口，先报告再公开。但这个框架在漏洞数量暴涨的环境下还能不能撑住，是一个开放问题。

▲ The Hacker News 报道：Claude Mythos AI 在常用软件中发现 10,000 个高危漏洞

游戏规则要变了

从技术角度看，Project Glasswing 验证了一个方向：AI 在代码安全领域已经从辅助角色进入了独立产出的阶段。23,019 条候选发现、90.8% 的准确率、涵盖微软苹果谷歌的合作伙伴——这条路走得通。

但效率提升从来都有代价。

AI 降低了发现漏洞的门槛，但后续的验证、披露、修复和治理工作量并没有跟着降低。发现端的产出速度是修复端的 16 倍，整个安全生态需要重新分配资源。

开源维护者需要更多支持，企业安全团队需要新的工作流，法务和合规部门需要更新对 AI 生成安全报告的处理规范。

Anthropic 说他们正在考虑如何向更多组织开放 Mythos 级别的模型。这意味着这个能力未来可能不只属于 50 家合作伙伴，而是整个行业都能用。

当每个人都能用 AI 挖漏洞的时候，安全行业的游戏规则，会彻底改变。

— END —