OpenAI 要把更强的网络安全模型,交给更多＂白帽子＂了

当 AI 既能帮白帽子补漏洞，也能帮攻击者找入口，真正的问题就不再是"要不要用"，而是**"谁能先用上更强的工具"**。

OpenAI 这次宣布扩大「网络可信访问」（Trusted Access for Cyber，简称 TAC），想做的正是这件事：把更强的网络安全能力，优先开放给经过验证的防御者。与此同时，它还推出了 GPT‑5.4‑Cyber——一个面向网络安全场景微调、对合规安全研究限制更少的 GPT‑5.4 变体。

但这不只是一个产品发布的故事。一周前，Anthropic 刚发布了 Claude Mythos Preview 和 Project Glasswing，展示了一个能自主发现零日漏洞的前沿模型。 两大 AI 巨头在短短一周内先后出牌，意味着什么？

为什么现在要做这件事

AI 正在加速两类人：防御者能更快发现和修复数字基础设施中的问题，攻击者也在尝试新的 AI 驱动方式。这不是假设，而是已经发生的现实。

数字基础设施在高级 AI 出现之前就已经脆弱多年——大量关键系统运行着过时的代码、未修补的漏洞随处可见。如今，现有模型已经可以帮助发现漏洞、跨代码库推理，威胁行为者也在试验新的攻击手法。一个值得警惕的现象是：通过给模型更多思考步骤和算力（即"推理时计算"），就能从现有模型中激发出越来越强的能力——这意味着攻击者不需要等更强模型发布，用现有模型加上更巧妙的提示策略就可能绕过安全防线。安全防护不能等到某个未来的阈值才启动，而是必须跟模型的每一步升级同步推进。

自 2023 年起，OpenAI 通过「网络安全资助计划」支持防御者，通过「准备度框架」（一套评估模型风险的体系）强化安全防护，并在 2025 年开始在模型部署中加入网络安全专项防护。今年早些时候，又推出了 Codex Security 帮助大规模识别和修复漏洞。

这些动作背后，始终遵循三个原则：

民主化访问：让工具尽可能广泛地可用，同时防止滥用。不是由谁拍脑袋决定谁能用，而是用清晰的标准——比如严格的身份验证——来决定谁能获得更高级的能力。
渐进式部署：把系统谨慎地投入真实场景，边用边改。随着对能力和风险的理解加深，相应地更新模型和安全系统。
投资生态韧性：通过可信访问通道、定向资助、开源安全项目贡献，以及 Codex Security 等工具，支持防御者社区。

一周内两张牌：OpenAI vs Anthropic 的网络安全竞赛

理解 OpenAI 这次动作的意义，必须把它放在行业坐标系里看。

4 月 7 日，Anthropic 发布了 Claude Mythos Preview——一个通用前沿模型，未经专项安全训练就「涌现」出了令人震惊的网络安全能力：在所有主要操作系统和 Web 浏览器中发现了零日漏洞，完全不需要人工引导。它找到了 OpenBSD 中存在 27 年的漏洞、FFmpeg 中被自动化测试工具访问 500 万次却从未发现的 16 年漏洞，甚至在 Linux 内核中自主链式组合多个漏洞实现提权。在 CyberGym 基准测试中，Mythos Preview 得分 83.1%，远超此前的最强模型 Claude Opus 4.6（66.6%）。

Anthropic 同时启动了 Project Glasswing，联合 AWS、Apple、Google、Microsoft、NVIDIA、Cisco、CrowdStrike 等 12 家机构，承诺 1 亿美元使用额度和 400 万美元开源安全捐赠。但 Mythos Preview 不对公众开放，仅限合作伙伴使用。

一周后的 4 月 14 日，OpenAI 发布 GPT‑5.4‑Cyber 并扩大 TAC 计划——同样是限制性开放，同样面向防御者。这不是巧合，而是一个信号：AI 网络安全赛道正式进入了巨头正面交锋的阶段。

两家公司的策略有明显的差异：

维度	Anthropic（Mythos Preview + Glasswing）	OpenAI（GPT‑5.4‑Cyber + TAC）
模型定位	通用前沿模型，网络安全能力是「涌现」而非专项训练	网络安全特化模型，专门微调
开放范围	12 家合作伙伴 + 40+ 关键组织，不开放个人申请	数千名个人防御者 + 数百个团队，个人可在线验证
资金投入	1 亿美元使用额度 + 400 万美元开源捐赠	1000 万美元资助计划 + Codex for Open Source
核心能力	零日漏洞自主发现 + 完整利用链开发	二进制逆向分析 + 降低安全研究拒绝边界
治理哲学	联盟式——限定机构，更强集中控制	分级式——多层级验证，更广覆盖面

网络安全工具的"双刃剑"难题

网络安全工具天然是"双刃剑"：同一个漏洞扫描器，白帽子用它找到漏洞提前修补，攻击者用它找到漏洞发起入侵。同一个逆向工程能力，安全团队用它分析恶意软件，攻击者用它挖掘零日漏洞。所以，是否开放、开放到什么程度，不只看模型有多强，也要看是谁在用、怎么用、平台能不能验证。

Anthropic 的 CEO Dario Amodei 在 Project Glasswing 发布时说得直白：这些新模型在发现和利用漏洞方面的能力已经超过了除最熟练人类之外的所有人。CNN 报道的标题更尖锐——"Anthropic 最新 AI 模型可能让黑客实施攻击"。

这恰恰解释了为什么两家都选择了限制性开放而非公开发布：能力越强，开放越谨慎。但路径不同——Anthropic 选择了更集中化的「联盟式」控制，OpenAI 选择了更分层的「分级式」扩展。

OpenAI 的思路不是一刀切地开放或封死，而是给不同信任等级的用户不同权限：普通用户使用带安全防护的通用模型；经过更严格身份验证、用途更清晰的防御者，可以申请更高能力的访问层级。这是一种"分级信任"模式——你的权限取决于你愿意验证多少、能证明什么。

要实现这一点，需要能以更自动化、更客观的方式验证可信用户和用例的系统——基于证据和真实的信任信号来扩展访问，而不是依赖人工审批。比开放更重要的，不是谁都能用，而是谁用了之后愿意被验证、能被追责。

防御要跟能力一起升级

随着模型能力增强，防御也需要同步跟上。OpenAI 从 GPT‑5.2 开始引入网络安全专项安全训练，通过 GPT‑5.3‑Codex 和 GPT‑5.4 扩展了额外防护，并将 GPT‑5.4 归类为「高」网络能力级别。

在模型升级的同时，对防御者的支持也在加码：

推出了 1000 万美元的网络安全资助计划
Codex for Open Source（提供免费安全扫描）已覆盖超过 1000 个开源项目
Codex Security 自约半年前以私密测试版推出、今年初以研究预览版发布以来，已助力修复超过 3000 个严重和高级别漏洞

而 Anthropic 这边，Mythos Preview 在实际部署中已经发现了数千个高危漏洞，Glasswing 的合作伙伴（包括 AWS、Microsoft、Google）已经在用它扫描关键代码库。Anthropic 还承诺 90 天内公开报告已修复的漏洞和经验。

此外，OpenAI 还在持续优化模型处理敏感请求的方式，校准"拒绝边界"（即模型在哪类请求上会拦住不答），同时通过 TAC 等计划扩展可信访问。

更理想的状态是，安全从"事后审计"变成"实时防护"——在开发者写代码的时候就给出即时反馈，把安全从阶段性的漏洞清单转变为持续的风险降低。

GPT‑5.4‑Cyber 到底多了什么

今年 2 月上线的 TAC，可以理解为一条面向安全研究者和防御团队的"可信通道"：先证明你是谁、在做什么，再逐步开放更强的能力。

这次扩展后，个人用户可以在 chatgpt.com/cyber 在线完成身份验证，企业团队也可以通过 OpenAI 客户代表为团队申请可信访问。

通过额外验证并经审核批准的用户，还可以申请 GPT‑5.4‑Cyber 的访问权。它本质上是 GPT‑5.4 的网络安全特化版本：

对合规安全研究的误拦截更少——降低了合法网络安全工作的"拒绝边界"，避免安全研究者做漏洞分析时频繁被模型拒绝
新增二进制逆向分析能力——让安全专业人员在没有源代码的情况下，也能分析编译后的软件是否存在恶意行为或安全隐患。这在实际场景中非常有用：很多供应链攻击正是通过闭源的二进制组件植入的，而传统的安全审计往往无法触及

由于这个模型更加宽松，目前采用有限的、渐进式部署，面向经过审查的安全厂商、组织和研究人员。对这类高能力模型的访问可能会有限制，尤其是在"零数据留存"（Zero-Data Retention，即平台无法看到你如何使用模型）等场景下。

更强的工具，更难的治理

目前看来，OpenAI 认为现有安全防护已将网络风险降至可支持当前模型广泛部署的水平。按现有评估，这些防护有望支撑即将发布的更强模型，但专为网络安全训练、限制更宽松的模型仍需要更严格的部署和适当的控制——这也是为什么 GPT‑5.4‑Cyber 目前只面向经过审查的少数群体，而不是对所有用户开放。

从长远来看，面对能力可能会较快超越当今最优秀专用模型的未来版本，更广泛的防御机制将是必需的。

而 Anthropic 的路径更激进：他们明确表示，Mythos Preview 的网络安全能力是「涌现」出来的——未经专项训练就具备了超人的漏洞发现能力。这意味着未来的通用模型可能都会自带这种能力，问题不再是「要不要开放」，而是「怎么开放才不会让攻击者先拿到」。

CrowdStrike 的 CEO 说得好：这是一个"不进则退"的时刻。如果防御者不用 AI，攻击者很可能会先一步用上——而 AI 发现漏洞的速度，正在把传统安全审计远远甩在后面。

最稳妥的防守，不是等能力失控后再补门，而是让防御和模型一起升级。

如果更强的网络工具很可能会持续出现，你会支持它优先开放给经过验证的白帽子吗？这会让网络安全更安全，还是带来新的边界问题？欢迎留言聊聊。

原文：Trusted access for the next era of cyber defense^[1] 作者：OpenAI 发布日期：2026 年 4 月 14 日

参考：Project Glasswing: Securing critical software for the AI era^[2] Anthropic 发布日期：2026 年 4 月 7 日

引用链接

[1]Trusted access for the next era of cyber defense: https://openai.com/index/scaling-trusted-access-for-cyber-defense/

[2]Project Glasswing: Securing critical software for the AI era: https://www.anthropic.com/glasswing