OpenAI的＂土豆＂熟了:代号Spud的GPT-6,为什么让整个AI圈屏住呼吸?

Stargate数据中心完成预训练，Polymarket赔率飙至78%，Altman说"几周后见"——这可能是2026年最重要的一次AI模型发布。

OpenAI Spud GPT-6 即将发布

◆ ◆ ◆

一颗"土豆"搅动整个AI圈

说实话，我已经很久没见过AI圈这么紧张了。

3月24日，OpenAI的新模型在德克萨斯州阿比林市的Stargate数据中心悄悄完成了预训练。这个代号"Spud"（土豆）的项目，被内部视为GPT-5.4之后最重要的一次迭代——至于它最终叫GPT-5.5还是GPT-6，取决于跑分结果落在哪个区间。

如果SWE-bench Pro分数突破70分大关，它就是GPT-6。

消息泄露后，预测市场Polymarket上"4月底前发布"的赔率一度飙到78%。虽然4月14日那天让很多人空欢喜了一场——没有博客、没有推文、没有惊喜发布——但圈内人心里都清楚：这颗"土豆"已经熟了，就差最后的安全评估。

Altman在预训练完成当天公开表态："几周后。"——从3月24日算起，最早的窗口就在4月中下旬。

Stargate数据中心

◆ ◆ ◆

Stargate：500亿美元的算力帝国

要理解Spud为什么值得期待，先得看看它是在什么级别的基础设施上训练出来的。

Stargate项目是OpenAI与Oracle联手打造的500亿美元超级数据中心计划。阿比林园区是旗舰站点，15年租约锁定，Oracle将在这里部署超过45万块NVIDIA GB200 GPU。整个园区满载功率达到1.2GW——相当于100万户家庭的用电量。

这不是一个普通的数据中心。这是一个专门为训练下一代基础模型而建造的算力堡垒。

剩余6栋建筑预计2026年中完工。与此同时，Stargate已经在新墨西哥、俄亥俄扩展新站点，甚至布局到了英国、挪威、日本和阿联酋。OpenAI正在用物理基础设施的规模，构建一条其他竞争对手难以逾越的护城河。

但有意思的是，这条护城河正在被微软悄悄绕过。 今年3月底，微软接手了OpenAI放弃的一处德州数据中心扩建项目——两家曾经亲密无间的合作伙伴，正在基础设施层面渐行渐远。

AI模型SWE-bench对比

◆ ◆ ◆

20分的差距：Spud到底要追赶谁？

这是理解Spud战略意义的关键。

目前的AI模型竞争格局已经发生了微妙但深刻的变化。在SWE-bench Verified这个被业界广泛认可的代码能力基准测试上：

●Claude Mythos Preview：93.9% ——Anthropic在4月7日发布的这个模型，直接把天花板拉高了一大截
●Claude Opus 4.6：80.8% ——日常可用的最强模型
●GPT-5.4：57.7% ——OpenAI当前的旗舰，被甩开了一个身位

你没看错，Mythos和GPT-5.4之间差了36个百分点。即使跟公开可用的Opus 4.6比，GPT-5.4也落后了23分。

这种差距在一年前是不可想象的。2025年初，GPT-4o和Claude 3.5 Sonnet还在SWE-bench上互有胜负，差距不过几个百分点。现在Anthropic一骑绝尘，OpenAI被甩在了身后。

Spud的任务很明确：不一定要追上Mythos（那个模型连公开发布都没有），但至少要缩小与Opus 4.6的差距，重新回到竞争的第一梯队。

Claude Mythos与Project Glasswing

◆ ◆ ◆

Mythos的阴影：一个"不卖"的超级模型

说到Anthropic，这里有个耐人寻味的故事。

Claude Mythos Preview并不是一个普通的产品发布——Anthropic明确表示这个模型不会公开发售。它被锁在一个名为"Project Glasswing"的网络安全计划里，只向40多个经过白名单审核的安全团队开放。

为什么？因为Mythos太强了。

它不仅在SWE-bench上拿到93.9%，在USAMO 2026数学竞赛上达到97.6%，更关键的是——它能自主发现并串联零日漏洞，覆盖所有主流操作系统和浏览器。Anthropic觉得这种能力如果不加限制地放出去，风险太大。

于是他们做了一个在AI行业前所未有的决定：造出最强的模型，然后拒绝销售它。

Anthropic为此投入了1亿美元的使用额度，联合亚马逊、微软、苹果、Google和NVIDIA组成安全联盟，用Mythos来主动发现和修复关键基础设施中的安全漏洞。

这对OpenAI来说是一个尴尬的局面。你的竞争对手不是用最强模型来抢市场——而是用它来做"好事"，这在PR层面几乎无法回击。

OpenAI产品线整合

◆ ◆ ◆

Spud的野心：不只是跑分，而是统一产品线

从目前泄露的信息来看，Spud的定位不仅仅是"跑分更高的GPT-5.5"。

它是OpenAI整个产品矩阵的新心脏。

ChatGPT、Codex、以及各类Agent产品——OpenAI正在把所有产品线的底层模型统一到Spud上。这意味着：

●ChatGPT Plus/Pro用户会第一批体验到新模型
●免费用户大约2-4周后通过Thinking功能接入
●企业API再晚2-4周开放

这个发布策略透露了OpenAI的核心判断：模型能力的绝对值不再是唯一战场，产品体验和生态整合才是决胜关键。

想想看，GPT-5.4虽然在SWE-bench上落后，但ChatGPT依然拥有最大的用户基数、最成熟的插件生态和最广泛的企业集成。Spud要做的是在保持这些优势的同时，把模型能力拉回第一梯队。

命名策略本身就说明了一切：高70分叫GPT-6，低60分叫GPT-5.5——OpenAI在用跑分结果来决定营销定位，这在以前是不会发生的。

2026年AI竞争格局

◆ ◆ ◆

四方角力：2026年的AI竞争格局

Spud的发布将重塑一个本已复杂的竞争格局。

Anthropic手握最强模型但选择不卖，转而用Claude Opus 4.6和Sonnet在商业市场上竞争，在LMSYS排行榜上稳居第一。他们的策略是"克制的力量"——我有核武器但我选择不用，你们自己掂量。

Google的Gemini 3.1 Pro已经在Vertex AI上全面可用，200万token的上下文窗口、文档级缓存、原生视频理解——这些都是实打实的企业级能力。Google不追求"最强模型"的头衔，而是在基础设施和场景整合上下功夫。

DeepSeek刚刚发布的R2用32B参数做到了AIME 92.7%的成绩，关键是开源、便宜、单卡可跑。中国AI力量正在用"性价比"重新定义竞争规则。

在这个格局下，Spud需要回答的问题不是"你比谁强"，而是"你凭什么值得用户留下来"。

发布倒计时

◆ ◆ ◆

写在最后

4月14日的"跳票"让一些人失望了，但也让期待值拉得更满。

从3月24日预训练完成到现在，三周多的安全评估期已经足够充分。Polymarket上78%的赔率说明市场对4月底前发布充满信心。最可能的窗口是4月21日到5月25日——但谁知道呢，也许你读到这篇文章的时候，那颗"土豆"已经上桌了。

不管Spud最终叫GPT-5.5还是GPT-6，不管SWE-bench分数是65还是75，真正重要的是它代表的方向：AI竞争已经从单纯的模型能力比拼，进化到了产品体验、安全策略、基础设施和生态系统的全面较量。

这场较量的精彩程度，可能比任何一个模型本身都更值得关注。

你觉得Spud能帮OpenAI扳回一局吗？欢迎在评论区聊聊你的判断。