乐于分享
好东西不私藏

57、57、57!OpenAI、Google、Anthropic 史上首次在同一张榜单打平, 军备竞赛彻底变天了

57、57、57!OpenAI、Google、Anthropic 史上首次在同一张榜单打平, 军备竞赛彻底变天了

导读
【导读】Artificial Analysis 最新榜单给出了一个前所未有的画面:Claude Opus 4.7、GPT-5.4、Gemini 3.1 Pro 三大模型同时拿到 57 分,三巨头并列第一。精确分数只差 0.5 分,被置信区间直接吞掉。模型竞赛进入了一个新阶段,比较重点也覆盖到成本、幻觉率和 agent 稳定性。

三根一样高的柱子,震动了整个 AI 圈

4 月 19 日,科技博主 Theo 发了一条推文,只有一句话:

“For the first time ever, all three major labs are tied on Artificial Analysis”

「史上第一次,三大实验室在 Artificial Analysis 上打平了。」

配图更炸——Intelligence Index 的柱状图上,前三根柱子的高度完全一样,都写着 57。

▲ Theo 的推文在 24 小时内收获 2300+ 点赞、10.8 万次浏览,成为当天 AI 圈传播最广的一条帖子

Claude Opus 4.7(Anthropic)、Gemini 3.1 Pro Preview(Google)、GPT-5.4 xhigh(OpenAI)——三家花了数十亿美元训练出的旗舰模型,在这张全球最被关注的独立 AI 评测榜上,第一次站到了同一个台阶上。

Theo 的厉害之处在于:他没有做任何原创发现,他做的事情只有一件——把一个埋在评测报告里的结构性变化,压缩成了一个社交媒体上谁都看得懂的判断句。

三大实验室。首次。打平。

这九个字,就够了。

Anthropic 的”追分大戏”:从落后 4 分到齐头并进

这次的新闻爆点,很多人以为是”第一次有人拿到 57 分”。

不对。

回看 3 月底的榜单,Google 的 Gemini 3.1 Pro Preview 和 OpenAI 的 GPT-5.4 早就已经拿到 57 了。当时 Anthropic 的 Claude Opus 4.6 只有53 分,落后整整 4 分。

也就是说,真正的故事线是:Anthropic 用一个版本的更新,把 4 分的差距一口气抹平了。

4 月 16 日,Anthropic 发布 Claude Opus 4.7。官方强调了三个核心升级:更强的软件工程能力、更好的视觉理解、在复杂多步骤工作流里更可靠。价格?不变,仍然是每百万 token 输入 $5、输出 $25。

同一天,Artificial Analysis 先放了一个信号弹——

▲ Artificial Analysis 宣布 Opus 4.7 在 GDPval-AA(agentic 真实工作任务评测)上以 1753 Elo 登顶第一,超过 GPT-5.4 xhigh

这条推文传递的信号很明确:Anthropic 已经追到第一梯队,并在真实世界 agent 任务上拿到了领先位置。

“Artificial Analysis 历史上最大的一次并列”

4 月 18 日,靴子落地。

Artificial Analysis 官方发布长文,标题直白得不能再直白:《Opus 4.7: Everything you need to know》。

文章给出了整件事最关键的定性:

“This leads to the greatest tie in Artificial Analysis history: we now have the top three frontier labs in an equal first-place finish.”

「这带来了 Artificial Analysis 历史上最大的一次并列:三家前沿实验室并列第一。」

▲ Artificial Analysis 官方长推:详细列出了三家的精确分数、各自领先的子能力、以及 Opus 4.7 的效率提升

但紧接着,他们又补了一段极其重要的限定:

95% 置信区间为 ±1 分,榜单按整数展示。

精确分数其实是这样的:

模型
精确分
Claude Opus 4.7
57.3
Gemini 3.1 Pro Preview
57.2
GPT-5.4 (xhigh)
56.8

差距只有0.5 分,完全落在置信区间之内。

换句话说,榜单层面确实是并列第一,精确分数层面仍有极窄差异,这个差异已经小到没有明显统计意义。

这也让整件事变得更有意思,技术上还有小数点后面的较量,传播上则已经很难再靠一个总分明显拉开对手。

总分打平的背后:三家各自为王

如果只看”57 对 57 对 57″,你会以为三家模型已经没什么区别了。

大错特错。

Artificial Analysis 同时给出了一张更值得研究的分工地图:

Anthropic 领先真实世界 agent 任务。在 GDPval-AA(模拟 44 个职业、9 个行业的真实工作)上,Opus 4.7 以 1753 Elo 排名第一。

Google 领先知识与科学推理。在 HLE(Humanity’s Last Exam)、GPQA Diamond(博士级科学题)、SciCode(科学编程)、AA-Omniscience(事实知识 + 抗幻觉)等多项测试上,Gemini 3.1 Pro 占据优势。

OpenAI 领先长程编程与部分科学推理。在 TerminalBench Hard(终端工程任务)、CritPt(研究级物理推理)、AA-LCR(长上下文推理)上,GPT-5.4 表现最强。

可以看到,总分相同的同时,子能力分布更加分化。前沿模型的比较重点,也落到了不同真实场景里的表现。

更少 token、更少幻觉、更低成本——新阶段的胜负手

Opus 4.7 身上还藏着一组被低估的数字。

与前代 Opus 4.6 相比,Opus 4.7 的输出 token 使用量减少了约35%,Intelligence Index 仍然高了 4 分。跑完整套评测的成本约 $4,406,比 Opus 4.6 的 $4,970 低了大约11%

更值得关注的是幻觉率的变化:从 Opus 4.6 的61%降到了36%

降幻觉的方式也很有意思——Opus 4.7 变得更会说”我不确定”,而非硬编一个看似合理的答案。

用更少的 token,干更准的活,犯更少的错。

这组数字指向一个清晰的趋势:下一轮模型竞赛的关键指标,会同时包括总分、成本、稳定性和幻觉控制。

“最便宜的 Gemini 打平了最贵的 Claude”

开发者社区的反应最为直接。

一位名叫 Sahil 的独立开发者在 Theo 的推文下留言:

“Gemini 3.1 pro preview being the cheapest and still a tie with most expensive claude”

「Gemini 3.1 Pro Preview 明明最便宜,却还能和最贵的 Claude 打平。」

▲ 开发者 Sahil 的评论直击痛点:总分一样的情况下,谁更便宜谁就赢了

这条评论戳中了很多人的想法。看一组成本数据就明白了:

  • 跑完整套 Artificial Analysis 评测,Gemini 3.1 Pro 花了约 $892
  • GPT-5.4 花了约$2,851
  • Claude Opus 4.7 花了约$4,406

同样的 57 分,成本差了将近5 倍

当然,这里有个细节:Opus 4.7 的评测 token 消耗量最大(约 1.02 亿 token),因为它在推理模式下会生成大量思考 token。而 Gemini 只用了 5700 万 token。所以成本差异很大一部分来自架构和推理策略的不同。

对于真金白银付 API 账单的开发者来说,结论也很直接:在总分接近的情况下,成本就是一个核心变量。

当差距只剩小数点,评测本身也开始被审视

还有一个值得关注的声音。

沃顿商学院教授 Ethan Mollick——AI 领域最有影响力的学者型传播者之一——转发了这条新闻,但附上了一段尖锐的评论:

“I think Artificial Analysis does a good job overall and provides transparency in benchmarking, but GDPval-AA is not a good benchmark and needs to stop being reported.”

「我认为 Artificial Analysis 整体做得不错,也足够透明。但 GDPval-AA 不是一个好的 benchmark,不该继续这样被报道。」

▲ Ethan Mollick 直言:GDPval-AA 用 Gemini 3.1 作为裁判模型来评判其他模型的输出,这个设计存在问题

他的核心质疑是:GDPval-AA 用 Gemini 3.1 来给其他模型打分,这相当于让一个参赛选手同时当裁判。

这个质疑本身不意味着 Artificial Analysis 的榜单就不可信,同时也提醒大家:当三家差距只剩下小数点和评测设计时,评测方法本身也会成为讨论焦点。

Hacker News 上 Anthropic 发布页下的讨论也印证了这个方向。社区讨论的焦点已经从“谁多了 0.3 分”挪开了,大家更关心安全限制是否会削弱真实使用场景、frontier 模型在工程工作流里的可靠性有没有真正跃迁、agent 和工具调用到底到了什么程度。

今天最核心的问题,已经落在“谁更适合真实工作”上。

模型竞赛仍在继续,关注点已经换到新赛道

让我们把视野拉远一点。

为什么三大实验室会在 2026 年进入”拉不开差距”的阶段?

第一,训练范式趋同。头部实验室都在拼更强的预训练、后训练、推理模式和 agent loop,大家用的技术路线越来越像。

第二,综合榜单已经高位拥挤。3 月的顶部分布是 57/57/53,4 月变成了 57/57/57。分数走势明显在收敛,没有继续分化。

第三,用户的关注点已经迁移。开发者开始同时问“哪个模型最聪明”“哪个模型做 agent 最稳”“哪个幻觉最少”“哪个性价比最高”。

Artificial Analysis 的这张榜单,恰好成了这个转折点的历史截面。

57、57、57——这三个数字真正说明的,是顶层智力越来越接近之后,决定差距的会更多落在 agent 能力、成本效率、幻觉控制和真实工作流体验上。

模型竞赛远没有结束。

从今天开始,跑道已经不同了。


— END —

— END —