OpenAI的Noam Brown刚刚对着整个AI行业开了一炮:你现在看到的所有跑分排行榜,信息基本是错的

OpenAI的Noam Brown刚刚对着整个AI行业开了一炮。核心论点只有一个：你现在看到的所有AI跑分排行榜，给你的信息基本上都是错的。

Brown是o1推理模型的核心贡献者，此前在卡耐基梅隆做出了击败顶级扑克职业选手的Libratus和Pluribus，后者登上了Science封面。在Meta FAIR做出了第一个在策略游戏《外交》中达到人类水平的AI——CICERO。他一直在做同一件事：让AI学会想更久、想更深。

这次他的文章标题叫「大规模推理计算的启示」，讲了一个被整个行业刻意忽略的事实：同一个模型，给它一块钱想事情和给它一万块钱想事情，跑出来的分数天差地别。但现在所有的排行榜，都不告诉你这个模型花了多少钱跑出来的成绩。

拿GPT-5.5来说。4月23日发布时，OpenAI甩出benchmark表格，社区逐行比对，结论是：还行，比5.4好一点，但也没好到哪去。然后几个小时后，波兰数学家Bartosz Naskręcki用一条prompt让GPT-5.5在11分钟内搭出代数几何可视化应用，Ruby on Rails之父DHH说用完5.5再切回Opus 4.7像倒退了一个时代。同一个模型，benchmark说「还行」，人说「炸裂」。

为什么？因为5.5和5.4根本不是在同一个计算预算下被测试的。GPT-5.4 Pro的API定价是每百万token $30/$180，GPT-5.5是$5/$30，价格差了6倍。但benchmark表格上这两个模型被当成同一个量级来比较，完全忽略了推理预算的差异。

Brown展示了两张图。左边是传统benchmark视角，5.5比5.4好一点。右边x轴换成token数量，5.5的曲线远远甩开5.4。同一场考试，换个维度看，结论完全不同。

这不是个案。MMLU这个曾经最主流的评测基准上，前沿模型全部挤在88%以上，分数差异在统计上已经没有意义。你看到的不是谁更聪明，是噪声。MRCR v2在100万token长度上的测试，GPT-5.4得36.6%，GPT-5.5得74.0%——翻了一倍，但这个维度在标准benchmark表格里根本不存在。

更极端的例子是ARC-AGI。OpenAI的o3跑出最高分，单道题推理成本三万美元。NVARC团队用40亿参数小模型拿了24%准确率，每道题两毛钱。三万美元对两毛钱，同一场考试，"谁排名更高"这个问题本身就已经失效了。

Brown的论述指向一个更深层的问题。当模型的能力是推理计算量的函数时，一个没有x轴的benchmark分数，就是一个没有单位的物理量。它什么都没告诉你。

学术界的量化关系是：覆盖率与采样次数呈对数线性关系。给AI双倍的想事情时间，它不会变聪明一倍，但确实会变聪明一点，收益是对数级递减的。但Brown引用了Karpathy和AI Safety Institute的一个关键发现——越强的模型，在更长时间跨度上的收益越大，性能的高原期被推远了，甚至可能消失。弱模型多想两分钟可能已经到顶了，但强模型多想两个小时，曲线还在往上走。

这意味着每一代模型发布时，如果你只在某个固定的推理预算下跑benchmark，你看到的就只是冰山一角。真正的能力上限，在你测不起的那片水域。用Brown的话说："我们可能根本不知道现代LLM的能力天花板在哪里，因为测量成本太高了。"

Brown给了三条建议。第一，实验室发布新模型时公布性能-推理计算量曲线，至少标明分数对应的推理预算。第二，benchmark排行榜追踪推理用量，或设定明确预算上限。第三，安全评估必须显式纳入推理计算量——国家级攻击者完全可以在单个任务上砸1000万美元推理预算，安全评估不能只测默认状态。

这些讨论最终指向一个更根本的问题：如果模型的能力是推理计算量的函数，而且越强的模型高原期越远，那「超级智能」到底是什么？传统理解里ASI是一个质变的拐点，某天某个模型突然在所有认知任务上全面超越人类。但顺着这个逻辑，ASI可能不是一个时刻，而是一条曲线。给它足够的钱和足够的时间，能力就继续往上走。

2026年，全球科技巨头在AI基础设施上的投入预计接近7000亿美元。这些钱买的不只是更大的模型，还有更长的推理、更多的采样、更快的inference。同一个开源模型，有人跑两毛钱一道题，有人跑三万美元一道题。能力差距不是模型的差距，是资源的差距。

当"智能"变成一种可以用美元标价的连续函数，"超级智能"也不再是一个是非题。跑分的二维时代正在开场，每个"第一"都要再乘以一个变量：推理预算。谁先适应这个二维坐标系，谁就先看清楚ASI决赛的真实比分。