OpenAI的Noam Brown刚刚对着整个AI行业开了一炮。核心论点只有一个:你现在看到的所有AI跑分排行榜,给你的信息基本上都是错的。
Brown是o1推理模型的核心贡献者,此前在卡耐基梅隆做出了击败顶级扑克职业选手的Libratus和Pluribus,后者登上了Science封面。在Meta FAIR做出了第一个在策略游戏《外交》中达到人类水平的AI——CICERO。他一直在做同一件事:让AI学会想更久、想更深。
这次他的文章标题叫「大规模推理计算的启示」,讲了一个被整个行业刻意忽略的事实:同一个模型,给它一块钱想事情和给它一万块钱想事情,跑出来的分数天差地别。但现在所有的排行榜,都不告诉你这个模型花了多少钱跑出来的成绩。
拿GPT-5.5来说。4月23日发布时,OpenAI甩出benchmark表格,社区逐行比对,结论是:还行,比5.4好一点,但也没好到哪去。然后几个小时后,波兰数学家Bartosz Naskręcki用一条prompt让GPT-5.5在11分钟内搭出代数几何可视化应用,Ruby on Rails之父DHH说用完5.5再切回Opus 4.7像倒退了一个时代。同一个模型,benchmark说「还行」,人说「炸裂」。
为什么?因为5.5和5.4根本不是在同一个计算预算下被测试的。GPT-5.4 Pro的API定价是每百万token $30/$180,GPT-5.5是$5/$30,价格差了6倍。但benchmark表格上这两个模型被当成同一个量级来比较,完全忽略了推理预算的差异。
Brown展示了两张图。左边是传统benchmark视角,5.5比5.4好一点。右边x轴换成token数量,5.5的曲线远远甩开5.4。同一场考试,换个维度看,结论完全不同。
这不是个案。MMLU这个曾经最主流的评测基准上,前沿模型全部挤在88%以上,分数差异在统计上已经没有意义。你看到的不是谁更聪明,是噪声。MRCR v2在100万token长度上的测试,GPT-5.4得36.6%,GPT-5.5得74.0%——翻了一倍,但这个维度在标准benchmark表格里根本不存在。
更极端的例子是ARC-AGI。OpenAI的o3跑出最高分,单道题推理成本三万美元。NVARC团队用40亿参数小模型拿了24%准确率,每道题两毛钱。三万美元对两毛钱,同一场考试,"谁排名更高"这个问题本身就已经失效了。
Brown的论述指向一个更深层的问题。当模型的能力是推理计算量的函数时,一个没有x轴的benchmark分数,就是一个没有单位的物理量。它什么都没告诉你。
学术界的量化关系是:覆盖率与采样次数呈对数线性关系。给AI双倍的想事情时间,它不会变聪明一倍,但确实会变聪明一点,收益是对数级递减的。但Brown引用了Karpathy和AI Safety Institute的一个关键发现——越强的模型,在更长时间跨度上的收益越大,性能的高原期被推远了,甚至可能消失。弱模型多想两分钟可能已经到顶了,但强模型多想两个小时,曲线还在往上走。
这意味着每一代模型发布时,如果你只在某个固定的推理预算下跑benchmark,你看到的就只是冰山一角。真正的能力上限,在你测不起的那片水域。用Brown的话说:"我们可能根本不知道现代LLM的能力天花板在哪里,因为测量成本太高了。"
Brown给了三条建议。第一,实验室发布新模型时公布性能-推理计算量曲线,至少标明分数对应的推理预算。第二,benchmark排行榜追踪推理用量,或设定明确预算上限。第三,安全评估必须显式纳入推理计算量——国家级攻击者完全可以在单个任务上砸1000万美元推理预算,安全评估不能只测默认状态。
这些讨论最终指向一个更根本的问题:如果模型的能力是推理计算量的函数,而且越强的模型高原期越远,那「超级智能」到底是什么?传统理解里ASI是一个质变的拐点,某天某个模型突然在所有认知任务上全面超越人类。但顺着这个逻辑,ASI可能不是一个时刻,而是一条曲线。给它足够的钱和足够的时间,能力就继续往上走。
2026年,全球科技巨头在AI基础设施上的投入预计接近7000亿美元。这些钱买的不只是更大的模型,还有更长的推理、更多的采样、更快的inference。同一个开源模型,有人跑两毛钱一道题,有人跑三万美元一道题。能力差距不是模型的差距,是资源的差距。
当"智能"变成一种可以用美元标价的连续函数,"超级智能"也不再是一个是非题。跑分的二维时代正在开场,每个"第一"都要再乘以一个变量:推理预算。谁先适应这个二维坐标系,谁就先看清楚ASI决赛的真实比分。
夜雨聆风