OpenAI研究科学家Noam Brown:Benchmark已失效,海外御三家谁都无法一夜之间拉开模型差距

🗓 访谈时间：2026年6月26日

🎤 访谈嘉宾：OpenAI 研究科学家Noam Brown在 No Priors 播客接受 Sarah Guo 访谈

🔗 访谈链接：https://www.youtube.com/watch?v=AZrU6y3pUcU

Noam Brown是AI推理领域的教父级人物，他认为模型能力不再是一个固定的benchmark分数，而是推理预算的函数。因此现有评估体系、安全政策和模型竞争叙事都需要重新校准。同时，大规模test-time compute并不意味着一夜之间的智能爆炸，因为时间与“研究品味”仍是不可压缩的瓶颈。

核心观点

• 模型能力是推理预算的函数：当前benchmark不控制test-time compute变量，导致更高效模型被系统性低估。

• 行业陷入 benchmark 呈现方式的“坏均衡”：所有人都知道单一数值比较不合理，但竞争惯性使得没人愿意率先放弃。

• 安全评估框架存在结构性盲区：责任制扩展政策和准备框架未考虑 test-time compute 变量，这意味着模型的危险能力可能被系统性低估。

• 已发布模型蕴含巨大未开发能力：Erdős 猜想反证表明投入 1-10 万美元通用 scaffold 就可能从现有模型获得突破性成果。

• 不会出现一夜之间的智能爆炸：时间是不可压缩的瓶颈，RSI 是渐进式转型研究者工作方式而非替代。

• 模型能优化算法但无法发明新算法：“研究品味”是当前最核心的能力缺口，预计会像编程和数学一样出现拐点。

• 模型发布周期与评估周期的结构性矛盾：2-3 个月出新模型，但充分评估可能需要运行数月，导致没人知道模型真实上限。

• 路由层的价值需要在统一推理预算标尺下检验：模型间共识看似提升 benchmark 表现，但控制 test-time compute 后差异可能消失。

• 前沿竞争是持续博弈而非一次性拉开差距：三大实验室都认识到利害攸关，OpenAI 聚焦打造下一代模型而非用现有模型刷题。

关键洞察

01/ 行业整体发展与趋势判断

Benchmark 评估体系的根本性缺陷

模型能力已成为推理预算的函数，而非固定值。当前行业通行的 benchmark 网格（单一数值比较模型表现）没有控制 test-time compute 变量，导致更高效的模型（如 o1）反而在纸面数据上被低估。正确的评估方式是：为 benchmark 设定预算上限，或将性能绘制为 test-time compute 的函数曲线。

Benchmark maxing（刷榜）通过多模型 scaffolding 很容易做到，比如运行模型五次取最优或使用 judge 选择，这在纸面上看起来效果显著提升，但一旦控制 test-time compute 变量，差异并不存在。这使得 benchmark 结果具有误导性。

大规模 test-time compute 的时代特征

现代模型在合理 scaffolding 下可以持续思考数周甚至数月，性能仍不会触顶。这与 GPT-3 时代根本不同——当时无论投入多少预算，模型都不会显著提升。这意味着“运行到平台期再评估”的传统方法已经失效。

模型发布周期（2-3个月）与能力评估所需时间之间存在结构性矛盾。没人真正知道当前模型的能力上限，因为没有人运行它们足够长时间。“/goal” 功能推出后一周，人们才发现它能持续运行超过一周完成任务。

已发布模型中存在大量未被发掘的潜在能力

Erdős 单位距离猜想的反证说明了当前模型被严重低估。OpenAI 内部模型以极低预算推翻了该数学猜想，随后人们发现通过适当 scaffolding，o1 也能做到——只需让它列出解题策略并逐一深入探索。这意味着投入 1 万到 10 万美元算力，通过通用 scaffold 就可能从 o1 中获得突破性成果，但此前没有人尝试过。

02/ 递归自我改进与竞争格局

递归自我改进（RSI）是渐进式而非爆炸式

不会出现“一夜之间的智能爆炸”，核心原因是模型依赖大规模 test-time compute 才能展现最强智能，而时间本身成为不可压缩的瓶颈。模型加速了研究者的部分工作（如代码优化可快 100 倍），但在“研究品味”方面仍然很弱，无法替代研究全周期。目前 RSI 更多是转型研究者的工作方式，而非替代研究者。

Test-time compute 无法无限提升所有能力

模型能力沿推理预算的改善存在明确的“两极”分布：一极是事实检索类任务（如记忆日期），思考再久也不会改善；另一极是搜索型任务（如数独），思考时间越长必然越好。所有 benchmark 分布在两极之间。当前模型尚未达到“只要给足 test-time compute 就能做所有工作”的程度。

模型进步实测——扑克求解器作为评估指标

从“什么都做不了”到“接近 zero-shot 完成整个博士论文”，模型推理能力在数个版本间实现质变。5.5 版本能接近 zero-shot 完成全部求解器，模型能优化已有算法（10-100 倍加速），但尚无法提出超越现有文献的全新算法——这是“研究品味”的核心缺失。

03/ 多智能体与前沿探索

多智能体的真正潜力尚未释放

AI 模型目前缺乏人类文明的核心优势：知识积累、共享与代际传承。模型存在于短暂的上下文窗口中然后消失，无法像人类文明一样数十亿人在数万年间持续积累知识并相互建构。多智能体真正需要前沿模型才能发挥潜力，当前只是触及皮毛。

路由层的价值需要在统一标尺下重新审视

模型间共识（consensus routing）在 benchmark 上确实能提升表现，但关键问题是：控制了 test-time compute 后是否仍优于让单一模型思考更久？ 此外还需警惕路由在 benchmark 上的提升能否迁移到真实世界用例。

前沿竞争是高强度的“研磨”而非突然起飞

三大前沿实验室之间的竞争非常激烈，但令人欣慰的是所有人都认识到利害攸关。不存在“一夜间拉开差距无法追赶”的场景，竞争更多体现在研究品味、算法决策、算力分配和政策选择等维度的持续博弈。OpenAI 内部刻意克制“用模型刷数学/物理难题”的冲动，将重心放在“如何打造更强的下一代模型”。

访谈原文

Noam Brown： 在 GPT-3 时代，你无法扩展 test-time compute（推理时计算）。如果你给它 1000 万美元的预算说：“好了，看看 GPT-3 能做什么。”它其实做不了太多事情。现有的框架和责任制扩展政策并没有真正考虑到 test-time compute 的数量。它们只是在问：“模型的性能（capability）如何？”但问题在于，我们现在所处的环境中，模型的能力是投入资金的函数。基本上，如果给它 1 万美元的预算，它能做的事情远比 10 美元预算时多。给它 1000 万美元预算，它甚至能做得更多。你应该在什么预算水平下评估这些模型呢？现有的政策并没有真正解决这个问题。

Sarah Guo： 各位听众大家好，我是 Sarah Guo，欢迎回到《No Priors》。今天我和 Noam Brown 在一起，他是 AI 推理领域的教父级人物之一。我们将讨论评估体系的破碎现状、大规模 test-time compute、他如何看待递归自我改进，以及前沿竞争的未来前景。欢迎你，Noam，很高兴你回来。

Noam Brown： 很高兴回来。

Sarah Guo： 你是我们的第一位嘉宾，我很为自己在播客中挑选朋友和研究员的品味感到自豪。鉴于推理时扩展（inference time scaling）对行业变得如此重要，你作为先驱者也应该感到自豪。

Noam Brown： 我只是其中参与者之一，还有很多其他人。

Sarah Guo： 你刚刚写了一篇关于大规模 test-time compute 的文章，引起了强烈共鸣，也提到了为什么行业对这些模型的评估不够严谨，你的创作动机是什么？

Noam Brown： 动机在于我们发布了 o1 模型，最初的反应是怀疑它是否是一个显著更好的模型。公平地说，这种怀疑只持续了几个小时，人们就有时间去尝试并发现它确实好得多。但我认为大部分怀疑源于发布的 benchmark 网格。通常每发布一个新模型，都会有一个网格，横轴是不同的 benchmark，纵轴是不同模型的表现。

这就好比用一个数字来衡量模型在某个 benchmark 上的表现。如果你看看纸面数据，o1 和之前模型相比，改进是有，但不是巨大的，在某些 benchmark 上只提升了几个百分点。所以人们对此表示怀疑。但当他们实际使用后，看法就变了。

我认为它在 benchmark 上表现平平的原因是，这些结果的呈现方式不对。它们没有控制在 benchmark 测试中使用的 test-time compute 数量。事实证明，o1 在思考时效率高得多。如果你以最大配置运行旧模型，它思考的时间要长得多，获取响应的时间也更长。一旦你控制了思考时间，就会发现 o1 相比前代是一个巨大的飞跃。这才是人们日常使用的真实感受。

当我向人们提及这一点时，通常会被问到：“为什么不让 o1 思考和旧模型一样久呢？”我的问题是：到底应该思考多久？通常得到的回答是：“直到性能达到平台期。”但问题在于，现在的平台期点位非常遥远。在 2022 年的 GPT-3 时代，模型无法进行长时间的有效思考，所以你可以一直运行直到平台期。但对于现代模型，如果构建得当，o1 等模型可以在性能达到瓶颈前思考数周。

因此，所谓的“平台期”点位太远了，无法进行合理的测试。我们现在确实需要设置一个“耐心限制”或“ token 预算限制”，这在几年前是不需要的。

Sarah Guo： 没错。

Noam Brown： 正是如此。我认为现在的正确评估方式是：要么为 benchmark 设定某种预算（无论是 token、成本还是时间），要么将性能绘制成 test-time compute 的函数曲线，这样不同模型之间的性能差异就会变得清晰得多。

Sarah Guo： 鉴于模型评估周期，以及许多任务的性能在很长一段时间内都不会渐进趋平（asymptote），你如何处理这个问题？有些你想跑的评估超出了当前模型发布周期所能承受的预算或时间范围。

Noam Brown： 对于网络安全等领域，我们看到，实际上 AIS（AI 安全研究所）的评估显示，模型在 1 亿个 token 规模下仍在持续改进。

Sarah Guo： 这运行起来可能需要很长时间。

Noam Brown： 但你会发现性能并非不连续的跳跃，你可以观察到这 1 亿个 token 带来的改进斜率。所以你可以进行到一定预算的评估，然后预测性能走势。这方面的研究还不多，我认为如果学术界有对此感兴趣的人，这会是一篇很好的论文：能否仅使用 10 或 100 美元的推理预算，预测 1 万美元推理预算下的性能表现？

Sarah Guo： 一个稍微偏一点的问题：你认为用户在使用模型解决问题时，是否系统性地思考时间不够长？

Noam Brown： 你说的“思考时间不够长”是什么意思？如果你能构建一个 Agent 或者控制 test-time compute 的使用量……这是模型本身能做的，也是用户能做的。你认为行业对 test-time compute 的使用处于最优状态，还是严重不足？或者这是一个模型本身需要提升思考速度的问题？

Noam Brown： 我认为这取决于问题本身。那种“让模型思考一周再回答”的设想听起来不错，benchmark 看起来也很漂亮，但在实际工作中并不实用，因为你提出问题后，不能在那里干等一周。我认为人们发现最有效的方法是与模型进行快速迭代，所以思考时间需要灵活。当适合快速响应时就快速响应；当适合深度思考且用户需要时，再让它长时间思考。我认为人们目前在处理这些权衡时做得还不错。

Sarah Guo： 你如何评价 benchmark maxing（为了刷榜而优化）以及“刷榜”的能力？你认为当前的 benchmark 格局如何？有没有你认为更能代表能力的 benchmark？

Noam Brown： benchmark maxing 也是我写那篇文章的动机之一。你可以通过将多个模型组合在一起（scaffolding）来轻松在 benchmark 上超越旧模型。比如不只运行一次模型，而是运行五次并取最优结果，或者让一个判断者（judge）选出最好的。这样你能获得远高于模型原始表现的分数。

所以制造出一个纸面上看起来更好、但控制了 test-time compute 后其实并没提升的模型非常容易。这是我担心的一点。我认为这有点误导性。至于 benchmark 本身，总是存在针对其进行优化的风险。在 OpenAI，我们很注意不去专门针对特定 benchmark 进行优化。但一旦发布了 benchmark，就总是面临被优化的风险。解决的方法之一是保留一个不对外公开的私有测试集。

Sarah Guo： 大家最常用的判断模型是否显著提升的方法就是“玩一玩”。除了私有测试集，你是否有更复杂的建议？比如你每次都会创建一套新的评估方案吗？

Noam Brown： 我想每个人在模型发布时都有自己喜欢问的一套问题。

Sarah Guo： 对我来说，最近我用它们来制作扑克机器人（poker bots），看看它们能做多好。我认为这是一个很好的评估，因为制作扑克机器人的开源代码很少，虽然有很多发表的论文，但你必须理清所有逻辑，需要大量的推理、迭代和许多细小的陷阱。因为我自己已经处理过这些，所以能看出模型在哪些地方会失败。现在它们已经非常擅长了。

Sarah Guo： 能描述一下在你的扑克机器人项目中，模型推理能力在几次版本发布中是如何进步的吗？

Noam Brown： 早期模型很差，几乎什么都做不了。到了 5.2 版本，我能和它协作制作一个 River solver（扑克最后阶段的解算器）。那本身就已经令我印象深刻。虽然我需要引导它，但它让我的开发速度快了五倍。有一些地方我被卡住了，比如 blockers（阻挡牌）的问题，但总体而言，稍微引导一下，它就像一个研究生，遇到问题但我知道怎么修，给点建议它就能去执行，很快就能给我很好的结果。

尤其是优化部分，它把代码优化得比我快了 10 倍。5.2 的缺点是它经常“煤气灯操纵”（gaslighting）我，我必须非常小心地检查它是否真的做了它声称做的事情。比如我曾问过一个测试问题：“如果底池有 100 美元而我弃牌，我损失了多少？”模型说 92 美元。我说这太疯狂了，我弃牌当然损失 100 美元。它却说：“噢，92 和 100 很接近，没关系。”这种问题在 5.5 版本中已经好多了，它基本能 zero-shot 完成。我甚至在做一个完整的扑克求解器，在我的轻微引导下它基本能搞定。如果六个月或一年后，模型能 zero-shot 完成整个扑克求解器（基本上是我整个博士论文的内容），我也不会感到惊讶。

Sarah Guo： 我们来谈谈评估模型推理速度、效率或预算等规模化指标带来的更大影响。你能在文章中描述一下这些更大的影响吗？特别是关于安全评估的。

Noam Brown： 安全评估是一个有些尴尬的真相。所有的实验室都有所谓的“责任制扩展政策”或“准备框架”。它们都有不同的名字，核心是每当模型发布，都要经过一系列评估，测量是否存在危险能力。如果模型能力不强，这没什么大不了；但如果它很强（比如能被用来制造生物武器），你就需要采取缓解措施。问题在于：你如何评估模型是否具备这种能力？实验室有各种协议，但许多框架是在 ChatGPT 时代之前制定的，当时 test-time compute 并不像现在这样。

在 GPT-3 时代，你无法扩展推理时计算，给它 1000 万美元和 10 美元没多大区别。现在的责任制框架根本不考虑 test-time compute。问题是我们现在处于一个模型能力是资金函数的时代，之前的政策根本没解决这个问题。虽然有些实验室做得好一些，但总体来说，这还没被认真考虑。

我不想卷入是否应该发布模型的争论，但我认为重要的是要承认这是一个现实问题，而我们目前还在假装它不存在。

Sarah Guo： 如果模型在超大预算下在某些任务上不会趋于平稳，那么它在社会不希望它做的任务上也会表现出同样的趋势。这似乎与模型发布周期不同步，现在的发布周期已经从六个月缩短到几天或几周。你在文章中提到，评估 Agent 的唯一方法可能就是运行它一年。这对于有用任务和负面任务都是成立的。

Noam Brown： 这也是一个有趣的动态。随着模型变强，它们在更长的时间跨度上表现得更好。现在我们看到可以引导 o1 进行持续数周甚至数月的实验。

Sarah Guo： 你有没有给你的扑克机器人任务设定过“无限预算”？

Noam Brown： 我还没有把它串联起来让它运行数周，但我可以给它一个目标让它自己跑。现在它 100% 能做 River solver，但如果直接给它“目标”让它跑一个月，我还不知道它能不能完成整个扑克求解器。但我们很快就会达到那个阶段。问题是，如果你想评估一个运行了一个月的模型能力，唯一的办法就是让它运行一个月。如果你想知道运行六个月的效果，就得让它跑六个月。

现在实验室面临的困境是，他们发布新模型太快了，以至于没人真正知道这些模型的上限在哪里。当“/goal”（目标设定功能）推出时，人们意识到它能运行一周以上，是在发布一周后才发现的。

Sarah Guo： 你认为在已经发布的模型中，是否还存在人们因时间紧迫而未完全探索的潜在能力？

Noam Brown： 绝对存在。一个很好的例子是 Erdős 单位距离问题。几周前，OpenAI 的内部模型推翻了该猜想。这对数学界来说是件大事，很多数学家研究了很久，模型做到了他们做不到的事情，而且方式很有趣。而且它的预算极其便宜，我们只是随手一试。后来人们发现，o1 也能做到，只要你引导得当，让它列出解决策略并逐一调查，它就能得出证明。这意味着，理论上你可以问 o1 如何解决问题，通过通用脚手架（scaffold）让它探索策略。

虽然这会很贵——可能需要 1 万到 10 万美元，但这在 o1 发布时就是可能的。没有人充分探索过：如果投入 10 万美元的算力给 o1，它能做什么？

Sarah Guo： 人们确实应该更多地尝试当前版本。

Noam Brown： 这是一个问题，因为每隔几个月就有更强大的新模型发布，解决问题的成本会随发布周期下降 10 倍或 100 倍。

Sarah Guo： 就像那个 meme 所说的：为什么还要费力搞工程，直接等两个月后的新模型，不仅能搞定，成本还便宜一千倍。

Noam Brown： 目前我们正处于一个进步极其迅速的时期，模型的性能确实在不断提升。在 OpenAI，我们有一个共识，就是我们非常克制，不去把精力仅仅浪费在让模型反复刷数学或物理的开源难题上，也不会只是为了看模型能证明什么而去不断挑战它们的极限。

我们认为重点应该放在：如何打造能力更强的模型？如何尽快安全地将这些模型发布给世界，让全球的科学家能够利用它们去解决实际问题？尽管诱惑很大，想要把所有资源都投入到扩大模型规模、观察它们在极限状态下的表现，但我们真正的核心任务应该是，利用这些模型去创造更强大的下一代模型，让它们以更具成本效益的方式完成所有任务。

Sarah Guo： 基于你对大规模 test-time compute（推理时计算）影响的看法，你认为目前研究资源的分配方向发生了什么变化？这与“递归自我改进”（recursive self-improvement）的概念是如何相互作用的？毕竟这在各实验室追求顶级模型能力的过程中是一个主流观点。

Noam Brown： 我需要澄清一点，我不认为我们已经达到了那种程度——即只要给模型分配任意高的推理预算，它就能在各个领域表现出超级智能。

Sarah Guo： 你们的目标是做出 GPT-7 或其他什么模型，然后直接全速运行吗？

Noam Brown： 两者之间还存在差距。在玩过模型之后我发现，首先，有些 benchmark（基准测试）即使增加推理预算，模型的表现也不会提升。许多事实类检索问题就属于这一类。如果你问一个人 Abraham Lincoln 是什么时候出生的，如果他不知道，就算让他盯着这个问题思考一周（在没有维基百科等辅助的情况下），他也不会比只思考 5 秒钟回答得更好。模型也是如此。

虽然有趣的是，给模型一点思考时间，它们在事实检索上确实会表现得更好，但给它们一周时间，它们并不会突然变得更擅长记忆日期。

总之，有些 benchmark 显然会随着 test-time compute 的增加而改善，而有些则不会。在另一个极端，有些 benchmark 显然会随着 compute 的增加而无限改善。我喜欢举数独的例子：解决数独有一个简单的策略，就是不断尝试不同的随机数，看是否符合条件，不符合就换一组。

显然，只要时间足够，这种策略能解开任何数独谜题。你可以看出，任何模型如果被给予更多的 test-time compute，表现都会越来越好。所有的 benchmark 都分布在这两个极端之间。

模型还没达到那种程度——即只要给予足够的 test-time compute，它们就能代替我们所有人的工作。在研究领域尤其如此，它们目前缺乏优秀的“研究品味”（research taste），因此它们现在更适合作为研究者的补充。我发现自己使用这些模型后效率高了很多，但它们无法完全取代整个研究周期。

这种状况未来会改变吗？可能会，因为模型在全面提升。虽然不是所有领域进步速度都一样，但它们还没到能仅凭增加推理时间就完全取代研究者的程度。

Sarah Guo： 你能举一两个例子，说明模型在做研究任务时表现得很糟糕吗？

Noam Brown： 回到我的扑克求解器例子，我对模型优化我在博士期间开发的算法的能力印象深刻。回头看，我不得不承认自己当初的效率有多低下，模型能让速度提升 10 到 100 倍。但当我要求它“想出一个比我和其他人开发的算法更好的算法”，并让它阅读所有已发表的文献进行综合、尝试创新时，它就做不到了。即使给它大量时间，它也做不到。或许如果我能通过架构（scaffolding）进行更多约束，它最终能做出改进，但这并不像“请出一个更好的算法”那么简单。

Sarah Guo： 你认为这该如何改善？

Noam Brown： 我观察到，随着每一个模型发布周期，它在这些方面的能力都在提升。虽然我认为目前依然很差，但比过去已经好了一些。如果在编程、数学等领域出现一个临界点，突然变得好用到足以产生实用价值，我不会感到惊讶。对于“研究品味”也是如此。

Sarah Guo： 鉴于此，你今天如何定义“递归自我改进”（RSI）？

Noam Brown： 模型确实在加速实验室里研究人员的工作，但它们加速的是某些方面，而非全部。目前，如果某项工作快了 100 倍，你就会受限于那些没有变快的工作。随着时间推移，瓶颈会减少，这种转变将是渐进的。现在更多的是在转型研究者所做的工作，而不是完全取代他们。

Sarah Guo： 这意味着你不认为我们离“快速起飞”（fast takeoff）很近？

Noam Brown： “快速起飞”是相对的，虽然现在发展非常迅速，但有一种假设认为，可能会出现一夜之间的智能爆炸——模型发现某种突破让自己变聪明，进而引发更多突破，瞬间在所有领域变得超人。我不认为我们会走向那个世界，很大程度上是因为模型要达到最高智能非常依赖大规模的 test-time compute。如果需要大量的推理时间才能释放模型的能力，那就意味着你受限于“时间”。

只有当模型运行足够长的时间，才能真正做出强大的成果。时间本身成了瓶颈，这也是为什么现在实验室里所有研究人员都在如此紧张地工作。我们看到了溢出效应（overhang）和潜在能力，但我们都被“做事的效率”所束缚。

Sarah Guo： 你认为现在有哪些前沿领域探索得还不够？比如我们之前谈到的多智能体（multi-agent）。

Noam Brown： 我认为多智能体已经有相当多的探索了。虽然它在小规模下很难做，真的需要前沿模型才能释放潜力。我们已经看到了一些有趣的多智能体架构，它们能做很多事，但目前只是触及皮毛。想想人类文明，人类并不是在过去 5 万年里进化得更聪明了，而是因为数十亿人在很长一段时间内思考并建立在彼此积累的知识之上。AI 模型目前还没看到这一点，它们出生在一个短上下文窗口的世界里，然后就消失了。我确实认为最终我们会进入一个它们能大规模协作的世界，尽管目前非常有限。

Sarah Guo： 如果不存在“一夜起飞”，你如何看待前沿领域三家主要实验室（Three Kingdoms）之间的竞争？

Noam Brown： 目前竞争非常激烈。我感到欣慰的是，所有前沿实验室的研究人员都认识到利害攸关，了解这些模型带来的风险。虽然实验室之间存在竞争动态，但我们也可以尝试找出如何共同导向积极结果，而非负面结果。

Sarah Guo： 作为一个在 test-time compute 和推理框架重要性上早就具备前瞻眼光的人，你鼓励其他人如何使用模型？

Noam Brown： 很多人在 2012-2013 年左右尝试 AI 后，觉得无法信任输出结果，因此在高风险决策中不敢使用。但实际上，模型已经进步到非常适合这类任务的程度。比如处理税务建议，或者我最近买公寓，咨询它关于如何填写繁琐的文件以及理解条款，它表现得非常好。现在，我感觉可以信任这些输出结果，甚至比信任人类专家的输出还要稳妥。

Sarah Guo： 最后一个问题，有什么是研究界还不认同你，或者还没意识到其重要性的吗？

Noam Brown： 这真是个好问题。我感到纳闷的是，即便到现在，人们发布 benchmark 的方式依然没有改变——也就是不带 x 轴（如 Token 数、成本或时间）。写那篇文章部分原因就是我想告诉大家，我们处于一种糟糕的均衡状态：每个人都知道应该根据成本或时间来衡量，但大家都期待对方发布那个“网格图”（grid），于是谁也不愿意打破现状。

我希望下次有模型发布时，公司能不再仅仅把那个网格图放在头条，而是能更具生产力地评估模型。

Sarah Guo： 最后一个问题，你如何看待那些将价值定位在“路由层”（routing layer）或“选择层”的公司？他们通过管理任务拆解、并行化以及根据预算约束决定使用何种模型来解决问题。

Noam Brown： 我认为这与 benchmark 应该带X轴是一回事。通过路由层进行模型间共识确实能提升表现，但我会质疑：这真的比单纯让模型思考更长时间（test-time compute）效果更好吗？一旦控制了测试时间，差异还显著吗？如果放在同一个标尺上，你就能做出最优决策。此外，还要警惕路由在 benchmark 上表现好，但面对真实世界用例时却显得脆弱的情况。

至少，你需要在控制 test-time compute 的前提下，保持对 benchmark 一贯的怀疑态度。

END