AI马拉松:17款前沿模型跑36个长时域研究与工程任务,孰优孰劣

2026年6月，一篇来自华盛顿大学、斯坦福、MIT、NVIDIA等17家机构的论文，跑了一次AI评测史上最大规模的考试。

2544个小时的wall-clock时间，86亿个tokens，17个当今最前沿的大模型，36个真实的研究和工程任务。

这不是一次简单的考试。

这是AI第一次被要求做的事情，不是「回答问题」，而是「在一个问题上坚持几个小时，反复尝试，反复失败，反复改进，直到交出一个更好的答案」。

结果有些让人意外。

先说说这个测试是什么。

这个基准叫AUTOLAB，是迄今为止第一个专门为「超长时程闭环优化」设计的AI评测平台。

什么意思？

打个比方来说，以前的AI评测就像是考试，给你一道题，你答对了就是对了，答错了就是错了，交卷走人。不管是HumanEval、SWE-bench、MMLU，本质上都是这个模式：单轮问答，一次出结果。

但AUTOLAB做了一件不一样的事情。

它给AI一个「正确但不够」的方案，然后说：你有一个沙箱环境，可以读代码、改代码、跑测试、看结果，你有2到12个小时，看你能不能把这个方案改得更好。

这就像什么呢？

过去的AI考试是「考试」，AUTOLAB做的是「上班」。

上班是什么？是你拿到一个项目，你得先理解需求，然后写方案，跑一下发现不对，改了再跑，又发现新的问题，再改，再测试，跟同事确认，跟老板汇报，反反复复，折腾好几天才交出一个成品。

AUTOLAB把这个过程浓缩到了一个docker容器里。

36个任务覆盖了四个领域：系统优化（15个，比如AES加密加速、SHA-256吞吐量优化）、谜题与挑战（10个，比如发现最优排序网络、对抗性树结构构造）、模型开发（7个，比如GRPO后训练、多语言OCR微调）、CUDA内核优化（4个，比如椭圆曲线多标量乘法、数论变换）。

每一个任务都有人写的参考解，一个经过验证的「好方案」，但不给AI看。AI需要自己找到通往那个水平的路。

好，考卷说完了，说成绩。

Claude Opus 4.6拿了0.68分（满分1.0），遥遥领先。

第二名Gemini 3.1 Pro，0.50。

第三名Kimi K2.6，0.46。

然后是MiMo V2.5 Pro（0.45）、GLM-5（0.43）、DeepSeek V4 Pro（0.38）、GPT 5.4（0.36）、Grok 4-20（0.35）……

等一下。

GPT 5.4和Grok 4-20，这两个公认的强模型，怎么排到了后面？

再看一个数据：Claude的中位迭代步数是57步，Gemini是12步。

57步对12步，这差距不是一点半点。

Claude在两小时的Flash Attention优化任务中，从750ms的基线开始，经过44次「修改→编译→跑基准→看结果→再修改」的循环，花了大约40分钟，把运行时间压到了18ms，实现了42.4倍的加速，甚至超过了人类参考解的100ms。

44次迭代，40分钟。

而Grok 4-20在同样的任务上，只跑了一次评估脚本就提交了。一次。然后结束了。

GPT 5.4呢？平均只用了很少的迭代步数就匆匆提交，大量预算白白浪费。

这不像是能力不够，这像是……没耐心。

研究人员手动检查了所有302个得零分的rollout，把它们归成了四类失败原因。

一类是超时/上下文耗尽，Agent一直在迭代，但到时间了还没提交结果。

一类是能力差距，提交了方案，但确实没做出来。

一类是指令违反，用了不允许的API，或者改了不该改的文件。

一类是其他，服务器错误、沙箱崩溃之类的技术问题。

最有意思的不是这些分类本身，而是背后的行为模式。

DeepSeek V4 Pro、Hunyuan 3 Preview、Qwen 3.6 Plus，这三个模型经常陷入第一种情况：不停地迭代，不停地尝试，但就是不知道什么时候该停下来提交。它们把整个预算耗光了，一次都没有提交。

GPT 5.4和Grok 4-20恰恰相反，迭代了几步就觉得「差不多了」，然后提交了一个几乎没优化的方案，还有大量时间没用完。

一个极端是永远不停，一个极端是太早放弃。

这让我想起一个古老的道理：知道什么时候该坚持，什么时候该放手，这本身就是一种能力。

而当前的大模型，在这两种极端之间，都做得很差。

但真正让我觉得这篇论文有意思的地方，不是排行榜。

是下面这个结论：

最终成绩的决定因素，不是AI第一次方案的质量，而是它在整个过程中持续迭代、反复测试、根据反馈修改的坚持程度。

换句话说，谁更能「坚持」，谁的成绩就更好。

这不是关于谁更聪明，而是关于谁更有耐心。

你可以把这个结论放到现实的语境里想想。

AlphaEvolve，Google DeepMind那个用AI做科学发现的系统，核心也是反复迭代。

Karpathy的AutoResearch agent，让AI自己跑实验、分析结果、调整方案，跑了一轮又一轮。

这些目前最让人印象深刻的AI应用，没有一个是一次就成功的。它们的共同特点是：不停地试，不停地改，不停地从失败中学习。

而AUTOLAB告诉我们，当前的绝大多数前沿模型，要么不懂得坚持，要么不懂得什么时候该停止坚持。

这就好像给了一个人一块金矿、一把铲子和一整天的时间，有的人挖了两铲子就说「这里没有金子」走了，有的人一直在挖但忘了把金子装进口袋。

还有一个发现值得说。

论文做了一个Harness对比实验，用不同的Agent框架跑同一个模型，结果发现框架的选择对成绩的影响，甚至可以和模型本身的能力差异一样大。

举个例子，Kimi K2.6在一个框架下得分0.21，在另一个框架下得分0.64。同一个模型，因为工作方式不同，成绩差了三倍。

而且有一个特别有意思的规律：擅长单次推理的模型（比如GPT 5.4）在轻量级框架下表现最好；而推理能力相对弱但善于反复尝试的模型（比如DeepSeek V4 Flash），在鼓励持续迭代的框架下反而能追上甚至超过更强大的模型。

DeepSeek V4 Flash在一个优化过的框架下，用大约7美分的推理成本拿到了0.54分，而GPT 5.4在同样的框架下只拿了0.37分。

这说明什么？

说明在长程任务中，好的工作流程本身就是一个竞争力来源。

你不需要最强的模型，你需要最适合这个任务的工作方式。一个鼓励持续迭代、试错反馈的框架，可以显著缩小弱模型和强模型之间的差距。

这让我想起软件工程里一个老生常谈的道理：好的开发流程可以弥补个人能力的不足。结对编程、代码审查、持续集成，这些东西不是为了约束工程师，而是为了建立一个「犯错后能快速纠正」的体系。

AI Agent的发展，似乎也在走向同样的方向。

说回到最根本的问题。

AUTOLAB揭示的不是「哪个模型更强」，而是「我们评估模型的方式可能从根本上就有缺陷」。

当我们只看单轮对话、一次性回答的质量时，我们测的只是「这个模型有多聪明」。但真实世界里的研究和工程任务，从来不是靠一次性的聪明就能解决的。

它们需要的是什么？

是时间感知，知道自己还剩多少时间，合理分配精力。

是持续迭代，不停地试、不停地改、不停地从反馈中学习。

是自我校准，知道自己的方案好不好，不好就改，改了还不够好就再改。

是适时收敛，在「继续优化」和「提交结果」之间找到平衡点。

这些能力，用一个词概括，叫做韧性。

韧性不是聪明，但往往比聪明更重要。

这一点，不仅在AI的世界里成立，在人世间又何尝不是如此？

通观AUTOLAB的整个评测，一方面，它让我们看到了当前前沿模型在长程任务上的真实水平，整体偏低，大部分模型还远不具备独立完成数小时级别研究和工程任务的能力；另一方面，它也指明了未来的方向，时间感知、持续迭代、反馈驱动的优化，这些比单纯扩大模型参数更有可能带来实质性的突破。

整个AI Agent的发展大体上可以分成三个阶段：

首先，是「能回答」，单轮问答、知识检索，这一步已经做得很好了；

其次，是「能行动」，调用工具、执行多步任务，这一步正在快速推进；

最后，是「能坚持」，在长时间、开放性的任务中持续优化、自我纠错、最终交付高质量的成果，这一步才刚刚开始。

而那些能把「坚持」这件事做好的模型和框架，很可能就是下一波真正的突破所在。