2026年6月,一篇来自华盛顿大学、斯坦福、MIT、NVIDIA等17家机构的论文,跑了一次AI评测史上最大规模的考试。
2544个小时的wall-clock时间,86亿个tokens,17个当今最前沿的大模型,36个真实的研究和工程任务。
这不是一次简单的考试。
这是AI第一次被要求做的事情,不是「回答问题」,而是「在一个问题上坚持几个小时,反复尝试,反复失败,反复改进,直到交出一个更好的答案」。
结果有些让人意外。
01
先说说这个测试是什么。
这个基准叫AUTOLAB,是迄今为止第一个专门为「超长时程闭环优化」设计的AI评测平台。
什么意思?
打个比方来说,以前的AI评测就像是考试,给你一道题,你答对了就是对了,答错了就是错了,交卷走人。不管是HumanEval、SWE-bench、MMLU,本质上都是这个模式:单轮问答,一次出结果。
但AUTOLAB做了一件不一样的事情。
它给AI一个「正确但不够」的方案,然后说:你有一个沙箱环境,可以读代码、改代码、跑测试、看结果,你有2到12个小时,看你能不能把这个方案改得更好。
这就像什么呢?
过去的AI考试是「考试」,AUTOLAB做的是「上班」。
上班是什么?是你拿到一个项目,你得先理解需求,然后写方案,跑一下发现不对,改了再跑,又发现新的问题,再改,再测试,跟同事确认,跟老板汇报,反反复复,折腾好几天才交出一个成品。
AUTOLAB把这个过程浓缩到了一个docker容器里。
36个任务覆盖了四个领域:系统优化(15个,比如AES加密加速、SHA-256吞吐量优化)、谜题与挑战(10个,比如发现最优排序网络、对抗性树结构构造)、模型开发(7个,比如GRPO后训练、多语言OCR微调)、CUDA内核优化(4个,比如椭圆曲线多标量乘法、数论变换)。
每一个任务都有人写的参考解,一个经过验证的「好方案」,但不给AI看。AI需要自己找到通往那个水平的路。
02
好,考卷说完了,说成绩。
Claude Opus 4.6拿了0.68分(满分1.0),遥遥领先。
第二名Gemini 3.1 Pro,0.50。
第三名Kimi K2.6,0.46。
然后是MiMo V2.5 Pro(0.45)、GLM-5(0.43)、DeepSeek V4 Pro(0.38)、GPT 5.4(0.36)、Grok 4-20(0.35)……
等一下。
GPT 5.4和Grok 4-20,这两个公认的强模型,怎么排到了后面?
再看一个数据:Claude的中位迭代步数是57步,Gemini是12步。
57步对12步,这差距不是一点半点。
Claude在两小时的Flash Attention优化任务中,从750ms的基线开始,经过44次「修改→编译→跑基准→看结果→再修改」的循环,花了大约40分钟,把运行时间压到了18ms,实现了42.4倍的加速,甚至超过了人类参考解的100ms。
44次迭代,40分钟。
而Grok 4-20在同样的任务上,只跑了一次评估脚本就提交了。一次。然后结束了。
GPT 5.4呢?平均只用了很少的迭代步数就匆匆提交,大量预算白白浪费。
这不像是能力不够,这像是……没耐心。
03
研究人员手动检查了所有302个得零分的rollout,把它们归成了四类失败原因。
一类是超时/上下文耗尽,Agent一直在迭代,但到时间了还没提交结果。
一类是能力差距,提交了方案,但确实没做出来。
一类是指令违反,用了不允许的API,或者改了不该改的文件。
一类是其他,服务器错误、沙箱崩溃之类的技术问题。
最有意思的不是这些分类本身,而是背后的行为模式。
DeepSeek V4 Pro、Hunyuan 3 Preview、Qwen 3.6 Plus,这三个模型经常陷入第一种情况:不停地迭代,不停地尝试,但就是不知道什么时候该停下来提交。它们把整个预算耗光了,一次都没有提交。
GPT 5.4和Grok 4-20恰恰相反,迭代了几步就觉得「差不多了」,然后提交了一个几乎没优化的方案,还有大量时间没用完。
一个极端是永远不停,一个极端是太早放弃。
这让我想起一个古老的道理:知道什么时候该坚持,什么时候该放手,这本身就是一种能力。
而当前的大模型,在这两种极端之间,都做得很差。
04
但真正让我觉得这篇论文有意思的地方,不是排行榜。
是下面这个结论:
最终成绩的决定因素,不是AI第一次方案的质量,而是它在整个过程中持续迭代、反复测试、根据反馈修改的坚持程度。
换句话说,谁更能「坚持」,谁的成绩就更好。
这不是关于谁更聪明,而是关于谁更有耐心。
你可以把这个结论放到现实的语境里想想。
AlphaEvolve,Google DeepMind那个用AI做科学发现的系统,核心也是反复迭代。
Karpathy的AutoResearch agent,让AI自己跑实验、分析结果、调整方案,跑了一轮又一轮。
这些目前最让人印象深刻的AI应用,没有一个是一次就成功的。它们的共同特点是:不停地试,不停地改,不停地从失败中学习。
而AUTOLAB告诉我们,当前的绝大多数前沿模型,要么不懂得坚持,要么不懂得什么时候该停止坚持。
这就好像给了一个人一块金矿、一把铲子和一整天的时间,有的人挖了两铲子就说「这里没有金子」走了,有的人一直在挖但忘了把金子装进口袋。
05
还有一个发现值得说。
论文做了一个Harness对比实验,用不同的Agent框架跑同一个模型,结果发现框架的选择对成绩的影响,甚至可以和模型本身的能力差异一样大。
举个例子,Kimi K2.6在一个框架下得分0.21,在另一个框架下得分0.64。同一个模型,因为工作方式不同,成绩差了三倍。
而且有一个特别有意思的规律:擅长单次推理的模型(比如GPT 5.4)在轻量级框架下表现最好;而推理能力相对弱但善于反复尝试的模型(比如DeepSeek V4 Flash),在鼓励持续迭代的框架下反而能追上甚至超过更强大的模型。
DeepSeek V4 Flash在一个优化过的框架下,用大约7美分的推理成本拿到了0.54分,而GPT 5.4在同样的框架下只拿了0.37分。
这说明什么?
说明在长程任务中,好的工作流程本身就是一个竞争力来源。
你不需要最强的模型,你需要最适合这个任务的工作方式。一个鼓励持续迭代、试错反馈的框架,可以显著缩小弱模型和强模型之间的差距。
这让我想起软件工程里一个老生常谈的道理:好的开发流程可以弥补个人能力的不足。结对编程、代码审查、持续集成,这些东西不是为了约束工程师,而是为了建立一个「犯错后能快速纠正」的体系。
AI Agent的发展,似乎也在走向同样的方向。
06
说回到最根本的问题。
AUTOLAB揭示的不是「哪个模型更强」,而是「我们评估模型的方式可能从根本上就有缺陷」。
当我们只看单轮对话、一次性回答的质量时,我们测的只是「这个模型有多聪明」。但真实世界里的研究和工程任务,从来不是靠一次性的聪明就能解决的。
它们需要的是什么?
是时间感知,知道自己还剩多少时间,合理分配精力。
是持续迭代,不停地试、不停地改、不停地从反馈中学习。
是自我校准,知道自己的方案好不好,不好就改,改了还不够好就再改。
是适时收敛,在「继续优化」和「提交结果」之间找到平衡点。
这些能力,用一个词概括,叫做韧性。
韧性不是聪明,但往往比聪明更重要。
这一点,不仅在AI的世界里成立,在人世间又何尝不是如此?
07
通观AUTOLAB的整个评测,一方面,它让我们看到了当前前沿模型在长程任务上的真实水平,整体偏低,大部分模型还远不具备独立完成数小时级别研究和工程任务的能力;另一方面,它也指明了未来的方向,时间感知、持续迭代、反馈驱动的优化,这些比单纯扩大模型参数更有可能带来实质性的突破。
整个AI Agent的发展大体上可以分成三个阶段:
首先,是「能回答」,单轮问答、知识检索,这一步已经做得很好了;
其次,是「能行动」,调用工具、执行多步任务,这一步正在快速推进;
最后,是「能坚持」,在长时间、开放性的任务中持续优化、自我纠错、最终交付高质量的成果,这一步才刚刚开始。
而那些能把「坚持」这件事做好的模型和框架,很可能就是下一波真正的突破所在。

夜雨聆风