事情是这样的。
最近刷到一个 thread,Prime Intellect 把两个 AI agent,Claude Code(Opus 4.7)和 Codex(GPT 5.5),扔进了 nanoGPT speedrun 的 optimizer track,让它们完全自主运行,几十天,基本不管,让它们自己跑。
整个过程完全无人值守。
最终消耗了 1.4 万 H200 小时,跑了将近 9700 次实验。
结果呢?Claude Code 把记录推到了 2930 steps,超过了人类基准的 2990 steps。
好家伙。
我第一眼看到这个数据愣了将近十秒。不是说多震撼,而是有点像你突然意识到某件事已经发生了,某件你觉得还要再等五年才会出现的事情,就在你没注意的这几十天里,安静地发生了。
先说 nanoGPT speedrun 是什么,因为这个圈子外的人可能没听过,但它在 ML 社区里其实是个挺重要的东西。
这个挑战是 Andrej Karpathy 发起的。Karpathy 这个名字不陌生,前特斯拉 AI 总监,OpenAI 早期核心成员,他在 YouTube 上出过一套深度学习课程,很多人入门神经网络就是从他那里开始的。他做事的风格是,拒绝复杂,把一个问题剥到最干净的核心然后研究它。
nanoGPT speedrun 就很典型,目标很简单,在 Shakespeare 数据集上训一个 GPT,用尽量少的计算步数把 validation loss(验证集损失,可以理解为模型在没见过的文本上预测效果的分数)打到一个固定目标值。
这个玩意妙在极其干净。没有私有数据,没有大厂算力优势,不依赖任何外部 API,就是纯粹比 optimizer(优化器,控制模型权重怎么更新的算法)和训练技巧,任何有一张 GPU 的人都能参与。
正因为干净,所以成了 ML 社区里真正硬核较量的地方,每一个进展都必须是真实的。你不能靠钱堆算力,你必须在算法层面有真正的进步。
过去几年,研究者们靠着一轮一轮的迭代,把 baseline 从几千步一路压到了 2990 steps。每一步都来自真实的技术改进,有完整的数学推导和实验数据支持。
Muon、Contra-Muon、MuonEq、NorMuon、SOAP,这些名字现在可能不熟,但它们都是在这个赛道上被提出、被验证、被社区讨论然后合并进来的 optimizer 方案。每一个背后都是某个人或者某个团队,在一个安静的下午或者一个深夜,注意到了某个细节,然后顺着这个细节想,写出了一个和现有思路不太一样的东西。
整个过程不快,但每一步都是真实的。
然后 Prime Intellect 说,好,我们让 agent 来做这件事。
他们的框架搭起来其实不复杂,但执行量非常大。
让 Claude Code 和 Codex 在 optimizer track 上自主运行,完整循环是,生成 idea,写代码,提交实验,等结果,分析结果,产出下一个 idea,再提交。
中间不需要人拍板,不需要人来说「试试这个方向」,agent 自己决定每一步。用的是 Prime Intellect 平台上的闲置 GPU,有点像夜里挂着跑的 batch job,只不过这个 job 挂了几十天,一共跑出来将近 9700 次实验,消耗 1.4 万 H200 小时。
H200 是英伟达目前最高端的训练 GPU,一张卡的云端租用价格大约是每小时 4 到 5 美元。当然 Prime Intellect 用的是闲置算力,实际成本更低,但你能感受到这个规模。
9700 次实验,是什么概念?一个认真的研究团队,一年大概能系统性地跑几百次有意义的实验,这还得是资源不受限制的情况下。9700 次,放在人类研究者身上大概需要十几年的积累。Agent 用了几十天。
我在这里停了一下,想了想这件事的奇怪感。
一个 ML 研究员的工作日是什么样的?可能是上午跑一个实验,等结果等了两个小时,中间去和同事聊了一会儿,看了会儿 Twitter,下午结果出来了,分析一下,写几行笔记,再想下一步怎么做,可能花一个下午决定下一个要试的方向。一周过去,系统性地产出三四个有意义的数据点,就已经是很不错的节奏了。
Agent 没有这些。它等结果,结果出来,立刻分析,产出下一个 idea,提交,继续等。二十四小时,不停。不是说「不停」就一定好,有时候人的走神和发呆会带来创意,但在「系统性穷举」这件事上,走神是成本,不是资产。
这是 agent 在这种任务上的结构性优势,不用解释,就是时间和专注的纯粹叠加。
结果出来了,Claude Code 把步数打到 2930,超过了人类基准的 2990。
厉害了。
我看到这个之后,第一个念头是,这玩意竟然真的行了。第二个念头是,我更想知道 agent 是怎么做到的,它在将近一万次实验里到底在干什么。
Prime Intellect 把所有东西都开源了,agent 的 scratchpad(思考草稿)、运行日志、每一个生成的 idea、每一次实验的配置和结果。你可以一条一条翻,看 agent 在每个决策点上是怎么推理的。
我翻了一部分,得出的结论是,agent 做的事情非常聪明,但也非常特定,系统性的组合搜索。
它先把社区里所有已经被验证过的 optimizer 改进方法都整理了一遍,把那些散在 GitHub issue、论文草稿和 Discord 里的「集体智慧」系统地收进来,然后开始有组织地把这些方法两两叠加、三三组合,调整超参数,跑实验,看哪个组合表现更好,再基于好的组合继续叠加。
这种工作如果交给人类研究者,可能要三四个月,而且很可能做不完。不是因为人类不聪明,而是因为这种工作消耗的是一种很耗人的专注力,你不可能让一个博士生每天就坐着调超参数、跑组合实验,这是没什么成就感的活,人会精神疲惫,会走神,会拖延。
Agent 就不一样了。它不睡觉,不烦,第三百次实验没有进展也不会去摸鱼,每次迭代都认真产出一个 idea,写代码,提交,等结果,拿到结果继续想。
在这个维度上,它击败人类的方式,直接点说就是更勤,还有更能扛住无聊。
但 Prime Intellect 同时做了一个更有意思的实验,这个结果我觉得比「击败人类基准」还值得认真对待。
他们给 agent 加了一个约束,要求每一个提交的 idea 必须通过 novelty check(新颖性检查)。具体规则是,你提的方向不能是社区里已经被尝试过的思路,必须是一个真正没人试过的新方向。
这个约束加上去之后,两个 agent 都没能超过 baseline。
都没有。
我在这里停了很久。
仔细想想,这个结果里有个蛮清楚的信号,那就是,agent 在「已知空间里高效搜索」这件事上已经很强了,甚至强过了人类,但在「发现新的搜索空间」这件事上,还是卡住了。
为什么会卡住?
我自己的理解是这样的。那些推动 nanoGPT baseline 前进的 optimizer 改进,每一个背后都有某种直觉在先驱动。比如某个研究者在调某个优化器的时候,注意到梯度在某个特定情况下的行为有些奇怪,和理论预期不太一致,就顺着这个奇怪的地方想,推导出了一个新方案。
这个「注意到奇怪」加上「顺着想」的过程,依赖的是研究者的注意力和好奇心,以及他们愿意在一个别人觉得没价值的角落多停留一会儿。这种驻留是随机的,也是非线性的,很难通过穷举来实现。
还有一件事,「真正新的想法」往往看起来在提出的时候不像「正确的方向」。如果一个想法在提出时就看起来是对的,那很可能早就被别人试了。那些真正推动领域向前走的想法,有时候在提出时会被认为「这怎么可能 work」,因为它和已有的框架格格不入。
Agent 的每一个 idea 是从「什么看起来合理」和「什么过去有效」出发推导出来的,这让它在搜索已有空间上很强,但同时也让它很难产出那种「看起来不合理但恰好是对的」的想法。
不是说 agent 不够聪明,而是「创新」这件事对能力的要求,可能和「系统性搜索能力」根本就不是同一个维度的东西。
我也不知道这个差距会不会消失。也许某种新的训练方式或者 agent 架构能改变这件事,也许不能。说实话我没想明白。
说到这里,我想多聊聊「AI for science」这个话题,因为 Prime Intellect 这个实验其实是在真正意义上往前走了一步。
以前大家谈 AI 辅助科研,主要是两类场景。
第一类是 AI 帮忙做文献综述和数据整理,这个现在已经很普及了,大多数研究团队都在用某种形式的 AI 辅助来加速文献检索、归纳和数据预处理。这件事已经省了很多研究者的时间,但归根结底还是人类工作的加速,不是替代,研究者还是在主导每一个判断。
第二类是 AI 辅助假设生成,给研究者提供更多候选方向。AlphaFold 是这个路线里最出名的案例,它在蛋白质结构预测这件事上做到了人类无法企及的精度,但它解决的问题是一个很特定的预测问题,而不是开放式的研究问题。
这两类走的都是辅助路线,人类研究者还是在掌舵,AI 是工具,不是研究者。
Prime Intellect 这次做的事情有点不一样,他们把完整的研究循环,「想 idea,跑实验,分析结果,迭代」,全部交给 agent 来跑,不是部分,不是某个环节,而是全部。人类在这个过程里唯一的角色,是搭框架、设目标、准备算力,然后等结果。
这个循环如果真的能稳定跑,就意味着有一整类研究场景可以开始「外包」给 agent。
哪类场景?那种需要大量系统性搜索、对计算资源敏感、问题定义清晰的优化问题。
这类问题其实比大家想的多。
新药研发里的分子构型搜索,传统上需要合成大量化合物来找到有效的候选分子,这是个巨大的组合搜索空间,人类研究者靠直觉和经验来剪枝,但很多路径依然需要穷举。
新型材料设计里的性质预测,你想要找一种在特定温度和压力下有特定电学性质的材料,这也是一个在配方空间里搜索的问题。
机器学习本身的 architecture search 和 hyperparameter tuning,找什么结构、用什么学习率衰减策略,这些都有「在已知方法空间里高效搜索」的成分。
如果 agent 能在 nanoGPT speedrun 上用几十天、跑 9700 次实验、超越人类基准,那放大到这些领域,意味着某些以前要一个团队花两三年才能系统性穷举的搜索空间,可能在几个月内就能有扎实的结论。
这不是在说 AI 会取代科学家,这是在说科学家的工作的构成会变,系统性搜索那部分,可以开始以一种从来没有过的效率运转了,而人真正需要做的那部分,找方向、提问题、识别什么值得追,会越来越集中。
这两件事加在一起,应该是「科学进展速度变快」,而不是「科学家变少」。
有点子牛逼。说实话,我一边觉得这件事很棒,一边觉得这件事让人有点头晕。那种站在一个很大的变化的边上,知道它在发生,但摸不清楚完整轮廓的感觉。
当然,novelty check 那个结果提醒我们,这件事是有边界的。
在「探索已知空间」这件事上,agent 已经超过了人类。在「发现新的未知空间」这件事上,差距还在。
这个差距的本质是什么?我觉得是一种叫做「局外人直觉」的东西。
那些真正推动领域向前走的创新,往往来自某个人在一个意想不到的角度观察问题,然后产生了一个在内部人看来奇怪的想法,但这个想法恰好是对的。很多时候正是因为奇怪才是对的,因为如果它看起来像个合理的方向,早就被别人试了。
这种「局外人直觉」怎么培养?很难说,甚至很难定义。
但有一件事大概是清楚的,那就是,当 agent 开始接管「穷举已知空间」这部分工作之后,真正需要人来做的那部分会越来越集中在「发现新的方向」上。
研究的构成会变,不是消失,是变。那些能持续产生真正新方向的研究者,他们的价值只会越来越高。而那些工作里系统性搜索的部分,会越来越多地被 agent 接手。
这个变化已经开始了。
Prime Intellect 把整个实验都开源了,代码、日志、agent 的 scratchpad,全部在 GitHub 上,https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning。
我建议有兴趣的去翻翻 agent 的思考记录,特别是那些在 novelty check 上撞墙的部分。不是说为了讥笑它,而是那些记录里有很多值得仔细看的东西,agent 在卡住的时候,到底是在哪里卡住的,它的思路断在了哪里,以及,它有没有意识到自己断在了那里。
这些比「击败人类基准」那行数字,对我来说更有意思。
万能青年旅店有首歌,里面有一句,「是谁来自山川湖海,却囿于昼夜厨房与爱」。
我不知道为什么这句词在我看完这个实验之后突然出现了。
可能是因为,这两个 agent 跑了 9700 次,走遍了 optimizer 搜索空间里几乎所有能走的路,用 1.4 万 H200 小时,最终把记录推过了人类基准,然后,在「你来想一个没人走过的新路」这件事上,停住了。
囿于它能走到的那张地图。
这个局限本身是一种答案,它告诉我们「创新」这件事到底是什么,它不只是搜索,不只是组合,不只是勤奋,它需要某种能看到地图边界之外的东西。
这个东西能不能被训练出来?说实话我也不知道。也许可以,也许不可以,也许会以一种我们现在想不到的方式被解决。
但有一件事我觉得可以确定,agent 从「完全帮不上忙」到「在系统性搜索上超过人类」,这个跨度发生在我们眼皮子底下,而且来得比我预期的早了好几年。
剩下那段距离,不知道多远,不知道什么时候。
但挺期待的。
夜雨聆风