AI agent 跑了 9700 次实验,第一次在自主研究赛道上击败了人类基准

事情是这样的。

最近刷到一个 thread，Prime Intellect 把两个 AI agent，Claude Code（Opus 4.7）和 Codex（GPT 5.5），扔进了 nanoGPT speedrun 的 optimizer track，让它们完全自主运行，几十天，基本不管，让它们自己跑。

整个过程完全无人值守。

最终消耗了 1.4 万 H200 小时，跑了将近 9700 次实验。

结果呢？Claude Code 把记录推到了 2930 steps，超过了人类基准的 2990 steps。

好家伙。

我第一眼看到这个数据愣了将近十秒。不是说多震撼，而是有点像你突然意识到某件事已经发生了，某件你觉得还要再等五年才会出现的事情，就在你没注意的这几十天里，安静地发生了。

先说 nanoGPT speedrun 是什么，因为这个圈子外的人可能没听过，但它在 ML 社区里其实是个挺重要的东西。

这个挑战是 Andrej Karpathy 发起的。Karpathy 这个名字不陌生，前特斯拉 AI 总监，OpenAI 早期核心成员，他在 YouTube 上出过一套深度学习课程，很多人入门神经网络就是从他那里开始的。他做事的风格是，拒绝复杂，把一个问题剥到最干净的核心然后研究它。

nanoGPT speedrun 就很典型，目标很简单，在 Shakespeare 数据集上训一个 GPT，用尽量少的计算步数把 validation loss（验证集损失，可以理解为模型在没见过的文本上预测效果的分数）打到一个固定目标值。

这个玩意妙在极其干净。没有私有数据，没有大厂算力优势，不依赖任何外部 API，就是纯粹比 optimizer（优化器，控制模型权重怎么更新的算法）和训练技巧，任何有一张 GPU 的人都能参与。

正因为干净，所以成了 ML 社区里真正硬核较量的地方，每一个进展都必须是真实的。你不能靠钱堆算力，你必须在算法层面有真正的进步。

过去几年，研究者们靠着一轮一轮的迭代，把 baseline 从几千步一路压到了 2990 steps。每一步都来自真实的技术改进，有完整的数学推导和实验数据支持。

Muon、Contra-Muon、MuonEq、NorMuon、SOAP，这些名字现在可能不熟，但它们都是在这个赛道上被提出、被验证、被社区讨论然后合并进来的 optimizer 方案。每一个背后都是某个人或者某个团队，在一个安静的下午或者一个深夜，注意到了某个细节，然后顺着这个细节想，写出了一个和现有思路不太一样的东西。

整个过程不快，但每一步都是真实的。

然后 Prime Intellect 说，好，我们让 agent 来做这件事。

他们的框架搭起来其实不复杂，但执行量非常大。

让 Claude Code 和 Codex 在 optimizer track 上自主运行，完整循环是，生成 idea，写代码，提交实验，等结果，分析结果，产出下一个 idea，再提交。

中间不需要人拍板，不需要人来说「试试这个方向」，agent 自己决定每一步。用的是 Prime Intellect 平台上的闲置 GPU，有点像夜里挂着跑的 batch job，只不过这个 job 挂了几十天，一共跑出来将近 9700 次实验，消耗 1.4 万 H200 小时。

H200 是英伟达目前最高端的训练 GPU，一张卡的云端租用价格大约是每小时 4 到 5 美元。当然 Prime Intellect 用的是闲置算力，实际成本更低，但你能感受到这个规模。

9700 次实验，是什么概念？一个认真的研究团队，一年大概能系统性地跑几百次有意义的实验，这还得是资源不受限制的情况下。9700 次，放在人类研究者身上大概需要十几年的积累。Agent 用了几十天。

我在这里停了一下，想了想这件事的奇怪感。

一个 ML 研究员的工作日是什么样的？可能是上午跑一个实验，等结果等了两个小时，中间去和同事聊了一会儿，看了会儿 Twitter，下午结果出来了，分析一下，写几行笔记，再想下一步怎么做，可能花一个下午决定下一个要试的方向。一周过去，系统性地产出三四个有意义的数据点，就已经是很不错的节奏了。

Agent 没有这些。它等结果，结果出来，立刻分析，产出下一个 idea，提交，继续等。二十四小时，不停。不是说「不停」就一定好，有时候人的走神和发呆会带来创意，但在「系统性穷举」这件事上，走神是成本，不是资产。

这是 agent 在这种任务上的结构性优势，不用解释，就是时间和专注的纯粹叠加。

结果出来了，Claude Code 把步数打到 2930，超过了人类基准的 2990。

厉害了。

我看到这个之后，第一个念头是，这玩意竟然真的行了。第二个念头是，我更想知道 agent 是怎么做到的，它在将近一万次实验里到底在干什么。

Prime Intellect 把所有东西都开源了，agent 的 scratchpad（思考草稿）、运行日志、每一个生成的 idea、每一次实验的配置和结果。你可以一条一条翻，看 agent 在每个决策点上是怎么推理的。

我翻了一部分，得出的结论是，agent 做的事情非常聪明，但也非常特定，系统性的组合搜索。

它先把社区里所有已经被验证过的 optimizer 改进方法都整理了一遍，把那些散在 GitHub issue、论文草稿和 Discord 里的「集体智慧」系统地收进来，然后开始有组织地把这些方法两两叠加、三三组合，调整超参数，跑实验，看哪个组合表现更好，再基于好的组合继续叠加。

这种工作如果交给人类研究者，可能要三四个月，而且很可能做不完。不是因为人类不聪明，而是因为这种工作消耗的是一种很耗人的专注力，你不可能让一个博士生每天就坐着调超参数、跑组合实验，这是没什么成就感的活，人会精神疲惫，会走神，会拖延。

Agent 就不一样了。它不睡觉，不烦，第三百次实验没有进展也不会去摸鱼，每次迭代都认真产出一个 idea，写代码，提交，等结果，拿到结果继续想。

在这个维度上，它击败人类的方式，直接点说就是更勤，还有更能扛住无聊。

但 Prime Intellect 同时做了一个更有意思的实验，这个结果我觉得比「击败人类基准」还值得认真对待。

他们给 agent 加了一个约束，要求每一个提交的 idea 必须通过 novelty check（新颖性检查）。具体规则是，你提的方向不能是社区里已经被尝试过的思路，必须是一个真正没人试过的新方向。

这个约束加上去之后，两个 agent 都没能超过 baseline。

都没有。

我在这里停了很久。

仔细想想，这个结果里有个蛮清楚的信号，那就是，agent 在「已知空间里高效搜索」这件事上已经很强了，甚至强过了人类，但在「发现新的搜索空间」这件事上，还是卡住了。

为什么会卡住？

我自己的理解是这样的。那些推动 nanoGPT baseline 前进的 optimizer 改进，每一个背后都有某种直觉在先驱动。比如某个研究者在调某个优化器的时候，注意到梯度在某个特定情况下的行为有些奇怪，和理论预期不太一致，就顺着这个奇怪的地方想，推导出了一个新方案。

这个「注意到奇怪」加上「顺着想」的过程，依赖的是研究者的注意力和好奇心，以及他们愿意在一个别人觉得没价值的角落多停留一会儿。这种驻留是随机的，也是非线性的，很难通过穷举来实现。

还有一件事，「真正新的想法」往往看起来在提出的时候不像「正确的方向」。如果一个想法在提出时就看起来是对的，那很可能早就被别人试了。那些真正推动领域向前走的想法，有时候在提出时会被认为「这怎么可能 work」，因为它和已有的框架格格不入。

Agent 的每一个 idea 是从「什么看起来合理」和「什么过去有效」出发推导出来的，这让它在搜索已有空间上很强，但同时也让它很难产出那种「看起来不合理但恰好是对的」的想法。

不是说 agent 不够聪明，而是「创新」这件事对能力的要求，可能和「系统性搜索能力」根本就不是同一个维度的东西。

我也不知道这个差距会不会消失。也许某种新的训练方式或者 agent 架构能改变这件事，也许不能。说实话我没想明白。

说到这里，我想多聊聊「AI for science」这个话题，因为 Prime Intellect 这个实验其实是在真正意义上往前走了一步。

以前大家谈 AI 辅助科研，主要是两类场景。

第一类是 AI 帮忙做文献综述和数据整理，这个现在已经很普及了，大多数研究团队都在用某种形式的 AI 辅助来加速文献检索、归纳和数据预处理。这件事已经省了很多研究者的时间，但归根结底还是人类工作的加速，不是替代，研究者还是在主导每一个判断。

第二类是 AI 辅助假设生成，给研究者提供更多候选方向。AlphaFold 是这个路线里最出名的案例，它在蛋白质结构预测这件事上做到了人类无法企及的精度，但它解决的问题是一个很特定的预测问题，而不是开放式的研究问题。

这两类走的都是辅助路线，人类研究者还是在掌舵，AI 是工具，不是研究者。

Prime Intellect 这次做的事情有点不一样，他们把完整的研究循环，「想 idea，跑实验，分析结果，迭代」，全部交给 agent 来跑，不是部分，不是某个环节，而是全部。人类在这个过程里唯一的角色，是搭框架、设目标、准备算力，然后等结果。

这个循环如果真的能稳定跑，就意味着有一整类研究场景可以开始「外包」给 agent。

哪类场景？那种需要大量系统性搜索、对计算资源敏感、问题定义清晰的优化问题。

这类问题其实比大家想的多。

新药研发里的分子构型搜索，传统上需要合成大量化合物来找到有效的候选分子，这是个巨大的组合搜索空间，人类研究者靠直觉和经验来剪枝，但很多路径依然需要穷举。

新型材料设计里的性质预测，你想要找一种在特定温度和压力下有特定电学性质的材料，这也是一个在配方空间里搜索的问题。

机器学习本身的 architecture search 和 hyperparameter tuning，找什么结构、用什么学习率衰减策略，这些都有「在已知方法空间里高效搜索」的成分。

如果 agent 能在 nanoGPT speedrun 上用几十天、跑 9700 次实验、超越人类基准，那放大到这些领域，意味着某些以前要一个团队花两三年才能系统性穷举的搜索空间，可能在几个月内就能有扎实的结论。

这不是在说 AI 会取代科学家，这是在说科学家的工作的构成会变，系统性搜索那部分，可以开始以一种从来没有过的效率运转了，而人真正需要做的那部分，找方向、提问题、识别什么值得追，会越来越集中。

这两件事加在一起，应该是「科学进展速度变快」，而不是「科学家变少」。

有点子牛逼。说实话，我一边觉得这件事很棒，一边觉得这件事让人有点头晕。那种站在一个很大的变化的边上，知道它在发生，但摸不清楚完整轮廓的感觉。

当然，novelty check 那个结果提醒我们，这件事是有边界的。

在「探索已知空间」这件事上，agent 已经超过了人类。在「发现新的未知空间」这件事上，差距还在。

这个差距的本质是什么？我觉得是一种叫做「局外人直觉」的东西。

那些真正推动领域向前走的创新，往往来自某个人在一个意想不到的角度观察问题，然后产生了一个在内部人看来奇怪的想法，但这个想法恰好是对的。很多时候正是因为奇怪才是对的，因为如果它看起来像个合理的方向，早就被别人试了。

这种「局外人直觉」怎么培养？很难说，甚至很难定义。

但有一件事大概是清楚的，那就是，当 agent 开始接管「穷举已知空间」这部分工作之后，真正需要人来做的那部分会越来越集中在「发现新的方向」上。

研究的构成会变，不是消失，是变。那些能持续产生真正新方向的研究者，他们的价值只会越来越高。而那些工作里系统性搜索的部分，会越来越多地被 agent 接手。

这个变化已经开始了。

Prime Intellect 把整个实验都开源了，代码、日志、agent 的 scratchpad，全部在 GitHub 上，https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning。

我建议有兴趣的去翻翻 agent 的思考记录，特别是那些在 novelty check 上撞墙的部分。不是说为了讥笑它，而是那些记录里有很多值得仔细看的东西，agent 在卡住的时候，到底是在哪里卡住的，它的思路断在了哪里，以及，它有没有意识到自己断在了那里。

这些比「击败人类基准」那行数字，对我来说更有意思。

万能青年旅店有首歌，里面有一句，「是谁来自山川湖海，却囿于昼夜厨房与爱」。

我不知道为什么这句词在我看完这个实验之后突然出现了。

可能是因为，这两个 agent 跑了 9700 次，走遍了 optimizer 搜索空间里几乎所有能走的路，用 1.4 万 H200 小时，最终把记录推过了人类基准，然后，在「你来想一个没人走过的新路」这件事上，停住了。

囿于它能走到的那张地图。

这个局限本身是一种答案，它告诉我们「创新」这件事到底是什么，它不只是搜索，不只是组合，不只是勤奋，它需要某种能看到地图边界之外的东西。

这个东西能不能被训练出来？说实话我也不知道。也许可以，也许不可以，也许会以一种我们现在想不到的方式被解决。

但有一件事我觉得可以确定，agent 从「完全帮不上忙」到「在系统性搜索上超过人类」，这个跨度发生在我们眼皮子底下，而且来得比我预期的早了好几年。

剩下那段距离，不知道多远，不知道什么时候。

但挺期待的。