AI自己做科研,做出了超越人类的成果—

AI自己做科研,做出了超越人类的成果——但先别急

华子上网 | 快评

AI自己搞科研，搞出了超越人类的成果。

是的你没看错。

Prime Intellect 让 Claude Code 和 Codex 完全自主运行在 nanoGPT 优化赛道上——没有人类插手，没有人为指导，两个智能体自己跑实验、自己调参数、自己找优化方向——最终 Claude Code 跑出了 2930 步的成绩，超越了 2990 步的人类基准。

等一下，读一遍这句话。

AI 的研究成果，超越了人类做的 benchmark。

但故事没这么简单。

如果你只看标题，你会以为 AI 已经成为科学家了，可以收拾东西回家了。

冷静一下。

智能体在这件事上确实猛——它用大约 1.4 万 H200 小时的算力，系统地跑遍了社区主流的优化方法，做了超参数扫描，尝试了各种策略组合。在"系统整合已知最佳方法"这件事上，AI 的效率是人类的 10 倍、甚至 100 倍。

这什么概念？

就像一个刚入行的实习生，把过去十年所有论文的最佳实践全部翻出来，排列组合做了一大堆实验，最后找到一套最优配置，超过了老教授手调的结果。

天才吗？是的。但这是另一种天才。

真正的鬼门关在后面。

项目有一关叫"新颖性检查"。

意思就是——别光抄作业，你倒是想点新东西出来。

结果呢？

智能体全军覆没。没有一个能在真正创新的环节上突破基线。

它能做最好的学生，但你让它当老师，它不会。

很多人看到这个新闻会慌。

会有人说"完了，程序员要失业了"——连搞研究的 AI 都出来了，写代码的算什么？

我反而觉得，这是一个好消息。

如果 AI 真正突破的是"组合优化"和"系统整合"这条线，那它解放的是什么呢？是科学家和技术人员从无聊的超参数调参中解脱出来。它把最枯燥、最重复、最像体力活的环节抢走了。

把创新留给了人。

我说两句不好听的。

现在的问题不是 AI 能不能搞科研。

问题是，人类搞科研的流程还在用上个世纪的模式——一篇论文从实验到发表要半年，审稿再半年，代码可复现性是最低优先级。AI 社区虽然在开源上领先，但整个学术体系的运转速度已经被 AI 远远甩在后面了。

你想想，AI 一天能跑一万次实验。

人类审稿人一个月看一篇论文。

这种速度差，到底谁拖谁的后腿？

最后说一句。

AI 还没学会"灵光一闪"，

但它已经学会了把所有已知的方法试个遍。

这还不够可怕吗？