
华子上网 | 快评
AI自己搞科研,搞出了超越人类的成果。
是的你没看错。
Prime Intellect 让 Claude Code 和 Codex 完全自主运行在 nanoGPT 优化赛道上——没有人类插手,没有人为指导,两个智能体自己跑实验、自己调参数、自己找优化方向——最终 Claude Code 跑出了 2930 步的成绩,超越了 2990 步的人类基准。
等一下,读一遍这句话。
AI 的研究成果,超越了人类做的 benchmark。
但故事没这么简单。
如果你只看标题,你会以为 AI 已经成为科学家了,可以收拾东西回家了。
冷静一下。
智能体在这件事上确实猛——它用大约 1.4 万 H200 小时的算力,系统地跑遍了社区主流的优化方法,做了超参数扫描,尝试了各种策略组合。在"系统整合已知最佳方法"这件事上,AI 的效率是人类的 10 倍、甚至 100 倍。
这什么概念?
就像一个刚入行的实习生,把过去十年所有论文的最佳实践全部翻出来,排列组合做了一大堆实验,最后找到一套最优配置,超过了老教授手调的结果。
天才吗?是的。但这是另一种天才。
真正的鬼门关在后面。
项目有一关叫"新颖性检查"。
意思就是——别光抄作业,你倒是想点新东西出来。
结果呢?
智能体全军覆没。没有一个能在真正创新的环节上突破基线。
它能做最好的学生,但你让它当老师,它不会。
很多人看到这个新闻会慌。
会有人说"完了,程序员要失业了"——连搞研究的 AI 都出来了,写代码的算什么?
我反而觉得,这是一个好消息。
如果 AI 真正突破的是"组合优化"和"系统整合"这条线,那它解放的是什么呢?是科学家和技术人员从无聊的超参数调参中解脱出来。它把最枯燥、最重复、最像体力活的环节抢走了。
把创新留给了人。
我说两句不好听的。
现在的问题不是 AI 能不能搞科研。
问题是,人类搞科研的流程还在用上个世纪的模式——一篇论文从实验到发表要半年,审稿再半年,代码可复现性是最低优先级。AI 社区虽然在开源上领先,但整个学术体系的运转速度已经被 AI 远远甩在后面了。
你想想,AI 一天能跑一万次实验。
人类审稿人一个月看一篇论文。
这种速度差,到底谁拖谁的后腿?
最后说一句。
AI 还没学会"灵光一闪",
但它已经学会了把所有已知的方法试个遍。
这还不够可怕吗?
夜雨聆风