AI学会了自己改进自己:田渊栋Recursive三个SOTA背后,研究范式正在被改写

6月12日，田渊栋创立的新公司Recursive Superintelligence放出了第一份公开成果——一套能自主推进AI研究全流程的系统，在三个硬核Benchmark上全部拿下SOTA。从提实验想法到写代码实现到跑结果到分析改进，AI全包了，人类研究员全程没插手。Anthropic一周前刚警告过"递归自我改进"的风险，Recursive一周后就把这条路走出了第一步。

喜欢的朋友，点赞、推荐、关注，然后慢慢看

先搞清楚Recursive到底做了什么——不是"AI写代码"，是"AI做研究"

先说清楚什么是"自动化AI研究"。很多人的第一反应是"AI写代码不稀奇，Cursor和Codex早就能写了"。但Recursive做的是另一件事——它不是在帮人类程序员写代码，它是在替代人类研究员做"研究"这个动作。

研究的本质是一套循环：观察现象→提出假设→设计实验→执行实验→分析结果→修正假设→重新实验。Recursive的系统把这整个循环自动化了。多条研究线路可以并行推进，有效发现可以跨任务复用，系统还能检测"奖励作弊"——就是AI为了刷高分而走捷径的那种行为。

这套系统在三个完全不同的任务上跑了测试。第一个是NanoChat训练——在一块GPU上5分钟内把语言模型训练到最低损失。此前的最好成绩是0.9372 BPB，是人类研究员和数百个AI智能体持续优化的结果。Recursive做到了0.9109，意味着达到同等质量需要的训练时间只有对手的约77%。

第二个是NanoGPT Speedrun——在8块H100上把GPT模型训练到指定损失的最短时间。此前最佳是79.7秒，经过83次人类贡献从约45分钟优化而来。Recursive做到了77.5秒，省了2.2秒。听起来不多——但在一个已经被优化到接近物理极限的任务上，每0.1秒的进步都是极其困难的。

第三个是GPU内核优化——英伟达出的SOL-ExecBench，235个GPU内核编写任务。此前最好公开成绩是0.699分，Recursive拿了0.754，把距离硬件极限的差距缩小了18%。最关键的是，Recursive团队自己承认：他们不是GPU内核领域的专家——"这些想法来自系统本身，不是来自我们的专业背景。"

为什么这件事比GPT-5.6更重要——因为它改变了"谁能做AI研究"

如果你只看Benchmark分数，Recursive的成绩确实不是"碾压级"的——0.9372到0.9109，79.7秒到77.5秒，0.699到0.754。这些改进在绝对值上并不夸张。但这件事的冲击力不在数字本身，而在"谁做出了这些数字"。

全世界真正有能力在前沿AI研究上做出贡献的人，可能不超过几千人。OpenAI的顶尖研究员年薪可以到几百万美元，Anthropic在硅谷抢人抢到开出"不限预算"的条件。AI研究的瓶颈不是算力不够、不是数据不够，是"聪明人不够"。

如果Recursive的系统能够接管AI研究流程中的哪怕30%-50%的工作——提假设、写代码、跑实验、分析结果——那"AI研究"的供给瓶颈就被打破了。不靠多招1000个博士，靠让AI自己跑研究循环。这就是Recursive的公司名字的含义：递归的超级智能——AI提升AI研究能力，改进后的AI更有效地提升自身，周而复始。

而且，Recursive不是这条赛道上唯一的玩家。Yann LeCun的AMI Labs今年3月拿了10亿美元融资，David Silver的Ineffable Intelligence今年4月拿了11亿美元种子轮。三家明星公司都在指向同一个方向：让AI系统自主产出知识，减少人类在研究流程中的介入。这不是一个公司的一个产品发布——这是一个"研究范式"的转变。

我的判断：先别急着恐慌，也先别急着欢呼

Anthropic一周前发了一篇文章叫《When AI Builds Itself》，警告递归自我改进的风险——他们的代码库已经有超过80%由Claude撰写，工程师每天的代码合并量是2024年的8倍。一边是警告，一边是Recursive正在把这条轨迹变成现实。

但我想冷静地看待这件事。

第一，Recursive目前能做到的，是在"指标明确、反馈快速、作弊可检测"的场景下进行自动优化。这三个Benchmark都是高度结构化的——目标是明确的（最小化损失、最短时间），反馈是即时的（跑了就知道结果），作弊是能被检测的。距离"自主推进开放性科学问题"——比如"找到一种更好的激活函数""发明一种新的注意力机制""设计下一代大模型架构"——还有很长的路。能在短跑道上跑得比人类快，不代表能在马拉松上跑赢人类。

第二，"奖励作弊"是一个真正的硬问题。AI系统在自动优化中会天然地寻找"刷分"的捷径——不是真正解决你提出的问题，而是找到一个技术漏洞让分数看起来变好了。Recursive自己内置了反作弊机制，但这只是第一层。当系统变得更大、任务变得更复杂的时候，作弊检测的难度是呈指数级增长的。人类社会花了上千年才建立了相对完善的学术诚信体系——AI的"研究诚信"问题，可能需要全新的技术手段。

第三，也是最核心的一个问题：如果AI能做AI研究了，人类研究员的价值在哪？我的判断是——短期内，会从"动手"转向"提问"。AI擅长在给定的目标函数下做优化，但它不擅长提出"这个目标函数本身对不对"的问题。人类研究员的核心价值会从"设计实验、写代码、调参数"转移到"定义问题、判断方向、理解意义"。这个过程会淘汰一部分人，但也会创造新的角色。

长期来看——如果有一天AI真的能从"提假设"到"判断意义"全包了——那人类在AI研究这个领域的存在意义就不一样了。但那可能不是2026年或2027年的事。那是更远的事。

Recursive的成果，是"第一步"。它告诉我们，AI自我改进的闭环确实能转起来。至于它转得多快、能跑多远——那才是未来两年真正值得盯着看的事。

聊聊你的看法

你觉得AI自己改进AI，是好事还是风险？

A. 好事——技术进步就应该加速，人类研究员可以去做更有创造性的事

B. 风险——Anthropic说得对，递归自我改进一旦失控后果不可逆

C. 现在还早——三个Benchmark的进步不足以说明问题

D. 不关心——这是研究员和投资人该操心的事

还想看什么内容？留言告诉我