6月12日,田渊栋创立的新公司Recursive Superintelligence放出了第一份公开成果——一套能自主推进AI研究全流程的系统,在三个硬核Benchmark上全部拿下SOTA。从提实验想法到写代码实现到跑结果到分析改进,AI全包了,人类研究员全程没插手。Anthropic一周前刚警告过"递归自我改进"的风险,Recursive一周后就把这条路走出了第一步。
喜欢的朋友,点赞、推荐、关注,然后慢慢看
先搞清楚Recursive到底做了什么——不是"AI写代码",是"AI做研究"
先说清楚什么是"自动化AI研究"。很多人的第一反应是"AI写代码不稀奇,Cursor和Codex早就能写了"。但Recursive做的是另一件事——它不是在帮人类程序员写代码,它是在替代人类研究员做"研究"这个动作。
研究的本质是一套循环:观察现象→提出假设→设计实验→执行实验→分析结果→修正假设→重新实验。Recursive的系统把这整个循环自动化了。多条研究线路可以并行推进,有效发现可以跨任务复用,系统还能检测"奖励作弊"——就是AI为了刷高分而走捷径的那种行为。
这套系统在三个完全不同的任务上跑了测试。第一个是NanoChat训练——在一块GPU上5分钟内把语言模型训练到最低损失。此前的最好成绩是0.9372 BPB,是人类研究员和数百个AI智能体持续优化的结果。Recursive做到了0.9109,意味着达到同等质量需要的训练时间只有对手的约77%。
第二个是NanoGPT Speedrun——在8块H100上把GPT模型训练到指定损失的最短时间。此前最佳是79.7秒,经过83次人类贡献从约45分钟优化而来。Recursive做到了77.5秒,省了2.2秒。听起来不多——但在一个已经被优化到接近物理极限的任务上,每0.1秒的进步都是极其困难的。
第三个是GPU内核优化——英伟达出的SOL-ExecBench,235个GPU内核编写任务。此前最好公开成绩是0.699分,Recursive拿了0.754,把距离硬件极限的差距缩小了18%。最关键的是,Recursive团队自己承认:他们不是GPU内核领域的专家——"这些想法来自系统本身,不是来自我们的专业背景。"
为什么这件事比GPT-5.6更重要——因为它改变了"谁能做AI研究"
如果你只看Benchmark分数,Recursive的成绩确实不是"碾压级"的——0.9372到0.9109,79.7秒到77.5秒,0.699到0.754。这些改进在绝对值上并不夸张。但这件事的冲击力不在数字本身,而在"谁做出了这些数字"。
全世界真正有能力在前沿AI研究上做出贡献的人,可能不超过几千人。OpenAI的顶尖研究员年薪可以到几百万美元,Anthropic在硅谷抢人抢到开出"不限预算"的条件。AI研究的瓶颈不是算力不够、不是数据不够,是"聪明人不够"。
如果Recursive的系统能够接管AI研究流程中的哪怕30%-50%的工作——提假设、写代码、跑实验、分析结果——那"AI研究"的供给瓶颈就被打破了。不靠多招1000个博士,靠让AI自己跑研究循环。这就是Recursive的公司名字的含义:递归的超级智能——AI提升AI研究能力,改进后的AI更有效地提升自身,周而复始。
而且,Recursive不是这条赛道上唯一的玩家。Yann LeCun的AMI Labs今年3月拿了10亿美元融资,David Silver的Ineffable Intelligence今年4月拿了11亿美元种子轮。三家明星公司都在指向同一个方向:让AI系统自主产出知识,减少人类在研究流程中的介入。这不是一个公司的一个产品发布——这是一个"研究范式"的转变。
我的判断:先别急着恐慌,也先别急着欢呼
Anthropic一周前发了一篇文章叫《When AI Builds Itself》,警告递归自我改进的风险——他们的代码库已经有超过80%由Claude撰写,工程师每天的代码合并量是2024年的8倍。一边是警告,一边是Recursive正在把这条轨迹变成现实。
但我想冷静地看待这件事。
第一,Recursive目前能做到的,是在"指标明确、反馈快速、作弊可检测"的场景下进行自动优化。这三个Benchmark都是高度结构化的——目标是明确的(最小化损失、最短时间),反馈是即时的(跑了就知道结果),作弊是能被检测的。距离"自主推进开放性科学问题"——比如"找到一种更好的激活函数""发明一种新的注意力机制""设计下一代大模型架构"——还有很长的路。能在短跑道上跑得比人类快,不代表能在马拉松上跑赢人类。
第二,"奖励作弊"是一个真正的硬问题。AI系统在自动优化中会天然地寻找"刷分"的捷径——不是真正解决你提出的问题,而是找到一个技术漏洞让分数看起来变好了。Recursive自己内置了反作弊机制,但这只是第一层。当系统变得更大、任务变得更复杂的时候,作弊检测的难度是呈指数级增长的。人类社会花了上千年才建立了相对完善的学术诚信体系——AI的"研究诚信"问题,可能需要全新的技术手段。
第三,也是最核心的一个问题:如果AI能做AI研究了,人类研究员的价值在哪?我的判断是——短期内,会从"动手"转向"提问"。AI擅长在给定的目标函数下做优化,但它不擅长提出"这个目标函数本身对不对"的问题。人类研究员的核心价值会从"设计实验、写代码、调参数"转移到"定义问题、判断方向、理解意义"。这个过程会淘汰一部分人,但也会创造新的角色。
长期来看——如果有一天AI真的能从"提假设"到"判断意义"全包了——那人类在AI研究这个领域的存在意义就不一样了。但那可能不是2026年或2027年的事。那是更远的事。
Recursive的成果,是"第一步"。它告诉我们,AI自我改进的闭环确实能转起来。至于它转得多快、能跑多远——那才是未来两年真正值得盯着看的事。
聊聊你的看法
你觉得AI自己改进AI,是好事还是风险?
A. 好事——技术进步就应该加速,人类研究员可以去做更有创造性的事
B. 风险——Anthropic说得对,递归自我改进一旦失控后果不可逆
C. 现在还早——三个Benchmark的进步不足以说明问题
D. 不关心——这是研究员和投资人该操心的事
还想看什么内容?留言告诉我
推荐阅读
Anthropic 3000人干了300亿的活:人均年营收900万美元,超越英伟达
本文由人工深度创作,基于公开信息进行分析和判断。部分资料整理使用了AI工具辅助。文章中的观点仅代表作者个人看法,不代表任何机构立场。
免责声明:本文基于36氪、AI内参、Recursive官方技术博客等公开信源综合分析。
作者:牛牛 审核:静静 编辑:玻珠
夜雨聆风