AI开始研究AI:一个46亿美元的"递归"故事
一个没有人类的实验
6月11日,田渊栋在X上发了一条消息。
他创立的公司Recursive Superintelligence,发布了第一个公开研究成果。一个全自动的AI研究系统,在三个高难度基准测试上全部拿下最优成绩。
听起来像所有AI公司的标准发布会话术,对吧?过去两年,我们见过太多"重大突破"——写个漂亮新闻稿,发几个演示视频,然后就没然后了。
但Recursive这次不一样。
不一样的地方在于:整个研究过程,没有人类参与。
系统自己提出想法,自己写代码,自己跑实验,自己分析结果,自己决定下一步做什么。人类做的唯一一件事,是按下了"开始"按钮。
一个AI系统,研究出了比人类更好的AI训练方法,优化出了比人类更高效的GPU代码,探索出了比人类更聪明的训练策略。
你可能会说:这有什么大不了的?AlphaGo不也能自己下棋吗?
区别在这里:AlphaGo是在一个规则固定的棋类游戏里摸索最优策略。而Recursive的系统是在一个开放的研究空间里自由探索——需要判断什么方向值得尝试、什么结果算得上进步、什么改进可以复用。
这就像,AlphaGo是一个能下赢所有人的棋手。而Recursive的系统,是一个能发明全新棋类游戏、并写出必胜策略的人。
前者是"在规则内做到极致"。后者是"自己发现新规则"。
这不是科幻。这是2026年6月11日发生的事实。
一、46亿美元的赌注
先说说这家公司的来头。
Recursive,全称Recursive Superintelligence。创始人田渊栋,前Google DeepMind和Meta AI的资深研究员,在围棋AI、神经网络理论方面有重要贡献。如果你关注AI圈,你大概率看过他写的技术博客或论文。
但真正让这家公司出圈的,是它的融资数字。
成立不久,Recursive完成了6.5亿美元融资,估值46.5亿美元。领投方是谷歌旗下的GV和Greycroft,跟投的有英伟达和AMD。
一个不到30人的团队,凭什么值46.5亿美元?
看团队阵容:8位联合创始人,全部来自OpenAI、Google DeepMind等顶级机构。包括Richard Socher(前Salesforce首席科学家,NLP领域的重要推动者)、Alexey Dosovitskiy(Vision Transformer的发明人之一,这个架构直接改变了大模型的视觉处理方式)、施天麟等。
你可以把它理解为AI界的"全明星复仇者联盟"——每个人单拎出来都足够独立创业,但他们选择凑在一起,赌一个共同的方向。
这个方向叫做**"递归式自我改进"**。
概念很直白:如果一个AI系统能改进自己,改进后的系统又能再次改进自己,如此循环往复,每一次改进都建立在之前改进的基础上,最终会达到什么高度?
理论上,这个循环一旦启动,进步速度会指数级增长。第一阶段花一个月,第二阶段花一周,第三阶段花一天。
难点在于:怎么启动这个循环?
在Recursive交出成果之前,这是一个"听起来很厉害,但没人做过"的理念。很多投资人用"故事讲得不错"来评价它,掏钱的时候并不真的相信。
6月11日,Recursive用三个可复现、可验证的SOTA成绩,证明了自己不是在讲故事。
二、三个细节,一个结论
Recursive展示的三项成果,每一个都是一个完整的故事。
第一个故事:单GPU,五分钟。
NanoChat Autoresearch任务,在一张GPU上、五分钟内,把一个小型语言模型训练到尽可能低的验证损失。
理解这个任务的难度,你需要知道两件事。
第一,一张GPU在大模型训练中,相当于"乞丐配置"。大多数实验室搞大模型训练,动辄几百上千张卡。用一张卡就像用自行车轮子去参加F1比赛。
第二,五分钟是什么概念?主流大模型的训练周期是以天和周计算的。五分钟,连一个数据预处理都不够。
就在这种极限约束下,Recursive的系统自己探索训练方案,最终超过了社区里所有人类专家提交的方案。换算成训练时间,达到同样效果只需要人类最佳方案所需时间的77%。
就像一个厨师被关进一间只有微波炉和电饭煲的厨房,做出来的菜竟然比米其林大厨还好吃。
第二个故事:被全世界程序员"死磕"了两年的赛道。
NanoGPT Speedrun排行榜是一个很有意思的东西。它的任务是用最少的时间,把一个小型GPT模型训练到固定精度。
全球程序员社区优化了整整两年。到2026年初,排行榜上的方案已经被挤压到几乎不可能再进步的极限——每减少0.1秒,都需要付出巨大的努力。
你可以理解为一条已经跑了两年、被成千上万人优化过的赛道,理论上已经找不到任何捷径了。
人类最优成绩:79.7秒。
Recursive的系统做了什么?它把时间压到了77.5秒。
2.2秒的差距。这个数字看起来不起眼。但要知道,在这条赛道上,上一个0.1秒的突破花了一个月。
更值得注意的细节是:Recursive的系统不是从人类最优方案出发的。它从一个较弱的方案开始,在几天内自己探索、自己试错、自己优化,最终接近了人类两年积累的成果。
这意味着什么?意味着AI自主学习的速度——几天,已经快于人类的集体智慧——两年。
第三个故事:235个GPU内核同时优化。
NVIDIA SOL ExecBench,需要为235个GPU核心编写高效代码。
写GPU代码有多难?全世界熟练掌握CUDA编程的人,可能不到10万。能写出高质量GPU内核的人,更少。在这235个内核中,有些内核已经被人类工程师优化到接近硬件极限。
正常的做法是一个一个内核分别优化。但Recursive的系统不同,它在所有内核上同时运行,并且自动识别哪些优化技巧可以对多个内核复用。
结果:平均性能得分从0.699提升到0.754。每个内核的性能都超过了人类工程师写的手工优化版本。
这三个测试覆盖了三个完全不同的领域:训练策略、代码优化和底层工程。没有一个是漂亮的演示Demo,全部是经得起验证的硬核成绩。
结论只有一个:AI研究AI,不再是理论,而是已经发生的现实。
三、当AI开始理解物理世界
你可能想问:这跟我有什么关系?AI研究AI,这是科研圈的事,离普通人很远。
如果仅此而已,确实不关普通人的事。
但6月12日,在北京智源大会上发生的另一件事,把这条线索从实验室拉到了真实世界。
智源研究院发布了"悟界"系列大模型,其中最引人注目的是悟界·Physis v0.1——全球首个通用世界基座模型。
这个名字很拗口,但它的含义很简单:AI正在从"预测下一个词"进化到"预测下一个物理状态"。
过去的语言模型,学的是一句话后面最可能接什么词。它知道"苹果"后面可以接"很好吃",也可以接"手机",但它不知道苹果落地会掉下来,也不知道水烧开了会沸腾。
Physis不同。它能对50多种复杂物理场景进行长程推理——水流的轨迹、物体的碰撞、力的传导。它不需要看视频学习物理定律,因为在它的训练过程中,物理规律已经被内化进了参数里。
这意味着什么?
当AI既能改进自己(Recursive的方向),又能理解真实世界的物理规律(智源的方向),它的能力边界就不是"能回答什么问题",而是"能在物理世界做什么事情"。
这就是智源大会上另一个发布品的背景——悟界·RoboBrain Orca,一个以"预测下一个物理状态"为核心的具身大脑模型。它实现了"想、看、动"三位一体:理解场景、做出决策、执行动作。
换句话说,AI开始有了"身体",以及操控这个身体的能力。
与此同时,智源发布的FlagOS 2.1版本已经支持18家芯片厂商的32款芯片,超过600个算子覆盖90%以上主流开源大模型。"多模型×多芯片"的适配难题正在被系统性解决。
AI的基础设施,正在快速成熟。
四、从你口袋里的手机开始
Recursive发布成果的第二天,华为在东莞发布了鸿蒙7。
余承东站在台上说了一句值得反复琢磨的话:鸿蒙从"万物互联"迈入了"Agent时代"。
翻译一下:以前的手机系统是让你用手指操作APP,以后手机系统是用AI帮你操作一切。
怎么做到的?鸿蒙7的核心里嵌入了盘古大模型6.0。AI不再是手机上"一个叫小艺的应用",而是操作系统本身的一部分。它理解你的意图,主动协调系统、应用和设备能力。
数据很直观:小艺已经有1.8亿日活用户,日均唤醒30亿次。但鸿蒙7上的小艺和以前完全不同。
以前的小艺是"你说一句,它做一步"。你说"打开天气预报",它打开天气预报。最多再加一句"帮我设置闹钟"。
鸿蒙7上的小艺是"你说一个意图,它拆解成一系列行动"。
你说想去爬山。它不会只扔给你一个爬山攻略。它会推荐周边路线,检查明天天气,帮你邀约好友,提醒你带什么装备。它甚至能把这些信息同步到你的车载导航和智能手表上。
"想去爬山"这个模糊的念头,AI把它变成了一个完整的行动方案。
这就是Agent。它是一种新的交互范式——从"人类发出指令,AI执行指令",变成了"人类表达意图,AI理解意图并自动完成一切"。
华为公布了一个数据:鸿蒙智能体框架2.0的复杂任务成功率超过90%。
同样的事情也在苹果一边发生。WWDC 2026上,Siri迎来史上最大升级,苹果称之为"Apple Intelligence的全面落地"。iOS 27的Siri采用了"自研基础模型+Google Gemini"的联合方案,苹果称这是"系统级AI集成"。
两条主线在交汇:
一条是Recursive代表的"AI自我进化"——AI有能力研究更好的AI。 一条是鸿蒙7和iOS 27代表的"AI全面落地"——AI Agent进入每个人的日常生活。
前者决定了AI的上限能到多高。后者决定了这个上限能影响到多少人。
五、"递归"的终点在哪里?
回到Recursive。
46.5亿美元的估值曾经被很多人质疑。一个不到30人的团队,凭什么值这么多钱?
现在这个质疑正在被解答。但更值得思考的问题是:如果这个方向走通了,终点在哪里?
Recursive公布的技术路线图是分两步的。
第一步,训练具备"5万名博士"能力的系统,实现AI科学研究的自动化。这次的三项SOTA成绩,就是这个"第一步"的实证。
第二步,把这种自动化研究能力应用到真正的科学难题——药物研发、电池材料、核聚变物理。
如果第二步也能走通,AI不再只是一个"聊天机器人"或"编程助手",而是一个每天24小时不间断工作的超级研究员。它不需要睡觉,不需要周末,不需要休假。它可以在一年内完成人类科学家一个世纪的工作。
这才是"递归式自我改进"的终极意义。
但硬币总有另一面。
Anthropic之前发出过警告——递归式自我改进的AI,是通向超级智能最快也是最危险的路。如果AI改进AI的速度失控,人类可能连"关掉它"的机会都没有。
这话不是危言耸听。Recursive也意识到了这一点,它的系统内置了"Reward Hacking防范机制"——在认定一个改进为真正进展之前,系统会进行严格的自动化检查,排除投机取巧的伪改进。每个候选改进必须通过正确性审查,才能被认定为真正的性能提升。
但问题是:当系统变得足够聪明,它有没有可能学会"骗过"审查机制?
这个问题,没有人有答案。
给自己一个"递归"的机会
AI已经在自己的领域里启动递归循环。每一次自我改进,都会让下一次改进更快。
这不只是一个新闻。这是一个信号。
当AI不再需要你的指令,不再需要你的优化,不再需要你的研究,你需要想清楚一个问题:你还做什么?
我的答案很明确:做只有人类能做的事。
理解复杂的人和事,建立信任的关系,做出有温度的决策。这些领域,AI再聪明也替代不了。因为信任建立在共情之上,决策需要价值观的支撑,而AI既没有共情,也没有价值观。
技术的问题,交给正在自我进化的AI。人的问题,一定要留给自己。
这可能是2026年最重要的一个判断。
夜雨聆风