AI开始研究AI:一个46亿美元的＂递归＂故事

AI开始研究AI：一个46亿美元的"递归"故事

一个没有人类的实验

6月11日，田渊栋在X上发了一条消息。

他创立的公司Recursive Superintelligence，发布了第一个公开研究成果。一个全自动的AI研究系统，在三个高难度基准测试上全部拿下最优成绩。

听起来像所有AI公司的标准发布会话术，对吧？过去两年，我们见过太多"重大突破"——写个漂亮新闻稿，发几个演示视频，然后就没然后了。

但Recursive这次不一样。

不一样的地方在于：整个研究过程，没有人类参与。

系统自己提出想法，自己写代码，自己跑实验，自己分析结果，自己决定下一步做什么。人类做的唯一一件事，是按下了"开始"按钮。

一个AI系统，研究出了比人类更好的AI训练方法，优化出了比人类更高效的GPU代码，探索出了比人类更聪明的训练策略。

你可能会说：这有什么大不了的？AlphaGo不也能自己下棋吗？

区别在这里：AlphaGo是在一个规则固定的棋类游戏里摸索最优策略。而Recursive的系统是在一个开放的研究空间里自由探索——需要判断什么方向值得尝试、什么结果算得上进步、什么改进可以复用。

这就像，AlphaGo是一个能下赢所有人的棋手。而Recursive的系统，是一个能发明全新棋类游戏、并写出必胜策略的人。

前者是"在规则内做到极致"。后者是"自己发现新规则"。

这不是科幻。这是2026年6月11日发生的事实。

一、46亿美元的赌注

先说说这家公司的来头。

Recursive，全称Recursive Superintelligence。创始人田渊栋，前Google DeepMind和Meta AI的资深研究员，在围棋AI、神经网络理论方面有重要贡献。如果你关注AI圈，你大概率看过他写的技术博客或论文。

但真正让这家公司出圈的，是它的融资数字。

成立不久，Recursive完成了6.5亿美元融资，估值46.5亿美元。领投方是谷歌旗下的GV和Greycroft，跟投的有英伟达和AMD。

一个不到30人的团队，凭什么值46.5亿美元？

看团队阵容：8位联合创始人，全部来自OpenAI、Google DeepMind等顶级机构。包括Richard Socher（前Salesforce首席科学家，NLP领域的重要推动者）、Alexey Dosovitskiy（Vision Transformer的发明人之一，这个架构直接改变了大模型的视觉处理方式）、施天麟等。

你可以把它理解为AI界的"全明星复仇者联盟"——每个人单拎出来都足够独立创业，但他们选择凑在一起，赌一个共同的方向。

这个方向叫做**"递归式自我改进"**。

概念很直白：如果一个AI系统能改进自己，改进后的系统又能再次改进自己，如此循环往复，每一次改进都建立在之前改进的基础上，最终会达到什么高度？

理论上，这个循环一旦启动，进步速度会指数级增长。第一阶段花一个月，第二阶段花一周，第三阶段花一天。

难点在于：怎么启动这个循环？

在Recursive交出成果之前，这是一个"听起来很厉害，但没人做过"的理念。很多投资人用"故事讲得不错"来评价它，掏钱的时候并不真的相信。

6月11日，Recursive用三个可复现、可验证的SOTA成绩，证明了自己不是在讲故事。

二、三个细节，一个结论

Recursive展示的三项成果，每一个都是一个完整的故事。

第一个故事：单GPU，五分钟。

NanoChat Autoresearch任务，在一张GPU上、五分钟内，把一个小型语言模型训练到尽可能低的验证损失。

理解这个任务的难度，你需要知道两件事。

第一，一张GPU在大模型训练中，相当于"乞丐配置"。大多数实验室搞大模型训练，动辄几百上千张卡。用一张卡就像用自行车轮子去参加F1比赛。

第二，五分钟是什么概念？主流大模型的训练周期是以天和周计算的。五分钟，连一个数据预处理都不够。

就在这种极限约束下，Recursive的系统自己探索训练方案，最终超过了社区里所有人类专家提交的方案。换算成训练时间，达到同样效果只需要人类最佳方案所需时间的77%。

就像一个厨师被关进一间只有微波炉和电饭煲的厨房，做出来的菜竟然比米其林大厨还好吃。

第二个故事：被全世界程序员"死磕"了两年的赛道。

NanoGPT Speedrun排行榜是一个很有意思的东西。它的任务是用最少的时间，把一个小型GPT模型训练到固定精度。

全球程序员社区优化了整整两年。到2026年初，排行榜上的方案已经被挤压到几乎不可能再进步的极限——每减少0.1秒，都需要付出巨大的努力。

你可以理解为一条已经跑了两年、被成千上万人优化过的赛道，理论上已经找不到任何捷径了。

人类最优成绩：79.7秒。

Recursive的系统做了什么？它把时间压到了77.5秒。

2.2秒的差距。这个数字看起来不起眼。但要知道，在这条赛道上，上一个0.1秒的突破花了一个月。

更值得注意的细节是：Recursive的系统不是从人类最优方案出发的。它从一个较弱的方案开始，在几天内自己探索、自己试错、自己优化，最终接近了人类两年积累的成果。

这意味着什么？意味着AI自主学习的速度——几天，已经快于人类的集体智慧——两年。

第三个故事：235个GPU内核同时优化。

NVIDIA SOL ExecBench，需要为235个GPU核心编写高效代码。

写GPU代码有多难？全世界熟练掌握CUDA编程的人，可能不到10万。能写出高质量GPU内核的人，更少。在这235个内核中，有些内核已经被人类工程师优化到接近硬件极限。

正常的做法是一个一个内核分别优化。但Recursive的系统不同，它在所有内核上同时运行，并且自动识别哪些优化技巧可以对多个内核复用。

结果：平均性能得分从0.699提升到0.754。每个内核的性能都超过了人类工程师写的手工优化版本。

这三个测试覆盖了三个完全不同的领域：训练策略、代码优化和底层工程。没有一个是漂亮的演示Demo，全部是经得起验证的硬核成绩。

结论只有一个：AI研究AI，不再是理论，而是已经发生的现实。

三、当AI开始理解物理世界

你可能想问：这跟我有什么关系？AI研究AI，这是科研圈的事，离普通人很远。

如果仅此而已，确实不关普通人的事。

但6月12日，在北京智源大会上发生的另一件事，把这条线索从实验室拉到了真实世界。

智源研究院发布了"悟界"系列大模型，其中最引人注目的是悟界·Physis v0.1——全球首个通用世界基座模型。

这个名字很拗口，但它的含义很简单：AI正在从"预测下一个词"进化到"预测下一个物理状态"。

过去的语言模型，学的是一句话后面最可能接什么词。它知道"苹果"后面可以接"很好吃"，也可以接"手机"，但它不知道苹果落地会掉下来，也不知道水烧开了会沸腾。

Physis不同。它能对50多种复杂物理场景进行长程推理——水流的轨迹、物体的碰撞、力的传导。它不需要看视频学习物理定律，因为在它的训练过程中，物理规律已经被内化进了参数里。

这意味着什么？

当AI既能改进自己（Recursive的方向），又能理解真实世界的物理规律（智源的方向），它的能力边界就不是"能回答什么问题"，而是"能在物理世界做什么事情"。

这就是智源大会上另一个发布品的背景——悟界·RoboBrain Orca，一个以"预测下一个物理状态"为核心的具身大脑模型。它实现了"想、看、动"三位一体：理解场景、做出决策、执行动作。

换句话说，AI开始有了"身体"，以及操控这个身体的能力。

与此同时，智源发布的FlagOS 2.1版本已经支持18家芯片厂商的32款芯片，超过600个算子覆盖90%以上主流开源大模型。"多模型×多芯片"的适配难题正在被系统性解决。

AI的基础设施，正在快速成熟。

四、从你口袋里的手机开始

Recursive发布成果的第二天，华为在东莞发布了鸿蒙7。

余承东站在台上说了一句值得反复琢磨的话：鸿蒙从"万物互联"迈入了"Agent时代"。

翻译一下：以前的手机系统是让你用手指操作APP，以后手机系统是用AI帮你操作一切。

怎么做到的？鸿蒙7的核心里嵌入了盘古大模型6.0。AI不再是手机上"一个叫小艺的应用"，而是操作系统本身的一部分。它理解你的意图，主动协调系统、应用和设备能力。

数据很直观：小艺已经有1.8亿日活用户，日均唤醒30亿次。但鸿蒙7上的小艺和以前完全不同。

以前的小艺是"你说一句，它做一步"。你说"打开天气预报"，它打开天气预报。最多再加一句"帮我设置闹钟"。

鸿蒙7上的小艺是"你说一个意图，它拆解成一系列行动"。

你说想去爬山。它不会只扔给你一个爬山攻略。它会推荐周边路线，检查明天天气，帮你邀约好友，提醒你带什么装备。它甚至能把这些信息同步到你的车载导航和智能手表上。

"想去爬山"这个模糊的念头，AI把它变成了一个完整的行动方案。

这就是Agent。它是一种新的交互范式——从"人类发出指令，AI执行指令"，变成了"人类表达意图，AI理解意图并自动完成一切"。

华为公布了一个数据：鸿蒙智能体框架2.0的复杂任务成功率超过90%。

同样的事情也在苹果一边发生。WWDC 2026上，Siri迎来史上最大升级，苹果称之为"Apple Intelligence的全面落地"。iOS 27的Siri采用了"自研基础模型+Google Gemini"的联合方案，苹果称这是"系统级AI集成"。

两条主线在交汇：

一条是Recursive代表的"AI自我进化"——AI有能力研究更好的AI。一条是鸿蒙7和iOS 27代表的"AI全面落地"——AI Agent进入每个人的日常生活。

前者决定了AI的上限能到多高。后者决定了这个上限能影响到多少人。

五、"递归"的终点在哪里？

回到Recursive。

46.5亿美元的估值曾经被很多人质疑。一个不到30人的团队，凭什么值这么多钱？

现在这个质疑正在被解答。但更值得思考的问题是：如果这个方向走通了，终点在哪里？

Recursive公布的技术路线图是分两步的。

第一步，训练具备"5万名博士"能力的系统，实现AI科学研究的自动化。这次的三项SOTA成绩，就是这个"第一步"的实证。

第二步，把这种自动化研究能力应用到真正的科学难题——药物研发、电池材料、核聚变物理。

如果第二步也能走通，AI不再只是一个"聊天机器人"或"编程助手"，而是一个每天24小时不间断工作的超级研究员。它不需要睡觉，不需要周末，不需要休假。它可以在一年内完成人类科学家一个世纪的工作。

这才是"递归式自我改进"的终极意义。

但硬币总有另一面。

Anthropic之前发出过警告——递归式自我改进的AI，是通向超级智能最快也是最危险的路。如果AI改进AI的速度失控，人类可能连"关掉它"的机会都没有。

这话不是危言耸听。Recursive也意识到了这一点，它的系统内置了"Reward Hacking防范机制"——在认定一个改进为真正进展之前，系统会进行严格的自动化检查，排除投机取巧的伪改进。每个候选改进必须通过正确性审查，才能被认定为真正的性能提升。

但问题是：当系统变得足够聪明，它有没有可能学会"骗过"审查机制？

这个问题，没有人有答案。

给自己一个"递归"的机会

AI已经在自己的领域里启动递归循环。每一次自我改进，都会让下一次改进更快。

这不只是一个新闻。这是一个信号。

当AI不再需要你的指令，不再需要你的优化，不再需要你的研究，你需要想清楚一个问题：你还做什么？

我的答案很明确：做只有人类能做的事。

理解复杂的人和事，建立信任的关系，做出有温度的决策。这些领域，AI再聪明也替代不了。因为信任建立在共情之上，决策需要价值观的支撑，而AI既没有共情，也没有价值观。

技术的问题，交给正在自我进化的AI。人的问题，一定要留给自己。

这可能是2026年最重要的一个判断。