OpenAI 200万年薪抢人、清华3分钟训好机器人:物理AI真的就卷起来了

四年前，OpenAI亲手解散了机器人团队。四年后，他们开出200万年薪，在硅谷疯抢机器人工程师。

这事儿真真切切发生在上周，OpenAI一口气放出电气工程师、仿真环境工程师、执行器设计工程师、控制系统软件工程师四大核心岗位。同一时间，清华AIR一个开源项目UniLab，在Mac电脑上3分钟就把人形机器人训得满地跑。复旦系团队眸深智能，半年拿了5轮融资，3亿Pre-A轮被超额认购5倍。VAST更狠，一口气融了将近2亿美元，甩出全新世界模型路线Project Eden。

我问了身边几个做机器人的朋友，大家的反应出奇一致：机器人赛道不是在加速，是在起飞。

但问题是，OpenAI为什么要回来？当年不是自己说不玩了吗？为什么偏偏是现在？清华凭什么能在Mac上3分钟训好机器人，英伟达的显卡不香了？VAST和眸深各走各的技术路线，谁才是对的？

这篇文章，我试着理一理这几天密集发生的事，把这股物理AI的暗流翻到台面上来。

Dactyl：一段被遗忘的往事，一把被重新捡起的钥匙

回到2017年，OpenAI的Dactyl项目是什么水平？我说几个数字，大家感受一下：他们用强化学习训练一只五指仿生手（Shadow Hand），在仿真环境里跑了海量数据之后迁到真机，不光能转积木，还能单手解魔方。这放在今天看依然很牛。当时几乎定义了"仿真训练→真机落地"这条后来被Google DeepMind、特斯拉、Figure AI广泛采用的技术路线。

但2020年，他们把这个团队砍了。

理由很简单：机器人数据太少了，训练数据稀缺、迭代太慢。而互联网上有近乎无限的文本和代码。大模型路线的进展比机器人快了不止一个数量级。当时的逻辑无懈可击，事实证明也对，ChatGPT的成功让OpenAI成了当时全球最值钱的AI公司。

所以现在的问题是：为什么又回来了？

我翻了一下OpenAI这次放出来的招聘信息和团队成员的背景，有三件事值得特别关注。

第一，时机。2020年说不玩机器人的时候，特斯拉Optimus还没影，Figure AI还没成立。到今天，特斯拉Optimus量产脚步越来越近，弗里蒙特工厂产线已经备好；Figure AI拿了近17亿美元融资，完成超长时间连续运转零故障测试；Google DeepMind从没停过机器人基础模型的研发。对手已经把赛道跑出来了，OpenAI不能再等。

第二，人。过去一年，OpenAI机器人团队悄悄塞进了一批顶尖华人研究者。林星宇（北大/CMU博士），业内知名低成本遥操作框架GELLO和HumanoidBench评测基准的核心开发者；何泰然（上交/CMU博士，坐拥50万+粉丝的科技博主），Omni H2O人形全身协调操控技术就是他搞的；还有从Meta FAIR挖来的前SAM和Llama核心参研者张鹏川（清华数学博士），加上斯坦福、MIT、伯克利的一系列新晋PhD。这帮人的简历叠在一起，硅谷哪家公司都得眼红。

第三，组织变化。由Aditya Ramesh（DALL-E的创造者之一）带队的世界模拟研究项目，已经正式转型为OpenAI Robotics部门。这个机构重组的信号非常明确：OpenAI不打算只是"试试水"，而是要"稳住做"。四大工程岗位覆盖底层电路板到整套控制系统全链路，这绝不是随便玩玩。

奥特曼在X上的表态也很直白：翻译的好听点儿就是"AI本就该走进物理世界，在真实世界中为人类提供助力。"

说白了，语言模型的牌打得差不多了，下一局在物理世界。

清华这手操作：Mac上3分钟训好人形机器人，直接把英伟达的卡给解绑了

就在OpenAI发招聘的同一周，清华AIR DISCOVER Lab联合上交、创智学院等机构，开源了一个叫UniLab的东西。

这玩意儿做了什么事呢？一句话：把机器人强化学习训练从"必须绑在英伟达显卡上"的潜规则里解放了出来。

也就是说，以前的机器人训练有一条不成文的规定：物理仿真跑在GPU上，策略学习也跑在GPU上。GPU干完这步才能干下一步，串行执行，CPU一边凉快去。CPU多核算力就在那白等着，跟开着法拉利送外卖差不多（啊哈哈）。

UniLab的做法很粗暴：CPU专门跑物理仿真（利用多核并行），GPU专门跑神经网络策略学习。两边同时干活，通过共享内存做无锁数据交换。当GPU在跑当前批次的梯度更新时，CPU已经异步跑完了下一轮的环境仿真。这就把原来的"一方干、一方看"变成了"双方一起跑"。

在我的RTX 4090 + AMD 9950X 3D机器上，UniLab训一个四足机器人走路只花了12秒，训一个人形机器人G1学会走路只用了3分钟。同样的硬件上传统方案至少要半小时起。速度提升是3到10倍。

但真正让我觉得有意思的是另一个细节：UniLab去掉了对CUDA的硬编码依赖。它原生支持CUDA、Apple Silicon、AMD、Intel全后端。我在MacBook Pro上本地就能训人形机器人。不需要NVIDIA显卡，不需要租云GPU，不需要配驱动。一个M2芯片的MacBook，借助统一内存架构的低延迟特性，CPU仿真和GPU学习的传输开销比NVIDIA平台还小，因为不用过PCIe总线。

这说明什么？说明机器人的核心技术门槛正在被一层一层地剥掉。以前说"训机器人得要一堆A100"，现在开源代码跑起来3分钟出结果。以前说"没有NVIDIA生态就别碰机器人"，现在Mac上就能干。

团队说已经把这个系统在6类真机任务上完成了闭环验证——四足行走、人形全身运动（含翻跟头、攀爬）、灵巧手操作。论文挂在arXiv上，代码GitHub完全开源。

这事的影响可能比表面上大得多：训练门槛的降低，意味着更多课题组、更多创业者能进入这个赛道。卷的人越多，迭代速度越快。机器人产业的"chatGPT时刻"，可能不远了。

世界模型的路线之争：到底什么叫"机器人的大脑"？

把话说大一点，机器人能不能干活，不只是一个电机和控制的问题，更深层的是：它怎么理解自己所在的这个世界。

这就引出了这两年AI领域最热也最模糊的概念之一，世界模型。

先别被这个词吓到。我给你一个最通俗的理解：你坐在沙发上，闭上眼，脑子里能"看见"茶几在哪、茶杯在茶几上、小猫在窗台上。你还能"推演"——如果现在站起来走过去，猫可能会跳走。这就是你的大脑在做的事：维护一个对周围世界的内部模型，并且随着时间的推进不断更新它。

机器人差就差在这一步。今天大部分机器人"看"到一个画面→"做出"一个动作，中间缺了"理解"和"推演"。这就是世界模型要解决的问题。

而现在，这个领域的技术路线分裂得很有意思。

第一条路：Google DeepMind的Genie——"单体视频模型"。把空间、世界、交互、视角所有信息全部压缩进像素历史里，靠一段视频往前推。问题是镜头一转，模型就不知道之前那个地方发生什么了——缺乏独立的状态概念。你想搞多玩家在线互动？架构上几乎不可能。

第二条路：李飞飞的World Labs Marble——"静态3D场景"。强调空间结构和几何一致性，从一张图片就能生成持久的3D世界。但它剥离了时间维度和物理运行动态，你看到的世界很美、很准，但它不动、不演化。我认为这是一张"世界快照"，不是"世界模拟"。

第三条路：VAST的Project Eden——"状态与渲染解耦"。这个思路比较底层：把"世界处于什么状态"和"状态长什么样子"彻底分开。底层维护一个跨时间存在的全局状态（物体在哪、门是开是关、灭火器喷了没有），它独立于任何相机视角。上层拿到状态约束之后再专心渲染画面。好处是状态和渲染各干各的，不会互相拖累。算一个物理变化不用同时操心"画面帅不帅"，反过来渲染的时候也知道"位置不会错"。

VAST的首席科学家曹炎培举过一个例子：假设玩家按下灭火器，在一个紧凑的状态空间里推理"灭火器粉末喷出去了没有"这件事，给定足够的数据并不难。但如果让同一个模型既要推理物理状态、又要生成逼真的画面，两件事一起考，模型的负担指数级增加。

这个架构最大的工程红利是，多人在线世界在架构层面第一次成立了。底层状态被所有人共享同步推演，系统只需根据每个人各自的坐标分别渲染画面，算力成本是线性可控的，而不是像单体视频模型那样随人数指数爆炸。

第四条路：眸深智能的STI-WM，"时空一体化世界动作模型"。这是复旦系团队的路线。他们不觉得状态和渲染应该解耦，而是走了一条更"机器人原生"的路：空间结构、时间演化、物理一致性、执行鲁棒性四维一体化。底层基于点云直接还原三维物理空间，内嵌碰撞检测和动力学校验，上层输出全局轨迹规划和精细化动作。从"看懂世界"到"推演未来"到"规划动作"再到"执行纠错"，要做成一个完整闭环。

这四条路，没有谁对谁错，因为现在还太早期了。但我注意到两个很有意思的共同点：

第一，都在强调"物理一致性"而非"视觉逼真度"。没人再说"我们要生成以假乱真的视频"，那是过去的话题。今年所有人都在谈"碰撞检测""动力学校验""物理约束"，因为真机落地的时候，画面像不像不重要，动作会不会把东西撞倒才重要。

第二，资本对这条路线极度看好。VAST拿了近2亿美元，眸深半年5轮融资、Pre-A获5倍超额认购，还有复旦系另外一支团队（新智具身）天使轮拿了近亿。整个具身智能赛道的融资正在从"投硬件"转向"投大脑"。

你以为的瓶颈不是你以为的那个瓶颈

聊到这，我想说一个可能和大家直觉相反的点。

绝大多数人以为机器人的瓶颈是硬件。电机不够强、电池不够久、关节不够灵活。但如果你把这几天的新闻串起来看，你会发现一个完全不同的故事：OpenAI重返机器人抢的不是机械工程师，是"世界模拟"和"学习算法"方向的顶级研究者；清华UniLab在做的，不是更好的电机控制器，而是更好的强化学习训练框架；VAST融了近2亿美元做的，也不是机器人硬件，而是"世界底座"，一个能让机器人理解物理世界的底层基础设施。

换句话说，机器人产业已经从"硬件军备竞赛"进入了"软件/智能军备竞赛"。

这就像2007年的手机行业。诺基亚把硬件做到了极致，键盘、摄像头、电池、信号，样样都是顶配。但iPhone做的事情是"重新定义人和设备的交互方式"。它的核心不是更好的硬件，而是多点触控+操作系统+应用商店这套软件生态。后来的故事大家都知道了。

机器人现在就在这个拐点上。机械臂、电机、传感器这些硬件已经够用了（宇树的四足机器人能后空翻，够不够用？），瓶颈转移到了"机器人的大脑"——它能不能理解一个杯子摔在地上会碎，能不能推理"先开门再进去"这个顺序，能不能在它看到一个从未见过的场景时做出合理的判断。

而这个问题，恰恰是AI模型，尤其是大语言模型和世界模型——真正擅长的。这也是为什么OpenAI、Google DeepMind这些AI公司突然都冲进来了。机器人不再是"机械工程问题"，而是"AI问题"。

但也没那么简单，那些还没公开说的"坑"

别误会，我写这些不是说"机器人马上要取代人类了"。

第一，数据问题根本没解决。语言模型有互联网上近乎无限的文本和代码可以训练。机器人呢？真实物理世界的交互数据少得可怜，而且采集成本极高。这就是为什么图灵奖得主Yann LeCun坚持认为"纯靠大语言模型路线走不到通用机器人"，缺乏真实物理世界的反馈闭环。VAST的策略是用AI Agent在游戏引擎里7×24小时自动探索来生成合成训练数据，但这个方案能覆盖真实世界的复杂程度吗？存疑。

第二，仿真到真机的迁移鸿沟。你可以在仿真里让机器人翻10000个跟头不受伤，但一旦上了真机，传感器噪声、关节磨损、地面摩擦系数的微小变化，全都会让训练成果大打折扣。清华UniLab做了6类真机任务的闭环验证，这是个很好的开始，但这6类任务离"走向千家万户"还差着十万八千里。

第三，商业闭环在哪里？目前人形机器人的BOM成本动辄几十万到上百万人民币。工厂里一个AGV小车几万块就能24小时不休息地干活，你让一台百万人形机器人替代它，老板的ROI怎么算？除非——除非它能做AGV做不了的事，比如精细装配、居家护理、灾难救援。但这些场景的技术成熟度，又回到了第一点和第二点的问题。

说白了：大家都在抢跑，但终点线在哪、要跑多长，没人知道。

最后的最后

我写这篇文章的时候一直在想一个问题：OpenAI为什么偏偏选现在？

我的判断是——这不是一个"现在到了最好时机"的选择，而是一个"再不入场就来不及了"的选择。

特斯拉Optimus已经在弗里蒙特工厂里跑了，Figure AI的机器人能连续运转好几个小时不故障，DeepMind积攒了多年的机器人基础模型有了系统性的突破。国内这边，清华UniLab把训练速度提了10倍，科大讯飞、宇树、眸深等一大堆玩家在用更低的成本、更快的速度往前推。VAST的3D生成能力已经把产业管道打通了一半。

OpenAI最大的优势是什么？是他们在语言和多模态模型上积累的能力——把文本理解和视觉感知迁移到物理世界的"大脑"上。如果这条路能走通，OpenAI依然有机会定义下一代机器人智能。如果走不通，那他们至少得坐上牌桌。

所以你看，奥特曼说的"AI就该走进物理世界"，听着像理想主义宣言，背后其实是个残酷的竞争倒计时。

我最后问自己一个开放性的问题，也抛给你：如果5年后回头看今天，我们会不会觉得"2026年6月"就是那个机器人产业的ChatGPT时刻？

或者反过来，我们会不会发现，这不过是又一轮泡沫，真正的爆发还在十年之后？

我不确定。但我确定的是：不要只盯着大语言模型了。物理世界的战场，比你想的更热闹。

引用来源

量子位 — OpenAI重返机器人赛道！四大核心岗位开招
—https://www.qbitai.com/2026/06/427238.html
量子位 — 机器人运控训练步入分钟级时代！清华AIR开源UniLab
—https://www.qbitai.com/2026/06/427729.html
量子位 — 近2亿美元！VAST完成新一轮融资，正式披露世界模型路线
—https://www.qbitai.com/2026/06/427516.html
量子位 — 机器人原生世界动作模型问世！首创时空一体架构，复旦系团队出品
—https://www.qbitai.com/2026/05/426984.html
UniLab 论文
—https://arxiv.org/abs/2605.30313
UniLab 开源代码
—https://github.com/unilabsim/UniLab
Sam Altman X帖子 —https://x.com/sama/status/2061117302528188712
Nathan Lambert / Interconnects —Open and closed models on different exponentials
—https://www.interconnects.ai/p/open-and-closed-models-are-on-different

#AI#机器人#具身智能#世界模型#OpenAI#物理AI