AI翻译局 · 特别篇003 · 物理AI闭环 · 当世界模型开始训练机器人

AI翻译局 · SPECIAL ISSUE · vol.003

机器人不缺身体，缺一个能做梦的世界

NVIDIA Cosmos × 腾讯混元 HY-World × Figure / GR00T——四个玩家共同写下了 2026 年最大的范式拐点：世界模型已经在批量制造机器人需要的"训练梦境"。

过去两期我们拆了百度文心 5.1 和 Figure 03。这期把视角拉远——谈一件比单一产品更长期、更可能改写产业格局的事：物理 AI 的闭环正在被几家公司同时合拢。

闭环的逻辑很简单：世界模型造数据 → 数据训机器人 → 机器人在真实世界采新数据 → 喂回世界模型。过去这条链上至少缺三块，现在每一块都有具体产品在 2026 上半年补完了。

这期拆四件事：① 世界模型为什么是机器人的"训练发电站"；② 四大玩家（Cosmos / HY-World / Marble / Genie 3）的客观对比；③ NVIDIA + GR00T N1 已经跑通的实战案例；④ 中美两条路线的真实差距。

▌ CHAPTER 01

机器人的"训练数据"危机

要理解为什么世界模型重要，先看一组数字。Figure 的 System 0 训练用了 1000+ 小时关节级人类运动数据；OpenAI 训练 GPT-4 用了估算 13 万亿 token。前者只是后者的一个零头。

DATA SCARCITY

数据稀缺

真实机器人采数据慢到吓人——1 台机器人 24 小时连续操作，一年只能产生约 8760 小时数据。

SAFETY

安全成本

真实环境采集失败可能损坏几十万美元设备。仿真里失败一万次不会有任何损失。

DIVERSITY

多样性匮乏

真实数据集中在工厂/实验室/HQ 这几个场景。机器人要进入家庭、医院、户外，就需要从未见过的环境数据。

世界模型把这三件事一次性解决：在虚拟世界里以几百倍速生成训练数据，失败零成本，场景随便切换。但前提是——这个虚拟世界要足够像真的，让机器人在里面学到的策略能 zero-shot 迁移到现实。

这就是 2024 年以前的死结：仿真器（Mujoco / Isaac Sim / Unity）做物理模拟很准，但生成的视觉效果太"游戏化"，模型学的纹理、光照、阴影迁移不到现实。世界模型的突破在于：它能在视觉层生成接近真实的画面，让 sim-to-real gap 缩到能 zero-shot 的程度。

▲ AGIBOT World 开源真实世界训练数据集 · 图源 humanoidsdaily.com

▌ CHAPTER 02

四大玩家：四条不同的路

世界模型不是单一技术，而是四条路线在同时演化。每家选择的输出形式、商业模式、目标场景都不一样。

维度	NVIDIA Cosmos	腾讯 HY-World 2.0	World Labs Marble	DeepMind Genie 3
商业模式	企业平台/SDK	完全开源	订阅 $0-95/月	研究预览 $250/月
输出形式	合成视频 + 机器人轨迹	3DGS / Mesh / 点云	可编辑 3D 环境	实时视频流（无 3D）
核心场景	机器人/自动驾驶训练	游戏 + 机器人仿真	创意 / VR / 影视	研究 + Agent 训练
导出兼容	Isaac Sim 原生	Unity/UE/Isaac	Unity/UE/Blender	不可导出
关键数据	200 万+ 下载	GitHub 全公开	$5B 估值	11B 参数 · 24fps

四家公司各自走不同的路：

NVIDIA Cosmos
：押注"机器人即工业品"，整套 Isaac Sim + GR00T 平台，目标是让全行业的机器人都用 NVIDIA 训练
腾讯 HY-World 2.0
：开源最彻底，技术报告+代码+权重全公开，3D 输出可以直接导进游戏引擎和 Isaac
World Labs Marble
：李飞飞团队，走商业化 SaaS 路线，主要市场是创意和 VR，机器人是次要场景
DeepMind Genie 3
：纯研究路线，11B 自回归 Transformer，24fps 实时但不可导出——主要是"演示物理智能的可能性"

▲ AGIBOT Genie Sim 3.0 仿真训练平台 · 图源 humanoidsdaily.com

▌ CHAPTER 03

闭环实战：78 万条合成轨迹的故事

抽象的"世界模型训机器人"听起来像 PPT。但 NVIDIA 给 GR00T N1 这个开源人形机器人基础模型做的合成数据生成，是这条链路目前最成熟的实战样本。

780,000

合成轨迹（synthetic trajectories）

= 6,500 小时人类示范数据= 9 个月连续真人采集由 NVIDIA Cosmos 在 11 小时内生成

GR00T N1 是 NVIDIA 2025 GTC 上发布的全球第一个开源人形机器人基础模型，架构和 Figure 的 Helix 02 异曲同工——也是 System 1（快思快动）+ System 2（慢思决策）双层架构。区别在于：

Figure 的 Helix 02
：闭源、自家用、给 Figure 03 用
NVIDIA 的 GR00T N1
：开源、给全行业用、宇树/智元/Boston Dynamics 都可以基于它训练

NVIDIA 在博客里给出的关键结论：合成数据 + 真实数据组合训练，比只用真实数据训练，机器人性能提升 40%——这是世界模型作为"训练发电站"价值的第一次硬证据。

▌ CHAPTER 04

中美的真实差距，没那么大

过去一年的舆论叙事是"中国机器人卷硬件，美国机器人卷大脑"。但物理 AI 闭环这条线，真实情况比舆论更微妙。

▌ 中国路线

开源 + 硬件量产先行

世界模型：腾讯 HY-World 2.0 完全开源（GitHub + HuggingFace），阿里"快乐生蚝"4月发布机器人：宇树 G1 / 智元 X2 / 众擎已经在全球出货占 70%优势：硬件量产成本最低，开源扩大开发者生态

短板：缺少 NVIDIA 这种"端到端平台"型整合者，世界模型和机器人厂家之间还没出现深度耦合的训练管线

▌ 美国路线

闭源 + 平台整合先行

世界模型：NVIDIA Cosmos 全栈，World Labs 商业 SaaS，DeepMind 研究预览机器人：Figure 03 量产（350+ 已交付），Optimus 试产中优势：NVIDIA 一家公司把"世界模型→仿真→机器人模型→部署"全栈拉通

短板：硬件量产被中国甩开（Figure 350 台 vs 国产万台级），开源生态被腾讯/阿里追上

更准确的描述是：中国在硬件量产和开源生态上领先，美国在端到端平台整合和高端模型上领先——两边各有"分发优势"，但都还没拿到完整闭环。

最有趣的变量是腾讯 HY-World 2.0 + 宇树/智元的组合可能性——开源世界模型 + 量产硬件，如果能复刻 NVIDIA Cosmos × GR00T 的闭环逻辑，那就是这个赛道里最被低估的中国路径。但这件事到现在还没真正发生。

▲ Generalist AI GEN-1 通用机器人模型 · 图源 humanoidsdaily.com

▌ CHAPTER 05

接下来 12 个月：三个观察点

物理 AI 这件事还在早期，不预测胜负。给三个具体、可验证的观察指标。

①	中国是否出现"HY-World × 宇树/智元"深度整合关键看腾讯混元团队是否发布"HY-World × 国产机器人"的标杆案例——类似 NVIDIA 的 GR00T Blueprint 那种端到端管线。这是中国路线能不能跑通闭环的关键信号。

②	合成数据占比能否突破 80% NVIDIA 现在说合成+真实组合提升 40%。下一步：合成数据本身能否替代 80% 以上的训练数据？这关系到机器人量产成本能不能进一步往下打。

③	第三方厂商基于 GR00T N1 出货 NVIDIA 押注"机器人圈的 Android"路线，但 GR00T N1 真正的护城河取决于有多少第三方机器人公司（不是 Figure 那种自研派）基于它做产品出货。

▌ AI翻译局洞察

2026 年最重要的范式拐点不是某个具体的模型或机器人，而是"世界模型 → 合成训练数据 → 机器人策略"这条链路终于跑通了。NVIDIA 的 78 万条合成轨迹是第一份能拿出来给投资人看的硬证据，腾讯 HY-World 2.0 的开源给了中国玩家一份完整起点。

这条链路改变了一件事：机器人公司过去的核心瓶颈是"数据"——你需要在真实世界里收集几千几万小时的人类示范才能训练一个能干活的机器人。现在世界模型把数据成本变成了 GPU 成本，而 GPU 成本是规模化能解决的。机器人这件事第一次开始有了"摩尔定律式增长"的可能性。

但要冷静：这只是"闭环跑通"，不是"闭环饱和"。世界模型生成的视觉是否能 zero-shot 到任意陌生环境、物理引擎的精度是否足够支撑接触丰富的操作、长尾失败模式怎么覆盖——这些问题还远远没解决。物理 AI 进入了它的 GPT-2 时刻，但离 GPT-4 还有距离。

END OF NOTE · 特别篇 003

AI翻译局 · 物理 AI 闭环

把术语翻译成判断，把判断翻译成行动