AI翻译局 · SPECIAL ISSUE · vol.003 机器人不缺身体,缺一个能做梦的世界 NVIDIA Cosmos × 腾讯混元 HY-World × Figure / GR00T——四个玩家共同写下了 2026 年最大的范式拐点:世界模型已经在批量制造机器人需要的"训练梦境"。 |
过去两期我们拆了百度文心 5.1 和 Figure 03。这期把视角拉远——谈一件比单一产品更长期、更可能改写产业格局的事:物理 AI 的闭环正在被几家公司同时合拢。 闭环的逻辑很简单:世界模型造数据 → 数据训机器人 → 机器人在真实世界采新数据 → 喂回世界模型。过去这条链上至少缺三块,现在每一块都有具体产品在 2026 上半年补完了。 这期拆四件事:① 世界模型为什么是机器人的"训练发电站";② 四大玩家(Cosmos / HY-World / Marble / Genie 3)的客观对比;③ NVIDIA + GR00T N1 已经跑通的实战案例;④ 中美两条路线的真实差距。 |
▌ CHAPTER 01 机器人的"训练数据"危机 要理解为什么世界模型重要,先看一组数字。Figure 的 System 0 训练用了 1000+ 小时关节级人类运动数据;OpenAI 训练 GPT-4 用了估算 13 万亿 token。前者只是后者的一个零头。 |
|
世界模型把这三件事一次性解决:在虚拟世界里以几百倍速生成训练数据,失败零成本,场景随便切换。但前提是——这个虚拟世界要足够像真的,让机器人在里面学到的策略能 zero-shot 迁移到现实。 这就是 2024 年以前的死结:仿真器(Mujoco / Isaac Sim / Unity)做物理模拟很准,但生成的视觉效果太"游戏化",模型学的纹理、光照、阴影迁移不到现实。世界模型的突破在于:它能在视觉层生成接近真实的画面,让 sim-to-real gap 缩到能 zero-shot 的程度。 |
|
▌ CHAPTER 02 四大玩家:四条不同的路 世界模型不是单一技术,而是四条路线在同时演化。每家选择的输出形式、商业模式、目标场景都不一样。 |
|
四家公司各自走不同的路:
|
|
▌ CHAPTER 03 闭环实战:78 万条合成轨迹的故事 抽象的"世界模型训机器人"听起来像 PPT。但 NVIDIA 给 GR00T N1 这个开源人形机器人基础模型做的合成数据生成,是这条链路目前最成熟的实战样本。 |
|
GR00T N1 是 NVIDIA 2025 GTC 上发布的全球第一个开源人形机器人基础模型,架构和 Figure 的 Helix 02 异曲同工——也是 System 1(快思快动)+ System 2(慢思决策)双层架构。区别在于:
NVIDIA 在博客里给出的关键结论:合成数据 + 真实数据组合训练,比只用真实数据训练,机器人性能提升 40%——这是世界模型作为"训练发电站"价值的第一次硬证据。 |
▌ CHAPTER 04 中美的真实差距,没那么大 过去一年的舆论叙事是"中国机器人卷硬件,美国机器人卷大脑"。但物理 AI 闭环这条线,真实情况比舆论更微妙。 |
|
更准确的描述是:中国在硬件量产和开源生态上领先,美国在端到端平台整合和高端模型上领先——两边各有"分发优势",但都还没拿到完整闭环。 最有趣的变量是腾讯 HY-World 2.0 + 宇树/智元的组合可能性——开源世界模型 + 量产硬件,如果能复刻 NVIDIA Cosmos × GR00T 的闭环逻辑,那就是这个赛道里最被低估的中国路径。但这件事到现在还没真正发生。 |
|
▌ CHAPTER 05 接下来 12 个月:三个观察点 物理 AI 这件事还在早期,不预测胜负。给三个具体、可验证的观察指标。 |
|
|
END OF NOTE · 特别篇 003 AI翻译局 · 物理 AI 闭环 把术语翻译成判断,把判断翻译成行动 |
夜雨聆风

