Physical AI 十讲 · 第九讲|国内追赶到哪里了

导读：前八讲基本是以海外视角讲 Physical AI——RT 谱系、π 系列、Cosmos、Helix、NEO。但这场技术革命另一半的故事在中国发生。这一讲我们换镜头看国内——VLA、驾驶世界模型、人形机器人三条线，差在哪、强在哪、谁在引领、谁还在追赶。看完这一节，你应该能在听到"国内做不出 Physical AI"或"国内已经超越美国"两种极端论断时，知道它们都不对。

一、先讲一个常见的认知偏差

在中文科技媒体上，关于"国内 Physical AI 进展"的叙事，常常落在两个极端：

叙事 A："中国 Physical AI 全面领先美国"。证据是：Unitree 比 Boston Dynamics 便宜十倍、智元 GO-1 是中国首个开源 VLA、小鹏 Iron 已经进工厂。

叙事 B："中国 Physical AI 落后美国两到三年"。证据是：通用 VLA 的 frontier 仍然是 Pi、DeepMind、NVIDIA；中国还没出 π*0.6 量级的工作；GR00T 的开源把所有中国厂商都做成"用户"而非"创新者"。

两种叙事都是半对的——因为它们都把"Physical AI"当成一个 单一指标。但 Physical AI 是多个不同的赛道——VLA 大脑、世界模型、人形硬件、自动驾驶、合成数据、产业部署——每个赛道，中美差距完全不同。

这一讲我们一条线一条线看清楚。我会用三个具体维度对每条线做评估：(1) 学术 frontier (谁在出新论文)、(2) 工程实现 (谁能把论文跑通)、(3) 商业部署 (谁卖出去了)。

▲ 国内 Physical AI 不是一条线落后，也不是一条线领先——是 差异化 的格局

二、VLA 大脑：跟随中带超越

VLA 这条线，中国的位置可以用一句话概括——学术 frontier 还在跟随，但工程实现已经追平，商业部署反而局部领先。

学术 frontier 上，2024-2026 年的最重要的 VLA 论文——RT-2、Open X-Embodiment、π0/π0.5/π0.6、OpenVLA、Octo、GR00T N1、Gemini Robotics 1.5——都来自美国。中国学术 PI 在 VLA 这条线上发的论文，多是 跟随性* 改进——把别人的 idea 在新数据集上验证、做小幅优化、本地化适配。

但 工程实现 这一层，中国进展非常快。代表性工作是：

智元的 GO-1（2025 年 3 月）——智元发布的开源 VLA 模型，基于自家的 AgiBot World 数据集（2024 年底首批释放约 100 万条机器人轨迹、217 任务、100 台机器人、2976 小时）训练。GO-1 是 中国第一个 大规模开源的通用 VLA。智元自己把它命名为 ViLLA（Vision-Language-Latent-Action）——在 VLM 后端引入潜在动作表征，相对 RT-2/π0 那种直接预测动作 token 的思路，多了一层抽象。配套的代码、数据、权重三件套全开源。这是开源轴上的国产代表作。

清华 RDT-1B（2024 年 10 月，arXiv 2410.07864）——清华大学朱军组发的双臂 diffusion VLA。12 亿参数、专攻双臂操作，在 ALOHA 类双臂基准上达到 SOTA。RDT-1B 的特点是 完整工业开源——MIT 协议、代码权重数据全公开。它在中国学术 VLA 里是被引用最多的一篇。

上海 AI Lab + 商汤 + 中科院 等机构也有多个 VLA 工作发表，但单独看每一篇影响力不如 RDT-1B 和智元 GO-1。

▲ 国内 VLA 谱系：RDT-1B 学术领先，GO-1 工程领先，工厂部署有阿里、京东、美团等大厂自研

商业部署这一层，反而是中国 略领先 海外的——大量物流、餐饮、制造场景的 VLA 已经在 实际付钱使用。具体例子：

- 京东物流 在多个仓库部署机器人辅助分拣，背后用的是 自研 + 智元 的混合 VLA 方案

- 美团无人配送 用 VLA 来规划复杂场景下的配送路径

- 阿里达摩院 在 犀牛工厂 跑物流人形原型

- 奇瑞、比亚迪等 中国车厂内部都有人形机器人项目

这种 规模化部署 比海外（除了 Figure-BMW 这种少数案例）更早开始。原因不是技术更强——是中国制造业愿意早期试用、容忍机器人犯错、能给到足够的部署反馈数据。

总结：VLA 大脑维度，中国 = 美国 80% 学术、95% 工程、105% 部署。整体大致打平，但路径完全不同。

三、驾驶世界模型：基本追平

驾驶世界模型这条线，中国的进展最让人惊讶——基本和海外打平，部分维度甚至超越。

回到第六讲。海外的代表是 Wayve 的 GAIA-1（2023-09）和 GAIA-2（2025-03）——9B 参数闭源驾驶视频生成模型。国内的对标工作：

GigaAI + 清华 DriveDreamer（arXiv 2309.09777，ECCV 2024）——和 GAIA-1 几乎同期发布。中国学术界第一篇有影响力的驾驶 WM。

DriveDreamer-2（arXiv 2403.06845，AAAI 2025）——把 LLM 加进来做 prompt 控制，让驾驶视频生成更可控。

Drive-WM（arXiv 2311.17918，CVPR 2024）——华中科大 + 中科院自动化所联合，第一个 和 end-to-end planner 兼容 的驾驶 WM。

上海 AI Lab Vista（arXiv 2405.17398，NeurIPS 2024）——开源权重 + 代码，到 2026 年中已经是公开可用的最强驾驶世界模型。模型权重在 HuggingFace 上下载量很高，是众多国内外驾驶研究的默认 baseline。

▲ 驾驶世界模型：海外闭源 vs 国内开源，技术追平后国内 开放性 反而成为优势

值得说一下背景——为什么国内驾驶 WM 跑得这么快？

第一，数据丰富。中国是全世界最大的电动车市场，理想、蔚来、小鹏、华为问界、比亚迪、零跑、小米等几十家车厂每天都在产生海量自动驾驶数据。这些数据虽然分别属于各家车厂，但学界通过和车厂合作可以拿到不少。

第二，监管推动。2024 年之前，中国对 L2+ ADAS 的监管比美国宽松——影子模式 部署、激进 OTA 升级、用户数据回传，这些在美国受限制的做法在国内成了日常，给驾驶 WM 训练提供了规模化数据流。2025 年情况翻转：3 月小米 SU7 致命事故之后，工信部全面收紧 ADAS 监管——OTA 审批、营销用词、紧急 OTA 都被严管。但前几年累积下来的真实道路数据，已经够用来训练几代驾驶世界模型。

第三，学术界 + 工业界的高度协同。驾驶 WM 不是一个 纯学术 命题——它需要工程化、数据化、商业化的多重支持。上海 AI Lab、商汤、小鹏、华为这些机构之间的人员流动和数据共享，比海外密切得多。

总结：驾驶 WM 维度，中国 ≈ 美国，但 开放性更高 —— Vista 是当前最受欢迎的开源驾驶 WM。

四、人形机器人：硬件领先，软件中游

人形机器人这条线，中国的情况和前两条都不同——硬件做得快做得便宜，脑子仍然落后、但 大众认知度 反超。

补一句过去两年中国人形机器人的"出圈节奏"——这是公众层面 中国领先 的真实证据：

- 2025 春晚——16 台宇树 H1 跳秧歌，张艺谋导演，王兴兴（90 后宇树创始人）从此成为家喻户晓的科技偶像。

- 2025-04——习近平视察智元上海总部，国家最高层为这个行业站台。新闻联播头条。

- 2025-04 北京亦庄半马——人形机器人 21 公里赛跑，多台机器人摔倒掉脑袋起火，意外成为那一年中文互联网的喜剧素材。

- 2025-05——央视杭州人形格斗赛，4 台宇树 G1 真实拳台互殴。

- 2025-08 WRC + 世界人形机器人运动会——北京同期两场展会，50 家厂商、100 米短跑 + 足球 + 拳击 + 舞蹈四大项央视直播。

- 2025-11——小鹏 IRON Gen 2 发布会上，何小鹏当场剪开机器人小腿验证里头没有真人。

- 2026 春晚——宇树 + 加速进化 + MagicLab + Galbot 联合上演 赛博武术：醉拳、剑术、3 米空翻、7.5 圈空中转体。京东 G1 春晚分钟级售罄。

- 2026-04 北京亦庄半马——荣耀（手机厂）的"闪电"自主跑出 50:26，比人类男子半马世界纪录还快约 7 分钟。

把这一连串事件放在一起看，中国人形机器人这两年完成的不只是技术迭代——是 社会认知 上的爆破。海外公司至今没有哪一家像宇树、智元、小鹏那样能让自己的机器人 进入普通家庭客厅的电视屏幕。

把四家主要玩家（Unitree 最便宜、XPENG 车厂跨界、Fourier VLA 参考硬件、智元垂直整合）放到具体维度看：

硬件层面，中国领先。Unitree G1 的 $16K 价格，是全球同类产品的 1/10 到 1/5。这个价格不只是便宜那么简单——它把人形机器人变成了一个 消费级研究工具。HuggingFace LeRobot 团队、各国高校实验室、各种 AI 创业公司，目前 90% 的人形机器人采购指向 Unitree 或国内同类产品。

这种 硬件平价化 的影响力，在长期会很大。它降低了学术界做 Physical AI 研究的门槛。三年前一个博士生研究人形需要 100 万美元的 Atlas，今天 1 万美元的 Unitree G1 就能做 70% 的实验。这种民主化效应会让全球的 Physical AI 学术界更依赖中国硬件。

软件层面，中国跟随。智元 GO-1 是国内 VLA 的代表，但它的能力仍然不如 π0.6。中国厂商在 frontier 人形大脑（dual-system、chain-of-thought VLA、RECAP-级 RL 微调）上没有原创性贡献。软件这一层，目前主要是 消化吸收* 海外 frontier 工作。

部署层面，中国领先一些。XPENG、奇瑞、比亚迪、智元自己在自家工厂 + 工业客户处部署的人形机器人数量，可能已经超过 Figure 02 在 BMW 部署的数量。这一点几乎没人讲——但它是真实的。

▲ 人形机器人：中国硬件第一、部署第一、软件第三——三层错位

总结：人形机器人维度，中国硬件领先、软件落后、部署领先。当前是错位竞争，不是直接对垒。

五、合成数据 + 仿真：相对薄弱

最后一条线——合成数据 + 仿真。这一条中国最弱。

回到第七讲，NVIDIA Cosmos + Newton 是当前合成数据 + 仿真领域的事实标准。中国在这一块的对标工作不多。具体看：

世界模型用于机器人训练——海外有 NVIDIA Cosmos、Meta V-JEPA 2、DeepMind Genie。国内有 清华 FIB 实验室 等机构的 RoboScape（2025 年 6 月，arXiv 2506.23135）这样的零星工作。RoboScape 的核心是 物理感知 的联合训练——通过 RGB + 深度 + 关键点动力学的多任务训练，让生成的机器人视频更符合现实物理。这是一篇好工作，但规模远没达到 Cosmos 那种工业级。

物理引擎——海外有 MuJoCo、Newton、Brax。国内没有可对标的物理引擎。所有中国 Physical AI 团队都在用 MuJoCo 或 Isaac Lab 做仿真。这是一块 几乎 100% 依赖海外开源 的领域。

仿真器——上海 AI Lab、商汤等机构都有自己的仿真平台（如 RoboTwin、PointSim），但影响力远不如 NVIDIA Isaac Lab 或 Genesis。

为什么这一块弱？ 我猜有两层：

第一，合成数据 + 仿真这一块需要长期的基础设施投入——它不直接产生收入，回报周期长。这是中国创业公司不擅长的领域——更擅长打 产品周期短 的赛道。

第二，这一块需要 和 GPU 厂商深度协作。NVIDIA 的 Newton 由 NVIDIA + Google DeepMind + Disney 联合开发，依赖 NVIDIA GPU 优化。中国厂商如果做类似事，要和华为昇腾、海光、寒武纪等本土 GPU 协作——这件事还没有大规模发生。

总结：合成数据 + 仿真维度，中国全面落后于美国。这是国内 Physical AI 最大的 基础设施短板。

六、把四条线汇总成一张图

把上面四条线放到一张对比图上看：

维度	学术 frontier	工程实现	商业部署	综合
VLA 大脑	美国领先	持平	中国略领	持平略弱
驾驶 WM	持平	中国略领	中国领先	持平
人形硬件	美国略领	中国大幅领先	中国领先	中国领先
合成数据 + 仿真	美国大幅领先	美国领先	美国领先	美国领先

整体看——中国不是全面追赶，是 差异化 竞争。在硬件和 规模化部署 上有结构性优势；在 学术 frontier 和 基础设施 上有结构性劣势。

更具体一些：

中国能做好的：

- 把别人的论文实现到能跑通的代码、能商业化的产品（智元 GO-1、RDT-1B、Vista）

- 硬件成本压缩（Unitree、XPENG）

- 工业部署的规模化（车厂、物流、餐饮）

- 数据采集（依赖中国制造业的庞大物理产业基础）

中国还需要补的：

- 原创学术 frontier 工作（VLA 范式创新、世界模型范式创新）

- 长期基础设施（物理引擎、合成数据管线）

- 自主 GPU 配套（这件事和地缘政治深度绑定）

▲ Physical AI 四条线的中美对比——错位、并不全面追赶

七、几个值得关注的国内玩家

讲完结构性判断，列几个具体值得关注的国内玩家：

智元（AgiBot）——稚晖君的公司。当前国内 最 Pi-like 的玩家——硬件 + 数据 + VLA 三位一体。AgiBot World 数据集 + GO-1 模型已经是中国本土 VLA 的代表。

Unitree——硬件平价化的全球领导者。如果 Physical AI 是一场基础设施战争，Unitree 的位置很像 LLM 时代的 LeRobot——让所有人都能玩起来 的关键节点。

XPENG / 比亚迪 / 华为问界——把车厂资源转向人形的代表。和 Tesla Optimus 同样的逻辑，但执行节奏更快。

清华朱军组、张钹组、孙富春组——国内学术 VLA 的领头羊。RDT-1B、清华 RoboTwin 等都出自这里。

上海 AI Lab + 商汤 + OpenDriveLab——驾驶 WM 的核心力量。Vista 出自这里。

蚂蚁集团、字节跳动机器人组——大厂内部的研究力量。字节 ByteDance Seed 团队的 VideoWorld（CVPR 2025）是一个从无标注视频学习的生成式世界模型，应用包括围棋和 CALVIN 机器人控制——严格说不是传统 VLA，但和 Physical AI 强相关。这些大厂工作的 学术影响 还在积累期。

多家垂直创业公司——星海图（Galaxea AI）、银河通用（人形+大脑，2026 年初完成 25 亿人民币 ~ 3.6 亿美元融资）、宇树、自变量、星动纪元（Robot Era，2026 年 4 月由顺丰领投 2 亿美元，3 月已先拿 1.46 亿美元）、加速进化等。这一群创业公司各有侧重，2024-2026 年集中融资累计接近百亿人民币。值得注意的是 Robot Era 这一轮由顺丰领投——这是 物流客户 直接投资 机器人脑子 公司的早期范本，是中国 Physical AI 商业落地最直接的桥梁形态。

判断：国内玩家数量比海外多，但 资源分散。下一步几年最值得关注的是 谁能整合资源 形成一两家 "中国版 Pi"——同时具备硬件、数据、VLA、商业化四件套的整合型公司。

▲ 国内 Physical AI 玩家地图：分散但活跃，正在向头部整合

八、地缘政治这条暗线

不可避免地，谈中美 Physical AI 时要提地缘政治。

NVIDIA H100 / B200 等高端 GPU 受美国出口管制，向中国出货的是降配版（H800 / H20 等）。如果未来三年 Physical AI 走向"国家战略"层面（这件事已经在发生），管制可能进一步收紧。

中国本土 GPU 替代正在加速——华为昇腾 910C、海光 DCU、寒武纪思元、摩尔线程 MTT-S 系列。这些芯片的目标是让 中国 Physical AI 训练 不必依赖 NVIDIA。截至 2026 年中，这些芯片在 LLM 推理 + Day-0 适配上已经可用（DeepSeek 等模型的推理部署有昇腾参与），但主力训练仍然主要靠 NVIDIA H800；在 Physical AI 训练 + 部署上还在追赶——Isaac Lab、Cosmos 这些 NVIDIA 软件栈无法直接迁移到国产 GPU。

这是一个 基础设施层面 的脱钩压力。即使技术层面国内追平海外，软件生态 这一层的迁移成本仍然很高。

但反过来想——这种脱钩压力，反而可能加速国内 从底层重新建设 Physical AI 工具栈。如果未来三年中国出现 国产版 Isaac Lab + 国产版 Cosmos + 国产版 Newton —— 一个 自主可控 的 Physical AI 基础设施 —— 那对全球技术格局的影响会是结构性的。

这事还没发生，但已经在酝酿。

九、收尾

中国 Physical AI 的位置，我用一句话总结——结构性地强在 硬件 + 部署、弱在 frontier + 基础设施、整体处在 快速追赶 + 差异化竞争 的状态。

简单粗暴的"国内落后"或"国内超越"叙事都不对——它们忽略了 Physical AI 是一个 多赛道 的复杂战场。

更重要的一点：中国 Physical AI 的优势不是 复制美国，而是 把美国论文 落地为 规模化产品。这是中国制造业全套基础设施 + 庞大物理消费市场 + 长产业链整合能力的优势。如果"通用人形机器人三年走进千家万户"这件事会发生，更可能 在中国先发生——不是因为中国 AI 最强，而是因为中国 能让一个 AI 模型 服务一千万个真实场景的物理基础设施最完整。

下一讲是最后一讲——第十讲：从读完到上手。如果你看完前九讲，想自己动手玩起来——从哪一步开始？硬件买什么、软件下什么、数据用什么、跑个 demo 要多久——这一讲我们落到 具体行动 上，给一个完整的入门路线图。

九讲的理论铺垫，最终都要服务于你 自己跑起来 的那一刻。

（第九讲完。下一讲：《从读完到上手》——LeRobot / openpi / Isaac Lab 三条入门路径，配套硬件清单 + 周末跑通 demo 的步骤。）