导读:前八讲基本是以海外视角讲 Physical AI——RT 谱系、π 系列、Cosmos、Helix、NEO。但这场技术革命另一半的故事在中国发生。这一讲我们换镜头看国内——VLA、驾驶世界模型、人形机器人三条线,差在哪、强在哪、谁在引领、谁还在追赶。看完这一节,你应该能在听到"国内做不出 Physical AI"或"国内已经超越美国"两种极端论断时,知道它们都不对。
一、先讲一个常见的认知偏差
在中文科技媒体上,关于"国内 Physical AI 进展"的叙事,常常落在两个极端:
叙事 A:"中国 Physical AI 全面领先美国"。证据是:Unitree 比 Boston Dynamics 便宜十倍、智元 GO-1 是中国首个开源 VLA、小鹏 Iron 已经进工厂。
叙事 B:"中国 Physical AI 落后美国两到三年"。证据是:通用 VLA 的 frontier 仍然是 Pi、DeepMind、NVIDIA;中国还没出 π*0.6 量级的工作;GR00T 的开源把所有中国厂商都做成"用户"而非"创新者"。
两种叙事都是 半对 的——因为它们都把"Physical AI"当成一个 单一指标。但 Physical AI 是 多个 不同的赛道——VLA 大脑、世界模型、人形硬件、自动驾驶、合成数据、产业部署——每个赛道,中美差距完全不同。
这一讲我们一条线一条线看清楚。我会用三个具体维度对每条线做评估:(1) 学术 frontier (谁在出新论文)、(2) 工程实现 (谁能把论文跑通)、(3) 商业部署 (谁卖出去了)。

▲ 国内 Physical AI 不是一条线落后,也不是一条线领先——是 差异化 的格局
二、VLA 大脑:跟随中带超越
VLA 这条线,中国的位置可以用一句话概括——学术 frontier 还在跟随,但工程实现已经追平,商业部署反而局部领先。
学术 frontier 上,2024-2026 年的最重要的 VLA 论文——RT-2、Open X-Embodiment、π0/π0.5/π0.6、OpenVLA、Octo、GR00T N1、Gemini Robotics 1.5——都来自美国。中国学术 PI 在 VLA 这条线上发的论文,多是 跟随性* 改进——把别人的 idea 在新数据集上验证、做小幅优化、本地化适配。
但 工程实现 这一层,中国进展非常快。代表性工作是:
智元的 GO-1(2025 年 3 月)——智元发布的开源 VLA 模型,基于自家的 AgiBot World 数据集(2024 年底首批释放约 100 万条机器人轨迹、217 任务、100 台机器人、2976 小时)训练。GO-1 是 中国第一个 大规模开源的通用 VLA。智元自己把它命名为 ViLLA(Vision-Language-Latent-Action)——在 VLM 后端引入潜在动作表征,相对 RT-2/π0 那种直接预测动作 token 的思路,多了一层抽象。配套的代码、数据、权重三件套全开源。这是开源轴上的国产代表作。
清华 RDT-1B(2024 年 10 月,arXiv 2410.07864)——清华大学朱军组发的双臂 diffusion VLA。12 亿参数、专攻双臂操作,在 ALOHA 类双臂基准上达到 SOTA。RDT-1B 的特点是 完整工业开源——MIT 协议、代码权重数据全公开。它在中国学术 VLA 里是被引用最多的一篇。
上海 AI Lab + 商汤 + 中科院 等机构也有多个 VLA 工作发表,但单独看每一篇影响力不如 RDT-1B 和智元 GO-1。

▲ 国内 VLA 谱系:RDT-1B 学术领先,GO-1 工程领先,工厂部署有阿里、京东、美团等大厂自研
商业部署这一层,反而是中国 略领先 海外的——大量物流、餐饮、制造场景的 VLA 已经在 实际付钱使用。具体例子:
- 京东物流 在多个仓库部署机器人辅助分拣,背后用的是 自研 + 智元 的混合 VLA 方案
- 美团无人配送 用 VLA 来规划复杂场景下的配送路径
- 阿里达摩院 在 犀牛工厂 跑物流人形原型
- 奇瑞、比亚迪等 中国车厂内部都有人形机器人项目
这种 规模化部署 比海外(除了 Figure-BMW 这种少数案例)更早开始。原因不是技术更强——是中国制造业 愿意 早期试用、容忍机器人犯错、能给到足够的部署反馈数据。
总结:VLA 大脑维度,中国 = 美国 80% 学术、95% 工程、105% 部署。整体大致打平,但路径完全不同。
三、驾驶世界模型:基本追平
驾驶世界模型这条线,中国的进展最让人惊讶——基本和海外打平,部分维度甚至超越。
回到第六讲。海外的代表是 Wayve 的 GAIA-1(2023-09)和 GAIA-2(2025-03)——9B 参数闭源驾驶视频生成模型。国内的对标工作:
GigaAI + 清华 DriveDreamer(arXiv 2309.09777,ECCV 2024)——和 GAIA-1 几乎同期发布。中国学术界第一篇有影响力的驾驶 WM。
DriveDreamer-2(arXiv 2403.06845,AAAI 2025)——把 LLM 加进来做 prompt 控制,让驾驶视频生成更可控。
Drive-WM(arXiv 2311.17918,CVPR 2024)——华中科大 + 中科院自动化所联合,第一个 和 end-to-end planner 兼容 的驾驶 WM。
上海 AI Lab Vista(arXiv 2405.17398,NeurIPS 2024)——开源权重 + 代码,到 2026 年中已经是公开可用的最强驾驶世界模型。模型权重在 HuggingFace 上下载量很高,是众多国内外驾驶研究的默认 baseline。

▲ 驾驶世界模型:海外闭源 vs 国内开源,技术追平后国内 开放性 反而成为优势
值得说一下背景——为什么国内驾驶 WM 跑得这么快?
第一,数据丰富。中国是全世界最大的电动车市场,理想、蔚来、小鹏、华为问界、比亚迪、零跑、小米等几十家车厂每天都在产生海量自动驾驶数据。这些数据虽然分别属于各家车厂,但学界通过和车厂合作可以拿到不少。
第二,监管推动。2024 年之前,中国对 L2+ ADAS 的监管比美国宽松——影子模式 部署、激进 OTA 升级、用户数据回传,这些在美国受限制的做法在国内成了日常,给驾驶 WM 训练提供了规模化数据流。2025 年情况翻转:3 月小米 SU7 致命事故之后,工信部全面收紧 ADAS 监管——OTA 审批、营销用词、紧急 OTA 都被严管。但前几年累积下来的真实道路数据,已经够用来训练几代驾驶世界模型。
第三,学术界 + 工业界的高度协同。驾驶 WM 不是一个 纯学术 命题——它需要工程化、数据化、商业化的多重支持。上海 AI Lab、商汤、小鹏、华为这些机构之间的人员流动和数据共享,比海外密切得多。
总结:驾驶 WM 维度,中国 ≈ 美国,但 开放性更高 —— Vista 是当前最受欢迎的开源驾驶 WM。
四、人形机器人:硬件领先,软件中游
人形机器人这条线,中国的情况和前两条都不同——硬件做得快做得便宜,脑子 仍然落后、但 大众认知度 反超。
补一句过去两年中国人形机器人的"出圈节奏"——这是公众层面 中国领先 的真实证据:
- 2025 春晚——16 台宇树 H1 跳秧歌,张艺谋导演,王兴兴(90 后宇树创始人)从此成为家喻户晓的科技偶像。
- 2025-04——习近平视察智元上海总部,国家最高层为这个行业站台。新闻联播头条。
- 2025-04 北京亦庄半马——人形机器人 21 公里赛跑,多台机器人摔倒掉脑袋起火,意外成为那一年中文互联网的喜剧素材。
- 2025-05——央视杭州人形格斗赛,4 台宇树 G1 真实拳台互殴。
- 2025-08 WRC + 世界人形机器人运动会——北京同期两场展会,50 家厂商、100 米短跑 + 足球 + 拳击 + 舞蹈四大项央视直播。
- 2025-11——小鹏 IRON Gen 2 发布会上,何小鹏当场剪开机器人小腿验证里头没有真人。
- 2026 春晚——宇树 + 加速进化 + MagicLab + Galbot 联合上演 赛博武术:醉拳、剑术、3 米空翻、7.5 圈空中转体。京东 G1 春晚分钟级售罄。
- 2026-04 北京亦庄半马——荣耀(手机厂)的"闪电"自主跑出 50:26,比人类男子半马世界纪录还快约 7 分钟。
把这一连串事件放在一起看,中国人形机器人这两年完成的不只是技术迭代——是 社会认知 上的爆破。海外公司至今没有哪一家像宇树、智元、小鹏那样能让自己的机器人 进入普通家庭客厅的电视屏幕。
把四家主要玩家(Unitree 最便宜、XPENG 车厂跨界、Fourier VLA 参考硬件、智元垂直整合)放到具体维度看:
硬件层面,中国领先。Unitree G1 的 $16K 价格,是全球同类产品的 1/10 到 1/5。这个价格不只是 便宜 那么简单——它把人形机器人变成了一个 消费级研究工具。HuggingFace LeRobot 团队、各国高校实验室、各种 AI 创业公司,目前 90% 的人形机器人采购指向 Unitree 或国内同类产品。
这种 硬件平价化 的影响力,在长期会很大。它降低了学术界做 Physical AI 研究的门槛。三年前一个博士生研究人形需要 100 万美元的 Atlas,今天 1 万美元的 Unitree G1 就能做 70% 的实验。这种民主化效应会让全球的 Physical AI 学术界更依赖中国硬件。
软件层面,中国跟随。智元 GO-1 是国内 VLA 的代表,但它的能力仍然不如 π0.6。中国厂商在 frontier 人形大脑(dual-system、chain-of-thought VLA、RECAP-级 RL 微调)上没有原创性贡献。软件这一层,目前主要是 消化吸收* 海外 frontier 工作。
部署层面,中国 领先 一些。XPENG、奇瑞、比亚迪、智元自己在自家工厂 + 工业客户处部署的人形机器人数量,可能已经超过 Figure 02 在 BMW 部署的数量。这一点几乎没人讲——但它是真实的。

▲ 人形机器人:中国硬件第一、部署第一、软件第三——三层错位
总结:人形机器人维度,中国硬件领先、软件落后、部署领先。当前是错位竞争,不是直接对垒。
五、合成数据 + 仿真:相对薄弱
最后一条线——合成数据 + 仿真。这一条中国 最弱。
回到第七讲,NVIDIA Cosmos + Newton 是当前合成数据 + 仿真领域的事实标准。中国在这一块的对标工作不多。具体看:
世界模型用于机器人训练——海外有 NVIDIA Cosmos、Meta V-JEPA 2、DeepMind Genie。国内有 清华 FIB 实验室 等机构的 RoboScape(2025 年 6 月,arXiv 2506.23135)这样的零星工作。RoboScape 的核心是 物理感知 的联合训练——通过 RGB + 深度 + 关键点动力学的多任务训练,让生成的机器人视频更符合现实物理。这是一篇好工作,但 规模 远没达到 Cosmos 那种工业级。
物理引擎——海外有 MuJoCo、Newton、Brax。国内没有可对标的物理引擎。所有中国 Physical AI 团队都在用 MuJoCo 或 Isaac Lab 做仿真。这是一块 几乎 100% 依赖海外开源 的领域。
仿真器——上海 AI Lab、商汤等机构都有自己的仿真平台(如 RoboTwin、PointSim),但影响力远不如 NVIDIA Isaac Lab 或 Genesis。
为什么这一块弱? 我猜有两层:
第一,合成数据 + 仿真这一块需要 长期 的基础设施投入——它不直接产生收入,回报周期长。这是中国创业公司不擅长的领域——更擅长打 产品周期短 的赛道。
第二,这一块需要 和 GPU 厂商深度协作。NVIDIA 的 Newton 由 NVIDIA + Google DeepMind + Disney 联合开发,依赖 NVIDIA GPU 优化。中国厂商如果做类似事,要和华为昇腾、海光、寒武纪等本土 GPU 协作——这件事还没有大规模发生。
总结:合成数据 + 仿真维度,中国全面落后于美国。这是国内 Physical AI 最大的 基础设施短板。
六、把四条线汇总成一张图
把上面四条线放到一张对比图上看:
| 持平略弱 | ||||
| 持平 | ||||
| 中国领先 | ||||
| 美国领先 |
整体看——中国不是全面追赶,是 差异化 竞争。在 硬件 和 规模化部署 上有结构性优势;在 学术 frontier 和 基础设施 上有结构性劣势。
更具体一些:
中国能做好的:
- 把别人的论文 实现 到能跑通的代码、能商业化的产品(智元 GO-1、RDT-1B、Vista)
- 硬件成本压缩(Unitree、XPENG)
- 工业部署的规模化(车厂、物流、餐饮)
- 数据采集(依赖中国制造业的庞大物理产业基础)
中国还需要补的:
- 原创学术 frontier 工作(VLA 范式创新、世界模型范式创新)
- 长期基础设施(物理引擎、合成数据管线)
- 自主 GPU 配套(这件事和地缘政治深度绑定)

▲ Physical AI 四条线的中美对比——错位、并不全面追赶
七、几个值得关注的国内玩家
讲完结构性判断,列几个具体值得关注的国内玩家:
智元(AgiBot)——稚晖君的公司。当前国内 最 Pi-like 的玩家——硬件 + 数据 + VLA 三位一体。AgiBot World 数据集 + GO-1 模型已经是中国本土 VLA 的代表。
Unitree——硬件平价化的全球领导者。如果 Physical AI 是一场基础设施战争,Unitree 的位置很像 LLM 时代的 LeRobot——让所有人都能玩起来 的关键节点。
XPENG / 比亚迪 / 华为问界——把车厂资源转向人形的代表。和 Tesla Optimus 同样的逻辑,但执行节奏更快。
清华朱军组、张钹组、孙富春组——国内学术 VLA 的领头羊。RDT-1B、清华 RoboTwin 等都出自这里。
上海 AI Lab + 商汤 + OpenDriveLab——驾驶 WM 的核心力量。Vista 出自这里。
蚂蚁集团、字节跳动机器人组——大厂内部的研究力量。字节 ByteDance Seed 团队的 VideoWorld(CVPR 2025)是一个从无标注视频学习的生成式世界模型,应用包括围棋和 CALVIN 机器人控制——严格说不是传统 VLA,但和 Physical AI 强相关。这些大厂工作的 学术影响 还在积累期。
多家垂直创业公司——星海图(Galaxea AI)、银河通用(人形+大脑,2026 年初完成 25 亿人民币 ~ 3.6 亿美元融资)、宇树、自变量、星动纪元(Robot Era,2026 年 4 月由顺丰领投 2 亿美元,3 月已先拿 1.46 亿美元)、加速进化等。这一群创业公司各有侧重,2024-2026 年集中融资累计接近百亿人民币。值得注意的是 Robot Era 这一轮由顺丰领投——这是 物流客户 直接投资 机器人脑子 公司的早期范本,是中国 Physical AI 商业落地最直接的桥梁形态。
判断:国内玩家数量比海外多,但 资源分散。下一步几年最值得关注的是 谁能整合资源 形成一两家 "中国版 Pi"——同时具备硬件、数据、VLA、商业化四件套的整合型公司。

▲ 国内 Physical AI 玩家地图:分散但活跃,正在向头部整合
八、地缘政治这条暗线
不可避免地,谈中美 Physical AI 时要提地缘政治。
NVIDIA H100 / B200 等高端 GPU 受美国出口管制,向中国出货的是降配版(H800 / H20 等)。如果未来三年 Physical AI 走向"国家战略"层面(这件事已经在发生),管制可能进一步收紧。
中国本土 GPU 替代正在加速——华为昇腾 910C、海光 DCU、寒武纪思元、摩尔线程 MTT-S 系列。这些芯片的目标是让 中国 Physical AI 训练 不必依赖 NVIDIA。截至 2026 年中,这些芯片在 LLM 推理 + Day-0 适配上已经可用(DeepSeek 等模型的推理部署有昇腾参与),但主力训练仍然主要靠 NVIDIA H800;在 Physical AI 训练 + 部署上还在追赶——Isaac Lab、Cosmos 这些 NVIDIA 软件栈无法直接迁移到国产 GPU。
这是一个 基础设施层面 的脱钩压力。即使技术层面国内追平海外,软件生态 这一层的迁移成本仍然很高。
但反过来想——这种脱钩压力,反而可能加速国内 从底层重新建设 Physical AI 工具栈。如果未来三年中国出现 国产版 Isaac Lab + 国产版 Cosmos + 国产版 Newton —— 一个 自主可控 的 Physical AI 基础设施 —— 那对全球技术格局的影响会是结构性的。
这事还没发生,但已经在酝酿。
九、收尾
中国 Physical AI 的位置,我用一句话总结——结构性地强在 硬件 + 部署、弱在 frontier + 基础设施、整体处在 快速追赶 + 差异化竞争 的状态。
简单粗暴的"国内落后"或"国内超越"叙事都不对——它们忽略了 Physical AI 是一个 多赛道 的复杂战场。
更重要的一点:中国 Physical AI 的优势不是 复制美国,而是 把美国论文 落地为 规模化产品。这是中国制造业全套基础设施 + 庞大物理消费市场 + 长产业链整合能力的优势。如果"通用人形机器人三年走进千家万户"这件事会发生,更可能 在中国先发生——不是因为中国 AI 最强,而是因为中国 能让一个 AI 模型 服务一千万个真实场景的物理基础设施最完整。
下一讲是最后一讲——第十讲:从读完到上手。如果你看完前九讲,想自己动手玩起来——从哪一步开始?硬件买什么、软件下什么、数据用什么、跑个 demo 要多久——这一讲我们落到 具体行动 上,给一个完整的入门路线图。
九讲的理论铺垫,最终都要服务于你 自己跑起来 的那一刻。
(第九讲完。下一讲:《从读完到上手》——LeRobot / openpi / Isaac Lab 三条入门路径,配套硬件清单 + 周末跑通 demo 的步骤。)
夜雨聆风