Physical AI 05/29: VLA 已死?今日全网为世界模型站队

FutureX· 记录未来如何发生

Physical AI 日报 · 第 11 期 · 2026.05.29

今日要点

· "VLA 已死、世界模型上位"成全网讨论焦点：Jim Fan（NVIDIA）"机器人终局之战"演讲与蚂蚁沈宇军"两条路都不是终局"判断同日发声，智澄、极佳视界、小米、Video Rebirth 等多家中国团队同日发或推介物理世界模型。

· VLA 路线被论文层同步收紧三连：Colosseum V2 系统揭示分布漂移下泛化坍塌、'How VLAs Fail Differently' 给出架构差异化失败签名、Pi0.5 首份西门子工厂落地报告交出"反复 fine-tune"的真实账单。

· 何小鹏在小鹏 Q1 财报会披露：IRON 人形机器人 Q3 亮相、年底量产；Robotaxi 三季度广州启动载客示范运营；公开喊话 L4 两年内可达。

· 国资重金涌向具身产业链上游：天机智能（高瓴、美团领投 10 亿）、中科第五纪（数亿元 A，半年估值涨约 20 倍）、蓝点触控（C++ 数亿元，六维力传感器，上汽金控领投）同日落地，Q1 板块上游融资超 681 亿，超去年全年。

▎ 一、论文进展

GE-Sim 2.0：闭环视频世界仿真器，正式接入下游 VLA

这是 Genie Envisioner 路线的第二代关键节点：把"用视频模型做仿真"从单帧动作条件预测，推进到 video → state → reward → policy 的完整闭环。如果世界模型今年要真正取代仿真器，这个 pipeline 的形态就是参考答案。

Boxiang Qiu, Liliang Chen et al. · arXiv 2605.27491

在动作条件视频生成基础上重训于数千小时遥操作、接触丰富交互与真机部署数据，加三个新模块闭环：state expert 从视频 latent 解码本体感觉、world judge 给出可机器校验的成功信号与奖励、并允许下游 VLA 把 GE-Sim 当作 next-chunk 预测的条件源。论文将其定位为机器人操作"video world simulator"的路线图。

Colosseum V2：VLA 泛化的统一基准——28 任务、13 类、两形态

业界对 VLA 模型在"零样本认知"叙事下的真实泛化能力始终没有共识。Colosseum V2 是少见把 28 个任务、13 个类别、两种机器人形态、分布漂移轴拆得足够正交的评测。其结论——"VLA 在分布漂移下整体表现劣化"——正好给本周"VLA 已死"讨论提供了实证脚本。

Jeremy Morgan, Prajwal Vijay et al. · arXiv 2605.27759

基于 ManiSkill 构建大规模仿真套件，覆盖 manipulation primitive 与长时程行为。系统性引入光照、纹理、干扰物、相机视角等漂移维度，对主流开源 VLA 进行同口径评测。作者明确指出：零样本感知/语言能力虽强，但"高层理解 → 鲁棒行为"的转译环节仍是结构性缺口。

How VLAs Fail Differently：架构差异化失败签名，可黑盒监控

第一篇把"VQ-BeT / Diffusion Policy / ACT 三类架构会以哪种姿势翻车"做成可定量预测信号的工作。最反直觉的发现：业界部署代码里最常用的"速度违规检查"几乎零预测力（AUROC 0.41–0.69），而方向反转率才是跨架构通用预警指标（AUROC 0.79–0.93）。这条结论如成立，应当改变现有 VLA 部署的安全监控默认。

Krishnam Gupta · arXiv 2605.28726

在 PushT 与 ALOHA 14-DOF 双臂上跑 n=450 集统一评测。方向反转率为通用失败预测器；jerk 监控仅对离散 token 架构有效，呈"离散-连续"梯度（0.88 → 0.41）；速度监控对连续族 VLA 完全无信号。

Pi0.5 在西门子工厂跑透明袋装包：首份 VLA 真实工厂部署账单

罕见的、把"预训练 VLA 直接落工厂"的真实成本拆开摊在桌面上的工作。地点是 Siemens Erlangen GWE 工厂，任务是从杂乱堆中抓透明附件袋、塞进纸盒剩余腔体、确保不突出闭合面。论文不卖结果，卖的是 fine-tune 与部署驱动迭代的反复回路——这对所有想直接拿 VLA 去车间换钱的团队是必读。

Brian Zhu, Philipp Schmitt et al.（Siemens GWE Erlangen）· arXiv 2605.27461

把预训练 Pi0.5 适配到单一工厂任务的全过程：数据采集 → 整理 → fine-tune → 评估 → 针对性恢复 → 再采集，逐轮迭代。论文目标是量化"通用 VLA 到单任务可靠"之间到底要砸多少实际工作量。

HumanoidMimicGen：少量示范 → 全身 loco-manipulation 数据

遥操作收人形数据贵且慢，而人形动作空间的高维耦合让现有 manipulator 的 data-gen 方法直接失效。NVIDIA 这套方法把腿、臂、躯干的接触丰富全身技能与全身 locomotion+manipulation 规划交错穿插，把少量源演示扩展到新物体位姿与场景，是 Mandlekar 团队 MimicGen 路线在人形上的关键续作。

Kevin Lin, Ajay Mandlekar, Caelan Reed Garrett et al.（NVIDIA）· arXiv 2605.27724

从一小批源演示出发，把单/双臂接触丰富技能适配到新状态、对物体位姿做泛化；通过与全身 locomotion+manipulation planning 交错产生具备腿臂协同的高质量轨迹。

Turning Video Models into Generalist Robot Policies：保留视频规划器，单独训 IDM

最近"端到端把视频模型 fine-tune 成机器人 foundation model"是主流，这篇明确反向押注：视频 planner 保持具身无关，专为机器人训一个 embodiment-specific 的逆动力学（IDM），二者解耦。如果路线跑通，会显著降低单机器人厂商蹭上游通用视频/世界模型红利的门槛。与 Jim Fan、GE-Sim 2.0 同处一条 WAM 阵线。

Sizhe Lester Li, Evan Kim, Xingjian Bai, Tong Zhao, Tao Pang · arXiv 2605.27817

提出 video-to-action 闭环策略：上游视频 planner 不动，下游 IDM 用 self-play 数据独立训练。优势在于视频模型可热插拔，不同 embodiment 共享同一规划器。

Beyond Binary：物理接地的接触表征，把灵巧手 sim-to-real 推前一步

CMU/Berkeley 的 Jitendra Malik 与 Toru Lin 联手。已有 sim-to-real 灵巧操作多把触觉简化成低维粗特征，丢掉了富接触任务真正需要的信息。这篇用 Center-of-Pressure（CoP）作为既物理接地、又对仿真-真实 gap 鲁棒的中间表征，配合可微分动力学的 sensor calibration。是今年触觉富接触线上的代表作之一。

Jiahe Pan, Stelian Coros, Jitendra Malik, Toru Lin · arXiv 2605.28812

提出 CoP 触觉表征，在保留密集接触信息的同时维持 sim-to-real 鲁棒；用可微分动力学做传感器标定，估计 sim-to-real 所需的接触参数。

SPRINT：谱先验做人形冲刺，Unitree G1 零样本 sim-to-real

在王兴兴公开喊"两三个月后机器人奔跑可能超博尔特"的同一周，这篇用频域谱先验解决人形高速跑步参考数据稀缺的工程作恰好提供了一个客观对照：在 Unitree G1 上拿到"超过参考速度分布上限"的 peak sprint。是把人形从展示性"跳舞"推到对外可量化指标（速度上限、外推能力）的少数工作。

Yantong Wei, Kaihong Huang et al. · arXiv 2605.28549

用 5 段离散动作序列在频域刻画人体步态周期性，谱先验生成全速度区间可行关节轨迹并能外推至参考分布之外；在 Unitree G1 上 zero-shot sim-to-real 跑出 peak sprint。

其他今日论文：Tabero——VLA 闭环力反馈下的"温柔操作"基准（2605.27886）；Mag-VLA——磁驱微型机器人双臂 VLA（2605.28486）；ProgVLA——任务进度感知的紧凑 VLA，强调长时程压缩（2605.28231）；PrimitiveVLA——把演示拆解为可复用 motion primitive 的 VLA 范式（2605.28634）；What Frozen VLAs Already Know——用线性探针从 OpenVLA/Pi0.5 冻结特征上读出价值信号（2605.28527）；Imitation Learning for Open Surgery——ACT / Diffusion Policy / SmolVLA / π0 在缝合跟随任务上的多策略对比，π0 表现最佳（2605.28736）；POINav——3DGS 重建 11 个商圈 163 个 POI，做"最后几米"VLN 闭环基准（2605.28237）；Uni-LaViRA——把导航重构为"语言动作+视觉动作"翻译，复用 MLLM 输出流形（2605.27582）；VLM-Based ARAS——摩托车专用风险地图与采样式规划（2605.27948）；SARAD——LLM 引导探索 + RAG 知识库的自动驾驶 RL（2605.28583）。

▎ 二、融资与交易

天机智能（东莞）｜未披露轮次｜ 10 亿元｜估值未披露

高瓴、美团联合领投，跟投方未完整披露。公司主打具身智能"双臂控制"，自研一拖二双臂协调架构，单主板同步控制双 7 轴力控臂、毫秒级时间同步。美团此次入局被外界解读为"提前布局未来劳动力基础设施"——配送、仓储、零售机器人对双臂力控的需求都在它的战略版图上。来源：盖世具身智能、SZVCA创投社

中科第五纪（杭州）｜ A 轮｜数亿元｜估值半年涨约 20 倍⚠️ 估值口径单方

领投方未披露。公司主打"机器人大脑"，今年年内第三笔融资；2 月 Pre-A+ 同样数亿元，与最初不到 1 亿的估值相比涨幅超 20 倍——估值口径来自媒体引述，未独立核实。同时披露已"斩获数亿元订单"。这条线在今天的产业舆论里直接对照宇树 IPO 估值锚，是非整机阵营"小脑/大脑"路线被资本重定价的代表。来源：维科网人形机器人、IT 桔子日报

航墨科技（北京/北航系）｜天使轮｜近亿元｜估值未披露

中投万方、三贤科技、北航天汇、诚美资本、三合投资、常州金控联合投资，德太资本任长期战略融资顾问。北航机器人所团队创业，主打"智能变刚度关节"——按场景调节阻抗，对照纯刚性谐波减速器路线是更接近生物关节的另一条分支。公司援引研报称 2030 年中国机器人关节市场规模超 640 亿元（第三方数据，仅作市场口径）。来源：硬氪、第一机器人、投行前哨站

新智具身（上海/复旦系）｜天使轮｜近亿元｜估值未披露

上海科创集团、复旦科创联合领投，上海科创集团旗下策源基金等共同投资，多维资本独家财务顾问。公司主打机器人"触觉"——让人形从"看得见"走到"摸得准"。复旦+上海国资双背书在沪上具身赛道里少见，是上海方在国家系统中下场抢人形机器人/触觉头部资产的明确信号。来源：江苏博研院、上海静安发布

蓝点触控｜ C++ 轮｜数亿元｜估值未披露

上汽金控、尚颀资本领投，中芯聚源、正大机器人、厚为资本跟投。国内六维力传感器头部之一，半年内完成三轮亿元级融资。上汽与中芯并肩进场反映了汽车 OEM 与半导体国资同时把六维力当作"卖铲人"标的——人形整机谁赢都要用到。来源：全球创业者项目

理工华汇（北京/北理工系）｜ Pre-A 轮｜近亿元｜估值未披露

基石创投独家领投，深创投资本、方广资本联合跟投。聚焦通用人形 + 特种机器人。北航航墨、复旦新智、北理工华汇同日落地，是今年首次"高校系机器人创业"的近亿元天使/Pre-A 同步密集——资本回到学院派源头。来源：机器人圈

NavigateAI（美）｜未披露轮次｜ 2500 万美元｜估值未披露⚠️ 单方口径

领投/跟投方未在公开稿中详列。定位是"物理世界的 AI Copilot"——这条赛道近期还有英国 Orbital Industries 同日宣布 3700 万英镑（同样标语"AI engine for physical economy"）。在"具身"语义被中国市场迅速本土化时，海外资本仍偏好用"Physical AI Copilot"这类抽象包装，但具体落地形态多数尚未公开 demo。来源：Pulse 2.0、businesscloud.co.uk

▎ 三、产业动态

"VLA 已死、世界模型上位"成今日全网讨论焦点· 路线之争

导火索是 NVIDIA Jim Fan 的"机器人终局之战"演讲——核心判断："VLA 模型擅长编码知识和名词，不擅长处理物理和动词，结构在错误的地方头重脚轻"，提出 World Action Model（WAM）才是下一段。同日：蚂蚁集团首席科学家沈宇军在公开场合判断"VLA 与世界模型都不是终局"——他亲自做过两条路；中文社区被广为引用的 NVIDIA "机器人正在复刻 LLM 进化史"判断也指向 WAM。⚠️ 演讲/表态属个人或厂商口径来源：我们爱robotics（Jim Fan 总结）、AI全景图、NE时代智能体、AI大模型架构

中国队同日批量交答卷：智澄、极佳视界、小米、Video Rebirth 推物理世界模型· 世界模型

智澄英达（杭州）发布"澄灵物理世界模型 0.1（Chengling PWM 0.1）"，宣称"全球首发机器人专用世界模型"、MIT 协议开源；极佳视界发布"GigaWorld-0"仿真合成与世界模型平台，配套家庭轮臂机器人"拾光 S1"+ 低成本真机数采硬件"Maker M01"，将自身定位为"物理 AGI 双金字塔"；小米同日推"重建+生成一体化"世界模型；Video Rebirth 接受 Tech in Asia 深度报道讲"从视频生成走向世界模型"。今天讨论与产品同步爆发，可视为中国具身阵营对 Jim Fan 命题的集体应答。⚠️ "全球首发""全球首创"等表述均为厂商自我定位来源：智澄AI、量子位、深蓝AI、Video Rebirth 重生视界

宇树科技 6 月 1 日科创板上会，2026 H1 营收预计 10.52–11.28 亿· IPO

上交所 5 月 25 日晚公告确认 6 月 1 日审议宇树 IPO。公司同步披露 2026 上半年营收预计 10.52–11.28 亿元、同比约+40%。招股书披露募资规模 42 亿元，中介机构容诚审计，曾因股份支付与高毛利可持续性接受监管问询。上会前夕修改"风险提示"亦被部分媒体关注。背景：四足出货量长期居前、人形 Q1 起接力增长引擎，被业内视为"出货第一"标签下的资本市场首单大考。✅ 已证实来源：股权卫士、东兰融媒新经济、博派 BOTPIE、CPA咖啡社、新浪财经

何小鹏：IRON 人形 Q3 亮相、年底量产；Robotaxi 三季度广州载客；L4 两年内可达· OEM 转型

小鹏 Q1 财报会披露：营收 130 亿元、毛利率 20.6%；面向量产版本的 IRON 人形机器人 Q3 正式亮相，目标 Q4 高阶量产；先在小鹏汽车门店试商用，明年起对中国及海外商业客户交付；Robotaxi 已开始公开路测、三季度广州启动载客示范运营；何小鹏公开喊话 L4 自动驾驶有望两年内实现，"未来买车一半的钱可能是为软件买单"。⚠️ 量产/亮相节奏与 L4 时间表均为厂商自报来源：第一机器人、新浪财经、汽车之家

中国上线全国首个"人形机器人数字身份证"管理平台· 监管基础设施

北京发布全国首个人形机器人全生命周期管理服务平台。每台出厂机器人配唯一身份编码，覆盖生产、销售、使用、报废回收全程可追溯。官方定位是"为机器人赋予社会属性、解决安全与治理"，CGTN 英文版同日报道。这是 2026 年首次出现"机器人身份编码"层面的正式监管动作，会直接影响整机厂商的合规成本与跨地区流通模式。✅ 已证实来源：北京经信、光明论、内蒙古科技馆、CGTN

比亚迪发布自研 4nm 智驾芯片璇玑 A3，称首搭"超千线"激光雷达· 自动驾驶

王传福在比亚迪智能化战略发布会宣布：自研 4nm 制程智驾芯片璇玑 A3 已发布，支持 L3、L4；天神之眼自动驾驶版（L3/L4）将首搭"超千线"激光雷达，并以闪拍摄像头 + 双远红外线传感器构成感知冗余。"超千线"线数若属实将刷新行业线数纪录，但目前仅厂商口径披露、未提供独立测试参数与对应成本结构。⚠️ "首搭千线"为厂商单方声明来源：新浪财经、搜狐网、凤凰网汽车

资本风向：Q1 人形机器人板块融资 681 亿，资金集中迁向上游零部件· 资本面

Halo 机器人测算 2026 Q1 人形板块融资 681 亿元、超去年全年；灵巧手、传感器、芯片三类"卖铲人"估值飙升。今日同日落地的天机智能（10 亿）、中科第五纪（数亿 A）、蓝点触控（六维力 C++ 数亿）、航墨（关节近亿）、新智具身（触觉近亿）、理工华汇（Pre-A 近亿）共同验证了这条结构性迁移。同期 36氪综述指出沙特 Prosperity7、新加坡 LOOK CAPITAL/Vertex Growth、贝恩资本（投宝时得）等外资正在"重仓中国机器人"。⚠️ 板块累计数为机构测算口径来源：Halo 机器人、城市产业动力研究院、36氪

灵心巧手 4 个月估值破 10 亿美元，灵巧手赛道独角兽密度新高· 灵巧手

多家媒体报道：腾讯出来的工程师团队、从智元体系拆出的灵心巧手在约 4 个月内成长为独角兽。同日，全球灵巧手头部企业并购安徽康复仿生手新锐，公开目标把智能仿生手价格压至 3–5 万元、三年内进万元区间；灵心巧手同时宣布成立子公司"灵创智造"，方向是把"灵巧手+大模型+桌面 CNC"做成小型智能制造单元。灵巧手在整机成本中占比 17–20%，是当前估值/成本博弈最激烈的执行器细分。⚠️ 4 个月独角兽估值为媒体引述，非募资公开披露来源：钢蹦的 AI 效率实验室、释然小道、维科网机器人

特斯拉得州 Optimus 工厂动工，年产能规划上限 1000 万台· 整机产能

特斯拉宣布得州 Optimus 专属机器人工厂开工，规划年产能上限千万台。"千万台"是终态规划数，并非投产即落地——此前 Q2 试产规模据报道仅约 25 辆 Robotaxi 车队规模，与终态目标差三个数量级。同时 Sherwood News / Reuters 援引 Tesla 自家 AI 训练员说法称"Full Self-Driving 不应被信任、Robotaxi 还没准备好"，Waymo 在加州近一所学校发生行人事件触发新一轮 NHTSA 调查。⚠️ 产能规划为厂商单方目标来源：手机新浪网、搜狐网、Sherwood News、MSN

X Square Robot 开源 Wall-OSS-0.5：宣称预训练 VLA 表现接近后训练水平· 开源模型

X Square Robot 在 PR Newswire / TipRanks 等渠道同步发布 Wall-OSS-0.5——一款开源具身预训练 VLA，宣称无需任务级后训练即可逼近后训练性能。Z Potentials 同日深度报道指出，目前业界 VLA 的"高光时刻"几乎都发生在任务微调或 RL 适配之后，Wall-OSS 是少数把"预训练即可用"作为核心卖点的开源动作模型。⚠️ "接近后训练水平"为厂商基准口径，待第三方复现来源：PR Newswire、Z Potentials

Mistral 签 Airbus 与 BMW，正式拓展物理 AI 业务· 海外

Mistral 宣布与 Airbus、BMW 签署合作，明确进入"Physical AI"赛道。这是欧洲 LLM 头部之一首次以"物理 AI"为名义和大体量工业客户绑定，路径选择上偏向 LLM/VLM 嵌入工业流程而非端到端 VLA——与中国头部多以整机/动作模型切入的范式形成对照。✅ 已证实来源：marketscreener、Bloomberg

NVIDIA Gamma-World：多人交互世界模型，24 FPS 实时生成· 世界模型

NVIDIA 发布 Gamma-World，定位多人交互场景的生成式世界模型，宣称解决现有视频世界模型"只服务单玩家"的问题，在多玩家虚拟环境与机器人协同任务中实现 24 FPS 实时生成。指标项包括视频质量与动作控制精度。配合同期 NVIDIA Research 博客（"Robotics from simulation to the real world"），是 NVIDIA 在 WAM 论调外、用产品/研究矩阵把世界模型推到机器人协同维度的连续动作。⚠️ 指标为厂商自报来源：AI Daily Papers、NVIDIA Blog

王兴兴：两三个月后机器人奔跑速度或将超过博尔特· 厂商表态

2026 世界智能产业博览会上，宇树科技王兴兴公开表态"两三个月后机器人奔跑速度或将超过博尔特"，并希望推动具身智能迈向"ChatGPT 时刻"。博尔特 100 米世界纪录 9.58 秒（约 37.6 km/h），现有人形最快公开数据距此仍有量级差距。同期 SPRINT 论文给出的 Unitree G1 sim-to-real peak sprint 是这条 narrative 的少数对照实证（论文一章详述）。⚠️ 单方表态来源：搜狐网

FutureX · 记录未来如何发生

素材来源多方媒体/网络新闻