Physical AI 05/26: 宇树上会、Luna 发布、WAM 升温:具身的高光一天;一天两笔大钱押向机器人＂手与关节＂

FutureX· 记录未来如何发生

Physical AI 日报 · 第 8 期 · 2026.05.26

今日要点

· 资本扎堆机器人"手与关节"：天机智能约 10 亿元 B+B+ 轮（高瓴、美团领投，估值近百亿）、蓝点触控数亿元 C++ 轮同日落地，力控零部件成融资新主线

· 宇树科技定档 6 月 1 日科创板上会、冲刺"人形第一股"：2025 营收约 17 亿元、同比增超 330%，但 2026 Q1 净利同比腰斩约 52%

· 逐际动力发布全尺寸交互人形 LimX Luna，指导价 29.8 万元、主打商场导购等交互场景，人形整机定价继续下探

· 世界动作模型（WAM）升温：复旦等发布首篇 WAM 综述，沿英伟达 Jim Fan "先预测世界、再生成动作"路线系统梳理范式，同日多篇 WAM／world-model 新作上线

· Waymo 因涉水故障把暂停范围扩至 5 座城市、坦言补丁失效暂无根治，与 Figure 03 连续 200 小时仓储作业直播形成对照

▎ 一、论文进展

世界动作模型（WAM）：具身智能的下一个前沿——首篇系统综述

VLA 这两年几乎等同于具身智能，但它只回答"当前观测对应什么动作"，并不直接约束"执行动作后世界会变成什么样"，在复杂物理交互下短板明显。这篇综述把正在快速成形的 World Action Model 路线第一次画成了导航地图，回应的正是英伟达 Jim Fan 在红杉 AI Ascent 上提出的"与其预测下一个文本 token，不如让机器人预测下一个物理世界状态"。

复旦大学 / 上海创智学院 / 新加坡国立大学 · arXiv 2605.12090 · 解读：机器之心

WAM 的定义可用一组公式概括：VLA 是 p(a|o,l)，world model 是 p(o'|o,a)，而 WAM 在同一模型里联合生成未来状态与动作 p(o',a|o,l)。综述把现有工作分为 Cascaded WAM（先用视频/几何"想象"未来再解码动作，含显式生成与隐式 latent 两路）与 Joint WAM（端到端融合，分自回归与 diffusion 两路），并点出关键张力：像素级未来生成计算成本高、且"视觉上看起来合理"并不等于"物理控制上足够精确"，机器人需要的未必是给人看的未来，而是能直接指导行动的未来表示。

具身智能安全综述：从"说错话"到"干错事"

当大模型从屏幕里走出来、开始驱动机械臂与车辆，过去聊天机器人"越狱只生成有害文本"的风险，第一次会转化成现实世界里不可逆的危险动作。这是迄今最系统的具身安全梳理，70+ 页覆盖 480+ 篇研究，可作为进入该方向的参考地图。

复旦、香港城大、SMU、UIUC、中科院自动化所等 13 机构 38 位学者 · arXiv 2605.02900 · 解读：机器之心

综述把具身系统划成感知—认知—规划—行动与交互—Agentic 五层"能力圈"，提出"能力—风险"二象性：每增一层能力就新增一层攻击面。攻击会沿能力链跨层级联放大——感知层的对抗样本/传感器欺骗导致停止标志误判，认知层的思维链劫持引发语义误推，规划层的任务越狱让机器人闯入禁区，行动层的控制对抗可致机械臂撞人，Agentic 层的记忆投毒/工具滥用则可能跨任务污染、自进化对齐崩塌。核心主张是：安全应与能力同步设计，而非事后打补丁。

JOPAT：用点轨迹改进世界动作模型

世界动作模型若直接做像素级预测，会把环境动态与光照、纹理等无关因素纠缠在一起，学到的表征对任务无关的视觉变化很脆弱。这篇用显式的 2D point tracks 把"运动"单独拎出来建模，在遮挡或物体部分出画时仍能稳健捕捉长程动态。

Jiarui Guan et al. · arXiv 2605.23856

作者提出 JOPAT，一个联合像素与轨迹的 world-action model，在单个 denoising diffusion transformer 中同时预测 latent 视觉观测、带可见性标记的 2D point tracks 与动作。关键洞察是 tracks 提供了比单纯建模像素外观更有用的运动表征。在 LIBERO 与真实 LeRobot 任务上，JOPAT 优于纯像素基线，且模型规模越大增益越明显。

Direct Dynamic Retargeting：人形从视频模仿学习的单阶段重定向

从单目视频教人形机器人技能是可扩展的路径，但人到人形的形态差异是老大难。现有 Geometric/Indirect Dynamic Retargeting 依赖中间运动学投影，会引入几何偏置、压缩搜索空间、产出次优的动态行为。本文跳过中间投影，直接生成动力学可行轨迹。

Constant Roux et al. · arXiv 2605.23762

作者提出 Direct Dynamic Retargeting（DDR），一个单阶段框架，直接从专家视频生成高保真、动力学可行的轨迹。方法在任务空间中建模，用基于采样的 Model Predictive Control 求解器结合物理仿真求解，避开了几何重定向带来的搜索空间限制。

用真实世界视频学习粒子动力学模型

数据驱动的物理仿真（即一类 world model）因可微而被视为传统仿真器的有力替代，但既有方法大多在仿真里训练——因为真实世界难以拿到完整点云、逐帧点对应这类理想状态信息，sim-to-real gap 一大就失灵。本文正面解决"用真实视频训练物体动力学"的难题。

Chanho Kim et al. · arXiv 2605.23845

作者提出一个用真实世界视频训练神经物体动力学模型的新框架，摆脱对合成数据中完美状态信息的依赖，目标是在真实场景中预测刚体与非刚体在多体交互下的运动，从而缩小仿真到现实的差距。

SPACENUM：重新审视 VLM 的空间数值理解

VLM 越来越多被部署到具身环境，需要输出 action magnitude、空间坐标等数值；但这些数字看着有意义，是否真正 grounded 在空间感知上却没人说清。这篇提出统一评测框架，专门拆解"数值是否来自空间理解"。

Jianshu Zhang et al. · arXiv 2605.23898

SpaceNum 覆盖两类互补设定：作为空间探索中动态转移的数值，以及作为空间推理中静态布局的数值。作者设计 Num2Space 与 Space2Num 双向任务，系统检验 VLM 在视觉侧空间结构与语言侧数值表征之间的映射能力，从而判断当前模型的数值输出究竟是真懂空间还是凑出来的。

Good Token Hunting：视觉几何 Transformer 的 token 选择指南

visual geometry transformer 已是多视图 3D 重建的强力架构，但全局 attention 让计算量随序列长度二次增长，规模和效率都受限。这篇用一个简单通用的思路——限制每个 query 在全局 attention 中交互的 key/value token 数——来提效，已获社区一定关注（HF↑2）。

Shuhong Zheng et al. · arXiv 2605.23892

作者提出两阶段 token 选择框架：先做帧间选择，在帧级别识别应保留的关键帧；再做帧内选择，进一步丢弃更冗余的 token。该策略通用且即插即用，可在保持重建质量的同时削减全局 attention 的开销。

其他今日论文：Instrumentation for Imitation Learning（在物体里集成传感器，挂衣架插入任务上仅 180 条遥操作演示就比纯视觉策略高 14–25 个百分点）；Robotic Strawberry Harvesting（YOLO26-seg 改进感知 + Isaac Lab 内 PPO 训练，sim-to-real 部署到 UR10e 采摘）；SFG-ROS（面向密集多智能体感知的资源感知 ROS 2 框架，缓解网络饱和与命名冲突）；FM-CGM（用基础模型做零样本因果生成建模）。公众号侧另有会议论文值得关注：SOMA（ICML 2026，给 VLA 加空间记忆以操作视野之外物体）、HiF-VLA（CVPR 2026，王东林团队世界动作模型）、MindVLA-U1（港中文李鸿升团队，让语言真正进入自动驾驶决策）。

▎ 二、融资与交易

天机智能｜ B 轮 + B+ 轮｜约 10 亿元｜投后估值近百亿

高瓴创投、美团战投联合领投，腾讯、高榕创投、光合创投、纪源资本等跟投，高鹄资本任独家财务顾问。公司成立于 2015 年，聚焦机器人力控操作，自研 MEMS 关节扭矩传感器与一体化关节模组，是具身硬件的"手与关节"环节供应商。在多家头部"大脑"模型公司之外，资本同日把大笔筹码押向力控零部件，是产业链定价权下沉到执行端的明显信号。其"力控人形双臂出货量全球第一""全球首家自研 MEMS 关节扭矩传感器"为厂商口径。来源：科技资本圈、雷递、创投事件

蓝点触控｜ C++ 轮｜数亿元人民币

上汽金控、尚颀资本领投，中芯聚源、正大机器人、厚为资本跟投；此前已有红杉中国领投的 C 轮、宁德时代旗下溥泉资本与智元入局的 C+ 轮。公司成立于 2019 年，主攻机器人六维力传感器与力控技术，是国内力觉赛道头部。叠加同日天机智能的大额融资，力觉/力控这条"隐形冠军"赛道正集中获得产业资本加注。来源：小满书简 Pro、投资界、智友雅瑞

具脑磐石（华为"具身大脑一号位"创业）｜天使轮｜亿元级

由原华为云 AI 算法创新 Lab 主任朱森华创立，押注以类脑智能为底层范式的"认知世界模型"（Cognitive World Model），路线与 Yann LeCun 的 JEPA 同向，强调小样本抽象概念学习。36 氪/硬氪首发。当多数玩家在 VLA 与视频生成式世界模型上发力时，又一支团队明确走非生成式、对标 JEPA 的世界模型路线，显示具身基座的技术分叉仍在加深。来源：36 氪、量子位、硬氪

维泛智能｜种子轮｜数亿元

中关村资本及旗下启航投资联合领投，上海未来产业基金、石溪资本、佰维存储、燕创集团等跟投。由殷积磊创立，依托北大类脑芯片技术，自称国内首家原生机器人"大脑芯片"企业。一笔种子轮就达数亿元，说明专用具身计算芯片正被视作与基座模型并列的新卡位点。来源：36 氪、第一机器人、硬氪

光轮智能｜新一轮｜估值约 20 亿美元⚠️ 单方口径

定位全球具身数据基础设施（合成数据与数据闭环），服务机器人训练所需的大规模仿真/真实数据供给。在"数据是具身上限"渐成共识的当下，数据基础设施层估值快速抬升；该估值数字目前来自单一媒体口径，尚待更多印证。来源：甲子光年

Decart（以色列）｜ Series B ｜ 3 亿美元｜估值约 40 亿美元

Radical Ventures 领投，英伟达、Adobe Ventures、Toyota Ventures 等参投，OpenAI 联合创始人 Andrej Karpathy 等天使跟投。公司做低延迟 AI 基础设施，旗下 Oasis 是面向 Physical AI（机器人、自动驾驶）的实时世界模型、Lucy 面向沉浸式体验。海外世界模型基础设施同样被英伟达系资本重金押注，与国内具脑磐石等形成跨市场呼应。来源：Decart、SiliconANGLE、AI Insider

寅成智能｜天使轮｜千万美元

德同资本领投，某产业资本跟投。主攻分拣机器人与新一代通用具身大模型，资金用于 2026 年量产订单运营、模型研发与多场景商业化落地。物流分拣是具身落地中少数有清晰付费闭环的场景之一。来源：科技资本圈、投行前哨站

罗伯医疗｜ B+ 轮｜数千万元

水木创投领投，产业方博悦天诚跟投。公司为全球首个消化内镜手术机器人获批企业，本轮资金加速商业化。手术机器人作为高壁垒、强监管的垂直具身赛道，资本偏好有明确临床准入的标的。来源：投资界、投资家

▎ 三、产业动态

资本市场与 IPO

宇树科技定档 6 月 1 日科创板上会，拟募资 42.02 亿元

上交所披露宇树科技将于 6 月 1 日上市审核委员会审议，冲刺 A 股"人形机器人第一股"，并已通过现场检查。招股书显示 2025 年营收约 16.99 亿元、同比增约 332.64%，净利约 2.78 亿元，主营毛利率超 60%；四足机器人累计销量超 3 万台、全球市占率近 60%。但 2026 Q1 营收约 4.2 亿元、净利同比下降约 52%，高增长出现拐点。来源：上交所、三大报 A 股、机器人前瞻

云深处科技科创板 IPO 获受理，估值约 139 亿元

四足机器人厂商云深处科技 IPO 申请获上交所受理，被指全球四足机器人营收第二。继宇树之后，足式机器人公司排队登陆资本市场，赛道进入二级市场检验期。来源：虎嗅

人形整机与量产

逐际动力发布全尺寸交互人形 LimX Luna，指导价 29.8 万元

身高 160cm、全身 27 个自由度，搭载第二代 SYS0 运控引擎，支持多模态交互与无代码自然语言下任务，续航较上代提升约 150%、可有线供电 24 小时连续运行；指导价 29.8 万元、前 100 台到手价 25.8 万元，主打商场导购、剧本杀 NPC、游乐园互动等交互场景，并能看一段视频学跳舞。续航等参数为厂商口径。（市面"美团腾讯 10 亿押注"标题指向的是天机智能融资，与本次发布并非同一事件。）来源：机器人前瞻、IT 之家

智元发布 BFM-2 运控基座，成都基地首批 200 台下线

智元 5 月 23 日推出新一代二阶段 Motion-Between 运控基座模型 BFM-2，主打让机器人具备"肌肉记忆"、在任意状态下生成平滑稳定运动轨迹，自称"全球首个端到端 Motion-Between 运动基座模型"（厂商口径）。同期智元西南具身智能产业基地在成都郫都启用，与领益智造合资产线首批 200 台"成都造"人形（远征 A3/A2、灵犀 X2）下线。来源：智元、人形机器人联盟、人工智能新观察

众擎机器人深圳投产，宣称"15 分钟造一台人形"

众擎（ENGINEAI）在深圳启动量产运营，对外宣称产线可 15 分钟下线一台人形机器人。生产节拍是产能宣传的常见口径，实际良率与稳定产出仍需后续数据验证。来源：Gasgoo、盖世汽车

落地与演示

Figure 03 直播连续 200 小时仓储作业、处理约 25 万件包裹⚠️ 演示非量产指标

Figure AI 直播展示 Figure 03 人形机器人连续运行 200 小时、处理约 25 万件包裹且"无故障"。连续运行时长与件数是能力演示，距离规模化生产力仍有距离；国内评论亦提示人形高强度运转每 3–6 个月需保养、年维护成本通常占设备价 10%–20%，进厂经济性尚待验证。来源：Interesting Engineering、新浪财经、傅盛

标准与治理

全国首个人形机器人全生命周期管理平台上线，机器人有"身份证"

在工信部科技司指导下，由人形机器人与具身智能标准化技术委员会牵头，搭建覆盖"研发—生产—准入—销售—使用—维护—报废—回收"的全链条管理平台，给整机配唯一身份编码、实现全程可追溯，应对"七国八制"编码与事故责任难定问题。同日中国工业互联网研究院发布行业首批《人形机器人灵巧手通用技术要求》《人形机器人运动能力分级》标准。来源：人形大讲堂、苏州市家电协会、安徽工业互联网研究中心

自动驾驶

Waymo 因涉水故障扩大暂停至 5 座城市，坦言暂无根治方案

在一辆 Robotaxi 于亚特兰大暴雨中驶入积水路面并被困约一小时后，Waymo 把暂停范围扩大到亚特兰大、奥斯汀、达拉斯、休斯顿，加上此前已停的圣安东尼奥。两周前向全部约 3,791 辆车队推送的软件补丁未能解决——系统在 40 mph 道路上检测到积水时仅减速、无硬性停车条件，而积水深度估计同时撞上 LiDAR 镜面反射失真与雨中相机深度退化两大难题；公司承认尚无永久修复。来源：TechCrunch、Bloomberg、Business Insider

特斯拉 FSD 在华更名"特斯拉辅助驾驶"

为迎合国内对智能驾驶宣传口径的监管趋势，特斯拉将 FSD 在华更名为"特斯拉辅助驾驶"，淡化"完全自动驾驶"措辞。这与近期监管对辅助驾驶命名与责任边界的收紧一致。来源：新浪财经

基础设施与基座

英伟达在新加坡设 AI 实验室，瞄准具身智能

英伟达将在新加坡建设 AI 实验室，方向锁定具身智能，强化其在东南亚的研究与生态布局。同期普渡科技（Pudu）发布具身基座模型 PuduFM 1.0，服务机器人厂商加快自研基座步伐。来源：新浪财经、TipRanks

FutureX · 记录未来如何发生

素材来源多方媒体/网络新闻