FutureX· 记录未来如何发生
Physical AI 日报 · 第 8 期 · 2026.05.26
今日要点
· 资本扎堆机器人"手与关节":天机智能约 10 亿元 B+B+ 轮(高瓴、美团领投,估值近百亿)、蓝点触控数亿元 C++ 轮同日落地,力控零部件成融资新主线
· 宇树科技定档 6 月 1 日科创板上会、冲刺"人形第一股":2025 营收约 17 亿元、同比增超 330%,但 2026 Q1 净利同比腰斩约 52%
· 逐际动力发布全尺寸交互人形 LimX Luna,指导价 29.8 万元、主打商场导购等交互场景,人形整机定价继续下探
· 世界动作模型(WAM)升温:复旦等发布首篇 WAM 综述,沿英伟达 Jim Fan "先预测世界、再生成动作"路线系统梳理范式,同日多篇 WAM/world-model 新作上线
· Waymo 因涉水故障把暂停范围扩至 5 座城市、坦言补丁失效暂无根治,与 Figure 03 连续 200 小时仓储作业直播形成对照
▎ 一、论文进展
世界动作模型(WAM):具身智能的下一个前沿——首篇系统综述
VLA 这两年几乎等同于具身智能,但它只回答"当前观测对应什么动作",并不直接约束"执行动作后世界会变成什么样",在复杂物理交互下短板明显。这篇综述把正在快速成形的 World Action Model 路线第一次画成了导航地图,回应的正是英伟达 Jim Fan 在红杉 AI Ascent 上提出的"与其预测下一个文本 token,不如让机器人预测下一个物理世界状态"。
复旦大学 / 上海创智学院 / 新加坡国立大学 · arXiv 2605.12090 · 解读:机器之心
WAM 的定义可用一组公式概括:VLA 是 p(a|o,l),world model 是 p(o'|o,a),而 WAM 在同一模型里联合生成未来状态与动作 p(o',a|o,l)。综述把现有工作分为 Cascaded WAM(先用视频/几何"想象"未来再解码动作,含显式生成与隐式 latent 两路)与 Joint WAM(端到端融合,分自回归与 diffusion 两路),并点出关键张力:像素级未来生成计算成本高、且"视觉上看起来合理"并不等于"物理控制上足够精确",机器人需要的未必是给人看的未来,而是能直接指导行动的未来表示。
具身智能安全综述:从"说错话"到"干错事"
当大模型从屏幕里走出来、开始驱动机械臂与车辆,过去聊天机器人"越狱只生成有害文本"的风险,第一次会转化成现实世界里不可逆的危险动作。这是迄今最系统的具身安全梳理,70+ 页覆盖 480+ 篇研究,可作为进入该方向的参考地图。
复旦、香港城大、SMU、UIUC、中科院自动化所等 13 机构 38 位学者 · arXiv 2605.02900 · 解读:机器之心
综述把具身系统划成感知—认知—规划—行动与交互—Agentic 五层"能力圈",提出"能力—风险"二象性:每增一层能力就新增一层攻击面。攻击会沿能力链跨层级联放大——感知层的对抗样本/传感器欺骗导致停止标志误判,认知层的思维链劫持引发语义误推,规划层的任务越狱让机器人闯入禁区,行动层的控制对抗可致机械臂撞人,Agentic 层的记忆投毒/工具滥用则可能跨任务污染、自进化对齐崩塌。核心主张是:安全应与能力同步设计,而非事后打补丁。
JOPAT:用点轨迹改进世界动作模型
世界动作模型若直接做像素级预测,会把环境动态与光照、纹理等无关因素纠缠在一起,学到的表征对任务无关的视觉变化很脆弱。这篇用显式的 2D point tracks 把"运动"单独拎出来建模,在遮挡或物体部分出画时仍能稳健捕捉长程动态。
Jiarui Guan et al. · arXiv 2605.23856
作者提出 JOPAT,一个联合像素与轨迹的 world-action model,在单个 denoising diffusion transformer 中同时预测 latent 视觉观测、带可见性标记的 2D point tracks 与动作。关键洞察是 tracks 提供了比单纯建模像素外观更有用的运动表征。在 LIBERO 与真实 LeRobot 任务上,JOPAT 优于纯像素基线,且模型规模越大增益越明显。
Direct Dynamic Retargeting:人形从视频模仿学习的单阶段重定向
从单目视频教人形机器人技能是可扩展的路径,但人到人形的形态差异是老大难。现有 Geometric/Indirect Dynamic Retargeting 依赖中间运动学投影,会引入几何偏置、压缩搜索空间、产出次优的动态行为。本文跳过中间投影,直接生成动力学可行轨迹。
Constant Roux et al. · arXiv 2605.23762
作者提出 Direct Dynamic Retargeting(DDR),一个单阶段框架,直接从专家视频生成高保真、动力学可行的轨迹。方法在任务空间中建模,用基于采样的 Model Predictive Control 求解器结合物理仿真求解,避开了几何重定向带来的搜索空间限制。
用真实世界视频学习粒子动力学模型
数据驱动的物理仿真(即一类 world model)因可微而被视为传统仿真器的有力替代,但既有方法大多在仿真里训练——因为真实世界难以拿到完整点云、逐帧点对应这类理想状态信息,sim-to-real gap 一大就失灵。本文正面解决"用真实视频训练物体动力学"的难题。
Chanho Kim et al. · arXiv 2605.23845
作者提出一个用真实世界视频训练神经物体动力学模型的新框架,摆脱对合成数据中完美状态信息的依赖,目标是在真实场景中预测刚体与非刚体在多体交互下的运动,从而缩小仿真到现实的差距。
SPACENUM:重新审视 VLM 的空间数值理解
VLM 越来越多被部署到具身环境,需要输出 action magnitude、空间坐标等数值;但这些数字看着有意义,是否真正 grounded 在空间感知上却没人说清。这篇提出统一评测框架,专门拆解"数值是否来自空间理解"。
Jianshu Zhang et al. · arXiv 2605.23898
SpaceNum 覆盖两类互补设定:作为空间探索中动态转移的数值,以及作为空间推理中静态布局的数值。作者设计 Num2Space 与 Space2Num 双向任务,系统检验 VLM 在视觉侧空间结构与语言侧数值表征之间的映射能力,从而判断当前模型的数值输出究竟是真懂空间还是凑出来的。
Good Token Hunting:视觉几何 Transformer 的 token 选择指南
visual geometry transformer 已是多视图 3D 重建的强力架构,但全局 attention 让计算量随序列长度二次增长,规模和效率都受限。这篇用一个简单通用的思路——限制每个 query 在全局 attention 中交互的 key/value token 数——来提效,已获社区一定关注(HF↑2)。
Shuhong Zheng et al. · arXiv 2605.23892
作者提出两阶段 token 选择框架:先做帧间选择,在帧级别识别应保留的关键帧;再做帧内选择,进一步丢弃更冗余的 token。该策略通用且即插即用,可在保持重建质量的同时削减全局 attention 的开销。
其他今日论文:Instrumentation for Imitation Learning(在物体里集成传感器,挂衣架插入任务上仅 180 条遥操作演示就比纯视觉策略高 14–25 个百分点);Robotic Strawberry Harvesting(YOLO26-seg 改进感知 + Isaac Lab 内 PPO 训练,sim-to-real 部署到 UR10e 采摘);SFG-ROS(面向密集多智能体感知的资源感知 ROS 2 框架,缓解网络饱和与命名冲突);FM-CGM(用基础模型做零样本因果生成建模)。公众号侧另有会议论文值得关注:SOMA(ICML 2026,给 VLA 加空间记忆以操作视野之外物体)、HiF-VLA(CVPR 2026,王东林团队世界动作模型)、MindVLA-U1(港中文李鸿升团队,让语言真正进入自动驾驶决策)。
▎ 二、融资与交易
天机智能 | B 轮 + B+ 轮 | 约 10 亿元 | 投后估值近百亿
高瓴创投、美团战投联合领投,腾讯、高榕创投、光合创投、纪源资本等跟投,高鹄资本任独家财务顾问。公司成立于 2015 年,聚焦机器人力控操作,自研 MEMS 关节扭矩传感器与一体化关节模组,是具身硬件的"手与关节"环节供应商。在多家头部"大脑"模型公司之外,资本同日把大笔筹码押向力控零部件,是产业链定价权下沉到执行端的明显信号。其"力控人形双臂出货量全球第一""全球首家自研 MEMS 关节扭矩传感器"为厂商口径。来源:科技资本圈、雷递、创投事件
蓝点触控 | C++ 轮 | 数亿元人民币
上汽金控、尚颀资本领投,中芯聚源、正大机器人、厚为资本跟投;此前已有红杉中国领投的 C 轮、宁德时代旗下溥泉资本与智元入局的 C+ 轮。公司成立于 2019 年,主攻机器人六维力传感器与力控技术,是国内力觉赛道头部。叠加同日天机智能的大额融资,力觉/力控这条"隐形冠军"赛道正集中获得产业资本加注。来源:小满书简 Pro、投资界、智友雅瑞
具脑磐石(华为"具身大脑一号位"创业)| 天使轮 | 亿元级
由原华为云 AI 算法创新 Lab 主任朱森华创立,押注以类脑智能为底层范式的"认知世界模型"(Cognitive World Model),路线与 Yann LeCun 的 JEPA 同向,强调小样本抽象概念学习。36 氪/硬氪首发。当多数玩家在 VLA 与视频生成式世界模型上发力时,又一支团队明确走非生成式、对标 JEPA 的世界模型路线,显示具身基座的技术分叉仍在加深。来源:36 氪、量子位、硬氪
维泛智能 | 种子轮 | 数亿元
中关村资本及旗下启航投资联合领投,上海未来产业基金、石溪资本、佰维存储、燕创集团等跟投。由殷积磊创立,依托北大类脑芯片技术,自称国内首家原生机器人"大脑芯片"企业。一笔种子轮就达数亿元,说明专用具身计算芯片正被视作与基座模型并列的新卡位点。来源:36 氪、第一机器人、硬氪
光轮智能 | 新一轮 | 估值约 20 亿美元⚠️ 单方口径
定位全球具身数据基础设施(合成数据与数据闭环),服务机器人训练所需的大规模仿真/真实数据供给。在"数据是具身上限"渐成共识的当下,数据基础设施层估值快速抬升;该估值数字目前来自单一媒体口径,尚待更多印证。来源:甲子光年
Decart(以色列)| Series B | 3 亿美元 | 估值约 40 亿美元
Radical Ventures 领投,英伟达、Adobe Ventures、Toyota Ventures 等参投,OpenAI 联合创始人 Andrej Karpathy 等天使跟投。公司做低延迟 AI 基础设施,旗下 Oasis 是面向 Physical AI(机器人、自动驾驶)的实时世界模型、Lucy 面向沉浸式体验。海外世界模型基础设施同样被英伟达系资本重金押注,与国内具脑磐石等形成跨市场呼应。来源:Decart、SiliconANGLE、AI Insider
寅成智能 | 天使轮 | 千万美元
德同资本领投,某产业资本跟投。主攻分拣机器人与新一代通用具身大模型,资金用于 2026 年量产订单运营、模型研发与多场景商业化落地。物流分拣是具身落地中少数有清晰付费闭环的场景之一。来源:科技资本圈、投行前哨站
罗伯医疗 | B+ 轮 | 数千万元
水木创投领投,产业方博悦天诚跟投。公司为全球首个消化内镜手术机器人获批企业,本轮资金加速商业化。手术机器人作为高壁垒、强监管的垂直具身赛道,资本偏好有明确临床准入的标的。来源:投资界、投资家
▎ 三、产业动态
资本市场与 IPO
宇树科技定档 6 月 1 日科创板上会,拟募资 42.02 亿元
上交所披露宇树科技将于 6 月 1 日上市审核委员会审议,冲刺 A 股"人形机器人第一股",并已通过现场检查。招股书显示 2025 年营收约 16.99 亿元、同比增约 332.64%,净利约 2.78 亿元,主营毛利率超 60%;四足机器人累计销量超 3 万台、全球市占率近 60%。但 2026 Q1 营收约 4.2 亿元、净利同比下降约 52%,高增长出现拐点。来源:上交所、三大报 A 股、机器人前瞻
云深处科技科创板 IPO 获受理,估值约 139 亿元
四足机器人厂商云深处科技 IPO 申请获上交所受理,被指全球四足机器人营收第二。继宇树之后,足式机器人公司排队登陆资本市场,赛道进入二级市场检验期。来源:虎嗅
人形整机与量产
逐际动力发布全尺寸交互人形 LimX Luna,指导价 29.8 万元
身高 160cm、全身 27 个自由度,搭载第二代 SYS0 运控引擎,支持多模态交互与无代码自然语言下任务,续航较上代提升约 150%、可有线供电 24 小时连续运行;指导价 29.8 万元、前 100 台到手价 25.8 万元,主打商场导购、剧本杀 NPC、游乐园互动等交互场景,并能看一段视频学跳舞。续航等参数为厂商口径。(市面"美团腾讯 10 亿押注"标题指向的是天机智能融资,与本次发布并非同一事件。)来源:机器人前瞻、IT 之家
智元发布 BFM-2 运控基座,成都基地首批 200 台下线
智元 5 月 23 日推出新一代二阶段 Motion-Between 运控基座模型 BFM-2,主打让机器人具备"肌肉记忆"、在任意状态下生成平滑稳定运动轨迹,自称"全球首个端到端 Motion-Between 运动基座模型"(厂商口径)。同期智元西南具身智能产业基地在成都郫都启用,与领益智造合资产线首批 200 台"成都造"人形(远征 A3/A2、灵犀 X2)下线。来源:智元、人形机器人联盟、人工智能新观察
众擎机器人深圳投产,宣称"15 分钟造一台人形"
众擎(ENGINEAI)在深圳启动量产运营,对外宣称产线可 15 分钟下线一台人形机器人。生产节拍是产能宣传的常见口径,实际良率与稳定产出仍需后续数据验证。来源:Gasgoo、盖世汽车
落地与演示
Figure 03 直播连续 200 小时仓储作业、处理约 25 万件包裹⚠️ 演示非量产指标
Figure AI 直播展示 Figure 03 人形机器人连续运行 200 小时、处理约 25 万件包裹且"无故障"。连续运行时长与件数是能力演示,距离规模化生产力仍有距离;国内评论亦提示人形高强度运转每 3–6 个月需保养、年维护成本通常占设备价 10%–20%,进厂经济性尚待验证。来源:Interesting Engineering、新浪财经、傅盛
标准与治理
全国首个人形机器人全生命周期管理平台上线,机器人有"身份证"
在工信部科技司指导下,由人形机器人与具身智能标准化技术委员会牵头,搭建覆盖"研发—生产—准入—销售—使用—维护—报废—回收"的全链条管理平台,给整机配唯一身份编码、实现全程可追溯,应对"七国八制"编码与事故责任难定问题。同日中国工业互联网研究院发布行业首批《人形机器人 灵巧手通用技术要求》《人形机器人 运动能力分级》标准。来源:人形大讲堂、苏州市家电协会、安徽工业互联网研究中心
自动驾驶
Waymo 因涉水故障扩大暂停至 5 座城市,坦言暂无根治方案
在一辆 Robotaxi 于亚特兰大暴雨中驶入积水路面并被困约一小时后,Waymo 把暂停范围扩大到亚特兰大、奥斯汀、达拉斯、休斯顿,加上此前已停的圣安东尼奥。两周前向全部约 3,791 辆车队推送的软件补丁未能解决——系统在 40 mph 道路上检测到积水时仅减速、无硬性停车条件,而积水深度估计同时撞上 LiDAR 镜面反射失真与雨中相机深度退化两大难题;公司承认尚无永久修复。来源:TechCrunch、Bloomberg、Business Insider
特斯拉 FSD 在华更名"特斯拉辅助驾驶"
为迎合国内对智能驾驶宣传口径的监管趋势,特斯拉将 FSD 在华更名为"特斯拉辅助驾驶",淡化"完全自动驾驶"措辞。这与近期监管对辅助驾驶命名与责任边界的收紧一致。来源:新浪财经
基础设施与基座
英伟达在新加坡设 AI 实验室,瞄准具身智能
英伟达将在新加坡建设 AI 实验室,方向锁定具身智能,强化其在东南亚的研究与生态布局。同期普渡科技(Pudu)发布具身基座模型 PuduFM 1.0,服务机器人厂商加快自研基座步伐。来源:新浪财经、TipRanks
FutureX · 记录未来如何发生
素材来源多方媒体/网络新闻
夜雨聆风