FutureX· 记录未来如何发生
Physical AI 日报 · 第 21 期 · 2026.06.08
今日要点
· 优必选消费级品牌「优世界」全尺寸超仿生人形机器人开启 C 端预售,6 天累计订单 2110 台(厂商口径),主打情感陪伴、定金 3000 元、6 月 30 日发布——人形机器人从企业级首次正面试探消费级。
· 中国具身智能"建制化"信号集中落地:教育部 2026 年新增"具身智能"本科专业,《人形机器人与具身智能标准体系(2026 版)》发布,华为云 INSPIRE 大会推出"具身智能专区"与 CloudRobo 全流程开发平台。
· 智元一周内连落两子:主办的 AGIBOT WORLD CHALLENGE@ICRA 2026 收官(27 国 526 队、中国团队包揽冠军),并将于 6 月 13 日在上海开出与京东联营的线下首店。
· 论文侧 world-model 范式继续收敛:OpenMOSS 发布首份 WAM(World Action Models)系统综述给出统一形式化定义;清华×生数开源 minWM 把离线视频基础模型蒸馏成实时交互世界模型,推理提速逾 200 倍。
▎ 一、论文进展
World Action Models:把"世界模型+动作生成"统成一个范式的首份系统综述· world-model
过去一年"世界模型接动作"的工作散落各处、命名混乱,这篇综述第一次把它们收进一个叫 WAM 的统一框架,并用一行形式化定义把 WAM 与 VLA 划清界限——对正在押注这条路线的团队,它提供了第一张可对照的"研究地图"。
OpenMOSS 团队 · arXiv 2605.12090 https://arxiv.org/abs/2605.12090 · 代码 github.com/OpenMOSS/Awesome-WAM · 解读:人工智能论文收割机原文
综述给出 WAM 的核心定义:建模未来观测与动作的联合分布 p(o′,a∣o,l),而非传统 VLA 只预测动作的 p(a∣o,l),优化目标为最大化联合对数似然。沿生成策略把现有方法分为 Cascaded(级联式)与 Joint(联合式)两大主干,再按生成模态、条件注入方式、动作解码策略细分。数据侧梳理出四类来源协同——机器人遥操作与便携人类示范提供精确动作监督、仿真补长尾、互联网级第一人称视频提供海量人类行为先验;评估侧归纳为视觉保真度、物理常识、动作合理性三个维度。综述同时指出当前领域尚无统一范式:扩散类方法视觉保真度高但推理慢,自回归类更快但质量略逊,架构-数据-评估三层均存在显著取舍。
minWM:把离线视频大模型蒸馏成实时可交互世界模型的全栈开源框架· world-model
视频基础模型"能生成但不能交互"是世界模型落地的硬瓶颈——Wan2.1 生成一段要近 5 分钟,根本谈不上实时控制。minWM 用一套蒸馏流水线把这类离线模型压到亚秒级,并补上此前难以可靠实现的相机控制,且全栈开源,对想自建世界模型训练环路的团队是现成底座。
清华大学 × 生数科技 · arXiv 2605.30263 https://arxiv.org/abs/2605.30263 · 代码 github.com/shengshu-ai/minWM · 解读:AI paper实验室原文
方法主线是把双向 T2V/TI2V 视频基础模型(如 Wan2.1、HY1.5)通过 Causal Forcing / Causal Forcing++ 三阶段流水线(AR 扩散训练、因果 ODE 初始化或因果一致性蒸馏、非对称 DMD)转成少步自回归世界模型,在保持视觉质量的同时实现 223 倍以上推理加速——Wan2.1 从 269 秒降至 1.137 秒。此外引入 PRoPE(Projective RoPE)把相机参数编码为注意力中的相对投影变换,配合按指定相机轨迹构造的可控数据,使模型获得此前直接在估计位姿上训练难以实现的可靠相机控制能力。
DexJoCo:面向任务的灵巧操作统一基准与工具包· benchmark
灵巧手的价值不在"抓得像人",而在能否完成接触丰富、有功能目的的精细操作——但此前缺一个把工具使用、双手协调、长程执行统一起来评测的基准。DexJoCo 把这些任务和现代 VLA 评测、低成本数据采集打包进一个 MuJoCo 工具链,给灵巧操作研究补上一份"高难度考卷"。
中科院自动化所(NLPR & MAIS)等 · 项目页 dexjoco.github.io · 解读:机器之心原文
DexJoCo 围绕 Franka Panda 机械臂与 Allegro Hand 构建 11 项功能性任务,覆盖工具使用、推理、双手协调与长时程执行;配套提供低成本动作捕捉数据采集系统、约 1.1K 条人类示范轨迹、基于回放的域随机化,并支持对现代模仿学习与 VLA 策略的评测。示例任务如拿起水壶并按压把手浇花、双手持相机对准目标拍照,强调对"接触关系"与功能性操作的考察。
MIDAS Hand:约 3 小时、3000 美元"手搓"的原生触觉直驱灵巧手· manipulation
触觉灵巧手研究长期被高成本、难复现的硬件挡在门外。UCLA 这套把材料、成本、自由度都压到亲民区间的开源方案,让更多实验室能拿到一只"原生带触觉"的真手做研究,是降低灵巧操作准入门槛的工程贡献。
UCLA · 开源套件 · 解读:机器人大讲堂原文
MIDAS Hand 采用四指拟人化结构,共 16 个自由度(13 个主动 + 3 个被动),整手尺寸 205×120×55 毫米、重约 700 克,接近真实人手;采用直驱设计、原生集成触觉,单套材料成本约 3000 美元、约 3 小时即可组装,并以开源套件形式发布。
EvoPhys-World:北大提出统一状态-动作的"世界引擎+世界策略"双模式架构· world-model
多数世界模型把"预测画面"和"产生动作"分开处理,EvoPhys-World 尝试用统一的状态-动作表征把"想象环境"和"在其中行动"螺旋耦合起来,指向一个更接近闭环的家庭场景具身系统设计。
北京大学 · 解读:AI洞见静观原文
该工作以 Latent Memory Pool、Unified State-Action Token,以及 World Engine 与 World Policy 构成的双模式螺旋结构为核心,被媒体称为"5D 世界模型"(此提法为媒体口径)。设计目标是让模型在同一表征下既能预测环境演化、又能生成动作策略,面向机器人进入真实家庭场景的规划需求。
其他今日论文:AffordanceVLA——用"可供性(affordance)"作为中间表征弥合 VLA 的语义理解与低级控制之间的鸿沟(解读原文);长时程具身智能安全综述——对机器人操作做跨层(感知—规划—控制)安全分析(解读原文);世界模型 + VLA 融合综述——厘清显式与隐式两类世界建模路线的取舍(解读原文)。
▎ 二、融资与交易
帕西尼感知(Paxini)| 新一轮 | 超 10 亿元· embodied⚠️ 单方口径
触觉传感与人形机器人公司帕西尼据披露完成超 10 亿元融资、估值升破百亿,并正筹备港股 IPO。公司以多维触觉传感器切入具身操作感知层,估值与 IPO 进度暂为单一来源口径。来源:全部在等原文
简智机器人 | 连续多轮 | 数亿元· adjacent
简智机器人完成连续多轮共数亿元融资,由蚂蚁集团、滴滴、德联资本联合领投,顺为资本、百度风投(BV)等老股东跟投,被称为具身智能"无本体数据"领域最大规模融资。其定位不做本体、专攻具身数据采集与供给,对应"百度、蚂蚁、滴滴抢数据而非抢整机"的产业分工信号。来源:SZVCA创投社原文
鹿明机器人 | A1 + A2 轮 | 累计近 10 亿元· industrial
清华系团队鹿明机器人连续完成 A1、A2 两轮融资,其中 A1 轮由三菱电机智能制造科技(中国)领投,老股东普华资本、吴中金控等跟投,累计融资已近 10 亿元。外资工业自动化巨头领投,凸显具身产线落地对传统制造方资源的吸引。来源:商领阅读原文
星源智机器人 | 第三轮 | 三轮累计 10 亿元· world-model
由智源研究院孵化的具身大脑公司星源智,成立不到一年内完成第三轮融资、三轮累计融获 10 亿元,本轮投资方包括松禾资本、创东方、华控基金及中车资本、北工投资等。公司聚焦机器人"大脑"侧的具身基座,是机构密集加注大模型-机器人结合点的又一案例。来源:高工人形机器人原文
▎ 三、产业动态
优必选「优世界」全尺寸超仿生人形机器人开启 C 端预售· humanoid
优必选消费级品牌"优世界"推出全尺寸超仿生人形机器人,分男款(身高 183cm、约 42kg)、女款(身高 168cm、约 35kg)两版,配备 88 个自由度、续航 2–4 小时,定位"情感陪伴"、不开放二次开发,定金 3000 元,计划 6 月 30 日正式发布。据厂商及多家财经媒体披露,自 6 月 2 日开启预售后 6 天累计订单达 2110 台,首批最晚 9 月 15 日发货。这是人形机器人从企业级(B 端)向消费级(C 端)的一次正面试探,"贩卖陪伴"的产品定义也引出可控亲密关系是否成立的讨论。需注意:预订量为下定订单口径,非实际交付。来源:具焦/X工业/东方财富原文
华为云 INSPIRE 大会推"具身智能专区"与 CloudRobo 开发平台· world-model⚠️ 厂商口径
在 2026 华为云 INSPIRE 创想者大会上,华为云发布"行业 AI 梦工厂·具身智能专区",并宣布全流程具身智能开发平台 CloudRobo 将在月内开启公测("全球首个全流程"为厂商口径)。其意义在于以平台与工具链形式降低中小机器人企业的研发门槛,是继英伟达之后又一家云厂商把"具身开发基础设施"作为切入点——与同期密集出现的具身基座、仿真平台一道,指向产业从"造本体"向"供工具"分层。来源:幻影猎金原文
智元机器人 6 月 13 日上海开出与京东联营线下首店· embodied
智元机器人将于 6 月 13 日在上海开出与京东联手打造的线下首店,门店总投入约 500 万元、其中展示机器人设备价值 260 万元,主打沉浸式体验、全品类展示与实景化应用,并尝试"机器人自主运营/导购"。京东科技为智元 B 轮股东,此店是双方从线上商城向线下零售场景延伸的实体落地。来源:机器人硬核局原文
AGIBOT WORLD CHALLENGE@ICRA 2026 收官,中国团队包揽赛道冠军· world-model
智元主办的 AGIBOT WORLD CHALLENGE 随 ICRA 2026 在维也纳收官,吸引全球 27 个国家及地区、526 支战队参赛,采用线上自动化测评 + 线下真机决赛赛制,设 World Model(世界模型)、Reasoning to Action(推理-操作)等赛道。World Model 赛道由中科院自动化所联合高德 CV Lab 的 NeoVerse-ABot 团队夺冠,中科院工业人工智能研究院、中科大团队分列亚季军;R2A 赛道由 vivo 的 PrismBot 夺冠。中国企业借主办赛事、以真机对决推动评测标准,"标准制定权"成为本轮叙事重点。来源:具身湃原文
政策与建制三连:本科专业、标准体系、数据工程同步落地· adjacent
教育部在《普通高等学校本科专业目录(2026 年)》中新增"具身智能"本科专业,机器人产业的人才战进入学历教育层;《人形机器人与具身智能标准体系(2026 版)》发布,被称为国内首个覆盖人形机器人与具身智能全产业链、全生命周期的标准顶层设计(6 大板块);国家数据局则强调以完善的数据工程驱动具身智能发展,呼应视觉/触觉/音频多模态高质量训练数据这一产业瓶颈。三者叠加,显示中国正把具身智能从单点产品推进到人才、标准、数据的体系化布局。来源:具身落地侦察兵/Alimomo/广东安信数通原文
文远知行联手 Uber,Robotaxi 落地马德里、拿下欧洲首城· autonomy
文远知行(WeRide)与 Uber 在马德里推出 Robotaxi 服务,被称为欧洲首个商业化自动驾驶出行落地。文远以 WeRide One 平台覆盖 L2 到 L4 的统一软件栈,同时面向 Robotaxi、物流配送与城市环卫多场景,欧洲是其继中东等市场后的又一海外扩张支点。来源:平行智能原文
Waymo 与极氪发布无方向盘 Robotaxi· autonomy⚠️ 单方口径
Waymo 与极氪(Zeekr)发布面向 AI 时代、取消方向盘的 Robotaxi 车型,进一步把车端硬件按无人驾驶需求重构。量产时间、部署规模等细节暂以单一报道口径呈现。来源:조선일보 https://www.chosun.com/english/industry-en/2026/06/07/5V7SNM6B2FAYLDHYOKBVIYIKHE/
香港红磡将亮相全自主人形机器人 24 小时便利店· embodied
香港红磡即将出现由人形机器人运营的 24 小时全自主便利店,"机器人店长"将亮相海滨,财政司司长陈茂波借此推动 AI 普惠。这是人形机器人在零售服务场景的又一公开试点,可视作"展示品迈向生产力"叙事下的实地样本。来源:Sina finance/Dimsum Daily https://finance.sina.com.cn/wm/2026-06-07/doc-iniaqtnk9516892.shtml
FutureX · 记录未来如何发生
素材来源多方媒体/网络新闻
夜雨聆风