FutureX· 记录未来如何发生
Physical AI 日报 · 第 17 期 · 2026.06.04
今日要点
· NVIDIA 在 GTC Taipei 开源全模态世界模型 Cosmos 3后,同日跨维智能 DSCFuncWorld 登顶 WorldArena 数据引擎赛道,智元此前已拿下该榜总分冠军。
· 具身融资井喷:星尘智能 B 轮系列超 10 亿元、估值破百亿,三个月连融三轮;千寻智能 A+ 轮 15 亿元,三个月累计近 50 亿元,并称在 RoboArena 评测夺冠。
· 比亚迪确认正研发人形机器人;ICRA 2026 维也纳现场中国厂商密集,它石智航 DexHand 灵巧手以"手脑一体"全球首秀。
· 论文侧,NVIDIA Cosmos 3、OmniDreams 与十亿帧动作语料训练的 Humanoid-GPT(HF↑28)把世界模型与人形全身控制推上当日热度峰值。
▎ 一、论文进展
Cosmos 3:面向物理 AI 的全模态世界模型· world-model
这是 NVIDIA 押注物理 AI 基座的一次正面出牌:把视觉语言模型、视频生成、世界模拟器、世界-动作模型塞进同一个混合专家 Transformer,并选择完全开源,等于直接给机器人和自动驾驶团队递了一套可自托管的数据合成与策略底座。
NVIDIA · arXiv 2606.02800 https://arxiv.org/abs/2606.02800 · 解读:量子位原文
Cosmos 3 是一族 omnimodal 世界模型,在统一的 mixture-of-transformers 架构内联合处理与生成语言、图像、视频、音频和动作序列,通过灵活的输入输出组合把上述几类模型收敛为单一框架。官方放出 Nano(16B,稠密 8B 主干,面向工作站)与 Super(64B,稠密 32B 主干,面向数据中心)两个尺寸,均已上线 Hugging Face。团队称其后训练版本被 Artificial Analysis 评为最佳开源 Text-to-Image 与 Image-to-Video 模型,并在撰写报告时被 RoboArena 列为最佳策略模型——这些是发布方与第三方榜单的口径,实际泛化仍需独立复现。
Humanoid-GPT:用十亿帧语料做零样本全身运动追踪· locomotion
人形全身控制长期卡在数据稀缺与"敏捷性—泛化"的二选一上,这篇当日 HF 热度最高(↑28)的工作把 LLM 的 scaling 思路搬到运动追踪:先把数据和模型一起放大,再看零样本能力是否随之涌现。
Zekun Qi et al. · arXiv 2606.03985 https://arxiv.org/abs/2606.03985
作者提出 Humanoid-GPT,一个带因果注意力的 GPT 式 Transformer,在约 20 亿帧(2B-frame)的重定向运动语料上预训练用于全身控制,该语料统一了主流公开 mocap 数据集与大规模自采记录。相比受限于小数据的浅层 MLP 追踪器,单一生成式 Transformer 在追踪高动态行为的同时,对未见动作与控制任务展现出零样本泛化。文中的 scaling 分析显示模型确立了新的性能前沿。摘要未给出真机部署的稳定性数据,量产价值还需后续验证。
NVIDIA OmniDreams:实时生成式世界模型用于自动驾驶闭环仿真· world-model
重建式神经仿真器受困于初始采集数据、难以泛化到长尾与新场景,OmniDreams 改走生成路线,让仿真器随驾驶策略的动作实时演化观测,正面解决闭环评测的瓶颈。
NVIDIA · arXiv 2606.03159 https://arxiv.org/abs/2606.03159 · HF↑6
OmniDreams 是从 Cosmos 扩散模型中训练(mid- 与 post-train)而来的基础生成世界模型,能以动作为条件、自回归地实时生成传感器视频。初步结果显示,基于 OmniDreams 后训练的世界-动作模型(WAM)在 Physical AI Autonomous Vehicles NuRec 数据集上表现强劲,宣称在仅用 1/5 总参数量的情况下超过基于 VLA 的 Alpamayo 1.5 研究策略模型;该对比为论文自报口径。
World Models Meet Language Models:具体推演与抽象推理的互补· world-model
世界模型能"想象"出具体的视觉未来,MLLM 擅长对目标与规则做抽象推理,但生成的 rollout 往往看着合理、任务上却是错的。这篇 HF↑16 的工作把问题收敛成一个清晰命题:何时该调用视觉模拟、如何核验、又如何把它融进最终答案。
Yucheng Zhou et al. · arXiv 2606.03603 https://arxiv.org/abs/2606.03603
作者将其形式化为"受控的具体推理",让模型学会按需调用、验证并整合对未来的视觉模拟,而非盲目相信单次 rollout。为研究该设置,团队构建了两个经人工校验的基准(含面向可控空间推理的 VRQABench),用于衡量模型在视觉模拟可信度判断与抽象推理之间的取舍能力。
ConTrack:把物体追踪当约束的灵巧操作 RL· manipulation
长程、富接触的灵巧操作即便在仿真里也难追踪,现有方法多依赖逐序列手调奖励、交互预算一紧就崩。ConTrack 的取巧之处是把"物体保持在目标轨迹上"设为硬约束,把剩余的控制余量留给动作保真度。
Yutong Liang et al.(Xiaolong Wang 团队)· arXiv 2606.03177 https://arxiv.org/abs/2606.03177
ConTrack 是一个随追踪数据规模化的强化学习框架,将物体追踪视为约束、把剩余控制权分配给运动保真度,并以对偶变量在线更新自适应地权衡"任务完成"与"动作风格"。这样既保住目标轨迹,又能保留示范中的关节运动与接触时序,免去了逐序列的奖励调参。
GeoAlign:用状态引导的空间对齐补 VLA 的几何短板· vla
当前 VLA 多在优化语义 grounding,但可执行的操作真正需要的是几何感知的空间对齐与动态 affordance 选择。GeoAlign 把这块短板单独拎出来后训练,几个真机与仿真基准上的数字相当亮眼。
Yizhi Chen et al. · arXiv 2606.03240 https://arxiv.org/abs/2606.03240
GeoAlign 用机器人域的 RGB-D 监督后训练一个 RGB 几何分支,得到可在策略 rollout 时使用的 RGB 衍生几何增强特征(GEP);机器人本体感受状态查询该几何特征网格,产出紧凑、随阶段变化的几何 token 用于动作预测。报告成绩为 LIBERO 99.0%、三项 SimplerEnv-Fractal 任务 85.3%、八项几何关键的真机 ALOHA 任务 78.8%,消融验证了几何后训练的贡献。
TRAP:用对抗补丁劫持 VLA 的思维链· vla
CoT 推理被认为能提升 VLA 的泛化与可解释性,但它的安全性几乎无人审视。这篇工作给出一个令人不安的演示:无需改动用户指令,仅靠一块对抗补丁就能让机器人把刀而非苹果递给人。
Zhengxian Huang et al.(浙江大学)· arXiv 2603.23117 https://arxiv.org/abs/2603.23117
作者先给出经验证据,表明 CoT 即使与输入指令语义不一致也会强烈支配动作生成;据此提出 TRAP,首个针对 CoT-VLA 的定向行为劫持对抗攻击。它揭示了 CoT 推理引入的一类新攻击面:通过操纵中间推理使机器人执行攻击者指定的目标动作,对真机部署的安全评估提出了直接挑战。
RobotValues:当人类价值冲突时如何评估家庭机器人· benchmark
家庭机器人常被按任务完成度打分,但真实家居场景里充满价值冲突——该优先任务成功,还是人的自主性、效率或社会得体?此前没有基准衡量机器人在这类两难下的取舍。
Jongwook Han et al. · arXiv 2606.03312 https://arxiv.org/abs/2606.03312
作者推出 RobotValues,含 1 万个价值冲突场景,每个实例配一张真实家居图像和多个优先不同人类价值的可行动作,通过 LLM 辅助场景生成、利益相关方价值抽取、图像生成与自动质检构建。其主张是:家庭机器人评估不应只看任务完成或安全合规,还应衡量它在价值冲突时如何选择。
其他今日论文:AURA(恒定 VRAM 的动作门控记忆,给 VLA 配一块"只在会改变下一步动作时才写入"的循环记忆,arXiv 2606.02775 https://arxiv.org/abs/2606.02775,HF↑1);See Less, Specify More(给 VLA 设视觉证据预算以提升泛化,2606.02735);SeeTraceAct(单段示范视频驱动的可见性感知 VLA,2606.02745);GeoSem-WAM(几何与语义监督增强世界-动作模型隐表征,2606.03188);MetaWorld(从单视角视频扩展多智能体视频世界模型,2606.02753);SplitAdapter(负载感知的人形 loco-manipulation 因子化适配,2606.03297);MARIO(运动增强的实时多传感惯性里程计,2606.02996);AirDreamer(基于世界模型的通用无人机导航,2606.03252)。
▎ 二、融资与交易
星尘智能(Astribot)| B 轮系列 | 超 10 亿元 | 估值破百亿· humanoid
这家被称作"中国版 Figure"的绳驱 AI 机器人公司三个月内连续完成三轮融资,本轮投资方含梁溪科创产业母基金、扬州龙投芯粒、中博聚力等国资与财务机构,以及中科创达、科德教育等产业方。资金重点投向具身模型研发迭代与团队扩张,绳驱传动是其区别于主流谐波/直驱路线的差异化标签。在深圳南山扎堆出现百亿级独角兽的当下,星尘是又一例从演示走向商业化标准之争的样本。来源:36氪原文;科技资本圈原文
千寻智能(Spirit)| A+ 轮 | 15 亿元 | 三个月累计近 50 亿元· humanoid
千寻今年融资节奏陡增:2 月两轮近 20 亿元、估值破百亿,4 月 10 亿元由顺为资本与云锋基金联合领投,6 月再融 15 亿元,本轮称包含一线美元基金但未披露具体名单。公司由韩峰涛、高阳、郑灵茵创办,已与 Bosch、京东、宁德时代等展开合作,并称自研具身基座在北美 RoboArena 评测中登顶、力压英伟达与 Physical Intelligence。融资速度刷新行业纪录,但夺冠为厂商引用的榜单口径,真机商业化仍待落地数据印证。来源:具身智能之心原文;梧桐财经原文
星源智| Pre-A 轮 | 10 亿元(成立 10 个月累计)| 世界模型路线· world-model
成立仅 10 个月的星源智以"世界模型重构具身智能底层逻辑"为定位,坚持"软硬一体、端侧部署",构建"具身大小脑"协同架构,资金投向下一代具身大脑与世界模型研发、规模化量产及团队建设。在世界模型成为资本主线之一的窗口期,这是又一笔押注基座而非本体的早期大额融资。来源:科技资本圈原文;新京报 https://www.bjnews.com.cn/detail/1780455817129694.html
新智具身(复旦系)| 近亿元 | 触觉智能方向· embodied
新智具身主打触觉智能,瞄准机器人在精细操作、柔性物体操作与复杂接触任务中"仅靠视觉不够用"的痛点。团队判断具身智能正进入从技术验证到产业落地的关键窗口,触觉是补齐真实物理交互感知的关键一环。来源:上海市科技政务服务中心原文
旷行科技(浙大系)| Pre-A 轮 | 数千万元 | 高危场景具身大脑· embodied
杭州旷行科技完成市场化首轮融资,由财通资本与商汤国香投资,资金主要用于算法研发、产品矩阵完善与市场拓展,方向是面向高危场景的具身机器人大脑。商汤以战略身份介入具身大脑创业,延续其在模型层的布局。来源:硬氪原文;维科网机器人原文
Agile Robots|新一轮约 8 亿美元 | 软银拟投超 3 亿美元· industrial⚠️ 传闻口径
据彭博报道,软银集团正初步洽谈参与德国工业机器人初创企业 Agile Robots 约 8 亿美元的新一轮融资,有意投资超 3 亿美元。知情人士称谈判仍处早期,最终金额与条款可能变化,软银对工业机器人的兴趣值得关注,但该笔交易尚未敲定。来源:具身之家Robots原文
追觅 NAVO|新一轮 | 数千万元 | 视觉机器人· embodied
追觅旗下视觉机器人 NAVO 不到一年内完成第二轮融资,金额数千万元,反映清洁/家用场景具身赛道在头部家电系孵化下持续获资。来源:投资界等 https://news.pedaily.cn/202606/564836.shtml
▎ 三、产业动态
Cosmos 3 落地引爆世界模型榜单之争:跨维登顶 WorldArena 数据引擎赛道,智元此前夺总分冠军· world-model
NVIDIA 在 GTC Taipei 开源 Cosmos 3 后一天,世界模型的"榜单战"密集上演,关键在于看哪条赛道。一方面,黄仁勋称 Cosmos 3 在世界生成上于 Artificial Analysis、Physics-IQ、PAI-Bench、R-Bench 四个开源榜单均列第一——其中 R-Bench 出自北大与字节 Seed 团队、已被 ICML 2026 接收,是以机器人为中心的视频生成评测,Cosmos3-Nano/Super 以 0.584/0.581 列开源模型前二,该基准自动打分与人工评测的 Spearman 相关系数达 0.96。另一方面,在另一权威基准 WorldArena 上,跨维智能(DexForce)自研的 DSCFuncWorld 登顶含金量更高的 Track 2(Data Engine)赛道,该赛道以机器人实际作业成功率而非画面观感为评判标准,跨维称显著领先 WoW、BLM 等模型;而智元(AgiBot)此前已拿下该榜总分冠军。需要区分的是,"中国公司反超 Cosmos 3"指的是 WorldArena 特定赛道口径,而非同一榜单的综合名次。无论口径如何,世界模型已成英伟达、谷歌与中国创业军团正面交火的核心腹地。✅ Cosmos 3 已开源⚠️ 榜单/赛道口径来源:机器之心原文;量子位原文
比亚迪确认正研发人形机器人,或经经销商网络销售· humanoid⚠️ 接近人士口径
6 月 3 日第一财经从接近比亚迪人士处获悉,该公司确实已在研发人形机器人。相关说法称,机器人竞争在于制造、软件与硬件综合能力,而汽车相关 AI 能力与机器人同源,未来若判断机器人可走向家庭,可借经销商网络销售。消息目前为接近人士口径、尚无官方产品或时间表。来源:第一财经原文;CnEVPost https://cnevpost.com/2026/06/03/byd-enters-humanoid-robot-market/
ICRA 2026 维也纳:中国厂商密集,它石智航 DexHand 灵巧手"手脑一体"全球首秀· embodied
ICRA 2026 现场中国军团声量显著,灵巧手成为焦点之一。它石智航首秀 DexHand 灵巧手,接入自研具身大模型 AWE 3.0 并搭载 TacForeSight 技术,宣称让灵巧手不仅感知粗糙/柔软/坚硬等质感,还能主动预测物理世界演变并调整动作,将感知、理解、预测、操作压进同一闭环。会上还出炉了五篇最佳论文 Finalist。首秀能力为厂商现场演示口径,量产与可靠性仍需独立验证。⚠️ 厂商演示口径来源:具身智能之心原文;雷峰网 https://www.leiphone.com/category/robot/Vh6UTLMHOhAzCsVq.html
智元开源 AGIBOT WORLD 物理交互数据集,主打"从失败中理解世界"· world-model
智元开源 AGIBOT WORLD 2026 主题二"多样交互",聚焦机器人与真实物理世界间更复杂、更高密度、更具不确定性的交互学习。团队基于其世界模型仿真器 Genie Envisioner-Sim 2.0(GE 2.0)验证,多样交互数据与失败数据对提升 action-conditioned world model 的建模能力具有重要意义。这与其在 WorldArena 夺冠的世界模型路线一脉相承。✅ 已开源来源:智元朋友圈原文;手机新浪网等 https://tech.sina.cn/2026-06-03/detail-iniacaes2511267.d.html?oid=WA%200821%207001%200763%20(FORTRESS)%20Pintu%20Baja%20Mother%20And%20Son%20Sidorejo%20Salatiga&vt=4
阿里通义发布 Qwen-VLA,54 亿参数统一 11 种机器人平台· embodied
千问团队推出 Qwen-VLA,首次将操纵、导航、人类动作与轨迹预测纳入单一统一框架,称面向跨任务、跨机器人、跨环境的通用视觉-语言-动作基座。其披露在 MetaWorld 操作基准 10 个子任务平均成功率 84.3%,高于此前 GNH(81.7%)与 Octo(79.2%),Habitat 导航 SPL 也达现有最佳水平;上述为发布方报告的基准成绩。⚠️ 厂商口径来源:具身智能之心TechDaily原文;天众科技原文
Waymo 一边扩张一边承压:纳什维尔开城、拟扩至 20+ 城,同时面临安全质疑与召回· autonomy
Waymo 已在纳什维尔开放全无人载客,并在完成约 160 亿美元融资(估值约 1260 亿美元)后计划扩张至 20 多座城市。与此同时,CNN 报道了多起 Robotaxi 险情与"擦肩"投诉,安全审视升温;此前因今年 4 月圣安东尼奥一辆无人车驶入被淹路段、被冲入河道的事件,公司召回约 3791 辆并以 OTA 软件修复(无人受伤)。规模化与安全口碑的张力,仍是 L4 商业化绕不开的命题。✅ 已证实来源:Mashable https://mashable.com/article/waymo-nashville-autonomous-taxi;CNN https://www.cnn.com/us/waymo-robotaxis-safety-invs;AOL https://www.aol.com/articles/waymo-recalls-over-3-500-225018000.html
文远知行、小马智行纳入港股通,Robotaxi 出海加速· autonomy
WeRide(文远知行)与 Pony AI(小马智行)正式纳入港股通,为内地投资者打开参与通道。文远知行同时推进 Robotaxi 进入西班牙马德里、与 Uber 合作落地,海外多城布局提速。两家自动驾驶企业资本与运营层面的"双出海",是中国 L4 玩家全球化的一个信号。✅ 已证实来源:CnEVPost https://cnevpost.com/2026/06/03/weride-pony-ai-enter-stock-connect/;搜狐网 https://m.sohu.com/a/1031764764_104421?scm=10001.325_13-325_13.0.0-0-0-0-0.5_1334
FutureX · 记录未来如何发生
素材来源多方媒体/网络新闻
夜雨聆风