FutureX· 记录未来如何发生
Physical AI 周报 · 第 2 期 · 2026.06.07 · 过去 7 天 6/1–6/6
本周要点
· 世界模型成全行业最密集的战场:英伟达 GTC 台北开源全模态 Cosmos 3(Nano 16B / Super 64B),中国军团智元、跨维、VAST 以榜单与融资正面反击,李飞飞同周发文为"世界模型"立功能分类法。
· 宇树科技 73 天闪电过会并提交注册,冲刺"A 股人形第一股"、拟募资 42.02 亿元;与英伟达 GR00T 人形参考平台绑定后,合作在中美两端发酵,美方提出 GUARD 法案拟审查中国机器人。
· 具身一级市场融资井喷:千寻三个月累计近 50 亿元、星尘 B 轮估值破百亿、Generalist 4 亿美元、软银拟领投 Agile Robots 约 8 亿美元,资金从基座模型蔓延到灵巧手、触觉与丝杠等核心零部件。
· "车企造人"与 Robotaxi 双线提速:比亚迪先官宣后辟谣人形计划,特斯拉无安全员扩至奥斯汀全域并申请内华达牌照,Waymo、文远、小马、Uber-Nuro 多线扩张。
· 规模化落地样本与降价潮并行:亚马逊发布全自主 Proteus 并砸 100 亿欧元扩张欧洲,Intel×日立、Cognizant 等西方 IT+OT 巨头切入工业层;人形机器人跌入"万元时代"。
▎ 一、世界模型:从"比画面"到"立规矩"与抢落地
英伟达开源 Cosmos 3,把世界模型之争推到白热化· world-model
本周开局,黄仁勋在 GTC 台北(Computex 2026)开源全模态基础模型 Cosmos 3,用 mixture-of-transformers 把视觉推理、世界生成与动作预测合进单一系统,号称首个可原生理解并生成文本、图像、视频、环境声与动作的开放模型;提供 Super(64B,稠密 32B 主干)、Nano(16B)与即将推出的 Edge 三档,已上线 Hugging Face,配套技术报告 arXiv 2606.02800,并组建含 Black Forest Labs、Runway、Agile Robots、Skild AI 等的 Cosmos 世界模型联盟。官方称其在 Artificial Analysis、Physics-IQ、PAI-Bench、R-Bench 等多个开源榜单列第一——均为发布方与第三方榜单口径,泛化性仍待独立复现。来源:the-decoder、机器之心、量子位、英伟达官网
中国军团榜单反击:分清"哪条赛道"是关键· world-model
Cosmos 3 开源次日,世界模型"榜单战"密集上演。智元自研 Genie Envisioner-Sim(GE-Sim)2.0 据称以 2B 参数登顶清华等机构的 WorldArena 榜,并首次把"本体状态"(七关节角与夹爪开度)与画面一起输出,倒水、拔插头等任务成功率较此前提升约 15%(论文 2605.27491);跨维智能 DSCFuncWorld 则登顶以实际作业成功率评判的 WorldArena Track-2 数据引擎赛道,同济"无界"在视频质量赛道取得开源第一。需厘清的是,"中国公司反超 Cosmos 3"多指特定赛道口径而非综合名次。资本侧同步沸腾:VAST 两月内再融近 2 亿美元并披露世界模型 Project Eden、Reactor 携 5900 万美元走出隐身、星源智成立 10 个月累计 10 亿元。来源:机器之心、量子位、Agent Power、AI Insider
李飞飞给"世界模型"立功能分类,撞上 CVPR 的同题之争· world-model
当各方都自称"世界模型",李飞飞与 World Labs 发表《A Functional Taxonomy of World Models》,主张按"它到底干什么"拆成三类功能件:渲染器(产像素、重保真)、模拟器(产几何/物理忠实、可计算交互的状态)、面向规划决策的生成式模型,为被资本与营销抬到天价的概念划界。巧合的是,CVPR 2026 现场小鹏智驾负责人刘先明同题发声"VLA 与世界模型并不对立,唯有基座模型才能通往 L4"——同一组词,产业与学界正各自定义。与此同时,世界模型重心明显从"比画面逼真"转向"sim-ready 可落地资产":大晓×南洋理工 PhysX-Omni(2605.21572,含刚体/可形变/关节物体与 8K+ 资产数据集 PhysXVerse)、大晓开源全屋世界模型 Kairos-HomeWorld、智元开源 AGIBOT WORLD"多样交互"数据集、英伟达 OmniDreams(自驾闭环仿真)齐发。来源:机器之心、DeepTech 深科技、车东西、智元朋友圈
下周看点:更多团队接入 Cosmos 3 复现榜单口径,"sim-ready 数据引擎"或成世界模型新的竞争腹地。
▎ 二、宇树过会与"英伟达大脑 + 中国本体"的地缘账
73 天闪电过会,冲刺"A 股人形第一股"· humanoid
宇树科技 3 月 20 日受理、6 月 1 日上会通过、6 月 2 日提交注册,全程仅 73 天,刷新 2026 年科创板审核纪录,注册批文预计数周内下发。拟发行不低于 4044.64 万股、募资 42.02 亿元,其中近半(20.22 亿元)投向智能机器人模型研发。公司已规模化盈利:2023—2025 年营收 1.59 亿 / 3.93 亿 / 16.99 亿元,净利由亏转盈至 2.78 亿元,Q1 营收约 4.23 亿元、同比增 68.49%;2025 年人形销售额 8.68 亿元、占比约 51.78%,已反超四足机器狗成第一大现金流,纯人形出货超 5500 台、毛利率超 60%(公司口径),一级市场估值被报道约 420 亿元。美团、腾讯、阿里、蚂蚁等均为战投,但其人形需求当前几乎全部集中在科研院校与企业 B 端。来源:新浪科技、旁观机器、澎湃
绑定英伟达 GR00T,合作在中美两端同时发酵· humanoid
IPO 过会同日,英伟达发布首款开源人形参考设计 Isaac GR00T:机体采用宇树 H2 Plus(31 自由度)、双手用新加坡 Sharpa 五指方案(22 自由度)、算力来自 Jetson Thor(2070 FP4 TFLOPS),参考机将于 2026 年底由宇树推出,主要面向高校与科研机构,"英伟达大脑 + 中国本体"分工进一步明确。本周末该合作在国内引发"认贼作父"式舆论反弹(质疑技术与数据外流),美国一侧则同步收紧:众议员 Moolenaar、Obernolte、McClellan 于 6 月 4 日提出 GUARD(Guarding the U.S. Against Adversarial Robotics Dominance)法案,要求对中国造人形/四足机器人启动国家安全审查、限制联邦资助研究者使用宇树产品;相关委员会另要求把宇树列入 1260H、实体清单与 FCC 涵盖清单。英伟达回应称已把 GR00T 软件更新通道路由经自家芯片以应对网络安全质疑,并将与美、欧、韩厂商建立同类参考平台。来源:机器人前瞻、Washington Times、Reuters
下周看点:注册批文落地节奏,以及 GUARD 法案推进与英伟达供应链/合作面调整。
▎ 三、资本井喷:从基座到零部件的全栈下注
本体与基座:三个月几十亿级的密集加注· embodied
具身一级市场延续狂热:千寻智能 A+ 轮 15 亿元、三个月累计近 50 亿元(称北美 RoboArena 评测登顶,系厂商引用口径),星尘智能 B 轮系列超 10 亿元、估值破百亿(三个月连融三轮),星源智 Pre-A 10 亿元、天机智能 B 轮 10 亿元投后约百亿,星动纪元完成股改为 IPO 铺路。海外侧英伟达系 Generalist 融资 4 亿美元、估值 20 亿美元(英伟达与贝佐斯远征基金继续加注),软银据彭博报道正洽谈领投慕尼黑工业机器人公司 Agile Robots 约 8 亿美元、拟投超 3 亿美元(早期洽谈口径)。来源:36氪、具身智能之心、TipRanks、Bloomberg
资本按技术栈切分:零部件、触觉与数据层成新热点· adjacent
融资重心明显从"造本体"扩散到全栈:触觉/视触觉环节戴盟机器人完成亿元 A 轮(汇川产投与中国电信联投,阿里通义多模态负责人加盟攻关物理世界模型)、新智具身近亿元;力控感知方面坤维科技 B++ 轮(六维力传感器);灵巧手核心部件指尖智擎、青心意创、黑漫科技持续获资,谐波减速器"第二股"来福谐波冲刺港股、行星滚柱丝杠国产化被反复点名为卡点。数据层亦被巨头集体押注——简智机器人获蚂蚁、滴滴、德联领投的数亿元,Mecka AI 拿下 Framework Ventures 领投的 6000 万美元。横向整合同步上演:原力灵机并购物流机器人公司 Atomix 并完成 C 轮(智谱、阶跃跟投),墨影科技超亿元 B 轮,普渡机器人筹划赴港 IPO、称估值升至数百亿区间。来源:量子位、硬氪、机器人大讲堂、东方财富
本周判断:资本逻辑已从"谁的本体更炫"转向"谁握住基座模型 + 核心零部件 + 数据"的全栈卡位,硬件赛道正式进入资本密集期。
▎ 四、"车企造人"与 Robotaxi 商业化两线提速
比亚迪先官宣后辟谣,车企入局节奏胶着· humanoid
比亚迪人形机器人传闻一周内三度反转:6 月 3 日"确认正研发",6 月 4 日被报道"官宣自研、代号尧舜禹、团队超 4000 人、年内拟部署 2 万台、计划进 4S 门店",6 月 6 日公司又向媒体回应称代号与"年内自用 2 万台"等具体说法"均不属实"——但执行副总裁李柯仍确认"在开发人形机器人",称汽车 AI 能力与机器人同源、未来或经经销商网络销售。研发方向获本人确认、规模细节被否,延续了"车企造人"趋势但仍属规划而非交付。来源:第一财经、每日经济新闻、电子工程专辑
Robotaxi 多线扩张,运力规模与安全口碑仍是张力· autonomy
本周 Robotaxi 战线全面铺开:特斯拉将无安全员服务扩至奥斯汀全域(但车队仍仅约 20 辆,覆盖面扩张快于运力),并正式向内华达申请牌照、请求首年至多运营 5000 辆;Waymo 在纳什维尔开城、完成约 160 亿美元融资(估值约 1260 亿美元)拟扩至 20+ 城,同时面临 CNN 险情报道与召回约 3791 辆(软件 OTA 修复)的安全审视;小马智行 Q1 robotaxi 收入同比增 395%、文远知行落地马德里成全球第 12 城、二者纳入港股通,小鹏在广州启动 Robotaxi 量产;Uber 对 Nuro 承诺近 5 亿美元,并联合 Lucid 计划部署 3.5 万辆。另一面,现代让波士顿动力 Atlas 入美制造、法拉利 CEO 则明确拒绝自动驾驶、坚持保留方向盘。来源:路透社、Mashable、Gasgoo、qz.com
▎ 五、规模化落地:巨头入场、政策立规与"万元人形"
从 Demo 到规模化:仓储巨头与西方 IT+OT 集体下场· industrial
本周最具说服力的"规模化"样本来自亚马逊:新一代全自主仓储机器人 Proteus 新增"听懂语音指令"的对话交互能力,并配套在欧洲投入 100 亿欧元扩张物流与机器人、10 亿美元员工再培训——把会话式 AI 与移动操作直接嵌进已有数十万台机器人的体系;其叙事另一面是与"机器人替代人力"的就业冲击同步显形。工业层的巨头组合也在重排:Intel 与日立达成物理 AI 战略合作(覆盖晶圆厂工具、工厂自动化、能源优化、边缘 AI 等五大支柱),Cognizant 推出"主权级 Physical AI 平台即服务",华为云 CloudRobo 具身开发平台开放公测——西方 IT 集成商与云厂商正面切入此前由英伟达主导的工业腹地。来源:About Amazon、路透社、Stock Titan、AASTOCKS
"万元时代"与冷静的时间表并存· humanoid
人形价格快速分层下探:松延动力 Bumi 定价 9998 元被称首款万元级消费人形,优必选全尺寸"超仿生"人形开启预售(定金 3000 元、数日订单逾千件),乐聚 8.99 万元绳驱机器人现货交付。但需区分——低价更多对应展演/教育型与清库存机型,"万元人形"不等于能干活的通用整机,部分"一年暴跌 99%"表述带营销色彩。冷静坐标来自高盛走访的 14 家中国机器人公司:判断大规模部署要到 2027—2029,形态正转向轮式底盘加两三指夹爪、五指灵巧手因寿命/成本被多家暂排,世界模型成为 VLA 的"功能配合层",数据仍是首要瓶颈;优必选 2026 目标约 1 万台、工业人形 ASP 引导降至 55—65 万元。政策侧同步"立规矩":首个行业标准实施、广州发布 142 项应用场景清单、成都启用央地共建机器人平台。来源:第一财经、界面新闻、DeepTech 深科技、自变量机器人
▎ 六、论文与技术风向:VLA 整合、benchmark 反思与世界模型实时化
世界模型论文密集,范式继续向"统一基础模型"收敛· world-model
除 Cosmos 3(2606.02800)、OmniDreams(2606.03159)外,World-Language-Action(WLA,2606.05979,本周 HF 热度居前)主张把世界-动作模型与 VLA 共用一个自回归骨干、"既能想象世界又能听懂指令并行动";Flash-WAM(2606.05254)用模态感知步数蒸馏把世界-动作模型从数十步去噪压向可实时控制;OSCAR、CLAW、GRAIL 则各从骨架条件、无动作视频、3D 资产生成切入"用世界模型造数据"。同期多篇世界模型综述(2606.00133、2606.00113 等)试图为碎片化的定义建立统一坐标系。来源:arXiv、量子位、机器之心
VLA 把 VLM 推回动作中心,benchmark 迎来"拆台"反思· embodied
VLA 架构整合是另一主线:星海图 G0.5 让同一 transformer decoder 在一条自回归序列里同生成推理与动作 token,真机六任务平均成功率 76.7%(团队自报);阿里 Qwen-VLA 以 54 亿参数统一操控/导航/轨迹预测 11 类平台;自变量 Wall-OSS-0.5(2605.30877)主张预训练即可直接产生可执行行为。与"榜单登顶满天飞"形成对照的是一篇诊断论文(2606.04233):用四项诊断审计 LIBERO、CALVIN、SimplerEnv 等,指出 LIBERO 上一个仅 0.09B、无语言编码器的探针即可逼近所报 SOTA、多数增益统计上不可证;TRAP(2603.23117)则演示仅凭一块对抗补丁即可劫持 CoT-VLA 的推理、让机器人递错物体,揭示 CoT 引入的新攻击面。此外灵巧手/触觉(TransTac、RealDexUMI、戴盟联合发布的 RobOmni 评测)与人形运动(20 亿帧训练的 Humanoid-GPT、含 Pieter Abbeel 的爬梯框架 LadderMan)继续保持高热度。来源:具身智能之心、arXiv、机器之心
下周看点:Cosmos 3 等开源世界模型的独立复现与真机闭环数据,将成为检验本周"榜单口径"的关键。
FutureX · 记录未来如何发生
素材来源多方媒体/网络新闻
夜雨聆风