乐于分享
好东西不私藏

2026年十大物理AI模型:驱动真实世界机器人的核心力量

2026年十大物理AI模型:驱动真实世界机器人的核心力量

本文译自https://www.marktechpost.com/2026/04/28/top-10-physical-ai-models-powering-real-world-robots-in-2026/

发布日期:2026年4月28日,作者:Asif Razzaq

在过去18个月里,语言模型能力与机器人实际部署之间的差距已显著缩小。一类新型的基础模型——专为物理动作而非文本生成而构建——如今正在工厂、仓库和研究实验室的真实硬件上运行。这些系统涵盖了已部署的机器人策略、私有预览的视觉-语言-动作模型、开放权重的研究模型,以及用于扩展机器人训练数据的世界模型。其中一些正在与工业伙伴进行评估或部署;另一些则主要面向研究或开发者。以下是2026年最具影响力的十大模型盘点。

01 NVIDIA Isaac GR00T N系列 (N1.5 / N1.6 / N1.7)

NVIDIA于2025年3月的GTC大会上发布了最初的GR00T N1,作为世界上首个开放的、完全可定制的通用人形推理与技能基础模型。此后,N系列迅速发展。

  • GR00T N1.5(2025年5月COMPUTEX发布)引入了冻结的视觉语言模型、Eagle 2.5 grounding改进、FLARE训练目标(支持从人类第一人称视频中学习)以及GR00T-Dreams蓝图——将合成数据生成时间从数月缩短至约36小时。
  • GR00T N1.6(2025年12月15日发布)采用了新的内部NVIDIA Cosmos-2B视觉语言模型主干,支持灵活分辨率,DiT扩大2倍(32层 vs N1.5的16层),状态相对的动作块以实现更平滑的运动,并增加了来自双手YAM机械臂、AGIBot Genie-1和Unitree G1的数千小时遥操作数据。它在这些实体上进行了真实双手操作和移动操作任务的验证。
  • 最新的GR00T N1.7早期访问版(2026年4月17日发布)是一个基于Cosmos-Reason2-2B主干、拥有32层DiT用于低级电机控制的30亿参数开放商业许可视觉-语言-动作模型——采用Action Cascade双系统架构。其核心进步是EgoScale:在20,854小时涵盖20多个任务类别的人类第一人称视频上进行预训练,规模远超之前版本使用的机器人遥操作时长。NVIDIA发现了其描述的首个机器人灵巧性缩放定律——从1,000小时到20,000小时的人类第一人称数据,平均任务完成率提升了一倍以上。N1.7早期访问版已在HuggingFace和GitHub上提供,采用Apache 2.0许可,全面生产支持与正式发布版绑定。GR00T N系列的早期采用者包括AeiRobot、Foxlink、NEURA Robotics和Lightwheel。

02 Google DeepMind Gemini Robotics 1.5

Gemini Robotics是基于Gemini 2.0构建的高级视觉-语言-动作模型,将物理动作作为直接控制机器人的新输出模态添加进来。它于2025年3月与Gemini Robotics-ER(具身推理)一同推出。

  • 2025年9月的更新版Gemini Robotics 1.5引入了智能体能力——将视觉信息和指令转化为电机命令,同时使模型的推理过程透明化,帮助机器人更清晰地评估和完成复杂的多步骤任务。
  • 目前访问权限仍对选定合作伙伴开放,包括Agile Robots、Agility Robotics、Boston Dynamics和Enchanted Tools,并未公开。
  • 该系列持续演进:Gemini Robotics-ER 1.6于2026年4月14日发布,增强了空间推理和多视角理解能力——包括与Boston Dynamics合作开发的读取复杂仪表和视镜的新能力。开发者可通过Gemini API和Google AI Studio使用Gemini Robotics-ER 1.6。

03 Physical Intelligence π0 / π0.5 / π0.7

  • π0提出了一种基于预训练视觉语言模型构建的流匹配架构,以继承互联网规模的语义知识,并在包括单臂机器人、双臂机器人和移动机械臂在内的多个灵巧机器人平台上进行训练。Physical Intelligence于2025年2月开源了π0。
  • π0.5于2025年4月22日发布,openpi权重随后在2025年晚些时候发布。其重点不在于提升灵巧性,而是开放世界泛化:该模型通过对异构任务、多个机器人、高级语义预测和网络数据进行协同训练,来清理训练中未见过的陌生厨房和卧室。后续版本应用了RECAP方法(通过优势条件策略进行演示训练、纠正指导和自主经验改进),据Physical Intelligence报告,在诸如将滤网插入咖啡机、折叠未见过的衣物、组装纸箱等任务上,吞吐量翻了一番。
  • 最新的公共研究版本是π0.7,发布于2026年4月16日。它是一个专注于组合泛化的研究阶段系统:结合来自不同上下文的已学技能来解决模型从未明确训练过的任务。Physical Intelligence将其描述为一个具有涌现能力的可操控模型——迈向通用机器人大脑的早期但有意义的一步。论文通篇使用了谨慎的措辞,且未公布商业部署时间表。

4. Figure AI Helix

于2025年2月20日发布,Helix是首个能输出高速率、连续控制整个人形上半身(包括手腕、躯干、头部和单个手指)的视觉-语言-动作模型。它采用双系统设计:

  • 系统2:一个70亿参数、经过互联网预训练的视觉语言模型,以7-9Hz运行,负责场景理解和语言理解。
  • 系统1:一个8000万参数的交叉注意力编码器-解码器Transformer,以200Hz运行,将系统2的语义表征转换为精确的连续机器人动作。

该模型在大约500小时的多机器人、多操作员遥操作数据上训练,并通过事后应用的视觉语言模型进行自动指令标注。所有训练项目均被排除在评估之外以防止污染。

Helix完全在板载嵌入式低功耗GPU上运行,使其与商业部署研究和未来人形应用相关。它使用单一的神经网络权重集来处理所有行为——拾取放置物品、使用抽屉和冰箱、跨机器人交互——无需任何任务特定的微调。它已在家庭操作任务和物流包裹分拣中得到演示,并可通过将整体目标分解为每机器人子任务的监督架构同时在两台机器人上运行。

5. OpenVLA

OpenVLA是一个基于Llama 2语言模型并结合融合了DINOv2和SigLIP预训练特征的视觉编码器构建的70亿参数开源视觉-语言-动作模型,在97万个真实世界机器人演示的多样化集合上训练。

尽管规模小了7倍,OpenVLA在29个任务和多个机器人实体上,其绝对任务成功率比闭源的RT-2-X(550亿参数)高出16.5个百分点。

  • 2025年2月的一篇论文引入了OFT配方,它结合了并行解码、动作分块、连续动作表征和L1回归目标。OFT实现了25-50倍的推理速度提升,并在LIBERO仿真基准测试中达到了97.1%的平均成功率,优于π0、Octo和Diffusion Policy。
  • 增强版OFT+增加了FiLM条件以改善语言接地,并支持在ALOHA机器人上进行高频双手控制。
  • OpenVLA支持LoRA微调和量化以适应资源受限的部署,并且社区提供了用于与机器人操作系统集成的ROS 2封装器。

6. Octo

Octo是来自加州大学伯克利分校的开源通用机器人策略,提供两种尺寸:Octo-Small(2700万参数)和Octo-Base(9300万参数)。两者均使用具有扩散解码的Transformer主干,在来自Open X-Embodiment数据集的80万个机器人片段(涵盖25个数据集)上进行预训练。

该模型支持自然语言指令和目标任务图像条件,并适应灵活的观察和动作空间,包括新的传感器和动作表征,而无需更改架构。

Octo专门设计用于支持对新机器人设置进行高效微调。在官方评估中,每个任务使用大约100个目标域演示,Octo在涵盖CMU、斯坦福和UC伯克利等机构的六个评估设置中,平均比从头训练高出52%。在零样本设置下,其性能与RT-2-X(550亿参数)相当,同时规模小了几个数量级。Octo主要是一个研究和开发工具,是需要用有限计算资源快速迭代新操作任务的实验室的强大轻量级起点。

7. AGIBOT BFM 和 GCFM

2026年4月,总部位于上海的AGIBOT在其“一体三智”全栈架构中宣布了两个基础模型。

  • 行为基础模型定位于模仿和行为迁移——旨在高效地从演示中获取新的运动行为。
  • 生成控制基础模型定位于根据包括文本、音频和视频在内的多模态输入生成情境感知的机器人动作。

AGIBOT将AGIBOT WORLD 2026定位为其更广泛机器人栈数据基础的一部分——一个涵盖商业空间、家庭和日常场景的开源、生产级真实世界数据集。该公司在2026年4月的合作伙伴大会上宣布2026年为“部署元年”,并于2026年3月宣布其第10,000台机器人投入使用。

8. Gemini Robotics On-Device

Gemini Robotics On-Device是一个为双手臂机器人设计的视觉-语言-动作模型,专为在机器人本地上低延迟推理运行而设计,无需数据网络连接。于2025年6月发布,它是Google DeepMind首个可供微调的视觉-语言-动作模型。

它基于云端Gemini Robotics模型的任务泛化和灵巧性能力构建,针对存在延迟或连接限制的本地设备执行进行了优化。该模型主要在ALOHA机器人上训练,并已适配到Franka FR3双手臂机器人和Apptronik的Apollo人形机器人。它可以用少至50到100个演示适应新任务。目前仅通过选定的受信任测试者提供,并非公开发布。

9. NVIDIA Cosmos 世界基础模型

Cosmos并非传统意义上的机器人策略模型——它是一个生成式世界模型,用于生成合成轨迹数据,以扩展本列表中其他模型的训练流程。

GR00T-Dreams蓝图使用Cosmos从单张图像和语言指令生成大量合成轨迹数据,使机器人能够在不需要特定遥操作数据的情况下,在陌生环境中学习新任务。这直接支撑了GR00T N1.5的开发。

用于GR00T-Dreams的版本Cosmos Predict 2已在HuggingFace上提供,具有高质量世界生成和减少幻觉的性能增强。包括Skild AI和FieldAI在内的公司正在使用Cosmos和Isaac仿真组件来生成合成机器人训练数据,并在真实世界部署前在仿真中验证机器人行为。

10. SmolVLA (HuggingFace LeRobot)

于2025年6月3日发布,SmolVLA是HuggingFace在LeRobot框架内构建的4.5亿参数紧凑型视觉-语言-动作模型,完全在社区贡献的开源数据上训练。它使用SmolVLM-2视觉语言主干结合流匹配Transformer动作专家——输出连续动作而非离散化的token,与π0和GR00T N1使用的动作表征相同。

它在从HuggingFace上标记为“lerobot”的487个社区数据集中精选的1000万帧数据上进行预训练,涵盖从实验室到客厅的多样化环境。

SmolVLA可在消费级硬件上运行,包括单张RTX级GPU和MacBook。官方微调基准显示,在单张A100上约4小时可完成20,000个训练步。在使用SO100和SO101机械臂的真实机器人评估中,经过任务特定微调后,其平均成功率约为78.3%。它在LIBERO和Meta-World仿真基准测试中达到或超过了ACT等更大模型的性能,并支持异步推理以实现30%更快的响应速度和2倍的任务吞吐量。对于计算资源有限的团队来说,SmolVLA是进入视觉-语言-动作生态系统的最易入门点。

结语

这十大模型代表了物理AI领域在2026年的前沿阵地。从开放的GR00T N系列到专注研究的π0.7,从高性能的Helix到轻量易用的SmolVLA,它们共同推动了机器人从执行预设任务向理解、适应和交互于复杂真实世界的深刻转变。开发者与研究者可根据模型的开放性、许可模式及适用场景进行评估选用,以加速机器人在工业与科研领域的应用落地。

–END–