全球AI与机器人最新资讯摘要(2026.6.11)

2026年6月11日 | 10分钟快速阅读版

AI动态

Anthropic发布Claude Fable 5与Mythos 5，刷新公开模型能力上限

6月9日至10日，Anthropic连续发布两款重磅模型。Claude Fable 5成为该公司迄今公开发布的最强通用大模型，在SWE-Bench Pro软件工程评测中取得80.3%的高分，创下所有公开模型中的最高编码能力记录。定价为10美元/百万输入Token和50美元/百万输出Token，仅为Mythos Preview的一半。

同时推出的Claude Mythos 5作为"满血版"旗舰，目前仅向少数受信任机构开放。Fable 5在软件工程、复杂知识工作、视觉理解、长上下文处理和生命科学研究等领域达到业内领先水平。

微软"AI独立日"：发布7款自研MAI系列模型

6月3日，在旧金山Build 2026开发者大会上，微软AI CEO穆斯塔法·苏莱曼正式发布旗下首款高级推理模型MAI-Thinking-1，并同步推出覆盖推理、编码、图像、语音等全领域的7款MAI系列自研模型。

MAI-Thinking-1采用"从零训练、零蒸馏"原则，在多项基准测试中表现卓越：SWE-Bench Pro编程基准达到52.8%，与Anthropic旗舰模型Claude Opus 4.6持平；数学推理在AIME 2025测试中获得97.0%；在1350项人类偏好盲测中超越Claude Sonnet 4.6。这一发布标志着微软从OpenAI技术的主要分销商，正式转型为拥有完整自主AI技术栈的基础模型提供者。

Google Gemma 4 12B颠覆多模态架构设计

6月4日，Google发布Gemma 4 12B，官方定位为介于4B与26B MoE之间的中端型号，可在16GB内存笔记本上运行，采用Apache 2.0开源协议。

此次发布的真正突破在于底层架构革新：视觉模块抛弃传统ViT编码器，改用35M轻量嵌入模块，通过单次矩阵乘法加2D坐标嵌入和归一化，将图像块直接映射到与文本Token相同的向量空间。音频处理同样采用原始声波直接投影的方式，不做频谱声学特征提取。这种"原始音画无损直通LLM"的设计，使12B模型能够威胁26B MoE的性能表现。

Google开源DiffusionGemma，文本生成速度提升4倍

Google同期开源了26B规模的文本扩散MoE模型DiffusionGemma。该模型没有沿用典型自回归大语言模型按顺序逐Token生成的方式，而是可以同时生成整块文本，在GPU上文本生成速度最高可提升至4倍。

DiffusionGemma建立在Gemma 4家族业界领先的"每参数智能水平"之上，吸收了Gemini Diffusion的前沿研究成果，引入全新的扩散式输出头。自回归版本的Gemma 4仍然是高质量生产级输出的首选，而DiffusionGemma更适合对速度要求极高、强调本地交互的研究人员和开发者。

机器人进展

中国团队NeoVerse-ABot斩获ICRA 2026世界模型赛道冠军

在奥地利维也纳落幕的2026年国际机器人与自动化会议（ICRA）上，由中国科学院自动化研究所模式识别实验室牵头研发的NeoVerse-ABot模型，在图像质量与动作跟随两大核心指标中以0.829分的成绩登顶世界模型赛道冠军。

该模型的突破性在于构建了感知与决策的闭环系统，通过整合机器人当前视觉场景与计划动作序列，精准预测机械臂、物体与环境间的动态交互过程。研究团队颠覆传统认知，将夹空、滑落等失败交互数据视为宝贵训练资源，通过提升长尾样本权重使模型充分学习真实物理交互的完整分布，成功破解长期困扰行业的"动作幻觉"难题。

工信部启动2026年度人形机器人与具身智能实景实训专项行动

工业和信息化部、国务院国资委近日联合印发通知，正式启动2026年度人形机器人与具身智能实景实训专项行动。行动聚焦工业、服务、特种等领域重点场景，部署打造实景实训空间、组建创新应用联合体、攻关实用化作业技能等六项重点任务。

行动重点面向生产制造、检测分析、维修维护、仓储物流、餐饮零售、医疗康养、安全生产、应急救援、防灾减灾等重点场景。到2026年底，人形机器人等具身智能重点产品将在一批代表性场景实现应用验证和常态部署，凝练形成百个以上高价值应用场景，带动形成万台级规模落地能力。

UT Austin朱玉可提出"数据金字塔"破解人形机器人数据困局

6月3日，在ICRA 2026大会主题演讲中，德克萨斯大学奥斯汀分校副教授、NVIDIA GEAR团队负责人朱玉可系统性地拆解了当前人形机器人面临的最大瓶颈——数据，并提出了以"数据金字塔"为框架、以"世界模型"为引擎的规模化路径。

朱玉可展示了两个典型案例：SONIC利用大规模人类动作捕捉数据训练人形机器人全身控制器，实现万小时级别的规模化训练；EgoScale从第一人称视角的人类视频中学习，通过"预训练获取人类知识→对齐训练压缩知识→后训练表达知识"的三阶段方案，使得机器人仅需不到1%的真实机器人数据就能完成复杂操作任务。

波士顿动力量产版Atlas搭载Gemini Robotics VLA模型

在CES 2026上，波士顿动力正式展示量產版电动Atlas机器人，具备56个自由度，全身重要关节皆可无限度旋转。最大的惊喜是宣布与Google DeepMind达成战略合作，Atlas现在搭载Gemini Robotics VLA模型（Vision-Language-Action）。

这意味着Atlas不再需要繁琐的代码编写，工作人员只需向它展示一段人类操作影片，Atlas就能通过视觉学习自主推理出动作逻辑。这一合作代表了"极致工程"技术路线的重要演进，与特斯拉Optimus代表的"低成本规模化"路线形成鲜明对比。

特斯拉Optimus计划7-8月启动量产，Figure AI估值达390亿美元

特斯拉最新计划在7月底或8月初启动Optimus的量产。马斯克在财报会上提到，Optimus V3不愿意过早公开展示，因为竞争对手可能会逐帧分析并复制。特斯拉的优势不仅在于Optimus V3的本体，更在于其背后那套已被自动驾驶验证过的AI基础设施正在落地到机器人领域。

与此同时，Figure AI在2025年9月的最近一轮融资中估值达到约390亿美元。该公司与OpenAI官宣合作，专为人形机器人打造下一代AI多模态模型，增强机器人处理语言和推理的能力。投资阵容包括OpenAI、微软、英伟达、贝佐斯等，显示出资本市场对Physical AI赛道的高度认可。

趋势洞察

Physical AI成为竞争新焦点

人形机器人竞争正在从本体参数转向"Physical AI"层面。特斯拉、Figure和1X等海外头部机器人公司正在弱化单纯的本体参数，更加强调AI大脑、世界模型、VLA模型、端侧推理、真实数据闭环以及规模化制造能力。

特斯拉正在把自身能力从电动车制造延伸到Physical AI平台，其最大的优势不是Optimus V3的本体，而是背后那套已经被自动驾驶验证过的AI基础设施。下一代AI推理芯片AI5不仅服务于自动驾驶，也会服务于Optimus以及未来更大规模的AI应用。

具身智能进入规模化部署关键阶段

展望2026年，随着核心技术突破和商业化落地深化等多重利好叠加，具身智能行业正迎来加速发展的关键阶段。工信部推动的实景实训专项行动标志着产业从技术验证阶段向商业化落地加速迈进。

中国首个覆盖人形机器人与具身智能全产业链、全生命周期的标准体系《人形机器人与具身智能标准体系（2026版）》已正式发布，标志着相关产业进入规范化发展阶段。预计2030年中国人形机器人市场规模将大幅增长，尽管在技术、量产和应用场景落地方面仍面临挑战。

数据成为制约规模化部署的核心瓶颈

真实机器人数据质量最高但极其稀缺，仿真数据可以无限生成但存在仿真到真实的鸿沟。朱玉可提出的"数据金字塔"框架指出，不应押注在单一数据源上，而应构建分层的数据策略：底层是海量仿真数据和人类视频数据，中层是少量高质量遥操作数据，顶层是极少量真实机器人执行数据。

世界模型成为破解数据困局的关键引擎。通过构建能够准确预测物理交互的世界模型，机器人可以在仿真环境中进行大规模训练，再迁移到真实世界。NeoVerse-ABot的成功证明，通过强化学习反馈机制和对失败数据的充分利用，可以有效提升模型的物理推理能力。

中美技术路线呈现差异化特征

美国阵营在销量上明显落后于中国，但在AI能力与一级市场估值上领先。Figure AI估值约390亿美元，而中国厂商如宇树科技（Unitree）在2025年全球人形机器人出货量中占比约87%，主力机型G1出货量约4,200台，并把2026年出货目标定在1-2万台。

美国企业更强调AI基础设施、基础模型研发和世界模型构建，中国企业则更注重场景落地、成本控制和规模化制造。两条路线各有优势，未来可能走向融合。