AI动态速报 | 顶级模型ARC-AGI-3得分不足1%,Meta收购机器人公司加速入局

AI动态速报 | 顶级模型ARC-AGI-3得分不足1%，Meta收购机器人AI公司加速入局

📅 今日AI速报 · 2026年5月2日

ARC-AGI-3测试让顶级大模型集体”现原形”——GPT-5.5和Claude Opus 4.7得分均不足1%，而人类可以拿满分。与此同时，Meta大手笔收购机器人AI公司，GPT-5.6和Claude下一代模型双双曝光，AI军备竞赛丝毫没有停歇的迹象。

1️⃣ Meta收购Assured Robot Intelligence，加速人形机器人布局

Meta宣布收购专注于机器人人工智能的初创公司Assured Robot Intelligence，将其核心团队纳入Meta超级智能实验室（Superintelligence Lab），与2025年成立的Meta机器人工作室密切合作。

Assured Robot Intelligence的核心技术是为机器人开发AI模型，使其能够在复杂动态环境中理解、预测并适应人类行为。两位联合创始人 Xiaolong Wang（前英伟达研究员）和 Lerrel Pinto（曾联合创立Fauna Robotics，后者已于2026年3月被亚马逊收购）将一同加入Meta。

💡为何值得关注：Meta正系统性布局人形机器人赛道，自研硬件+底层AI系统的平台化战略逐渐清晰。特斯拉、谷歌、亚马逊、Meta——美国科技巨头已全员入局人形机器人，这场”机器人体操”才刚刚开始。

◆ ◆ ◆

2️⃣ ARC-AGI-3测试：GPT-5.5与Claude Opus 4.7得分均不足1%

由Keras之父François Chollet创立的ARC-AGI-3基准测试，专门考验AI处理全新逻辑任务的能力。测试包含135个全新设计的环境，模型必须自主探索未知界面、从稀疏反馈中推断规则、提出并验证假设。

结果令人震惊：

模型	得分
GPT-5.5	0.43%
Claude Opus 4.7	0.18%
所有前沿推理模型	均低于1%
人类（首次接触任务）	100%（满分）

两大模型的失败模式截然不同：Claude容易锁定错误特征并坚定执行（”过度自信的直觉主义者”），GPT-5.5则假设生成广泛却难以转化为具体行动（”思维发散的理论家”）。

💡为何值得关注：当前顶尖大模型在”举一反三”的真正泛化能力上，与人类存在巨大鸿沟。ARC-AGI-3被认为是目前最接近”人类智能本质”的测试——它揭示了一个残酷事实：距离AGI，仍然道阻且长。

◆ ◆ ◆

3️⃣ GPT-5.6后台现身，Claude Jupiter（Sonnet 4.8）同步曝光

GPT-5.5发布不足两周，开发者在OpenAI Codex API日志中发现了标记为 gpt-5.6 的路由记录——这是典型的”金丝雀部署”信号，意味着新模型已在进行极低比例的真实流量测试。

几乎同时，Claude Code源代码中泄露了完整模型矩阵，一个从未公开露面的代号Jupiter（木星）引起广泛关注。业内人士推测Jupiter即Sonnet 4.8，可能于5月6日旧金山开发者大会正式亮相。

💡为何值得关注：两家巨头下一代模型在48小时内相继曝光，标志着AI模型迭代从”版本发布”模式向“持续进化”模式转变。对于开发者和企业而言，跟踪模型路线图的节奏，比追逐单一版本更重要。

◆ ◆ ◆

4️⃣ 英伟达发布Nemotron 3 Nano Omni，AI Agent效率提升9倍

英伟达发布开源全模态模型Nemotron 3 Nano Omni，将文本、图像、音频与视频统一到同一推理体系，专为Agentic AI设计。官方数据显示，推理吞吐量提升9倍，算力消耗大幅降低。

这不是一次孤立的模型发布——Nemotron 3 Nano Omni嵌入英伟达”算力+模型+工具链+应用”的完整体系，是其向Agent时代延伸的关键支点。

💡为何值得关注：2026年AI产业竞争的关键转向，已从”谁的模型更聪明”变为“谁的Agent更能干活”。英伟达以芯片为底、以全模态模型为翼，正在构建Agent时代最完整的纵向整合生态。

◆ ◆ ◆

5️⃣ Gemini Embedding 2正式GA，首个原生多模态向量模型上线

Google发布Gemini Embedding 2，这是Gemini API首个原生多模态Embedding模型，能将文本、图片、视频、音频、PDF全部映射到同一向量空间，支持100+语言。目前已有三家企业客户在实际应用中获得显著性能提升。

传统多模态检索需要为每个模态单独训练Embedding模型，再通过复杂管道拼接。Gemini Embedding 2一次性解决所有模态，多模态语义检索正式进入实用阶段。

💡为何值得关注：多模态向量模型的成熟，将直接推动企业知识库、内容推荐、跨模态搜索等场景的体验跃升。对于正在搭建AI应用层的团队，这是一个值得立即评估的基础能力。

◆ ◆ ◆

📌 明日关注

• 5月6日：Anthropic旧金山开发者大会，Jupiter（Claude Sonnet 4.8？）是否正式亮相
• 英伟达Vera Rubin平台：2026年Q3-Q4量产进展追踪
• 国内大模型：5月是否延续4月”日更”节奏，各家新版本动向

作者：無住｜华藏世界品

如获法益，欢迎分享