乐于分享
好东西不私藏

AI动态速报 | 顶级模型ARC-AGI-3得分不足1%,Meta收购机器人公司加速入局

AI动态速报 | 顶级模型ARC-AGI-3得分不足1%,Meta收购机器人公司加速入局

AI动态速报 | 顶级模型ARC-AGI-3得分不足1%,Meta收购机器人AI公司加速入局

📅 今日AI速报 · 2026年5月2日

   ARC-AGI-3测试让顶级大模型集体”现原形”——GPT-5.5和Claude Opus 4.7得分均不足1%,而人类可以拿满分。与此同时,Meta大手笔收购机器人AI公司,GPT-5.6和Claude下一代模型双双曝光,AI军备竞赛丝毫没有停歇的迹象。 

1️⃣ Meta收购Assured Robot Intelligence,加速人形机器人布局

Meta宣布收购专注于机器人人工智能的初创公司Assured Robot Intelligence,将其核心团队纳入Meta超级智能实验室(Superintelligence Lab),与2025年成立的Meta机器人工作室密切合作。

Assured Robot Intelligence的核心技术是为机器人开发AI模型,使其能够在复杂动态环境中理解、预测并适应人类行为。两位联合创始人 Xiaolong Wang(前英伟达研究员)和 Lerrel Pinto(曾联合创立Fauna Robotics,后者已于2026年3月被亚马逊收购)将一同加入Meta。

💡为何值得关注:Meta正系统性布局人形机器人赛道,自研硬件+底层AI系统的平台化战略逐渐清晰。特斯拉、谷歌、亚马逊、Meta——美国科技巨头已全员入局人形机器人,这场”机器人体操”才刚刚开始。 

◆ ◆ ◆

2️⃣ ARC-AGI-3测试:GPT-5.5与Claude Opus 4.7得分均不足1%

由Keras之父François Chollet创立的ARC-AGI-3基准测试,专门考验AI处理全新逻辑任务的能力。测试包含135个全新设计的环境,模型必须自主探索未知界面、从稀疏反馈中推断规则、提出并验证假设。

结果令人震惊:

模型
得分
GPT-5.5
0.43%
Claude Opus 4.7
0.18%
所有前沿推理模型
均低于1%
人类(首次接触任务)
100%(满分)

两大模型的失败模式截然不同:Claude容易锁定错误特征并坚定执行(”过度自信的直觉主义者”),GPT-5.5则假设生成广泛却难以转化为具体行动(”思维发散的理论家”)。

💡为何值得关注:当前顶尖大模型在”举一反三”的真正泛化能力上,与人类存在巨大鸿沟。ARC-AGI-3被认为是目前最接近”人类智能本质”的测试——它揭示了一个残酷事实:距离AGI,仍然道阻且长。 

◆ ◆ ◆

3️⃣ GPT-5.6后台现身,Claude Jupiter(Sonnet 4.8)同步曝光

GPT-5.5发布不足两周,开发者在OpenAI Codex API日志中发现了标记为 gpt-5.6 的路由记录——这是典型的”金丝雀部署”信号,意味着新模型已在进行极低比例的真实流量测试。

几乎同时,Claude Code源代码中泄露了完整模型矩阵,一个从未公开露面的代号Jupiter(木星)引起广泛关注。业内人士推测Jupiter即Sonnet 4.8,可能于5月6日旧金山开发者大会正式亮相。

💡为何值得关注:两家巨头下一代模型在48小时内相继曝光,标志着AI模型迭代从”版本发布”模式向“持续进化”模式转变。对于开发者和企业而言,跟踪模型路线图的节奏,比追逐单一版本更重要。 

◆ ◆ ◆

4️⃣ 英伟达发布Nemotron 3 Nano Omni,AI Agent效率提升9倍

英伟达发布开源全模态模型Nemotron 3 Nano Omni,将文本、图像、音频与视频统一到同一推理体系,专为Agentic AI设计。官方数据显示,推理吞吐量提升9倍,算力消耗大幅降低。

这不是一次孤立的模型发布——Nemotron 3 Nano Omni嵌入英伟达”算力+模型+工具链+应用”的完整体系,是其向Agent时代延伸的关键支点。

💡为何值得关注:2026年AI产业竞争的关键转向,已从”谁的模型更聪明”变为“谁的Agent更能干活”。英伟达以芯片为底、以全模态模型为翼,正在构建Agent时代最完整的纵向整合生态。 

◆ ◆ ◆

5️⃣ Gemini Embedding 2正式GA,首个原生多模态向量模型上线

Google发布Gemini Embedding 2,这是Gemini API首个原生多模态Embedding模型,能将文本、图片、视频、音频、PDF全部映射到同一向量空间,支持100+语言。目前已有三家企业客户在实际应用中获得显著性能提升。

传统多模态检索需要为每个模态单独训练Embedding模型,再通过复杂管道拼接。Gemini Embedding 2一次性解决所有模态,多模态语义检索正式进入实用阶段。

💡为何值得关注:多模态向量模型的成熟,将直接推动企业知识库、内容推荐、跨模态搜索等场景的体验跃升。对于正在搭建AI应用层的团队,这是一个值得立即评估的基础能力。 

◆ ◆ ◆

📌 明日关注

  • • 5月6日:Anthropic旧金山开发者大会,Jupiter(Claude Sonnet 4.8?)是否正式亮相
  • • 英伟达Vera Rubin平台:2026年Q3-Q4量产进展追踪
  • • 国内大模型:5月是否延续4月”日更”节奏,各家新版本动向

作者:無住 | 华藏世界品

如获法益,欢迎分享