AI内参|GPT-5.5与Claude Opus 4.7全面对决,开源模型井喷式爆发

AI内参｜GPT-5.5与Claude Opus 4.7全面对决，开源模型井喷式爆发

2026-05-15 · 覆盖前沿模型、开源生态、大厂动态、论文解读

◆ 技术生态

GPT-5.5 正式发布：自 GPT-4.5 以来首次完全重训

4 月 23 日，OpenAI 正式发布了 GPT-5.5，这是其自 GPT-4.5 以来首个完全重新训练的基座模型。此前 5.0、5.1、5.2、5.4 均是在同一基座上的增量微调。此次架构级升级带来了关键变化：1M+ token 上下文窗口（922K 输入，128K 输出），支持文本和图像输入。提供多个能力层级——从 xhigh（最慢最智能）到 low（最快最便宜）。定价为 $5/百万输入 token、$30/百万输出 token，相比 GPT-5.4 翻倍，是目前 API 定价最高的模型之一。

在基准表现上，GPT-5.5 在综合知识测试上保持领先，但在编码基准上被 Claude Opus 4.7 反超。其核心竞争力在于全栈 Agent 能力——Codex 深度整合、Responses API 生态、Operator 和 Deep Research 等产品化能力。分析认为 GPT-5.5 标志着 OpenAI 战略重心从纯粹的模型智能转向 Agent 生态系统。

来源： https://openai.com/index/gpt-5-5/
https://www.nipralo.com/blogs/gpt-5-5-review-2026

Claude Opus 4.7：编码 Agent 的全新标杆

4 月 16 日，Anthropic 发布了 Claude Opus 4.7，以 64.3% 的 SWE-Bench Pro 成绩超越了 GPT-5.4（57.7%）和 Gemini 3.1 Pro，在编码 Agent 赛道重新确立了领先地位。核心指标包括：SWE-Bench Verified 87.6%（+6.8pp vs Opus 4.6），Terminal-Bench 2.0 69.4%，Finance Agent 64.4%（SOTA），GPQA Diamond 94.2%。新增 xhigh 推理强度等级、3.3 倍更高分辨率视觉能力、跨会话 Agent 自验证机制。定价维持 $5/$25 百万 token 不变，与 Opus 4.6 相同。

Anthropic 的战略与 OpenAI 形成鲜明对比——选择在模型能力上做精做深，而非横向扩展生态。Claude Code、Claude Cowork、MCP 协议构成了开发者主导的竞争策略：专业化、深度集成、高可靠性。

来源： https://www.anthropic.com/news/claude-opus-4-7
https://www.vellum.ai/blog/claude-opus-4-7-benchmarks-explained
https://llm-stats.com/blog/research/claude-opus-4-7-launch

Grok 4.3 登场 + 今日模型退役：xAI 加速迭代

xAI 在 5 月初发布了 Grok 4.3，匹配 Grok 4.20 规模但采用改进架构，知识截止日期为 2025 年 12 月。最大的单项进步来自 GDPval-AA（Agent 任务评估）——Grok 4.3 获得 1500 ELO，比前代 Grok 4.20 0309 v2 的 1179 分暴增 321 分，同时超越 Gemini 3.1 Pro Preview、Muse Spark 等竞品。运行成本降低约 20%。

今天（5 月 15 日）正是 xAI 的多款模型退役日。根据 xAI 官方文档，多个旧模型于今日停止服务，用户被建议迁移至 Grok 4.3。这一时间点配合 Space X 收购 xAI 后加速迭代的策略，表明 xAI 正在进入全新的产品节奏。

来源： https://grok.com/release-notes
https://artificialanalysis.ai/articles/xai-launches-grok-4-3-with-improved-agentic-performance-and-lower-pricing
https://docs.x.ai/developers/migration/may-15-retirement

开源模型井喷：Qwen3.6、Kimi K2.6、Nemotron 三箭齐发

Qwen3.6 系列：阿里巴巴在一个月内连续发布两款模型。4 月 16 日的 Qwen3.6-35B-A3B（MoE，35B 总 / 3B 活跃参数，Apache 2.0）专为 Agent 编程优化，在 Coding 基准上超越 Google Gemma 4 26B A4B 达 21 个百分点。4 月 22 日的 Qwen3.6-27B（密集架构）采用 Gated DeltaNet 线性注意力与标准注意力混合架构，在多个基准上甚至超越了更大的 Qwen3.5-397B-A17B MoE 模型，且可在 MacBook Pro 上本地运行。

Kimi K2.6：4 月 20 日，Moonshot AI 发布 1 万亿参数总规模 / 32B 活跃参数的 MoE 模型。SWE-Bench Pro 58.6%，Agent Swarm 可协调 300 个子 Agent 并行执行。API 定价仅 $0.60 输入 / $2.50 输出（约 Claude Opus 4.7 的 1/10）。幻觉率从 65% 降至 39%。

NVIDIA Nemotron 3 Nano Omni：4 月 28 日发布。30B 总 / 3B 活跃参数的混合 MoE，融合 Mamba 层与 Transformer 层，支持文本/图像/视频/音频四模态统一推理。仅需 25GB 显存。视频工作负载效率比 Qwen3-Omni 高 9.2 倍，多文档工作负载高 7.4 倍。权重、训练数据和配方完全公开。

来源： https://www.marktechpost.com/2026/04/22/alibaba-qwen-team-releases-qwen3-6-27b/
https://qwen.ai/blog?id=qwen3.6-35b-a3b
https://artificialanalysis.ai/articles/kimi-k2-6-the-new-leading-open-weights-model
https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence

Agent 框架生态：OpenCode、Cline、Codex 三足鼎立

GitHub 上 AI Agent 框架热度持续攀升。OpenHands（60,427 Stars）保持领先；OpenCode（54,671 Stars）+2,006 月增，增长最猛；Cline（48,909 Stars）紧随其后；OpenAI Codex（44,189 Stars）+913 月增。共同趋势是向 MCP 协议靠拢、支持多模型后端、强化 Computer Use 能力。

来源： https://ossinsight.io/trending/ai

◆ 大厂动态

SpaceXAI-Anthropic 算力合作：硅谷最离奇的联盟

5 月 6 日，Anthropic 与 Elon Musk 的 SpaceXAI 签署算力合作协议。根据协议，Anthropic 获得位于田纳西州孟菲斯的 Colossus 1 超级计算机完整使用权——提供超过 300 兆瓦电力，搭载 22 万块 NVIDIA GPU。两公司还表示"表达了合作开发数吉瓦轨道 AI 算力的兴趣"。

战略解读：这笔交易的驱动力是算力饥渴——Anthropic 的算力承诺产生 6-12 个月交付缺口，而 Colossus 1 可立即提供超大规模算力。对于 Musk，将其竞争对手的算力租给自己的公司，获得现金回报同时建立标杆客户。同日，Anthropic 还取消了对 Pro、Max、Team 和 Enterprise 计划的五小时使用上限。

来源： https://www.axios.com/2026/05/06/anthropic-spacex-elon-musk-compute
https://www.forbes.com/sites/jonmarkman/2026/05/06/anthropic-just-signed-a-compute-deal-with-elon-musks-spacex/
https://www.wired.com/story/anthropic-spacex-compute-deal-colossus/

Musk-OpenAI $150 亿诉讼：Altman 出庭作证

2026 年 4 月 28 日开庭的 Musk v. OpenAI 诉讼案仍在奥克兰联邦法院进行。5 月 12 日，Sam Altman 出庭作证。庭审关键内容包括：Greg Brockman 的日记被提交为证据；前董事会成员 Helen Toner 作证称 Altman 对董事会不够坦诚；OpenAI 前安全负责人 Andrea Vallone 已离职加入 Anthropic；Musk 在庭上提及"终结者情景"引发法官不满。CNBC 报道预测市场认为 Musk 胜诉概率较低，预计 5 月底前宣判。

此案的核心不是金钱赔偿，而是将决定 OpenAI $1,500 亿估值 IPO 的进程和架构合理性。

来源： https://www.theguardian.com/technology/2026/may/09/elon-musk-sam-altman-openai-trial
https://www.nytimes.com/live/2026/05/12/technology/openai-trial-sam-altman-elon-musk
https://www.cnbc.com/2026/05/06/elon-musk-odds-low-to-win-openai-suit.html

OpenAI IPO 内部分歧：CFO 认为 2026 年时间线"过于激进"

据 The Information 报道，OpenAI CFO Sarah Friar 对 CEO Sam Altman 提出的 2026 年第四季度 IPO 目标表达了严重担忧，认为公司在治理结构、财务透明度和法律风险方面尚未做好准备。Altman 的 IPO 估值目标约 $1,500 亿，而 Friar 认为在 Musk 诉讼的不确定性下难以支撑。

来源： https://m.economictimes.com/tech/artificial-intelligence/openai-cfo-raises-concerns-over-sam-altmans-2026-ipo-plans/

A16z $1.7B AI 基础设施专项基金落地

Andreessen Horowitz 从其 $150 亿新基金中拨出 $17 亿专项用于 AI 基础设施。由 GP Jennifer Li 主导，投资覆盖 Black Forest Labs、Cursor、OpenAI、ElevenLabs（估值 $110 亿）、Ideogram、Fal（$45 亿）等。Li 在 TechCrunch Equity 播客中阐述了投资理念：搜索基础设施被低估、AI 初创公司面临人才短缺、融资结构从纯模型向"模型+应用+基建"复合型转变。

来源： https://www.techbuzz.ai/articles/a16z-deploys-1-7b-for-ai-infrastructure-from-15b-war-chest
https://techcrunch.com/video/a16z-just-raised-1-7b-for-ai-infrastructure-heres-where-its-going/

◆ 论文解读

Skill1：单一策略驱动技能全生命周期自进化

arXiv:2605.06130 · https://arxiv.org/abs/2605.06130
https://huggingface.co/papers/2605.06130

研究背景：技能增强型 Agent 虽引入持久化技能库，但技能选择、利用和蒸馏由独立模块处理，缺乏统一优化目标。

核心方案：Skill1 使用单一策略 πθ 联合进化技能全生命周期——生成查询搜索技能库、重排序选择技能、技能指导下执行任务、从轨迹蒸馏新技能。关键创新是频率感知的信用分配机制：利用信号处理中的低通/高通滤波器，将低频技能选择信号和高频技能蒸馏信号分离归因。所有学习来自单一任务奖励。

关键指标：ALFWorld 97.5% 成功率，WebShop 82.9% 成功率，显著超越所有基线。消融实验证明去掉任一信用路径都会导致进化退化。

SkillOS：Agent 的"技能操作系统"

arXiv:2605.06614 · https://arxiv.org/abs/2605.06614
https://huggingface.co/papers/2605.06614

核心方案：UIUC 和 Google Cloud AI Research 联合团队提出的 SkillOS 采用模块化双角色框架——冻结的 Agent 执行器（检索应用技能） + 可训练的技能策展人（更新管理 SkillRepo）。策展人使用复合奖励和分组任务流训练，早期轨迹更新库，后续任务评估更新效果。

关键贡献：首次将技能策展形式化为可学习 RL 问题。策展人在跨执行器架构和跨任务领域泛化能力强——A 执行器的技能库可能对 B 执行器同样有用。

Skill1 和 SkillOS 共同描绘了下一代 Agent 蓝图：Agent 不仅能学会使用技能，还能自动创建、评估、合并、淘汰技能。

MolmoAct2：开源机器人 VLA 模型走向部署

arXiv:2605.02881 · https://arxiv.org/abs/2605.02881
https://huggingface.co/papers/2605.02881
项目主页：https://allenai.org/blog/molmoact2

研究背景：VLA 模型希望单一控制器驱动机器人，但现有系统在可靠性、多形态支持和延迟上仍有巨大差距。

核心方案：AI2（Allen Institute for AI）发布 MolmoAct2，五项关键改进：Molmo2-ER 视觉语言骨干（330 万样本 specialize-then-rehearse）、流动匹配连续动作专家（通过每层 KV 缓存条件注入）、三个新数据集（720 小时双手遥操作数据集为最大开源双手数据集）。

关键指标：在 7 个模拟和真实基准上超越包括 π0.5 在内的强基线。Molmo2-ER 在 13 个具身推理基准上超越了 GPT-5 和 Gemini Robotics ER-1.5。完全开源——权重、数据集、训练配方均公开。

Stream-T1：流式视频生成的测试时缩放

arXiv:2605.04461 · https://arxiv.org/abs/2605.04461
https://huggingface.co/papers/2605.04461

研究背景：Test-Time Scaling 在语言模型中已证明有效，但在视频生成中面临时间一致性挑战——如何平衡局部质量和全局连贯性？

核心方案：Stream-T1 引入三个组件——(1) Stream-Scaled Noise Propagation：利用历史高质量噪声精炼当前块；(2) Stream-Scaled Reward Pruning：结合短期和滑动窗口长期评估，平衡空间美学和时间连贯性；(3) Stream-Scaled Memory Sinking：根据奖励反馈动态管理 KV 缓存路由。

兄弟论文 Stream-R1（arXiv:2605.03849）也同时在 HF Papers 出现，构成互补体系——R1 关注可靠性-困惑度感知奖励蒸馏，T1 关注测试时计算缩放。这是视频生成领域从"生成质量"向"生成效率可控性"转变的信号。

◆ 趋势洞察

趋势一：前沿模型竞争进入"基准分化"时代。GPT-5.5 在综合知识基准上领先，Claude Opus 4.7 在编码 Agent 称王，Gemini 3.1 Pro 在性价比和多模态整合上占优。不再有单一模型在所有维度统治。选择模型取决于具体用例。

趋势二：开源模型逼近闭源。"实用化"阶段到来。Qwen3.6（激活 3B）、Kimi K2.6（1T 总参数，300 子 Agent 并行）、Nemotron 3 Nano（25GB 运行四模态）——开源模型不再只是学术玩具，而是可在消费级硬件上运行并完成生产任务的工具。

趋势三：Agent 自进化从概念验证走向系统化。Skill1 和 SkillOS 同期出现定义了"可进化 Agent"的工程蓝图：技能选择 + 利用 + 蒸馏 + 策展的全流程闭环。

趋势四：AI 行业进入"算力 + 资本 + 治理"多维竞争。SpaceXAI-Anthropic 算力协议、A16z $1.7B 基建基金、OpenAI IPO 内部博弈——谁掌握算力基础设施，谁拥有真正的行业话语权。

标签： #AI日报 #GPT-5.5 #ClaudeOpus4.7 #Grok4.3 #xAI #Qwen3.6 #KimiK2.6 #Nemotron #NVIDIA #SpaceXAI #Anthropic #OpenAIIPO #MuskTrial #A16z #Skill1 #SkillOS #MolmoAct2 #StreamT1 #Agent #OpenSource

本文为 AI 日报自动生成，所有信息已标注具体来源 URL。数据截至 2026 年 5 月 15 日。