
TL;DR — 如果说 4 月是功能密度最高的一个月,那么 5 月是叙事方式发生转折的一个月。最有标志性的一幕发生在 Code with Claude 大会的第七分钟:新 CPO Ami Vora 直接说"今天没有新模型"。当 Anthropic 终于在月底发布 Opus 4.8 时,它被刻意做成了一次"能感知但不夸张"的增量升级,随即因为"诚实过头"和 token 消耗失控引来一片骂声。这一个月真正的竞争发生在模型之下的三层:异步长时运行 agent 的基础设施(Routines / Outcomes / Dreaming、Dynamic Workflows)、多前端共享单一 harness 的架构收编(Antigravity Go CLI、Cursor Composer 2.5、Devin "one agent, every surface"),以及经济层的重构(国产价格战把推理成本打到地板、Cursor 用 1/10 成本对标旗舰、MCP 正在变成持牌数据的发行协议、Stainless 收购 + Colossus 算力 + 650 亿融资的资本动作)。与此同时,Antigravity 2.0 的回归级 bug 和 Opus 4.8 发布当天的 Claude Code 卡死,暴露了同一个结构性问题:发版速度已经跑在了质量保障的前面。
发布时间线
一个月里,行业把重心从"谁的模型在 benchmark 上更高"挪到了"谁的产品堆栈能让 agent 跑得更久、记得更牢、算得更便宜"。模型仍在迭代,但它不再是发布会的主角。
一、Code with Claude 2026:Anthropic 主动承认自己是产品公司

5 月 6 日在旧金山开幕的 Code with Claude,是理解这一整个月的钥匙。去年首届大会的压轴是 Dario 和 Mike Krieger 聊"模型能力走到哪了";今年 Krieger 卸任 CPO,新 CPO Ami Vora(前 WhatsApp 产品负责人)在 keynote 第七分钟就把基调定死:"今天没有新模型,今天讲的是我们怎么把产品做得更好用。"对一家以"frontier lab"自我定位的公司来说,主动把发布会从"秀模型"改成"秀产品管线",本身就是一个组织层面的表态——Anthropic 在回答"靠模型领先还能撑多久"这个问题,给出的答案是把护城河从"下一个模型"挪到"绕着模型修出来的产品堆栈"。过去一年 API 调用量同比 17 倍、Claude Code 的 Pro/Max/Team/Enterprise 付费矩阵成了主力收入盘,是这个转向的底气。
异步 Agent 三件套:调度、评估、记忆
这届最值得拆开看的一条技术线,是 Anthropic 同一天把三个互相正交的组件凑齐,拼出了一张异步长时运行 agent 的完整基础设施图。要理解它们为什么能拼到一起,得先看大会前几天那篇工程博客《Scaling Managed Agents: Decoupling the brain from the hands》——它把 Managed Agents 的内核抽象成三个可替换接口:session(append-only 事件日志)、harness(调用 Claude 并路由 tool call 的循环)、sandbox(执行代码的隔离环境)。每一层都能独立实现、独立失败、独立恢复,就像操作系统把硬件虚拟成 process 和 file。

在这张虚拟化抽象之上,三件套各自挂在不同的位置。Routines 是对 harness 的外部触发器——把一个 prompt、若干仓库、一组 connector 打包成可调度、可 webhook 触发的任务单元,官方的话术是"开发者设置好异步自动化,醒来就看到一批可以合并的 PR"。Simon Willison 第一时间就点破了它的底色:"这听起来就是个 Ralph loop"——社区里流传已久的异步 agent 编排范式,被 Anthropic 升格成了官方 primitive。CI auto-fix 是它的第一个消费端:Claude 自动给 Claude Code 发 prompt 修 PR 上的红叉,Boris Cherny 的台词比 API 本身更代表趋势——"拥有这个 PR 的人永远不会看到那个红叉"。异步 agent 的价值不在"让 Claude 多做一件事",而在"让人类少看到一个失败信号"。
Outcomes 解决的是"什么时候停"。开发者把成功标准写成 rubric,一个独立的 grader 评估输出,agent 自我迭代直到通过。Anthropic 公布的内部数字是 docx 任务 +8.4%、pptx 任务 +10.1%,但百分比不是重点,架构才是:它把评判者和执行者解耦,grader 是独立调用而不是同一条上下文里 prompt 出来的自检。这是 prompt engineering 向 eval-driven development 迁移的又一个信号。
Dreaming(research preview,申请制)是三者里最有哲学意味也最有争议的一个。它是一个定时调度的离线 job,回过头审视 agent 过去的 session 和 memory store,识别反复犯的错和团队偏好,然后重写 memory store 保持信噪比。Simon 现场演示里,Dreaming 跑完一晚生成了一个 descent-playbook.md——注意这个设计细节:Anthropic 选择把沉淀后的记忆落成人类可读的 markdown,而不是塞进不透明的向量库。这和 Claude Code"一切 context 都应该是可审计文本"的哲学一致。但外部反应最两极的也是它——Business Insider、Cointelegraph 都做了专题,质疑集中在数据溯源:agent 到底往记忆里沉淀了什么、谁有权审计、如果错误被"做梦"环节固化了怎么办。Anthropic 走申请制而不是直接 public beta,本身就是"我们也没拿准"的信号。
三件套放回同一张图看,逻辑就清楚了:Routines 解决"怎么调度",Outcomes 解决"什么时候停",Dreaming 解决"下一次怎么比这一次更好"。Anthropic 第一次把异步长时运行 agent 的三个核心痛点同时塞进了自家的 managed 基础设施。横向对比这条赛道,每家的赌注完全不在一个坐标系上:Cursor 给 agent 配 computer(隔离的执行环境),Cognition 给 agent 配身份(固定的 onboarding、Slack handle、Jira 账号),Anthropic 给 agent 配 runtime 和记忆。三家都在喊"异步 agent",解决的其实是环境隔离、角色扮演、运行时底座三个不同问题。
SpaceX Colossus:一笔被顺口宣布的算力交易
Ami Vora 在 keynote 里几乎是顺口说了一句"我们和 SpaceX 合作,用上他们 Colossus 数据中心的全部容量",翻译成干货是 300+ MW 新增容量、22 万张以上 NVIDIA GPU、一个月内上线。同日宣布的还有 Claude Code 五小时额度全面翻倍(Pro/Max/Team/seat-based Enterprise)、Pro/Max 高峰期限流取消、Opus API rate limit 大幅提升。三件事同日发布不是巧合,而是协调过的——没有这 300 MW,rate limit 翻倍就是空头支票,这也是对 4 月 Claude Code"两个 prompt 烧光整周额度"那场危机的正面回应。
但这笔交易有政治温度。Simon 在 liveblog 里冷冷加了一句:这正是 xAI 那个在孟菲斯有糟糕环保记录的 Colossus 数据中心(柴油发电机许可证、社区诉讼)。一家过去几年刻意强调"负责任 AI"的公司,选择和马斯克的基础设施捆绑,是一个会被长期追问的选择。
MCP 正在变成持牌数据的发行协议
大会最容易被低估的产业信号藏在金融垂直里。Anthropic 放出了十个金融服务 agent 模板,配套八家数据供应商一次性接入(Dun & Bradstreet、Guidepoint、IBISWorld、Third Bridge、Verisk 等机构金融真金白银买的持牌数据源),以及 Microsoft 365 原生 add-in。但真正值得盯的是 Moody's 以 MCP app 形态发布覆盖 6 亿+ 公司的信用评级——它走的不是 REST API 也不是私有 SDK,而是 MCP。这说明 MCP 正在从"Anthropic 的生态绑定协议"向事实上的 B2B 持牌数据分发标准过渡。
这个走向会直接把 OpenAI、Google、Cursor 几家的集成路线逼到墙角。过去两年它们对 MCP 一直是"兼容但不拥抱"——OpenAI 在 Responses API 里做自己的 tool calling、Google Vertex 走 Agent Builder、Cursor 走内部插件体系。只要 MCP 停留在"Anthropic 生态的协议",这些自成一套的方案就能成立;可一旦 Moody's、Bloomberg 这类持牌数据源只以 MCP app 形态发货,不实现 MCP 就等于进不了机构金融客户的采购清单。MCP 的筹码从来不是技术先进性,而是谁先把持牌数据绑在上面——Anthropic 在用金融垂直做协议外交,把对手的选择空间从"要不要做 MCP"压缩成"多快做 MCP"。

值得记一笔的还有 Dario 在压轴对谈里那句被 Business Insider 做成头条的话——"growth too hard to handle"。营收、招人、算力、合规四件事同时推进,每个运营问题都被放大十倍。对一家曾被嘲讽"太学院派"的公司来说,把"被自己的增长压垮"作为公开话语,是一次有意识的人格松绑。另一个销售价值高于任何 benchmark 的数字来自 Mercado Libre——这家有 2.3 万工程师的拉美电商龙头,把"2026 Q3 做到 90% autonomous coding"写进了公开 session 标题。
二、Opus 4.8:一次刻意的增量升级,和一场关于"诚实"的反噬

5 月 28 日,距 Opus 4.7 仅 41 天,Anthropic 发布了 Opus 4.8——Opus 系列最快的迭代节奏。官方口径很克制,把它定位成"幅度不算夸张、但能感知到的提升",价格与 4.7 持平(输入 $5、输出 $25 每百万 token)。三个主打卖点是更诚实、更高效的 tool calling、以及 Dynamic Workflows。

在 benchmark 上,Opus 4.8 把 SWE-bench Pro 推到 69.2%(4.7 是 64.3%),在 CursorBench 上每一个 effort level 都超过前代,Browserbase 报告它在 Online-Mind2Web 上拿到 84% 成为最强 browser-agent 模型。Anthropic 反复强调的改进是 honesty——模型"对自己代码缺陷视而不见的概率降到前代的四分之一",更倾向于在证据不足时指出不确定性而不是自信地宣称已经取得进展。这个方向在金融分析、法律审阅这类"用户本来就希望模型质疑假设"的场景里是实打实的优势,Bridgewater、Harvey、Thomson Reuters 的测试反馈都印证了这点。
同日发布的三件配套
Opus 4.8 不是单独发布,三项配套各自值得记一笔。Dynamic Workflows(Claude Code 的 research preview)是最有野心的一个:Claude 先规划,然后在单个 session 内拉起数百个并行 subagent,跑完先自验证再汇报。官方给的例子是横跨数十万行代码的仓库级 migration,从 kickoff 一直推到 merge,以现有测试套件作为交付标准。Effort control 把"投入多少 effort"做成了 claude.ai 和 Cowork 里模型选择器旁边的一个控制项,高 effort 想得更深、低 effort 回得更快也更省额度。Messages API 支持消息数组中途插入 system 指令——开发者可以在任务中途更新权限、token budget 或环境上下文,而不破坏 prompt cache,也不用把更新包装成一个 user turn。这三件套的共同指向都是"让 agent 跑得更久、更可控"。
当"诚实"变成一种产品缺陷
但 Hacker News 上 1368 条评论和 Reddit 多个高热帖呈现的画面完全不同。一个标题为"我讨厌 Opus 4.8 的诚实"的帖子收获大量共鸣,用户形容它好斗、粗暴;更精确的定性是"表演式吹毛求疵"——模型在表演它的审慎。技术上最值得关注的模式是 Opus 4.8 会纠正开发者从未做出的断言:当你说"我想实现 X",它会先推断你可能隐含了某个错误假设,然后花几百 token 解释为什么那个假设不对,即使你根本没提过。这和谄媚恰好相反,是反谄媚训练过拟合的表现——reward model 无法精确区分"用户犯了错"和"用户做了一个知情的 tradeoff",结果模型对所有场景都倾向先质疑再说。对日常写 CRUD 的开发者和写小说的创作者来说,这种被强加的"认知谦逊"是纯粹的摩擦。
第二大怨言是 token 经济学。社区一个帖子直白地说"4.8 烧 token 烧疯了,这不是技术菜的问题"。这背后有几个叠加因素:Anthropic 在文档深处承认 4.7 及以后 tokenizer 变了,同样的文本可能多消耗 35% token——你的账单贵了三分之一,代码一行没多写;从 4.7 起 budget_tokens 参数被移除,adaptive thinking 自己决定何时推理,但用户反馈它在"何时该想"上极不稳定,简单任务触发长推理、复杂任务反而跳过;而 Dynamic Workflows 把问题推到极端——Anthropic 自己的研究说多 agent 场景可以烧 15 倍 token,有用户报告"两天 20 亿 token、三个 Max 订阅"。再加上 4.8 倾向于"小步快跑"(先写 40 行确认方向再写下一段),端到端延迟反而上升,多位用户的体感是"聪明但慢到想去泡咖啡"。
雪上加霜的是发布质量。4.8 发布当天,Claude Code 出现"无法修改 thinking blocks"的 bug,会卡死长时间运行的 session,最新版全部中招。这不是新问题——4 月那次 postmortem 刚承认过服务端 rollout 导致的质量回退,41 天后同样的事再次发生,说明 Anthropic 在 Claude Code 侧的回归测试流程依然没建立起足够防护。一位用户的评论很扎心:"这就是用 Claude 的魅力。每次他们发个新东西,你的东西就全坏了。"还有人翻出 4.8 仍会幻觉出不存在的 CLI flag——当 agent 在 500 行 migration 中间自信地插入一个假 flag,整个 pipeline 会在 CI 阶段静默失败。
把这两面放在一起看,Opus 4.8 其实是 5 月那个大主题的缩影:模型质量确实在涨,但开发者体验(DX)和 token 纪律没跟上,而对一个 $100–200/月的订阅产品来说,DX 恶化比 benchmark 数字更直接影响续费。也有用户开始用脚投票——成本敏感的转向 DeepSeek V4,terminal-heavy 的转向 GPT-5.5(Terminal-Bench 2.1 上 78.2% vs 74.6%),甚至有人退回 Opus 4.5 配手动 thinking budget。
三、Cursor Composer 2.5:自研小模型的成本叙事再加码

5 月 18 日,Cursor 发布 Composer 2.5,距 Composer 2 仅两个月。它没有换基座——依然是月之暗面 Kimi K2.5 的 checkpoint——而是把赌注全押在后训练上:25 倍于 Composer 2 的合成训练任务,加上一种新的定向强化学习方法,在执行过程中给模型局部的文字反馈。结果是 SWE-bench Multilingual 79.8%、CursorBench v3.1 63.2%,在这两项上追平了 Opus 4.7 和 GPT-5.5,而每 token 成本只有约 1/10。
这个数字组合解释了 Cursor 的战略位置。它不再试图证明"自研模型能不能做旗舰",而是在证明"frontier 性能能不能用 fraction 的价格交付"。Composer 2.5 标准档 $0.50/$2.50 每百万 token,默认的 fast 档 $3/$15——后者比其他旗舰模型的 fast 档都便宜。配合发布首周双倍额度,Cursor 的意图很明确:在 Opus 4.8 因 token 膨胀挨骂、国产模型把价格打到地板的同一个窗口期,用"够好 + 够便宜 + 和 IDE 工具链深度耦合"卡住中间生态位。
但这条路有它固有的张力,和 Composer 2 时代是一样的。Cursor 主打的 CursorBench 是内部基准、无法整体开源,外部只能依赖第三方 benchmark 和主观体验;而第三方 benchmark 又被 harness 切割——同一个裸模型换 harness 排名可能重排。Cursor 自己的材料其实也没宣称全盘第一。更现实的解读是:Composer 2.5 是一个运营命题而非榜单战争——它要回答的是"自研小模型变强、变便宜的速度,够不够支撑 Cursor 作为中间层平台长期成立"。把基座绑在 Kimi K2.5 上、靠后训练拉开差距,意味着 Cursor 的命运和开源基座的演进、以及自己 RL 管线的迭代速度紧紧绑在一起。
四、Google Antigravity 2.0 + CLI:统一 harness 的正确方向,一次翻车的发布

5 月 19 日 Google I/O,Antigravity 完成了一次产品线收编:宣布把 Gemini CLI 并入 Antigravity 平台,同步发布 Antigravity 2.0 桌面应用和一个用 Go 重写的 Antigravity CLI。官方给的三个理由——更快执行(Go 原生二进制、低冷启动)、异步工作流(后台多 agent 不锁死主会话)、统一架构(CLI 与桌面共享同一 agent harness,核心改进自动惠及所有入口)——里头最重要的是第三条。继续维护 Gemini CLI 的 TypeScript core 和 Antigravity 服务端两套实现,每改一次 subagent 策略或权限都要做两遍;合并后结束双轨,是一个纯粹的工程决策。
值得注意的是语言选择上的行业分化。OpenAI 的 Codex CLI 选 Rust、Google 的 Antigravity CLI 选 Go,都是离开 Node 做终端壳;而 Anthropic 仍把 Bun 上的 TypeScript 作为 Claude Code 的运行时,Desktop 和 CLI 功能对等。这更多是组织工程栈和 harness 绑定方式的差异,而不是"Go 全面优于 Rust"这种结论。停服边界也划得很清楚:个人免费、AI Pro/Ultra 的 Gemini CLI 在 6 月 18 日停服,但 Standard/Enterprise 许可证和经 Google Cloud 的 GitHub 企业场景继续支持——10 万 stars 的开源仓库不会被归档,会退化为"企业兼容层"。
方向是对的,但发布质量是这个月最难看的一笔。Antigravity 2.0 上线当天(5/19–20),Google AI 开发者论坛涌现大量高热度差评:2.0 把 IDE 集成的终端、Remote、WSL、Editor 全拆了出去,同时出现配额双扣、鉴权丢失、free tier 几乎不可用、macOS 崩溃。一篇 XDA 评测的标题直接是"这个限制让我永久关掉了它"。升级摩擦还叠加品牌困惑——2.0 桌面、CLI、SDK、旧 IDE 四套同名,会话数据丢失需要 rsync 手动恢复,新旧安装互斥。社区接受"多 agent + 统一 harness"这个方向,但最高频的诉求是"先把可用性修好,再谈功能对等和配额"。把它和 Opus 4.8 的 Claude Code bug 放一起看,5 月反复出现的同一个教训是:当终端工具变成开发者承重的基础设施,一次回归级发布的代价远超普通软件 bug。
五、基础设施收编:Stainless 收购、Colossus 算力、$65B 融资
5 月还有一条容易被模型新闻盖过、但战略权重更高的线——头部厂商在疯狂收编 agent 基础设施。
最典型的是 Anthropic 在 5 月 18 日以超过 3 亿美元收购 Stainless。Stainless 做的事听起来不性感:接收 OpenAPI spec,输出多语言 SDK、CLI、文档站和 MCP server。但它恰好卡在 MCP 生态最关键的一个环节上——绝大多数企业现有的 REST API 并不原生支持 MCP,要把一个 API 变成 agent 可调用的工具,需要处理参数冲突合并、递归 $ref 展平、大型 API 的工具选择等一堆非显而易见的工程难题,而 Stainless 已经在 Cloudflare(1000+ endpoint)、Stripe 级别的 API 上把这些边界情况打磨过四年。Anthropic 官方公告的一句话点透了动机:"Agent 的用处取决于它能连接到什么。"更关键的卡位在于:OpenAI 和 Meta 此前的官方 SDK 都由 Stainless 生成,收购后它们要么转向质量被诟病的开源方案,要么自建——无论哪种都意味着短期内迭代速度下降。
把这笔收购放进 Anthropic 近半年的动作序列里,一条清晰的战略线浮现出来:2025 年 12 月收 Bun(agent 执行环境)、2026 年 2 月收 Vercept(computer use)、4 月收 Coefficient Bio(垂直应用)、5 月收 Stainless(连接层)。Bun 提供执行环境、Stainless 提供工具生成、MCP 提供协议层——这是在用收购拼一条完整的 agent 基础设施链。叠加 5 月 27 日宣布的 $65B Series H 融资(估值 $965B)和 Code with Claude 上那笔 SpaceX Colossus 算力交易,Anthropic 在 5 月几乎是在同时给执行层、连接层、算力层和资本层各补了一块。这种"acqui-hire + 基础设施整合"的打法,买的不是收入,而是能力和战略卡位。
六、国产价格战:DeepSeek 与 MiMo 把推理成本打到地板

当国际厂商在 token 经济学上挨骂时,国内厂商正在用工程手段把成本结构本身改写。5 月 22 日晚,DeepSeek 宣布 V4-Pro 此前的 2.5 折促销不再回滚、直接转为永久定价:缓存命中价折算成人民币约 ¥0.025/百万 token。仅仅五天后的 5 月 27 日,小米 MiMo-V2.5-Pro 贴身对齐到同一条线,标准版甚至更低。媒体标题里的"降价 99%"是营销口径——这个降幅只发生在"缓存命中输入"这一项上,对高缓存命中率的 Agent 工作流(固定 system prompt 占大头)确实接近 99%,但对每次输入都是新内容的写作、翻译类任务,实际降幅在 66%–83% 之间。
真正让降价成为可能的不是补贴,而是推理工程的三件套。小米在公告里附的那段"推理技术优化说明"信息密度极高:模型架构里每 5–6 层只有 1 层是 Global Attention,其余都是窗口 128 token 的 SWA(Sliding Window Attention),SWA 层的 KV Cache 天然"过期即可丢弃";配合 SGLang 的分级缓存 HiCache,GPU 显存只需保留活跃窗口内的 SWA Cache 加全部 Global 层 Cache,过期 Cache 直接丢弃而不换出到 CPU——小米给的数字是 GPU↔CPU 搬运量降到优化前的近 1/7、可缓存 token 数提升到近 5 倍。再叠加 MoE 稀疏激活(Pro 版 1.02 万亿参数只激活 420 亿)和原生的 3 层 MTP(多 token 预测,2.5–3.7 倍加速),单位 token 的服务成本从架构层面被砍掉了一个数量级。DeepSeek 的底牌则可能更狠——推理集群已开始接入华为昇腾 950PR 芯片,单卡采购价约英伟达同代的三分之一,这意味着这轮降价不是"促销硬撑",而是"成本结构变了所以不需要涨回去"。

这场价格战的边界也很清楚:它没有波及 OpenAI 和 Anthropic。GPT-5.5 输出仍是 $30/百万 token(DeepSeek 的 34 倍),Opus 输出 $25。市场正在沿价格分裂成两层——DeepSeek 和 MiMo 占低价端,用工程把成本打到地板、靠生态锁定变现,API 本身不是利润中心;OpenAI 和 Anthropic 占高价端,卖的是可靠性、合规和最后 5% 的能力差距。被挤压的是中间厂商:能力够不着 Opus、价格打不过 DeepSeek,智谱 GLM、月之暗面 Kimi 这些两头不靠的处境会越来越难受。对开发者的实际启示也很直接——在缓存命中 ¥0.025/百万 token 的水平上,设计好 system prompt 的缓存策略后,Agent 的输入成本几乎可以忽略,瓶颈完全转移到了输出 token。
七、国产编码工具:Qoder 1.0 一骑绝尘,CodeBuddy 与 Trae 维持迭代
如果说 4 月还能把 Qoder、CodeBuddy、Trae 放在同一个"国产 AI 编码工具"的框里讨论,5 月这三家的节奏已经明显分化。Qoder 用一次大版本发布把自己推到了和国际旗舰同一个产品形态的位置,另外两家则停留在功能补丁和渠道扩展上。

Qoder 1.0:从 AI IDE 到"智能体自主开发工作台"
5 月 15 日,阿里发布 Qoder 1.0。这个版本号本身就是一个信号——从 2025 年 8 月上线到现在交付了 60 多个迭代、服务全球 500 万用户之后,阿里选择用"1.0"来标记一次定位跃迁,而不是又一个小版本。官方的话术是"从 AI IDE 升级为智能体自主开发工作台":用户只负责定义需求,执行、验证、交付全流程由 Agent 团队在工作台内"自动驾驶"完成。
落到产品上,最核心的改动是把 Quest 从 IDE 里的一个模式升格为独立视窗。这不是换皮——它把传统的对话模式重构成了一个结构化的任务运行时(task runtime),集成任务管理、状态追踪、产物审查和知识调用,开发者可以在"派任务给 agent"和"自己协同写代码"之间无缝切换。这条思路和 5 月国际厂商的集体动作高度同频:Devin Desktop 把默认界面从文件树换成 agent 看板、Antigravity 2.0 主推后台 subagent、Claude Code 推 Dynamic Workflows——大家都在把 IDE 的重心从"编辑器"挪到"agent 调度台"。Qoder 还把并行范围扩展到跨项目、跨代码库:开发者可以在多个 Workspace 里同时跑不同项目的 Agent 任务,每个 Quest 带独立状态标签(运行中 / 等待确认 / 已完成),任务完成后自动生成 Summary 交付清单。4 月时它的专家团(规划、研究、编码、审查、测试五类专家流水线协作)还只能在 Chat 侧边栏用,1.0 把它正式搬进了 Quest,并支持自定义专家团——配置领域知识、技能和外部工具接口,拼出贴合自身业务的 agent 团队。

真正值得记一笔的是企业侧的团队知识引擎。Qoder 1.0 把此前分散的 Memory、Repo Wiki、知识卡片整合成一个统一的、团队级共享的知识引擎,agent 在执行任务时能自动调用团队规范、历史决策、模块关系、编码标准。官方给的内部数据很具体:知识引擎上线后代码留存率提升 11%、输入 token 消耗下降 40%、对话轮次减少 33%。这三个数字指向同一件事——把个人经验沉淀成组织资产,直接转化为 token 效率。这和 Anthropic 的 Dreaming(离线沉淀团队偏好到可读记忆)、Claude Code 的团队记忆是同一个方向的命题,只是 Qoder 选择把它做成开箱即用的企业功能,而不是申请制 research preview。
CodeBuddy 与 Trae:补丁与渠道,没有里程碑
相比之下,腾讯 CodeBuddy 这个月基本是维护模式。5 月 12 日的 4.9.9 版本清一色是稳定性和缺陷修复——Remote SSH 重连死循环、大历史记录崩溃、MCP OAuth 授权弹窗、Figma 组件导入闪屏之类,没有产品形态上的新东西;同期更显眼的动作反而是 5 月 15 日起执行的新计费方案和把企业旗舰版调整为 SaaS 企业版,属于商业化调整而非能力升级。
字节的 Trae 略有动静,但量级不在一个档次。5 月 5 日 TRAE SOLO 移动端正式上线,打通手机、Web、桌面三端,加上飞书 CLI 接入、定时任务,以及面向开发的 Code 模式和面向文档/数据的 MTC(More Than Coding)模式。这条"手机下指令、电脑里的 agent 干活"的路线,和 Cursor/Claude Code 的移动端、Qoder 移动端是同一个跨设备调度的思路,对非工程师角色(产品、运营、管理者)的渗透意图也很明确。但它本质是把已有的 SOLO 能力延伸到一块新屏幕,而不是 Qoder 1.0 那种产品定位的重构。
把三家放一起看,5 月的国产编码工具呈现出一个清晰的梯度:Qoder 在产品形态上紧贴国际第一梯队的"agent 工作台"叙事并率先落地,CodeBuddy 守在迭代和商业化上,Trae 用移动端补全场景。能不能持续把"专家团 + 团队知识引擎 + 跨项目并行"这套组合的体验做扎实,决定了 Qoder 能否把这次身位优势转化为真实的用户留存——尤其是在它 4 月底刚结束半价促销、价格已对齐国际竞品的背景下。
八、趋势分析
趋势一:从 model-as-product 到 product-around-model
5 月最大的结构性变化是发布叙事的转向。Anthropic 在 Code with Claude 上明说"今天没有新模型",Opus 4.8 也被刻意做成增量;Cursor 不发新基座、只做后训练;Google 把精力从"维护一个独立 CLI"收敛到"统一平台"。这条线背后是同一个判断:frontier 模型的代差窗口在缩短,Opus 和 GPT-5.5 之间的 benchmark 差距在大多数采购场景里已经不足以左右决定。于是护城河从"下一个模型"挪到了"绕着模型修出来的东西"——Routines、Managed Agents、Cowork、MCP 生态、自研模型的成本曲线。唯一还在重度依赖模型发布拉话题的是 OpenAI,这是两条正在明显分叉的道路。
趋势二:多前端、单 harness 成为架构共识
4 月各家还在比"谁的 multi-agent 管理界面更好看",5 月的关键词变成了 harness 收敛。Antigravity 2.0 和 Go CLI 共享同一个服务端 harness,核心改进自动惠及所有入口;Anthropic 的 IDE 插件和 Desktop App 都构建在同一个 Claude Agent SDK 之上(自己吃自己的 dogfood);Cognition 在月底把这件事推到极致,喊出"one Devin, every surface"。驱动力是工程经济学——维护多套实现的迭代税太高。但这个决策对生态友好、对自身壁垒构成长期压力:当外部开发者用的是和你同一套 SDK,复刻你的产品形态在理论上不存在能力差距。
趋势三:异步长时运行 agent 从功能变成基础设施
Routines/Outcomes/Dreaming 和 Dynamic Workflows 把"异步 agent"从一个卖点变成了一层基础设施。这一层的三个核心问题——怎么调度、什么时候停、下一次怎么更好——第一次被同时产品化。但 Opus 4.8 的反弹也暴露了它的代价:数百并行 subagent 意味着 15 倍 token 消耗,自验证循环意味着更高延迟。异步 agent 的愿景(关上笔记本醒来看 PR)和它的经济现实(几分钟烧光 Max 额度)之间,还有一道没填平的沟。
趋势四:协议层的卡位战升温
5 月有三个协议同时在抢"agent 互操作"的标准位。MCP 借金融垂直的持牌数据(Moody's、八家数据商)向 B2B 分发标准过渡;ACP(JetBrains 和 Zed 发起的"agent 界的 LSP")让 agent 实现一次就能在所有支持的编辑器里跑;A2A 继续做跨厂商的 agent-to-agent 通信。Anthropic 收购 Stainless 本质上是在 MCP 这条线上加固——把"API → agent 工具"的生成能力收为己有。协议之争的胜负手不在技术先进性,而在谁先把不可替代的资产(持牌数据、编辑器装机量、SDK 生成管线)绑上去。
趋势五:发版速度跑赢了质量保障
这是 5 月最不光彩、但最值得记的一条。Antigravity 2.0 上线当天的回归级 bug(终端/WSL/Remote 丢失、配额双扣、鉴权丢失),Opus 4.8 发布当天 Claude Code 的 session 卡死——两件事指向同一个结构性问题:当 AI 编码工具变成开发者承重的基础设施,发布前的回归测试却还停留在"靠用户和自家团队当测试"的阶段。4 月 Anthropic 刚发过 postmortem,41 天后同类问题再现。竞争压力推高了发版频率,但质量保障没有同步扩容,信任正在被一次次"升级即翻车"的体验侵蚀。
九、各家策略对比
十、接下来看什么
Opus 4.8 的诚实校准会不会回调。 反谄媚训练过拟合是一个可以通过后续 checkpoint 修正的问题,关键看 Anthropic 是把"诚实"当成不可妥协的对齐目标,还是承认它在日常编码 inner loop 里是负资产。如果不调,成本敏感和创意写作的用户会持续分流。
MCP 的持牌数据飞轮能否转起来。 Moody's 走 MCP 是一个信号,但要变成趋势,需要 Bloomberg、S&P、FactSet 任何一家跟进。一旦机构金融的核心数据源只以 MCP app 形态发货,OpenAI 和 Google 的"兼容但不拥抱"策略就会被逼到墙角。这是接下来半年最值得盯的产业变量。
自研小模型的成本优势能撑多久。 Composer 2.5 用 1/10 成本对标旗舰,但它绑在 Kimi K2.5 基座上。当国产价格战把通用 API 价格也打到地板(DeepSeek 输出 $0.87/百万 token),"自研专用模型省成本"这个叙事的边际优势会被压缩——直接调便宜的通用模型可能比维护一条自研 RL 管线更划算。
6 月初已经开打的两场合并。 进入 6 月,两条 5 月埋下的线开始落地:Windsurf 在 6 月 2 日通过 OTA 变成 Devin Desktop,默认界面从文件树换成 agent 看板,并首发支持 ACP 接入 Codex、Claude Agent、OpenCode;几乎同时,OpenAI 把 Codex 推向"for every role",配套面向白领工作的六个垂直插件,延续 ChatGPT + Codex + Atlas 超级应用的合并路线。IDE 这个品类正在被重新定义为"agent 调度中心",而编码工具向"通用知识工作工具"的演化,会是下个月报的主线。
发布质量会不会成为新的竞争维度。 当"升级即翻车"反复发生,可靠的发布流程本身可能变成差异化卖点。谁先建立起企业级的回归测试和灰度发布能力,谁就能在企业采购里把"稳定"讲成故事——这在过去是基础设施软件的基本功,现在轮到 AI 编码工具补课了。
参考资料
Code with Claude / Anthropic:
•Anthropic Engineering: Scaling Managed Agents — Decoupling the brain from the hands[1]•Claude Code Routines 文档[2]•Managed Agents: Outcomes[3] · Dreams[4] · Multi-agent[5]•Simon Willison liveblog: Code w/ Claude 2026[6]•Lenny's Newsletter / Claire Vo: The 5 biggest updates explained[7]•Business Insider: Dario "growth too hard to handle"[8]
Opus 4.8:
•Anthropic: Introducing Claude Opus 4.8 (2026-05-28)[9]•Anthropic API Docs: What's new in Claude Opus 4.8[10]•Hacker News: Claude Opus 4.8 (1368 comments)[11]•[The New Stack: Opus 4.8 Made Claude Smarter. Token Discipline Got Urgent.]•Anthropic: Series H — $65B at $965B post-money[12]
Cursor Composer 2.5:
•Composer 2.5 Changelog (2026-05-18)[13]•Introducing Composer 2.5 (Cursor blog)[14]•WinBuzzer: Cursor Says Composer 2.5 Handles Longer Coding Jobs[15]
Google Antigravity:
•An important update: Transitioning Gemini CLI to Antigravity CLI (2026-05-19)[16]•Introducing Google Antigravity 2.0[17]•TechCrunch: Google launches Antigravity 2.0 with desktop app and CLI tool[18]•XDA: I tried Google's Antigravity for a week, and this limitation made me close it[19]
国产编码工具:
•Qoder 1.0 正式发布!从 AI IDE 迈向智能体自主开发工作台(阿里云开发者社区)[20]•Qoder 1.0 evolving from AI IDE to autonomous development desktop(Qoder Forum)[21]•量子位:阿里发布 Qoder 1.0,可全面接管代码生成、验证和交付流程[22]•腾讯云代码助手 CodeBuddy Release Notes(4.9.9, 2026-05-12)[23]•TRAE SOLO 移动端上线(火山引擎开发者社区,2026-05-05)[24]
收购与价格战:
•Anthropic acquires Stainless[25]•TechCrunch: Stainless helps build SDKs for OpenAI, Anthropic, and Meta[26]•MiMo-V2.5 系列调价公告[27]•DeepSeek 永久降价(新浪财经)[28]•SGLang HiCache 设计文档[29]
6 月初延伸:
•Cognition: Introducing Devin Desktop[30]•Agent Client Protocol Introduction[31]•OpenAI: Codex for every role, tool, workflow (2026-06-02)[32]
夜雨聆风