摘要
Anthropic 在 5 月 28 日发布 Claude Opus 4.8,距上一代约六周,官方把改进口径放在长程编码的稳定性而非基准分数。
同周 Managed Agents 登陆 AWS,Messages API 新增会话中途 system 指令、拒绝无产出不计费。
开发者社区这一阶段的主线落在 harness 与 context 工程——换掉 agent 的 harness,对编码成功率的提升有时比换一代模型更大。
引子
Anthropic 在 Opus 4.7 发布约六周后推出 Opus 4.8,是它迄今最快的版本节奏。官方发布说明把改进集中在长程 agentic 编码的稳定性,而不是更高的基准分数。与之呼应,开发者社区这一阶段讨论最多的,是几个具体的 harness 实验和研究——换代码编辑格式、自动合成运行时约束、多轮对话掉点。本文按模型、平台、社区三块梳理 5 月 28 日到 6 月 4 日的前沿动态。
模型:Opus 4.8 与跨厂商格局
据 Claude 平台发布说明 与 What's new in Claude Opus 4.8,Opus 4.8(API 标识 claude-opus-4-8)于 5 月 28 日上线,价格与 4.7 持平,为 $5 / $25 每百万 token;fast 模式(API research preview)$10 / $50,最高 2.5 倍输出速度。默认 1M token 上下文(API、Bedrock、Vertex;Microsoft Foundry 为 200k),128k 最大输出,effort 参数在所有界面默认 high,自适应思考(adaptive thinking)是唯一的思考模式。
官方在能力说明里强调的是三处行为改进:长程 agentic 编码(更少 compaction、compaction 后恢复更好、长上下文更稳)、推理 effort 校准、工具触发(更少漏掉任务需要的工具调用)。 该文档没有给出基准分数。发布公告另强调诚实度提升,据其口径,模型约四倍更少地忽略写出代码中的缺陷。
基准数字目前主要来自第三方整理。据 Vellum、llm-stats 等的汇总,Opus 4.8 在 SWE-Bench Pro 上约 69.2%,高于 4.7 的 64.3%;在接近饱和的 SWE-Bench Verified 上约 88.6%,对 4.7 的 87.6% 是小幅提升。Anthropic 自述这是一次"温和但可感知的改进"(据 llm-stats 转述)。社区反应正反并存:Hacker News 发布当天集中吐槽过度拒绝("malware reminder"模式)和回答变短,长程 agentic 与编码用户则普遍反馈判断力更好。
跨厂商方面,时间略早于本窗口但构成对照:Google 在 5 月 19 日 I/O 上发布 Gemini 3.5 Flash,定位编码与 agentic,输出速度约 4 倍、价格 $1.50 / $9.00,据多家整理 SWE-Bench Verified 约 78%;OpenAI 的 GPT-5.5 自 5 月下旬成为 ChatGPT 默认模型,并于 6 月 2 日登陆 AWS。
平台:agent 能力补到 AWS,API 两处经济性改动
5 月 29 日,Managed Agents 的 webhooks、多 agent 编排(multiagent orchestration)、自托管沙箱(self-hosted sandboxes)在 Claude Platform on AWS 上线,并新增对应的 IAM action 与 AnthropicSelfHostedEnvironmentAccess 托管策略。此前这些能力在一方 API 上分批开放(5 月 6 日到 5 月 19 日),这次补齐到 AWS 通道。
5 月 28 日随 Opus 4.8 上线的会话中途 system 指令(mid-conversation system messages),允许在 messages 数组里某个 user 轮之后追加 role: "system" 消息,在长会话中途更新指令而不重写顶层 system 字段,从而保住之前轮次的 prompt 缓存。该能力仅 Opus 4.8 支持,无需 beta header,具体用法见同期实操篇。
6 月 2 日 API 有两处面向成本的改动:advisor 工具新增 max_tokens 参数,给 advisor 模型每次输出封顶以降低延迟和输出成本;当请求返回 stop_reason: "refusal" 且模型未产出任何内容时,不再计费。后者配合 Opus 4.8 起公开文档化的 stop_details(category 取 cyber、bio 或 null),让应用能区分不同类别的拒绝并分流处理。Claude Code 侧,Workflows 与 Dynamic Workflows 以 research preview 形态提供,用于定义并运行多步 agentic 计划。
社区:harness 层的几个带数据的动作
harness(agent 外层的执行框架)与 context 工程的重要性已是共识,更值得记的是最近几个具体进展。
一篇被反复引用的实验是 blog.can.ac 的《I Improved 15 LLMs at Coding in One Afternoon. Only the Harness Changed》。作者用一种叫 hashline 的代码编辑格式(给每行打内容哈希、免去模型逐字复现原文),在 15 个模型上把编码成功率最高提升 61.6 个百分点,且越弱的模型获益越大; 对比之下,Codex 的 apply_patch 格式给到不熟悉它的模型时补丁失败率飙升,Grok 4 达 50.7%、GLM-4.7 达 46.2%。作者的核心观察是,一次 8% 的成功率提升比多数模型升级带来的还多,而它零训练成本,只花了约 300 美元做基准。
另一条证据来自微软与 Salesforce 的论文《LLMs Get Lost in Multi-Turn Conversation》(arXiv 2505.06120)。研究在六类生成任务上把单轮 prompt 拆成多轮对话,所有受测的开源与闭源模型平均掉 39%,且问题在两轮对话时就出现;对 20 万次模拟对话的拆解显示,下降主要来自可靠性的上升而非能力的损失——模型在早期轮次过早给出结论,一旦走偏就难以恢复。MongoDB 在 5 月的工程博客里把同一判断概括为:在 agent 系统里,LLM 是最小的那一部分。
这条主线给本周的模型更新提供了另一个读法,深度篇展开。
安全方面,Anthropic 6 月 3 日发布了与 MITRE ATT&CK 对照的一年 AI 威胁测绘(分析 2025 年 3 月至 2026 年 3 月间被封的 832 个账号),并在与 MITRE 讨论该框架如何纳入 AI 自治攻击行为,细节见参考链接。
几条值得花时间的内容
按对开发工作的实际影响排序:
一、会话中途 system 指令(仅 Opus 4.8)。长会话里更新指令而不丢缓存,对 agentic loop 的成本影响直接,实操篇有完整示例。
二、编辑格式这一层。据 blog.can.ac 的实验,仅换一种代码编辑格式就在 15 个模型上把编码成功率最高提升 61.6 个百分点,零训练成本——比追下一代模型的杠杆可能更大。
三、Opus 4.8 的迁移注意点。effort 默认 high、temperature 等采样参数仍返回 400、思考只支持自适应模式,从 4.7 升级前对照迁移指南。
四、Managed Agents 上 AWS。已在 AWS 上做合规与计费的团队,自托管沙箱和多 agent 编排现在走原生通道。
本文事实部分来自 Anthropic 官方发布说明与平台文档(一手)。基准分数为第三方聚合站(Vellum、llm-stats)整理,非 Anthropic 官方口径,已在文中标注。harness 与多轮对话的两项研究分别来自 blog.can.ac 的公开实验记录和 arXiv 预印本。社区反应为 Hacker News、Reddit 的公开讨论,代表个别用户体感,非普遍结论。
夜雨聆风