本周 AI 前沿:Opus 4.8,AWS 部署 Managed Agents,更新 Harness

摘要

Anthropic 在 5 月 28 日发布 Claude Opus 4.8，距上一代约六周，官方把改进口径放在长程编码的稳定性而非基准分数。

同周 Managed Agents 登陆 AWS，Messages API 新增会话中途 system 指令、拒绝无产出不计费。

开发者社区这一阶段的主线落在 harness 与 context 工程——换掉 agent 的 harness，对编码成功率的提升有时比换一代模型更大。

引子

Anthropic 在 Opus 4.7 发布约六周后推出 Opus 4.8，是它迄今最快的版本节奏。官方发布说明把改进集中在长程 agentic 编码的稳定性，而不是更高的基准分数。与之呼应，开发者社区这一阶段讨论最多的，是几个具体的 harness 实验和研究——换代码编辑格式、自动合成运行时约束、多轮对话掉点。本文按模型、平台、社区三块梳理 5 月 28 日到 6 月 4 日的前沿动态。

模型：Opus 4.8 与跨厂商格局

据 Claude 平台发布说明与 What's new in Claude Opus 4.8，Opus 4.8（API 标识 claude-opus-4-8）于 5 月 28 日上线，价格与 4.7 持平，为 $5 / $25 每百万 token；fast 模式（API research preview）$10 / $50，最高 2.5 倍输出速度。默认 1M token 上下文（API、Bedrock、Vertex；Microsoft Foundry 为 200k），128k 最大输出，effort 参数在所有界面默认 high，自适应思考（adaptive thinking）是唯一的思考模式。

官方在能力说明里强调的是三处行为改进：长程 agentic 编码（更少 compaction、compaction 后恢复更好、长上下文更稳）、推理 effort 校准、工具触发（更少漏掉任务需要的工具调用）。该文档没有给出基准分数。发布公告另强调诚实度提升，据其口径，模型约四倍更少地忽略写出代码中的缺陷。

基准数字目前主要来自第三方整理。据 Vellum、llm-stats 等的汇总，Opus 4.8 在 SWE-Bench Pro 上约 69.2%，高于 4.7 的 64.3%；在接近饱和的 SWE-Bench Verified 上约 88.6%，对 4.7 的 87.6% 是小幅提升。Anthropic 自述这是一次"温和但可感知的改进"（据 llm-stats 转述）。社区反应正反并存：Hacker News 发布当天集中吐槽过度拒绝（"malware reminder"模式）和回答变短，长程 agentic 与编码用户则普遍反馈判断力更好。

跨厂商方面，时间略早于本窗口但构成对照：Google 在 5 月 19 日 I/O 上发布 Gemini 3.5 Flash，定位编码与 agentic，输出速度约 4 倍、价格 $1.50 / $9.00，据多家整理 SWE-Bench Verified 约 78%；OpenAI 的 GPT-5.5 自 5 月下旬成为 ChatGPT 默认模型，并于 6 月 2 日登陆 AWS。

平台：agent 能力补到 AWS，API 两处经济性改动

5 月 29 日，Managed Agents 的 webhooks、多 agent 编排（multiagent orchestration）、自托管沙箱（self-hosted sandboxes）在 Claude Platform on AWS 上线，并新增对应的 IAM action 与 AnthropicSelfHostedEnvironmentAccess 托管策略。此前这些能力在一方 API 上分批开放（5 月 6 日到 5 月 19 日），这次补齐到 AWS 通道。

5 月 28 日随 Opus 4.8 上线的会话中途 system 指令（mid-conversation system messages），允许在 messages 数组里某个 user 轮之后追加 role: "system" 消息，在长会话中途更新指令而不重写顶层 system 字段，从而保住之前轮次的 prompt 缓存。该能力仅 Opus 4.8 支持，无需 beta header，具体用法见同期实操篇。

6 月 2 日 API 有两处面向成本的改动：advisor 工具新增 max_tokens 参数，给 advisor 模型每次输出封顶以降低延迟和输出成本；当请求返回 stop_reason: "refusal" 且模型未产出任何内容时，不再计费。后者配合 Opus 4.8 起公开文档化的 stop_details（category 取 cyber、bio 或 null），让应用能区分不同类别的拒绝并分流处理。Claude Code 侧，Workflows 与 Dynamic Workflows 以 research preview 形态提供，用于定义并运行多步 agentic 计划。

社区：harness 层的几个带数据的动作

harness（agent 外层的执行框架）与 context 工程的重要性已是共识，更值得记的是最近几个具体进展。

一篇被反复引用的实验是 blog.can.ac 的《I Improved 15 LLMs at Coding in One Afternoon. Only the Harness Changed》。作者用一种叫 hashline 的代码编辑格式（给每行打内容哈希、免去模型逐字复现原文），在 15 个模型上把编码成功率最高提升 61.6 个百分点，且越弱的模型获益越大；对比之下，Codex 的 apply_patch 格式给到不熟悉它的模型时补丁失败率飙升，Grok 4 达 50.7%、GLM-4.7 达 46.2%。作者的核心观察是，一次 8% 的成功率提升比多数模型升级带来的还多，而它零训练成本，只花了约 300 美元做基准。

另一条证据来自微软与 Salesforce 的论文《LLMs Get Lost in Multi-Turn Conversation》（arXiv 2505.06120）。研究在六类生成任务上把单轮 prompt 拆成多轮对话，所有受测的开源与闭源模型平均掉 39%，且问题在两轮对话时就出现；对 20 万次模拟对话的拆解显示，下降主要来自可靠性的上升而非能力的损失——模型在早期轮次过早给出结论，一旦走偏就难以恢复。MongoDB 在 5 月的工程博客里把同一判断概括为：在 agent 系统里，LLM 是最小的那一部分。

这条主线给本周的模型更新提供了另一个读法，深度篇展开。

安全方面，Anthropic 6 月 3 日发布了与 MITRE ATT&CK 对照的一年 AI 威胁测绘（分析 2025 年 3 月至 2026 年 3 月间被封的 832 个账号），并在与 MITRE 讨论该框架如何纳入 AI 自治攻击行为，细节见参考链接。

几条值得花时间的内容

按对开发工作的实际影响排序：

一、会话中途 system 指令（仅 Opus 4.8）。长会话里更新指令而不丢缓存，对 agentic loop 的成本影响直接，实操篇有完整示例。

二、编辑格式这一层。据 blog.can.ac 的实验，仅换一种代码编辑格式就在 15 个模型上把编码成功率最高提升 61.6 个百分点，零训练成本——比追下一代模型的杠杆可能更大。

三、Opus 4.8 的迁移注意点。effort 默认 high、temperature 等采样参数仍返回 400、思考只支持自适应模式，从 4.7 升级前对照迁移指南。

四、Managed Agents 上 AWS。已在 AWS 上做合规与计费的团队，自托管沙箱和多 agent 编排现在走原生通道。

本文事实部分来自 Anthropic 官方发布说明与平台文档（一手）。基准分数为第三方聚合站（Vellum、llm-stats）整理，非 Anthropic 官方口径，已在文中标注。harness 与多轮对话的两项研究分别来自 blog.can.ac 的公开实验记录和 arXiv 预印本。社区反应为 Hacker News、Reddit 的公开讨论，代表个别用户体感，非普遍结论。