AI 时代的软件开发新范式:Anthropic《Harness design for long-running application development》深度解读

AI 时代的软件开发新范式：Anthropic《Harness design for long-running application development》深度解读

引言：Anthropic 的 Harness 工程变革

2026 年 3 月 24 日，Anthropic 工程团队发布了一篇重磅技术博客《Harness design for long-running application development》，由 Anthropic Labs 团队成员 Prithvi Rajasekaran 撰写。这篇文章不仅展示了令人印象深刻的工程成果 —— 一个由 AI 自主编写的功能完备的浏览器端数字音频工作站（DAW），更揭示了一套在智能体时代具有普适意义的系统设计方法论。

与这篇最新文章相呼应的是，Anthropic 早在 2025 年 11 月 26 日就发布了《Effective harnesses for long-running agents》，为构建长期运行的 AI 代理提供了系统性框架。这两篇文章共同勾勒出 Anthropic 在Harness 工程领域的完整技术图景，展现了从基础架构设计到复杂应用开发的演进路径。

值得注意的是，几乎在同一时期，OpenAI 也发布了《Harness engineering: leveraging Codex in an agent-first world》，两家公司不约而同地提出了 “Harness Engineering” 这一核心概念。这种技术共识的形成，标志着 AI 工程正经历着从 “编写代码” 到 “设计智能体运行环境” 的根本性范式转变。

本文将深入解读 Anthropic 的这两篇核心文章，从技术架构、工程方法、实际案例到哲学理念等多个维度，全面剖析 Anthropic 如何通过 Harness 工程重新定义 AI 时代的软件开发范式。

一、技术架构深度解析

1.1 从双代理到三代理的架构演进

Anthropic 的 Harness 架构经历了从简单到复杂的演进过程。在《Effective harnesses for long-running agents》中，Anthropic 提出了双代理架构，包括初始化代理（Initializer Agent）和编码代理（Coding Agent）。

初始化代理的核心任务是为项目建立基础环境：

• 创建 Git 仓库
• 生成启动脚本（如 init.sh）
• 输出详细的功能列表文件（feature_list.json）
• 创建进度日志文件（如 claude-progress.txt）
• 提交初始代码

编码代理则负责增量式开发：

• 从文件和历史记录中恢复项目状态
• 一次只实现一个未完成的功能
• 每轮结束前执行端到端测试
• 提交代码并更新进度日志

而在最新的《Harness design for long-running application development》中，Anthropic 将架构升级为三代理系统，每个代理针对特定的能力缺口：

1. 规划器（Planner）：将简短的 1-4 句用户提示扩展为完整的产品规格文档
2. 生成器（Generator）：按 Sprint 逐个实现功能，使用 React/Vite/FastAPI/SQLite 技术栈
3. 评估器（Evaluator）：通过 Playwright 测试运行中的应用，按合同标准评分

这种架构演进反映了 Anthropic 对智能体协作模式的深刻理解：复杂任务需要专业化分工，而非单一代理的 “全能” 模式。

1.2 核心技术组件与架构设计

Anthropic 的 Harness 架构包含多个关键技术组件，每个组件都针对特定的工程挑战进行了精心设计。

Model Context Protocol（MCP）集成是整个架构的基础。MCP 是 Anthropic 创建并管理的开放协议，已达到每月 9700 万次 SDK 下载和超过 10000 个活跃服务器，被 OpenAI、Google 和 Microsoft 采用。MCP 的核心优势在于它能够让智能体直接操作真实的应用环境，而不仅仅是处理静态代码。

Playwright MCP 集成是评估器的关键能力。评估器使用 Playwright MCP 像真实用户一样与页面交互，自主导航页面、截图、仔细研究实现效果，然后对每个维度进行打分并撰写详细评论。这种动态测试方式比静态代码审查更加可靠，能够发现许多静态分析无法捕捉的问题。

上下文管理机制解决了长期运行的关键挑战。Anthropic 观察到一种被称为 “上下文焦虑”（Context Anxiety） 的现象 —— 模型会在自认为接近上下文上限时，开始过早地 “收尾” 工作。为此，Anthropic 开发了两种解决方案：

1. 上下文压缩（Compaction）：对对话历史的早期部分进行摘要，保留近期上下文继续工作
2. 上下文重置（Context Reset）：彻底清空上下文窗口，启动全新代理实例，通过结构化交接文档传递状态

在实际应用中，早期使用 Sonnet 4.5 时必须强制重置，而 Opus 4.6 改进后可在单一会话中持续运行数小时。

1.3 对抗式架构设计

Anthropic 的一个关键创新是从 生成对抗网络（GAN） 中汲取灵感，设计了对抗式 Harness 架构。这一设计理念在评估器的实现中得到了充分体现。

四维评分体系是评估器的核心机制，包括：

• 设计质量（Design Quality）：考察设计是否作为连贯整体存在
• 原创性（Originality）：检验是否存在定制化决策痕迹，避免 “AI 审美惰性”
• 工艺水准（Craft）：技术层面的执行质量，包括排版、间距、色彩等
• 功能性（Functionality）：独立于美学的可用性评估

关键策略在于权重分配：Anthropic 刻意将设计质量和原创性的权重设置得高于工艺水准和功能性，因为 Claude 在后两个维度上默认表现就不错，但在设计品味和原创性上倾向于生成 “安全、可预测、技术上可用但视觉上平庸” 的布局。

Sprint 合同机制是另一个重要创新。在每个 Sprint 开始前，生成器和评估器会进行 “谈判”：生成器提出将要构建的内容和验证成功的方式，评估器审查该提案以确保生成器在构建正确的东西，双方迭代直至达成一致。这种机制有效弥合了用户故事与可测试实现之间的鸿沟。

二、工程方法与最佳实践

2.1 从单体到多智能体的工作流程革命

Anthropic 的工程方法体现了从传统单体开发到多智能体协作的根本性转变。在《Effective harnesses for long-running agents》中，Anthropic 提出了增量式开发模式，强调以下原则：

功能清单驱动的开发：初始化代理创建包含大量详细功能的 JSON 文件，例如：


{

&#x20; "category": "functional",

&#x20; "description": "New chat button creates a fresh conversation",

&#x20; "steps": \[

&#x20;   "Navigate to main interface",

&#x20;   "Click the 'New Chat' button",

&#x20;   "Verify a new conversation is created",

&#x20;   "Check that chat area shows welcome state",

&#x20;   "Verify conversation appears in sidebar"

&#x20; ],

&#x20; "passes": false

}

这个文件作为系统功能验收标准，控制每次 Coding Agent 的工作范围与验证条件，只允许通过修改 passes 字段来标记功能完成。

标准化工作流程确保了跨会话的一致性。每次会话开始时，Coding Agent 执行固定步骤：

• 检查当前目录
• 读取 Git 提交日志
• 阅读功能清单
• 选择下一个待完成的优先功能
• 启动开发服务器并进行基础测试
• 开始实现该功能

在最新的三代理架构中，工作流程变得更加复杂和高效。规划器首先将用户的简短提示扩展为完整的产品规格，生成器按 Sprint 逐个实现功能，而评估器则实时测试和评分。整个流程形成了 “规划 – 生成 – 评估 – 反馈” 的闭环。

2.2 严格的质量控制体系

Anthropic 建立了多层次的质量控制体系，确保长期运行的可靠性。

强制测试机制是质量控制的核心。Anthropic 强调，若不强制进行端到端测试，Agent 易于误判功能完成。为此，Anthropic 集成了浏览器自动化工具（如 Playwright），让 Claude 能够像真实用户一样：

• 启动本地服务器
• 打开页面
• 点击按钮
• 发送消息并获取响应

这种方法显著减少了隐藏 Bug 的数量。

对抗性质量保证是另一个重要创新。评估器被设计为 “严格的评判者”，专门寻找生成器的错误和不足。这种设计理念源于一个关键洞察：“让一个独立的评估器变得严格，比让执行器对自己的作品保持批判，在工程上要容易得多”。

评分标准的精确设计也至关重要。标准中的措辞直接塑造了生成器的行为方向，例如 “博物馆级品质” 的表述推动了设计向特定风格收敛，对 “AI 审美惰性” 特征的明确惩罚促使模型主动规避默认模式。

2.3 性能优化与成本控制

Anthropic 在追求高质量的同时，也在不断优化性能和成本。通过大量实验，Anthropic 发现了以下关键洞察：

成本效益分析显示了 Harness 的价值：

• 单代理对照组：运行 20 分钟，花费 9 美元，但核心功能损坏
• 完整 Harness 版本：运行 6 小时，花费 200 美元，功能完整且有 AI 集成

虽然完整 Harness 版本的成本是单代理的 20 倍以上，但产出质量差距显著 —— 单代理版本核心功能损坏（游戏无法运行），而驾驭版本功能完整且有 AI 集成。

效率提升机制体现在多个方面：

• 规划阶段仅用 4.7 分钟和 0.46 美元，就将一句话提示扩展成完整产品规格
• 第一轮构建耗时 2 小时 7 分钟、花费 71.08 美元，生成器在没有 Sprint 分解的情况下保持了连贯的长时间工作
• 随着模型能力提升，对 Sprint 结构和上下文重置的依赖减少

资源优化策略包括：

• 使用渐进式情境披露管理上下文，提供 “地图” 而非 “1000 页说明书”
• 通过 AGENTS.md 作为内容目录，指向结构化的 docs / 知识库，而非单一大文件
• 建立自动化的 “垃圾回收” 机制，定期运行清理 Agent 扫描并修复不良模式

三、实际案例深度剖析

3.1 复古游戏制作器：从失败到成功的对比实验

Anthropic 在报告中详细描述了一个复古游戏制作器的开发实验，这个案例完美展示了 Harness 工程的价值。

实验设置：用户提示为 “Create a 2D retro game maker with features including a level editor, sprite editor, entity behaviors, and a playable test mode”（创建一个 2D 复古游戏制作器，包含关卡编辑器、精灵编辑器、实体行为和可玩测试模式）。

单代理对照组结果：

• 运行时间：20 分钟
• 成本：9 美元
• 表面表现：初看似乎符合预期
• 实际问题：
• 布局浪费空间（固定高度面板导致大量视口留白）
• 工作流程僵硬（需要先创建精灵和实体才能填充关卡，但界面没有引导）
• 核心功能完全损坏（实体出现在屏幕上但不响应任何输入）

完整 Harness 版本结果：

• 运行时间：6 小时
• 成本：200 美元
• 发现的具体问题：
• 矩形填充工具仅在拖拽的起点和终点放置瓦片，而非填充整个区域
• LevelEditor.tsx 第 892 行的 Delete 键处理器逻辑错误
• PUT /frames/reorder 路由定义错误，导致 422 错误

评估器的价值在于能够定位到具体的代码问题，并提供详细的修复建议。这个案例生动说明了 Harness 工程的核心价值：不是让 AI 变得更聪明，而是构建一个让 AI 能够可靠工作的环境。

3.2 数字音频工作站（DAW）：从零到完整音乐制作系统

在最新的报告中，Anthropic 展示了一个更加复杂的案例 ——浏览器端数字音频工作站（DAW） 的开发。这个项目展示了 Harness 工程在处理高度复杂任务时的能力。

项目目标：”Build a fully featured DAW in the browser using the Web Audio API”（使用 Web Audio API 在浏览器中构建功能完备的数字音频工作站）。

技术栈：React + Vite + FastAPI + SQLite（后期切换为 PostgreSQL）。

开发过程：

1. 规划阶段：仅用 4.7 分钟和 0.46 美元，将一句话提示扩展成包含多个功能模块的完整产品规格
2. 第一轮构建：耗时 2 小时 7 分钟、花费 71.08 美元，生成器在没有 Sprint 分解的情况下保持了连贯的长时间工作
3. 第一轮 QA：发现多个核心 DAW 功能仅为展示性质而缺乏交互深度
4. 第二轮 QA：继续捕获录音功能仍为桩实现、剪辑边缘拖拽和分割未实现等问题

最终成果：虽然远非专业音乐制作软件，但具备了功能性音乐制作程序的所有核心要素：

• 工作的编排视图
• 混音器和传输控制
• 全部在浏览器中运行

创新功能：用户能够完全通过自然语言提示来制作音乐 —— 内置的 AI 代理可以：

• 设置节拍和调式
• 铺设旋律
• 构建鼓轨
• 调整混音电平
• 添加混响效果
• 自主驱动从零到一的简单音乐制作

3.3 荷兰艺术博物馆网站：创意跃迁的惊喜时刻

这个案例展示了 Harness 工程在创意领域的潜力。在一次以 “荷兰艺术博物馆网站” 为主题的生成实验中，发生了令人意外的创意突破。

实验过程：

• 前九轮迭代：模型逐步打磨出一个干净的深色主题博物馆着陆页，视觉效果精致但基本在预期范围内
• 第十轮迭代：模型彻底抛弃了之前的方案，将网站重新构想为空间体验—— 用 CSS 透视效果渲染的 3D 房间，棋盘格地板，画作以自由位置悬挂在墙壁上，通过 “门廊” 式导航在不同展厅之间穿行

这种创意跃迁是 Anthropic 团队此前在单轮生成中从未观察到的。它说明了两件事：

1. 对抗式反馈循环确实能推动模型突破安全舒适区
2. 评分标准的措辞本身就会影响生成方向 —— 标准中 “最好的设计达到博物馆级别品质” 这样的表述，直接引导了模型向特定的视觉风格收敛

3.4 多行业应用案例

除了上述主要案例，Anthropic 的 Harness 工程还在多个行业得到应用：

金融行业：银行采用专门的合规智能体实时对比交易模式，发现偏离时自动锁定账户转账接口，生成包含证据链的摘要提交给人类合规官。

电商行业：某运动休闲品牌从十年老平台迁移到现代化电商平台，实现全渠道统一商务体验，目标实现线上业务 3 倍增长。

内部开发案例：Anthropic 团队自己也在使用 Harness 进行内部工具开发，展示了该方法的普适性和可靠性。

四、哲学理念与设计思想

4.1 安全优先的设计哲学

Anthropic 的 Harness 设计深深植根于其独特的 AI 安全哲学。与 OpenAI 追求 “打造强大的 AI” 不同，Anthropic 明确提出 “We build reliable, interpretable, and steerable AI systems”（开发可靠、可解释且可调控的 AI 系统）。

这种哲学在 Harness 设计中体现为以下核心理念：

宪法式 AI（Constitutional AI） 是 Anthropic 的核心技术理念。其核心思想是：给 AI 一份 “宪法”—— 一套明确的原则和价值观 —— 然后训练 AI 自己依据这份宪法来监督和改进自身的行为。这种方法颠覆了传统的对齐思路：模型不是依赖人工标注者的主观价值判断来调整行为，而是按照一套公开、可审计、可复制的 “宪法原则” 进行自我校准。

可纠正性设计是 Anthropic 的另一个重要理念。在《Claude 宪法》中，首要且最根本的一条是禁止 AI 系统参与或促成任何可能引发直接物理伤害的技术应用。同时，”停止” 这一空操作被认为是最重要的纠正机制，因为它几乎不会导致即时的物理危害。

稳健性要求强调安全性必须对伦理错误和用户诱导具有极强的稳健性。在对齐技术尚未达到完美闭环的今天，”可纠正性” 是人类与 AI 之间的生命线。

4.2 对抗式协作的设计理念

Anthropic 从生成对抗网络（GAN）中汲取的设计灵感，体现了其对对抗式协作的深刻理解。

分离原则是对抗式架构的核心：

• 将 “做事” 的代理和 “评判” 的代理分离开来，比试图让一个代理既做又评要有效得多
• 分离本身并不能消除模型的宽容倾向，但调整一个独立的评估器使其变得严格和审慎，远比让生成器对自己的作品保持批判性要容易得多
• 一旦外部反馈存在，生成器就有了具体的改进方向

可调性不对称是 Anthropic 的重要洞察：让一个独立的评估器变得严格，比让执行器对自己的作品保持批判，在工程上要容易得多。这种不对称性为系统设计提供了清晰的优化方向。

竞争与协作的平衡：生成器和评估器之间既相互竞争又相互促进，形成了类似 GAN 的动态平衡。生成器通过分析评估器的反馈来改进，评估器随着生成器变得更熟练而提高自己的能力，两者都陷入了一个游戏，每个的进步都推动另一个变得更好。

4.3 渐进式改进的工程理念

Anthropic 的 Harness 设计体现了渐进式改进的工程理念，这种理念贯穿于整个技术栈的设计中。

模块化设计：将复杂系统分解为可独立优化的模块，每个模块都可以根据需要进行调整和改进。例如，规划器、生成器和评估器都可以独立演进，而不会影响整个系统的稳定性。

迭代式开发：采用类似敏捷开发的 Sprint 模式，每个 Sprint 都有明确的目标和验收标准。这种方法允许系统在保持整体方向的同时，根据反馈不断调整和优化。

持续学习机制：Harness 本身也在学习和改进。通过分析运行日志和性能数据，Harness 可以自动调整参数、优化工作流程，甚至发现新的改进机会。

成本效益优化：Anthropic 始终在追求质量与成本的最佳平衡。通过大量实验，Anthropic 发现了多个优化点，例如：

• 规划阶段的投入产出比极为惊人
• 随着模型能力提升，对复杂结构的依赖减少
• 动态调整资源分配可以显著提高效率

4.4 人机协作的未来愿景

Anthropic 的 Harness 设计反映了其对人机协作未来的独特理解。与完全自主的 AI 不同，Anthropic 更倾向于构建 “人类在循环中”（Human in the Loop）的系统。

人类价值的重新定义：随着 AI 能力的提升，人类的角色从 “代码编写者” 转变为 “系统设计者” 和 “价值判断者”。人类的核心价值不再是执行重复性任务，而是提供创造性洞察、伦理判断和战略指导。

协作模式的创新：Anthropic 设计的系统不是要完全取代人类，而是要增强人类的能力。例如，在音乐制作案例中，AI 代理能够理解用户的自然语言提示并执行复杂的音乐制作任务，但最终的艺术判断和创意决策仍然由人类掌控。

安全可控的协作：Anthropic 始终将安全和可控性放在首位。通过宪法式 AI 和多层安全机制，确保 AI 的行为始终在人类的掌控范围内，即使在最复杂的应用场景中也能保持安全和可靠。

五、与 OpenAI Harness Engineering 的对比分析

5.1 架构设计的根本差异

虽然 OpenAI 和 Anthropic 都提出了 Harness Engineering 的概念，但两者在技术实现上存在显著差异：

Anthropic 的多代理团队协作模式：

• 采用三代理架构：规划器、生成器、评估器
• 强调代理间的分工协作，每个代理都有明确的职责
• 通过 Sprint 合同机制实现代理间的协调

OpenAI 的中间件链 + Plugin 挂载模式：

• 采用串行执行的看护模式
• 通过中间件链处理请求
• 使用插件系统扩展功能

这种架构差异反映了两家公司不同的技术哲学：Anthropic 更注重系统性设计和协作模式，而 OpenAI 更偏向于灵活性和可扩展性。

5.2 核心技术路径的分歧

在具体技术实现上，两家公司选择了不同的路径：

上下文管理策略：

• Anthropic：采用压缩和重置两种策略，根据模型能力动态选择
• OpenAI：通过渐进式情境披露管理上下文，提供 “地图” 而非 “1000 页说明书”

验证机制设计：

• Anthropic：启动独立的 Evaluator Agent 运行 Playwright 测试，进行动态测试
• OpenAI：使用 PreCompletionChecklist 自动运行测试、类型检查、lint 等静态检查

开发模式差异：

• Anthropic：强调对抗式协作，通过生成器和评估器的竞争促进质量提升
• OpenAI：追求零人工编码，所有代码必须由 Codex 编写，包括应用逻辑、测试、CI 配置等

5.3 哲学理念的根本分歧

两家公司在哲学理念上的分歧更加深刻：

Anthropic 的安全优先理念：

• 使命声明：”We build reliable, interpretable, and steerable AI systems”
• 核心价值观：安全、可靠、可解释、可调控
• 技术路径：宪法式 AI、对抗式架构、严格的质量控制

OpenAI 的能力优先理念：

• 使命声明：”Build powerful AI”
• 核心价值观：能力、效率、创新
• 技术路径：零人工编码、大规模自动化、性能优化

这种哲学差异直接影响了两家公司的技术选择。Anthropic 更像是 “安全与对齐的坚守者”，而 OpenAI 则是 “能力与效率的追求者”。

5.4 实践成果的对比

从实践成果来看，两家公司都取得了令人瞩目的成就，但侧重点不同：

Anthropic 的成果特点：

• 注重质量和安全性，宁可牺牲效率也要确保可靠性
• 成功案例包括复杂的创意应用（如艺术博物馆网站的 3D 空间体验）
• 在金融、医疗等对安全性要求极高的领域有广泛应用

OpenAI 的成果特点：

• 追求极致效率，3 人团队 5 个月完成 100 万行代码
• 展示了大规模自动化的可能性
• 更适合快速迭代和规模化生产

成本效益对比：

• Anthropic：完整 Harness 版本成本是单代理的 20 倍，但质量差距显著
• OpenAI：零人工编码实现了约 10 倍的效率提升

5.5 未来发展方向的展望

两家公司的 Harness 工程实践都指向了一个共同趋势：人类角色的根本性转变—— 从 “写代码” 转向 “设计让智能体有效工作的环境”。

但在具体发展方向上，两家公司可能会继续分化：

Anthropic 的可能方向：

• 深化宪法式 AI 在 Harness 中的应用
• 探索更多行业的安全应用场景
• 发展更加精细的多代理协作模式

OpenAI 的可能方向：

• 追求更高的自动化程度
• 探索更大规模的工程实践
• 发展更强大的自主学习能力

尽管存在分歧，但两家公司的共同努力正在推动整个 AI 工程领域的进步。他们的实践证明，Harness Engineering 不是加速现有流程，而是重新定义软件工程—— 当编码可系统化委托时，稀缺资源从 “写代码能力” 转向 “设计可委托系统的智慧”。

结语：Harness 工程的未来与启示

Anthropic 的两篇 Harness 工程文章为我们展示了 AI 时代软件工程的全新范式。通过深入分析，我们可以得出以下核心洞察：

技术层面的突破：Anthropic 通过从 GAN 汲取灵感的对抗式架构、严格的质量控制体系、灵活的上下文管理机制，构建了一个能够支持长期运行、高质量输出的 Harness 系统。特别是其四维度评分体系和 Sprint 合同机制，为多智能体协作提供了可操作的框架。

工程方法的革新：从双代理到三代理的演进，体现了 Anthropic 对复杂系统设计的深刻理解。增量式开发、强制测试、渐进式改进等理念，不仅提高了开发效率，更重要的是确保了系统的可靠性和可维护性。

哲学理念的深远影响：Anthropic 的安全优先哲学、对抗式协作理念、人机协作愿景，都为 AI 工程的发展提供了重要启示。特别是宪法式 AI 的引入，为解决 AI 安全对齐问题提供了新思路。

实践验证的价值：从复古游戏制作器到数字音频工作站，从荷兰艺术博物馆到多行业应用，Anthropic 的 Harness 工程在多个领域都取得了成功。这些案例不仅证明了技术的可行性，更展示了其巨大的应用潜力。

对于技术从业者而言，Anthropic 的 Harness 工程实践提供了以下重要启示：

1. 重新定义工程师角色：从代码编写者转变为系统设计者和智能体协调者
2. 重视环境设计：与其追求更聪明的 AI，不如构建更适合 AI 工作的环境
3. 拥抱协作模式：复杂任务需要多智能体协作，而非单体代理的 “全能”
4. 坚持安全可控：在追求能力的同时，不能忽视安全和可解释性
5. 持续学习改进：Harness 本身也需要不断学习和优化

展望未来，Harness 工程将成为 AI 时代软件工程的核心。随着模型能力的不断提升，如何设计出能够充分发挥 AI 潜力、同时保持安全可控的 Harness 系统，将成为每个技术团队必须面对的挑战。Anthropic 和 OpenAI 的实践为我们指明了方向，但真正的创新还在前方。

正如 Anthropic 在报告中所展示的，当一个 AI 代理在第十轮迭代中突然决定将一个艺术博物馆网站重构为 3D 空间体验时，它展示的不仅是技术能力，更是一种在正确框架下被激发出的创造力。而设计这个框架 —— 那就是工程师的艺术。在 AI 时代，我们都是这个伟大实验的参与者和见证者，让我们共同期待 Harness 工程带来的更多惊喜和突破。