OpenAI 和 Anthropic 的「Harness」方法论深度对比

两家顶级 AI 公司，同一个关键词「Harness」，两条截然不同的路。读完这篇，你会理解一个正在发生的范式转移：写代码不再是工程师的核心工作。

为什么突然都在聊「Harness」？

2026 年初，OpenAI 和 Anthropic 先后发布了关于「Harness」的官方技术文章。这不是巧合——它反映了行业共识正在凝聚：

当 AI Agent 能写代码之后，人类工程师最重要的工作，变成了给 Agent 设计「工作环境」。

这个「工作环境」，就是 Harness——可以翻译成「驾驭框架」或「套件」。你可以把它想象成：AI 是一匹马，Harness 就是缰绳、马鞍和马道。马再强，没有好的装具和赛道设计，它也跑不出好成绩。

关于 Harness 的详细概念，可以参考我上一篇文章：Harness Engineering：最近AI圈最火的新概念，到底在说啥？

两家公司用了同一个词，但思路其实很不一样。我们来拆解一下。

OpenAI：把整个公司变成 Agent 的「施工现场」

实验有多疯狂？

OpenAI 的文章由工程师 Ryan Lopopolo 撰写，记录了一个内部实验：从 2025 年 8 月开始，一个小团队用 5 个月时间，完全不手写任何代码，让 Codex（OpenAI 的编程 Agent）从一个空的 Git 仓库开始，一路生成了大约 100 万行代码，开了 1500 个 Pull Request，做出了一个有真实内部用户的产品。

是的，你没看错——零行人写代码。连 CI 配置、测试、文档、内部工具，全是 Agent 写的。

核心理念：人类设计环境，Agent 执行一切

OpenAI 的思路可以概括成一句话：人类不再是程序员，而是「环境设计师」。

具体怎么做的？

1. 让仓库本身变成 Agent 的「大脑」

OpenAI 发现，给 Agent 塞一个巨大的指令文件是行不通的。Agent 会被信息淹没，抓不住重点。他们的方案是：把仓库里的文档体系做成一本「目录」——Agent 先看目录，知道去哪里找详细信息，按需获取上下文。

2. 让一切对 Agent「可读」

为了让 Agent 能自己检查工作，OpenAI 做了大量基础设施：Agent 可以启动应用、截屏、操作浏览器 DOM、查看日志和监控指标。工程师甚至能给 Agent 布置任务然后去睡觉——一个 Codex 任务能连续跑 6 个小时。

3. 用「结构性规则」代替「逐行指导」

OpenAI 不告诉 Agent 具体怎么写代码，而是设置了严格的架构边界：每个业务域必须按固定的分层方式组织（Types → Config → Repo → Service → Runtime → UI），依赖方向严格校验。自定义 Linter 和 CI 自动检查这些规则。Agent 在边界内有完全的自由，但不能越界。

4. 像「垃圾回收」一样治理技术债

Agent 会复制仓库里已有的模式——包括不好的模式。如果不管，代码质量会逐渐退化。OpenAI 的做法是：定期跑一批后台 Agent，扫描代码中偏离「黄金原则」的地方，自动开 PR 修复。这就像程序语言里的垃圾回收机制，把技术债的利息持续还掉。

一句话总结 OpenAI 的哲学

打造一整套「自运转」的开发生态，让 Agent 端到端地完成所有开发工作，人类只负责设计规则、设定方向、验收结果。

Anthropic：用「三个 Agent 接力赛」做出更好的产品

解决的核心问题是什么？

Anthropic 的文章由工程师 Prithvi Rajasekaran 撰写，关注的是一个更聚焦的问题：怎么让 AI 在长时间（数小时）的自主编程中，不「失控」、不「摆烂」、不「自我感觉良好」？

Anthropic 发现了两个顽疾：

上下文焦虑：Agent 在长时间工作后，随着上下文窗口越来越满，会变得「急于收工」，开始草率地宣布任务完成——哪怕工作只做了 60%。
自我评价虚高：让 Agent 检查自己的代码，它几乎总是说「做得不错」——即使质量明显不行，尤其在设计审美这种主观领域。

核心方案：GAN 启发的三 Agent 架构

Anthropic 从 GAN（生成对抗网络）借鉴了思路——把生成和评判分开：

Planner（规划者）接收用户的一句话需求（比如「做一个 2D 复古游戏编辑器」），自动扩展成完整的产品规格书：16 个功能特性、10 个开发冲刺、视觉设计语言。关键是，Planner 被要求「大胆一点」——Anthropic 发现，保守的规划会导致平庸的产出。

Generator（生成者）按照规格书逐步实现功能。每完成一个冲刺，先自评一次，然后把成果交给 QA。

Evaluator（评判者）这是 Anthropic 方案的灵魂。评判者使用 Playwright 浏览器自动化工具，像真实用户一样点击、导航、截屏，然后按照四个维度打分：设计质量、原创性、工艺水准、功能可用性。如果任何一项低于阈值，这一轮就判定失败，Generator 必须根据具体反馈重新修改。

关键细节是：评判者本身也需要大量调教。Anthropic 发现，开箱即用的 Claude 是一个很差的 QA 工程师——它会发现问题，然后说服自己「这不是大事」就放过了。工程师花了多轮迭代，才让评判者真正严格起来。

实验效果对比

Anthropic 用同一个 Prompt（「做一个 2D 复古游戏编辑器」）分别跑了单 Agent 模式和完整三 Agent Harness：

模式	时长	成本	结果
单 Agent	20 分钟	$9	界面粗糙，核心游戏功能无法运行
三 Agent Harness	6 小时	$200	功能完整，界面精致，游戏可以实际游玩

贵了 20 倍，但产出质量是质的飞跃——核心区别在于，有评判者的版本做出了「真正能用」的产品。

一句话总结 Anthropic 的哲学

把 AI 开发变成一场有「产品经理 + 开发者 + QA」配合的团队协作，用对抗式反馈确保产出质量，而不只是追求数量。

两家的思路有什么区别？

维度	OpenAI	Anthropic
核心隐喻	建造一座「Agent 友好的工厂」	组建一支「Agent 协作小队」
侧重点	环境设计、规则执行、全流程自动化	任务分解、质量反馈、对抗式迭代
人类角色	环境架构师——设计规则后退居幕后	调教师——不断校准评判者的「审美」和「严格度」
质量保障	架构 Linter + 后台「垃圾回收」Agent	独立评判者 Agent，像 QA 一样逐项验收
规模感	100 万行代码，1500 个 PR，面向组织级开发	单个项目数小时深度构建，面向单点产品质量
对待自主性	追求端到端自主——Agent 自己 review、merge、修 bug	追求受控自主——每步都有质检，不合格就打回
技术债治理	周期性后台扫描 + 自动重构	通过评判者在每个冲刺阶段就拦截问题

共同点在哪？

虽然路径不同，两家在底层理念上高度一致：

1. Harness 比 Model 更重要

两篇文章都在说同一件事：模型能力已经很强了，瓶颈不在模型本身，而在于你怎么「包装」和「引导」它。Anthropic 明确写到：同一个模型，在好的 Harness 下和裸跑，产出质量天差地别。

2. 写代码的时代结束了，设计环境的时代开始了

OpenAI 叫它「environment design」，Anthropic 叫它「harness design」，本质一样：工程师的核心技能正在从「写代码」转向「设计让 AI 高效工作的系统」。

3. Agent 需要「可执行的约束」而不是「长篇说教」

两家都发现，给 Agent 塞一大堆指令是没用的。有效的方式是：把规则变成可以被机器检查的结构性约束（Linter、CI、架构边界、评分阈值）。

4. 「简化 Harness」是一个持续的工程任务

Anthropic 在文中特别提到：每个 Harness 组件都代表着对模型不足的一个假设，而这些假设会随着模型进步而过时。当 Opus 4.6 发布后，之前 Harness 中很多组件变得不再必要，可以简化掉。OpenAI 也在持续精简流程。两家都在说：好的 Harness 不是越复杂越好，而是要跟随模型能力持续迭代。

对普通开发者意味着什么？

如果你是一个还在学习或者刚入行的开发者，这两篇文章传递的信号很清晰：

「会写代码」正在从核心技能变成基础素养。

未来的工程师竞争力不在于你能写多快、写多好的代码，而在于：

你能不能拆解一个复杂问题为 Agent 可以逐步解决的子任务？
你能不能设计出好的约束规则，让 Agent 不跑偏？
你能不能判断 Agent 的产出质量，并给出具体、可执行的反馈？
你能不能把「品味」和「判断力」编码到系统中去？

这其实不全是新东西——好的技术负责人一直在做类似的事。只不过以前「带团队」带的是人，以后「带团队」带的是 Agent。

另外，就在前几日 Anthropic 上线了 Claude Managed Agents 公开测试版。这个产品可以看作是 Anthropic Harness 哲学的「产品化落地」——Anthropic 不只是告诉你 Harness 应该怎么设计，而是直接把一套生产级的 Harness 做成了云服务卖给你。

它解决的问题很具体：企业想在自己的业务里跑 AI Agent，但光是搭基础设施（沙箱执行环境、断点恢复、权限管理、错误处理、运行日志追踪……）就得花 3-6 个月，还没开始写一行 Agent 逻辑，Managed Agents 把这些全包了。

开发者只需要定义 Agent 该做什么、能用什么工具、边界在哪里，剩下的交给 Anthropic 的基础设施——内置的编排 Harness 自动决定何时调用工具、如何管理上下文、出错了怎么恢复。

定价上，除了标准的 Claude API 调用费用，每个 Agent 会话额外收 $0.08/小时，门槛不算高。

更值得关注的是已经跑起来的客户案例：Notion 让用户在工作区里直接把编程、做幻灯片等任务委托给 Claude，多任务并行运行；Rakuten 用不到一周时间就在产品、销售、市场、财务、HR 五个部门部署了专业 Agent；Asana 把 Agent 做成了项目里的「AI 队友」，CTO 说高级功能的交付速度有了量级提升；Sentry 造了一个从发现 Bug 到提交修复 PR 全程自动的 Agent。

这其实揭示了一个清晰的商业逻辑闭环： 先发论文讲方法论（Harness 设计思路），再发产品做基础设施（Managed Agents），最终让生态里的开发者都按照你的范式来构建 Agent。Anthropic 不是在卖模型，是在卖「让模型发挥最大价值的那套系统」。

OpenAI 那边虽然还没有把 Harness 单独产品化，但 Codex 本身就是一个深度整合了 Harness 理念的产品——它内置了代码仓库结构化、CI 驱动、Agent 自审查等能力。两家的产品化路径不同，但方向一致：未来卖的不只是 AI 模型，而是让 AI 高效工作的整套框架。

两篇原文链接：

OpenAI: Harness engineering: leveraging Codex in an agent-first world
Anthropic: Harness design for long-running application development

如果这篇文章让您觉得有价值，欢迎关注我，点赞、在看、转发 👇