两家顶级 AI 公司,同一个关键词「Harness」,两条截然不同的路。读完这篇,你会理解一个正在发生的范式转移:写代码不再是工程师的核心工作。
为什么突然都在聊「Harness」?
2026 年初,OpenAI 和 Anthropic 先后发布了关于「Harness」的官方技术文章。这不是巧合——它反映了行业共识正在凝聚:
当 AI Agent 能写代码之后,人类工程师最重要的工作,变成了给 Agent 设计「工作环境」。
这个「工作环境」,就是 Harness——可以翻译成「驾驭框架」或「套件」。你可以把它想象成:AI 是一匹马,Harness 就是缰绳、马鞍和马道。马再强,没有好的装具和赛道设计,它也跑不出好成绩。
关于 Harness 的详细概念,可以参考我上一篇文章:Harness Engineering:最近AI圈最火的新概念,到底在说啥?
两家公司用了同一个词,但思路其实很不一样。我们来拆解一下。
OpenAI:把整个公司变成 Agent 的「施工现场」
实验有多疯狂?
OpenAI 的文章由工程师 Ryan Lopopolo 撰写,记录了一个内部实验:从 2025 年 8 月开始,一个小团队用 5 个月时间,完全不手写任何代码,让 Codex(OpenAI 的编程 Agent)从一个空的 Git 仓库开始,一路生成了大约 100 万行代码,开了 1500 个 Pull Request,做出了一个有真实内部用户的产品。
是的,你没看错——零行人写代码。连 CI 配置、测试、文档、内部工具,全是 Agent 写的。
核心理念:人类设计环境,Agent 执行一切
OpenAI 的思路可以概括成一句话:人类不再是程序员,而是「环境设计师」。
具体怎么做的?
1. 让仓库本身变成 Agent 的「大脑」
OpenAI 发现,给 Agent 塞一个巨大的指令文件是行不通的。Agent 会被信息淹没,抓不住重点。他们的方案是:把仓库里的文档体系做成一本「目录」——Agent 先看目录,知道去哪里找详细信息,按需获取上下文。
2. 让一切对 Agent「可读」
为了让 Agent 能自己检查工作,OpenAI 做了大量基础设施:Agent 可以启动应用、截屏、操作浏览器 DOM、查看日志和监控指标。工程师甚至能给 Agent 布置任务然后去睡觉——一个 Codex 任务能连续跑 6 个小时。
3. 用「结构性规则」代替「逐行指导」
OpenAI 不告诉 Agent 具体怎么写代码,而是设置了严格的架构边界:每个业务域必须按固定的分层方式组织(Types → Config → Repo → Service → Runtime → UI),依赖方向严格校验。自定义 Linter 和 CI 自动检查这些规则。Agent 在边界内有完全的自由,但不能越界。
4. 像「垃圾回收」一样治理技术债
Agent 会复制仓库里已有的模式——包括不好的模式。如果不管,代码质量会逐渐退化。OpenAI 的做法是:定期跑一批后台 Agent,扫描代码中偏离「黄金原则」的地方,自动开 PR 修复。这就像程序语言里的垃圾回收机制,把技术债的利息持续还掉。
一句话总结 OpenAI 的哲学
打造一整套「自运转」的开发生态,让 Agent 端到端地完成所有开发工作,人类只负责设计规则、设定方向、验收结果。
Anthropic:用「三个 Agent 接力赛」做出更好的产品
解决的核心问题是什么?
Anthropic 的文章由工程师 Prithvi Rajasekaran 撰写,关注的是一个更聚焦的问题:怎么让 AI 在长时间(数小时)的自主编程中,不「失控」、不「摆烂」、不「自我感觉良好」?
Anthropic 发现了两个顽疾:
上下文焦虑:Agent 在长时间工作后,随着上下文窗口越来越满,会变得「急于收工」,开始草率地宣布任务完成——哪怕工作只做了 60%。 自我评价虚高:让 Agent 检查自己的代码,它几乎总是说「做得不错」——即使质量明显不行,尤其在设计审美这种主观领域。
核心方案:GAN 启发的三 Agent 架构
Anthropic 从 GAN(生成对抗网络)借鉴了思路——把生成和评判分开:
Planner(规划者)接收用户的一句话需求(比如「做一个 2D 复古游戏编辑器」),自动扩展成完整的产品规格书:16 个功能特性、10 个开发冲刺、视觉设计语言。关键是,Planner 被要求「大胆一点」——Anthropic 发现,保守的规划会导致平庸的产出。
Generator(生成者)按照规格书逐步实现功能。每完成一个冲刺,先自评一次,然后把成果交给 QA。
Evaluator(评判者)这是 Anthropic 方案的灵魂。评判者使用 Playwright 浏览器自动化工具,像真实用户一样点击、导航、截屏,然后按照四个维度打分:设计质量、原创性、工艺水准、功能可用性。如果任何一项低于阈值,这一轮就判定失败,Generator 必须根据具体反馈重新修改。
关键细节是:评判者本身也需要大量调教。Anthropic 发现,开箱即用的 Claude 是一个很差的 QA 工程师——它会发现问题,然后说服自己「这不是大事」就放过了。工程师花了多轮迭代,才让评判者真正严格起来。
实验效果对比
Anthropic 用同一个 Prompt(「做一个 2D 复古游戏编辑器」)分别跑了单 Agent 模式和完整三 Agent Harness:
贵了 20 倍,但产出质量是质的飞跃——核心区别在于,有评判者的版本做出了「真正能用」的产品。
一句话总结 Anthropic 的哲学
把 AI 开发变成一场有「产品经理 + 开发者 + QA」配合的团队协作,用对抗式反馈确保产出质量,而不只是追求数量。
两家的思路有什么区别?
| 核心隐喻 | ||
| 侧重点 | ||
| 人类角色 | ||
| 质量保障 | ||
| 规模感 | ||
| 对待自主性 | ||
| 技术债治理 |
共同点在哪?
虽然路径不同,两家在底层理念上高度一致:
1. Harness 比 Model 更重要
两篇文章都在说同一件事:模型能力已经很强了,瓶颈不在模型本身,而在于你怎么「包装」和「引导」它。Anthropic 明确写到:同一个模型,在好的 Harness 下和裸跑,产出质量天差地别。
2. 写代码的时代结束了,设计环境的时代开始了
OpenAI 叫它「environment design」,Anthropic 叫它「harness design」,本质一样:工程师的核心技能正在从「写代码」转向「设计让 AI 高效工作的系统」。
3. Agent 需要「可执行的约束」而不是「长篇说教」
两家都发现,给 Agent 塞一大堆指令是没用的。有效的方式是:把规则变成可以被机器检查的结构性约束(Linter、CI、架构边界、评分阈值)。
4. 「简化 Harness」是一个持续的工程任务
Anthropic 在文中特别提到:每个 Harness 组件都代表着对模型不足的一个假设,而这些假设会随着模型进步而过时。当 Opus 4.6 发布后,之前 Harness 中很多组件变得不再必要,可以简化掉。OpenAI 也在持续精简流程。两家都在说:好的 Harness 不是越复杂越好,而是要跟随模型能力持续迭代。
对普通开发者意味着什么?
如果你是一个还在学习或者刚入行的开发者,这两篇文章传递的信号很清晰:
「会写代码」正在从核心技能变成基础素养。
未来的工程师竞争力不在于你能写多快、写多好的代码,而在于:
你能不能拆解一个复杂问题为 Agent 可以逐步解决的子任务? 你能不能设计出好的约束规则,让 Agent 不跑偏? 你能不能判断 Agent 的产出质量,并给出具体、可执行的反馈? 你能不能把「品味」和「判断力」编码到系统中去?
这其实不全是新东西——好的技术负责人一直在做类似的事。只不过以前「带团队」带的是人,以后「带团队」带的是 Agent。
另外,就在前几日 Anthropic 上线了 Claude Managed Agents 公开测试版。这个产品可以看作是 Anthropic Harness 哲学的「产品化落地」——Anthropic 不只是告诉你 Harness 应该怎么设计,而是直接把一套生产级的 Harness 做成了云服务卖给你。
它解决的问题很具体:企业想在自己的业务里跑 AI Agent,但光是搭基础设施(沙箱执行环境、断点恢复、权限管理、错误处理、运行日志追踪……)就得花 3-6 个月,还没开始写一行 Agent 逻辑,Managed Agents 把这些全包了。
开发者只需要定义 Agent 该做什么、能用什么工具、边界在哪里,剩下的交给 Anthropic 的基础设施——内置的编排 Harness 自动决定何时调用工具、如何管理上下文、出错了怎么恢复。
定价上,除了标准的 Claude API 调用费用,每个 Agent 会话额外收 $0.08/小时,门槛不算高。
更值得关注的是已经跑起来的客户案例:Notion 让用户在工作区里直接把编程、做幻灯片等任务委托给 Claude,多任务并行运行;Rakuten 用不到一周时间就在产品、销售、市场、财务、HR 五个部门部署了专业 Agent;Asana 把 Agent 做成了项目里的「AI 队友」,CTO 说高级功能的交付速度有了量级提升;Sentry 造了一个从发现 Bug 到提交修复 PR 全程自动的 Agent。
这其实揭示了一个清晰的商业逻辑闭环: 先发论文讲方法论(Harness 设计思路),再发产品做基础设施(Managed Agents),最终让生态里的开发者都按照你的范式来构建 Agent。Anthropic 不是在卖模型,是在卖「让模型发挥最大价值的那套系统」。
OpenAI 那边虽然还没有把 Harness 单独产品化,但 Codex 本身就是一个深度整合了 Harness 理念的产品——它内置了代码仓库结构化、CI 驱动、Agent 自审查等能力。两家的产品化路径不同,但方向一致:未来卖的不只是 AI 模型,而是让 AI 高效工作的整套框架。
两篇原文链接:
OpenAI: Harness engineering: leveraging Codex in an agent-first world Anthropic: Harness design for long-running application development
如果这篇文章让您觉得有价值,欢迎关注我,点赞、在看、转发 👇
夜雨聆风