模型是马,Harness 是鞍!OpenClaw 爆火背后,什么是 Harness Engineering?

最近 AI 圈里确实出现了一个值得注意的趋势：不是新模型参数又刷了新高，而是“Harness Engineering”（驾驭工程）这套方法论迅速被行业认可和讨论。

OpenAI 发布了一篇内部工程报告，Thoughtworks 首席科学家 Martin Fowler 也公开撰文支持，LangChain、Vercel 等团队通过实际测试验证了它的效果。在相同模型下，仅优化 Harness（即模型外的编排、沙箱、提示工程、验证循环等基础设施），编程任务的成功率可以从约 42% 提升到 78%，Token 消耗同时降低约 40%。

行业现在普遍形成了一个共识：Agent = 模型 + Harness。

模型相当于“大脑”或“马”，Harness 则是提供记忆管理、工具调用、状态持久化、边界约束、自动验证等能力的“鞍具”和“缰绳”。

没有 Harness，再强的模型也容易出现跑偏、上下文过载、幻觉累积等问题；有了完整 Harness，模型才能被稳定、可控地用于实际生产场景。

OpenClaw 正是 Harness Engineering 的一个典型开源实现。它本身不训练新模型，而是基于 GPT、Claude 等现有大模型，叠加了一整套工程层能力（持久化记忆、沙箱执行、任务编排、监控面板等），让单个模型从“一次性对话工具”变成可以长期运行、可靠落地的智能体。

简单说，这波讨论的核心是：AI 落地已经从“比谁模型更强”进入“比谁工程底座更扎实”的阶段。

模型负责智能，Harness 负责可控性和规模化。

这套思路正在帮助解决 AI 智能体在实际项目中常见的几个痛点——输出不稳定、难以长期记忆、工具调用混乱、错误难以自动纠正等。

整体来看，这是一次从模型中心转向系统工程的务实转向，而不是什么革命性突破，但对想把 AI Agent 用到生产环境的人来说，确实提供了更清晰、可操作的路径。

模型

马 / 发动机（核心算力本体，原生不可控、易跑偏、易犯错、记性差）

Harness
马具 / 整车（驾驭模型的全套工程化体系，包含编排调度、沙箱隔离、提示词规范、流程规则、工具链、文档体系等，目的是让模型从 “野生” 变 “可控可用”）
OpenClaw
Harness 的一种具体落地实现（当下热门的智能体架构车型，把 Harness 的工程化理念做成了可复用的标准化架构）
Agent
模型 + Harness（马配好马具 = 可驾驭的坐骑，发动机装上车 = 能正常行驶的汽车）

Harness Engineering 核心：不纠结于优化模型本身，而是通过工程化的驾驭设计、流程管控、协同编排、质量校验，解决大模型不可靠、难管理、易混乱、上下文过载的问题，让智能体稳定落地。

最近 AI 行业对 Harness Engineering 的讨论，核心在于如何把模型从“聪明但不可控”的工具，变成能在真实生产环境中长期稳定运行的智能体。具体落地时，这套方法主要围绕三个实用维度展开：

1.上游需求粒度拆分 + 分层文档维护

这对应 Harness 的需求治理与工程化编排。模型本身并不理解复杂、模糊的上游需求，它只会机械执行指令。

Harness 通过把需求拆分成不同层次（从高层规划到技术细节再到具体任务），并用文档持续维护，形成清晰的结构化“路线图”和“运维手册”。

这样既避免主 Agent 被混乱指令带偏，也防止整个系统因文档缺失而失控——这是实现可控性的基础。

2.自验证循环 + 对抗式迭代 + Linter 防重复错误

这对应 Harness 的质量管控与纠错机制。

模型容易“自欺欺人”，自己评估自己时几乎总是打高分。

Harness 因此搭建了外部验证闭环：定义明确评估指标、采用对抗式迭代校验结果，再通过 Linter 等工具把历史错误沉淀下来，让系统不再重复犯同样的错。这相当于给智能体加装了独立的质检和限位系统，是可靠性的核心保障。

3.上下文焦虑 + 多 Agent 结构化交接 + 文档沉淀

这对应 Harness 的多智能体协同与上下文管理。

模型上下文容量有限，装太多细节就会过载。Harness 的做法是采用多 Agent 模块化分工：子 Agent 专注具体任务，通过结构化文档进行交接，主 Agent 只把控全局；

同时所有过程都写入文档，不占用宝贵上下文。这就像把汽车拆成发动机、变速箱、底盘等模块，通过标准接口协作，彻底解决规模化协同时的上下文瓶颈。

这三个要点合在一起，就是 Harness Engineering 在工程层面的完整思路：用文档和分层治理打基础，用外部验证兜底质量，用多 Agent + 文档沉淀解决上下文限制。而 OpenClaw 等产品，正是把这些逻辑封装成了一套现成的智能体架构，让模型真正变成能稳定跑起来的“整车”。

为了让这些思路更具体，我们来看几个来自行业领先实验室和论文的真实实验案例，它们直接验证了上述每个维度的价值：

Anthropic 的 Agent 互评实验（2026 年初，工程师 Prithvi Rajasekaran 主导）

他们发现：让一个 Agent 自己评估自己的输出，几乎总是给自己打高分（不管好坏）。

改进后，他们把任务拆成两个独立 Agent：一个负责“生成”（比如设计一个带动画的网页游戏）；

另一个负责“评估”，它不看代码，而是用 Playwright 真实打开页面、点击按钮、填表单，像真人用户一样检查功能是否正常。

结果：单 Agent 20 分钟花 9 美元，输出的东西基本没法用；加上完整评估闭环后，虽然花了 6 小时和 200 美元，但最终交付了一个带精灵动画、AI 交互、导出功能的完整可用游戏。

这直接证明：没有独立的评估机制，Agent 很容易“自欺欺人”。

OpenAI 的百万行代码实验

一个小型团队只用 Codex Agent（几乎不手写代码），5 个月内搭建了一个约 100 万行的真实生产系统。

工程师只干三件事：设计开发环境、用结构化的 Prompt 表达意图、给出反馈。

关键是他们把架构拆成 6 层（类型 → 配置 → 仓库 → 服务 → 运行时 → UI），并用 linter + CI 自动强制执行，任何违反规则的代码都会被系统拒绝。

结果：整个系统保持了极高的一致性和可维护性，证明严格的架构约束能让 Agent 在大规模长期运行中不崩盘。

两篇关于记忆系统的论文 (S)AGE 论文：设计了一套“拜占庭容错”的多 Agent 记忆系统（类似区块链的共识机制）。每个 Agent 的记忆写入都要经过加权投票（根据历史准确率、领域相关性等打分）。实测下来，写入速度 956 req/s，查询延迟只有 21.6ms，有记忆的 Agent 校准精度是无记忆版的 2 倍。

纵向学习论文：把 10 轮迭代项目分成两组。一组只用 3 行简单 Prompt + (S)AGE 记忆系统；另一组用 50–200 行专家精心写的 Prompt，但每次都从零开始（无记忆）。

结果：两组第一轮表现差不多，但有记忆的那组越到后面越强（第 10 个项目明显比第 1 个好），而无记忆组完全没有进步趋势。

这说明：没有可靠的记忆治理，Agent 永远是“每次从头学”，无法实现组织级的持续进化。

“Prompt vs Context vs Harness 的本质区别可以用一句话概括：Prompt Engineering 优化的是人和模型之间的接口；Context Engineering 优化的是模型的输入空间；Harness Engineering 优化的是 Agent 的整个运行时环境。”

三层加在一起才是完整的 Harness：评估机制 + 架构约束 + 记忆治理。少了任何一层，Agent 系统都会在某个维度上失控。

Anthropic 证明了评估闭环的有效性，OpenAI 证明了架构约束能支撑百万行代码级一致性，两篇论文证明了记忆系统能赋予 Agent 组织级的纵向学习能力。这三者共同构成当前最完整的“驾驭”框架。

简单说，行业正在从“教模型怎么回答”转向“给 Agent 设计一个可长期稳定运行的完整环境”。这就是 Harness Engineering 的核心价值。

参考资料：

1.https://x.com/GoSailGlobal/status/2037805864367911394

2.https://x.com/Vtrivedy10/status/2031408954517971368

3.https://openai.com/index/harness-engineering/

4.https://www.anthropic.com/engineering/harness-design-long-running-apps