核心观点:当 AI 能写代码时,最困难的挑战已从"编写代码"转向"设计环境"。模型是商品,Harness 才是护城河。
一、一个比喻就够了:为什么 AI 需要"马具"?
想象你有一匹力大无穷、跑得飞快的纯血马——但它不认路。
你不能靠喊"往左!往右!"让它精准到达目的地。你需要的是:缰绳、马鞍、围栏、路标,甚至路边放个水槽让它补充体力。
这套"装备"就是 Harness(马具)。
那匹马就是今天的 AI 编程助手(Claude Code、Cursor、OpenAI Codex)。它们能写代码,甚至写得很好,但如果没有规划环境、设定边界、提供反馈,它们一样会跑偏、会闯祸、会产生技术债务。
Harness Engineering(驾驭工程)= 约束 + 工具 + 文档 + 反馈循环
它是围绕 AI 智能体搭建的整套"运行环境",让不可预测的 AI 产出确定性的业务价值。
二、Harness 从哪来?2026 年工程范式的根本转向
2.1 概念起源
2026 年 2 月,HashiCorp 联合创始人 Mitchell Hashimoto 正式提出这个概念:
"每当 AI Agent 犯一个错误,你就花时间做一个改进,确保它永远不会再犯同样的错。这个持续改进环境的过程,就是 Harness Engineering。"
几天后,OpenAI 发表文章披露了他们的实践:
- • 3 个工程师,5 个月,用 AI 生成了 100 万行代码
- • 人类没有手写一行
- • 产品已在内部使用,有真实用户
关键是——这并不是因为 AI 模型变聪明了,而是因为他们把 Harness 做好了。
2.2 行业共识:竞争重心转移
整个行业的竞争重心,正从"哪家模型更强"悄悄转向"谁的 Harness 更好"。
Phil Schmid 打了个比方:
模型是 CPU,Harness 是操作系统——CPU 再强,OS 拉胯也白搭。
三、Harness 核心架构:AI 智能体的"数字骨架"
3.1 核心公式
Agent = Model + Harness
| 组件 | 作用 | 类比 |
|---|---|---|
| Model(大脑) | 负责思考、生成、推理 | 马的大脑和本能 |
| Harness(操作系统) | 提供环境、工具、约束、记忆与纠错能力 | 缰绳、马鞍、围栏 |
3.2 五个核心模块(缺一不可)
一个完整的 Harness 必须包含以下组件:
| 模块 | 作用 | 具体实现 |
|---|---|---|
| Tools(工具) | 给模型"双手" | 文件读写、Shell 执行、网络请求、数据库操作 |
| Knowledge(知识) | 给模型"领域经验" | 结构化文档、API 规范、架构设计(不是一次性塞 1000 页) |
| Observation(观察) | 给模型"眼睛" | Git 变更、错误日志、浏览器状态、环境信息 |
| Action Interfaces(执行接口) | 给模型"行动通道" | 统一输出格式,CLI 命令或 API 调用标准化 |
| Permissions(权限体系) | 给模型"边界" | 沙箱隔离、危险操作拦截、人工审批流程 |
3.3 三层架构
从工程实现角度看,Harness 分为严密的三层:
┌─────────────────────────────────────┐
│ 🏗️ 生产质量层 │
│ 解决"稳定上线"的问题 │
│ 后台任务、多 Agent 协作、工作树隔离 │
├─────────────────────────────────────┤
│ 🛡️ 约束安全层 │
│ 解决"不闯祸"的问题 │
│ 子 Agent 机制、技能库、上下文压缩 │
├─────────────────────────────────────┤
│ ⚙️ 基础驾驭层 │
│ 解决"能跑起来"的问题 │
│ 模型输出→执行→结果反馈→循环 │
└─────────────────────────────────────┘四、Harness vs 传统工程:四层模型对比
很多人会把 Harness 跟提示词工程混为一谈。实际上,Harness 是在更高维度上设计 AI 工作的整个环境。
| 工程层级 | 核心职责 | 关键产出 | 类比(驯马) |
|---|---|---|---|
| 提示词工程 | 设计单次交互的指令结构 | 提示词模板、Few-shot 示例 | 对马喊"往右转,步频放慢" |
| 上下文工程 | 管理模型每次推理时可见的全部 Token | 检索增强(RAG)、文档切片 | 给马看地图、路标和当前地形 |
| 智能体工程 | 设计 Agent 的行动循环 | 任务分解、工具调用链 | 决定马先去喝水、再装货、最后回马厩 |
| Harness 工程 | 搭建 Agent 运行的整个环境 | 架构护栏、CI 拦截、沙箱隔离 | 设计缰绳、围栏、道路,让 10 匹马同时安全奔跑 |
一句话总结:
- • Context 管模型能看到什么信息
- • Harness 管模型在什么环境里运行、能做什么、不能做什么
五、Harness vs OpenClaw:它们是什么关系?
这是很多人关心的问题。让我们直接对比:
| 维度 | Harness Engineering | OpenClaw |
|---|---|---|
| 定位 | 工程范式/方法论 | 具体实现/平台 |
| 关系 | 理论框架 | Harness 的一个落地实例 |
| 核心能力 | 约束、工具、反馈、多 Agent 协调 | 技能系统、记忆管理、定时任务、多渠道输出 |
| 适用场景 | 任何 AI 智能体系统 | 个人 AI 助手、自动化工作流 |
| 开源程度 | 概念开源,各厂自建 | 完全开源,可自行部署 |
通俗理解:
- • Harness Engineering 像是"汽车设计理念"(要有发动机、刹车、方向盘)
- • OpenClaw 像是"一辆具体的车"(已经装好发动机、刹车、方向盘,能直接开)
OpenClaw 的很多设计本身就是 Harness 思想的体现:
- • ✅ 技能系统 = Tools(给 AI 双手)
- • ✅ MEMORY.md = Knowledge(给 AI 领域经验)
- • ✅ 会话管理 = Memory Management(状态持久化)
- • ✅ 渠道输出规则 = Guardrails(安全边界)
六、实战案例:硅谷的 Harness 样板间
6.1 OpenAI 的"零手写代码"奇迹
- • 5 名工程师,5 个月,交付 100 万行生产级代码
- • 0 行由人类手写
- • 平均每人每日交付 3.5 个 PR
- • 大部分 Code Review 由 Agent 对 Agent 完成
核心做法:
- 1. 倒逼机制:全团队禁止直接编写代码,迫使所有人构建 Harness 基础设施
- 2. 全链路自动化:自动测试、代码审查、部署监控全链路自动化
- 3. AI 只负责生成,Harness 负责兜底
6.2 Stripe 的 Minions Agent 体系
- • 每周自动合并 1300+ 个 AI 编写的 PR
- • 核心策略:隔离沙箱、权限控制、一键回滚
- • 人类角色:仅做架构审查与合规把关,不再纠结于具体语法错误
6.3 LangChain 的性能跃迁
在 Terminal Bench 2.0 测试中,LangChain 仅通过优化 Harness:
- • 增加自检
- • 环境注入
- • 死循环检测
同一模型的得分从 52.8% 飙升至 66.5%,排名从 Top30 冲进 Top5。
铁律:AI 能力的瓶颈往往不在模型参数,而在 Harness 的设计水平。
七、新手入门:如何构建你的第一个 Harness?
如果你是一名工程师,面对 AI 浪潮感到焦虑,请停止焦虑,开始构建 Harness。以下是实操路径:
7.1 精炼你的"地图":AGENTS.md
在项目根目录创建 AGENTS.md 文件,作为 AI 的导航地图:
# 项目架构指南
## 目录结构
- src/ 源代码
- docs/ 详细文档(按需查阅)
- tests/ 测试用例
## 核心规则
1. 依赖方向:types → config → service → runtime
2. 禁止循环依赖
3. 所有 API 必须写测试
## 快速开始
详细文档见 docs/architecture.md关键原则:
- • 目录化:根目录文件控制在 100 行以内,仅作为导航
- • 模块化:将架构、设计、安全约束拆分到
docs/*.md - • 层级化:支持子目录覆盖规则
7.2 建立"机械化"约束
不要依赖模型的"自觉性"。将架构规则编码为可执行文件:
- • 自定义 Linter:错误消息必须包含修复建议,便于 Agent 自主闭环
- • 双轨审计:引入"审计 Agent"实时审查主开发 Agent 的代码,不合格直接拦截
7.3 设计"反熵"机制
AI 生成的代码会像锈迹一样腐蚀系统,需要持续的"反熵"维护:
- • 热启动:下班前启动 Agent 进行深度调研或并行探索
- • 垃圾回收:定期运行脚本清理过时文档、无效依赖和死代码
- • 进度文件:每次 Session 结束写 Progress File,方便下个 Context Window 接手
7.4 职能分离
将模糊需求明确拆分为"规划(Planning)"和"执行(Execution)"两个阶段:
- • 规划 Agent 负责高层设计
- • 执行 Agent 负责写代码
- • 互不干扰,降低复杂度
八、三个反直觉的真相
8.1 为删除而构建
模型进化的速度永远快过手写控制逻辑。今天的核心代码,明天一句提示词就能替代。
Manus 用同一个底层模型重写了 4 次 Harness,每次重写都带来可靠性跃升。
保持模块化,随时准备断舍离。
8.2 少即是多
给 AI 的工具越多,它越迷茫。
Vercel 删除 80% 的工具之后,Agent 不再绕圈,速度和准确率双双提升。
最好的 Harness 优化,往往是做减法。
8.3 Harness 是你最值钱的资产
- • 底层模型随时可以通过 API 切换
- • 但 Harness 里积累的执行轨迹、失败记录和修复路径,无法复制
Manus 不训练自己的模型,只做 Harness——2025 年 12 月被 Meta 高价收购。
九、总结:约束即自由
Harness Engineering 的流行,标志着软件行业终于承认了一个事实:
概率性模型无法通过提示词工程被完全驯服。
当 AI 能写代码时,最困难的挑战已从"编写代码"转向"设计环境、反馈循环和控制系统"。
Harness 不是对 Agent 的束缚,而是 Agent 能够落地的前提条件。
正如瓦特发明离心调速器让蒸汽机从"需要人工调节阀门"进化为"自动控速的动力源",Harness Engineering 正在让 AI 从"不确定的玩具"进化为"确定的工业母机"。
对于企业 IT 负责人而言,不要再把精力全部花在"选哪个模型"上。当主流模型的推理能力差距逐步缩小时,真正决定落地效果的,是你围绕模型搭建的工程系统。
Harness Engineering,就是 AI 时代的基础设施。谁先掌握了驾驭烈马的缰绳,谁就拥有了下一个十年的生产力霸权。
互动时间 💬
你在用 AI 编程时遇到过哪些"脱缰"时刻?
- • AI 写了死循环代码?
- • AI 删除了不该删的文件?
- • AI 产生了大量技术债务?
欢迎在评论区分享你的故事!
觉得有用?点赞 + 转发,让更多人少走弯路! 🐾
参考资料:
- 1. OpenAI Harness Engineering 官方文章
- 2. Martin Fowler: Harness Engineering
- 3. LangChain: Improving Deep Agents with Harness Engineering
- 4. AI 铺子:Harness Engineering 深度解析
本文首发于微信公众号,同步发布于 CSDN 博客
夜雨聆风