乐于分享
好东西不私藏

让你的 AI 助手不再发疯:Harness Engineering 完整指南

让你的 AI 助手不再发疯:Harness Engineering 完整指南

你有没有过这种经历——

让 AI 帮你写代码,它第一次错了,你指出问题;第二天它换了种方式,又错了;第三天你换了更贵的模型,它还是犯一样的错。

然后你就崩溃了,心想:是不是模型不行?是不是该换家厂商?

但真相可能是——你怪错人了。


01 别再期待更好的模型了

2026 年 AI 圈最扎心的一句话:“不要等下一代模型了,现在就开始做 Harness。”

说这话的不是别人,是 Anthropic。

他们提了一个概念,叫 Harness Engineering——翻译过来大概叫”工具链工程”。

让我用人话解释一下三层递进:

  • Prompt Engineering(提示词工程)= 写好一封邮件
  • Context Engineering(上下文工程)= 把相关附件都带上
  • Harness Engineering = 搭建整个办公室

光写好邮件没用。你的 AI 助手之所以反复犯同一个错,不是它笨,是你没给它建一个”不犯错的工作环境”。

这才是关键。


02 一个实验颠覆了认知

Anthropic 做了个测试,叫 Terminal Bench 2.0

同样的模型、同样的基准测试题目——

换一套 Harness,排名从第 33 名直接冲到第 5 名

你没看错,不是换模型,是换 Harness。

结论很反直觉:Harness 对效果的影响,可能比模型本身还大。

就像同一把刀,在普通人手里切菜,在米其林大厨手里能雕花。刀没换,环境换了,结果完全不一样。


03 五级框架,从入门到精通

Harness Engineering 不是玄学,它是一套可以落地的方法论,分五个层级:

L1:先把”好”定义清楚

这听起来简单,但 80% 的团队死在这一步。

什么叫”好”?

  • 代码交付好 = 单元测试覆盖率 ≥ 80%、lint 通过、PR 必须带需求 ID
  • AI 知识库回答好 = 准确、相关、完整,还要标注来源

类比一下:这就像写 OKR,目标不清楚,执行就是瞎干。


L2:让标准自动跑起来

定义好了”好”,接下来让机器来判定。

  • 代码:pre-commit hook(提交前自动跑 lint + 单元测试)、CI/CD 流水线
  • 知识库:Benchmark 测试集、每次更新后自动跑回归

人工检查费时费力,还容易疲劳。让机器做它擅长的事——重复劳动


L3:从错误里提炼规则

这是最值钱的一步,也是大多数人跳过的。

核心原则:工具负责发现,人负责判断。

举个例子:

代码交付场景——机器统计:第三方接口超时,本月出现了 8 次人判断:根因是缺少熔断机制规则制定:所有外部调用必须加熔断落地:这条规则写回 L2,以后自动检查

AI 知识库同理:

机器统计:"上个月销售额是多少"这个问题,答错了 5 次人判断:根因是日期解析歧义(用户说"上个月",AI 理解错了)规则制定:所有日期问题,强制加日期格式校验落地:更新 Prompt 规则

把踩过的坑,变成不再踩坑的规则。 这才是真正的经验积累。


L4:让工具链”见机行事”

不是所有任务都走同一个流程。

同样是删数据:

  • 用户说”删除 app_token=xxx table_id=xxx 的第 3-5 条记录”→ 高置信度,直接执行
  • 用户说”清理一下测试数据”→ 中置信度,先列出来,等用户确认
  • 用户说”把没用的数据清一下”→ 低置信度,不执行,先问清楚什么叫”没用”

代码交付也一样:

  • 紧急 hotfix → 跳过 design review,直接 CI + 灰度发布
  • 架构重构 → 额外触发 design review + 变更分析
  • 新人 MR → 自动加资深 review

好的 Harness 不是把所有工具串起来,是按场景剪裁流程。


L5:让 AI 自己判断”我会不会搞砸”

这是最高级的一层。

每个决策节点都有自己的置信度:

任务 → 方案选择 → 工具选择 → 参数确定 → 执行 → 结果评估  ↓        ↓           ↓          ↓         ↓置信度   置信度      置信度     置信度     置信度

高置信度 → 执行 + 简单确认 

中置信度 → 先输出计划,等用户点头 

低置信度 → 直接说”我不确定”,列出可能方向,让用户来定

好的 AI 助手,不是万能的,而是知道自己什么时候不行。


04 大厂已经在偷偷干了

说出来你可能不信——

  • OpenAI Codex 团队:工程师已经不写代码了,写的是架构规则和 AGENTS.md
  • Stripe 工程师:不写代码了,写的是 Blueprint 编排和 CI 限速策略
  • Anthropic 工程师:不写代码了,写的是 evaluator 打分标准和校准逻辑
  • Claude 团队:500 个 MCP 工具,只给每个 Agent 精心筛选的子集——更多工具 ≠ 更好效果
  • Manus:6 个月内重构了 5 次 Harness
  • LangChain:一年内重新架构了 3 次研究型 Agent

这帮人都在干同一件事:与其期待模型突然变聪明,不如自己搭一个让模型稳定输出的系统。


05 落地顺序别搞错

说了这么多,落地有没有顺序?

有。

L1-L2 先落地,L3 靠积累,L4-L5 逐步演进。

别一上来就想搞 AI 自举,先把标准定清楚、把自动化跑起来。

L1 定标准(告诉大家什么是好)    ↓L2 自动化执行(让机器判断好不好)    ↓L3 发现问题模式(从错误里提炼规则)    ↓L4 按场景调度(不是所有任务走同一条路)    ↓L5 自我评估 + 置信度兜底(AI 自己知道什么时候该喊停)

写在最后

Harness Engineering 让我想到一件事——

我们总以为,解决问题的关键在于找到更好的工具。但真正的问题,往往在于我们没有把现有的工具用对地方。

模型会变,工具会过时,但约束、反馈、规则这套思路,永远不会过时。

下次你的 AI 助手又犯傻了,别急着骂它——先问问自己:

我有没有给它搭一个”不容易犯错”的工作环境?


2026 年,AI 时代最稀缺的能力,可能不是用 AI,而是 管好 AI