让你的 AI 助手不再发疯:Harness Engineering 完整指南
你有没有过这种经历——
让 AI 帮你写代码,它第一次错了,你指出问题;第二天它换了种方式,又错了;第三天你换了更贵的模型,它还是犯一样的错。
然后你就崩溃了,心想:是不是模型不行?是不是该换家厂商?
但真相可能是——你怪错人了。
01 别再期待更好的模型了
2026 年 AI 圈最扎心的一句话:“不要等下一代模型了,现在就开始做 Harness。”
说这话的不是别人,是 Anthropic。
他们提了一个概念,叫 Harness Engineering——翻译过来大概叫”工具链工程”。
让我用人话解释一下三层递进:
-
Prompt Engineering(提示词工程)= 写好一封邮件 -
Context Engineering(上下文工程)= 把相关附件都带上 -
Harness Engineering = 搭建整个办公室
光写好邮件没用。你的 AI 助手之所以反复犯同一个错,不是它笨,是你没给它建一个”不犯错的工作环境”。
这才是关键。
02 一个实验颠覆了认知
Anthropic 做了个测试,叫 Terminal Bench 2.0。
同样的模型、同样的基准测试题目——
换一套 Harness,排名从第 33 名直接冲到第 5 名。
你没看错,不是换模型,是换 Harness。
结论很反直觉:Harness 对效果的影响,可能比模型本身还大。
就像同一把刀,在普通人手里切菜,在米其林大厨手里能雕花。刀没换,环境换了,结果完全不一样。
03 五级框架,从入门到精通
Harness Engineering 不是玄学,它是一套可以落地的方法论,分五个层级:
L1:先把”好”定义清楚
这听起来简单,但 80% 的团队死在这一步。
什么叫”好”?
-
代码交付好 = 单元测试覆盖率 ≥ 80%、lint 通过、PR 必须带需求 ID -
AI 知识库回答好 = 准确、相关、完整,还要标注来源
类比一下:这就像写 OKR,目标不清楚,执行就是瞎干。
L2:让标准自动跑起来
定义好了”好”,接下来让机器来判定。
-
代码:pre-commit hook(提交前自动跑 lint + 单元测试)、CI/CD 流水线 -
知识库:Benchmark 测试集、每次更新后自动跑回归
人工检查费时费力,还容易疲劳。让机器做它擅长的事——重复劳动。
L3:从错误里提炼规则
这是最值钱的一步,也是大多数人跳过的。
核心原则:工具负责发现,人负责判断。
举个例子:
代码交付场景——机器统计:第三方接口超时,本月出现了 8 次人判断:根因是缺少熔断机制规则制定:所有外部调用必须加熔断落地:这条规则写回 L2,以后自动检查
AI 知识库同理:
机器统计:"上个月销售额是多少"这个问题,答错了 5 次人判断:根因是日期解析歧义(用户说"上个月",AI 理解错了)规则制定:所有日期问题,强制加日期格式校验落地:更新 Prompt 规则
把踩过的坑,变成不再踩坑的规则。 这才是真正的经验积累。
L4:让工具链”见机行事”
不是所有任务都走同一个流程。
同样是删数据:
-
用户说”删除 app_token=xxx table_id=xxx 的第 3-5 条记录”→ 高置信度,直接执行 -
用户说”清理一下测试数据”→ 中置信度,先列出来,等用户确认 -
用户说”把没用的数据清一下”→ 低置信度,不执行,先问清楚什么叫”没用”
代码交付也一样:
-
紧急 hotfix → 跳过 design review,直接 CI + 灰度发布 -
架构重构 → 额外触发 design review + 变更分析 -
新人 MR → 自动加资深 review
好的 Harness 不是把所有工具串起来,是按场景剪裁流程。
L5:让 AI 自己判断”我会不会搞砸”
这是最高级的一层。
每个决策节点都有自己的置信度:
任务 → 方案选择 → 工具选择 → 参数确定 → 执行 → 结果评估 ↓ ↓ ↓ ↓ ↓置信度 置信度 置信度 置信度 置信度
高置信度 → 执行 + 简单确认
中置信度 → 先输出计划,等用户点头
低置信度 → 直接说”我不确定”,列出可能方向,让用户来定
好的 AI 助手,不是万能的,而是知道自己什么时候不行。
04 大厂已经在偷偷干了
说出来你可能不信——
-
OpenAI Codex 团队:工程师已经不写代码了,写的是架构规则和 AGENTS.md -
Stripe 工程师:不写代码了,写的是 Blueprint 编排和 CI 限速策略 -
Anthropic 工程师:不写代码了,写的是 evaluator 打分标准和校准逻辑 -
Claude 团队:500 个 MCP 工具,只给每个 Agent 精心筛选的子集——更多工具 ≠ 更好效果 -
Manus:6 个月内重构了 5 次 Harness -
LangChain:一年内重新架构了 3 次研究型 Agent
这帮人都在干同一件事:与其期待模型突然变聪明,不如自己搭一个让模型稳定输出的系统。
05 落地顺序别搞错
说了这么多,落地有没有顺序?
有。
L1-L2 先落地,L3 靠积累,L4-L5 逐步演进。
别一上来就想搞 AI 自举,先把标准定清楚、把自动化跑起来。
L1 定标准(告诉大家什么是好) ↓L2 自动化执行(让机器判断好不好) ↓L3 发现问题模式(从错误里提炼规则) ↓L4 按场景调度(不是所有任务走同一条路) ↓L5 自我评估 + 置信度兜底(AI 自己知道什么时候该喊停)
写在最后
Harness Engineering 让我想到一件事——
我们总以为,解决问题的关键在于找到更好的工具。但真正的问题,往往在于我们没有把现有的工具用对地方。
模型会变,工具会过时,但约束、反馈、规则这套思路,永远不会过时。
下次你的 AI 助手又犯傻了,别急着骂它——先问问自己:
我有没有给它搭一个”不容易犯错”的工作环境?
2026 年,AI 时代最稀缺的能力,可能不是用 AI,而是 管好 AI。
夜雨聆风