AI知识:Harness Engineering

👆关注并星标★心河智能财务BP模型,不错过每一次推送~

你有没有过这样的体验：让 AI 帮你干一个复杂点的活，开始看着还行，但越往后越离谱——逻辑开始自相矛盾，写着写着就变了风格，最后干脆把前面定的规则都忘了？

这不是你提示词没写好，也不是 AI 突然“变笨”，而是大语言模型（LLM）的生成机制本身带有三个无法绕开的“胎里毛病”。

把这三个毛病讲清楚，你就能立刻理解为什么现在整个行业都在拼命造一个东西叫 Harness（原意是“马具”或“线束”，在工程里指那套用来约束、连接和控制核心部件的配套设施）。

一、LLM 的三个“胎里毛病”

大语言模型本质是一个 token 预测器。你给它一串字，它猜下一个最可能是什么字，猜完一个接上去，再用新序列猜下下一个。一个字一个字往外蹦。

这个机制决定了三件事：

1. 偏差会滚雪球（误差累积）

每一步预测都有概率偏差。写一句口号无所谓，但让它连续做 20 个步骤、写上万行代码，前面一个小小的走偏（比如误读了一个变量名），后面就会一路歪下去，最后轰然倒塌。这不是它“变蠢了”，是误差在乘法积累。

2. 它没长记性（无状态）

每一次调用都是从零开始的对话。它不记得昨天你们讨论过的架构决策，不记得整个代码库长什么样，不记得规定的错误处理。它的世界只有当前这个上下文窗口的大小，窗口外的东西对它是永恒的黑暗。

3. 它不会自我验证（无闭环）

写完一段代码，它没法自己去跑一遍测试、编译一下。它只能凭训练数据里的模式“猜”这段代码大概是对的。所以当你问“功能写完了吗？”它说“完成了”——它没骗你，它是真觉得自己完成了，因为它压根不知道真实世界里的编译器和测试套件长什么样。

这三个毛病叠加的后果就是：AI 一个人走夜路，既没有手电筒，也没有地图，还记不住自己五分钟前是从哪个路口拐进来的。

二、Harness Engineering 是给 AI 配个副驾驶

既然模型自身的概率属性改不了（那是数学决定的），那我们就在它外面包一层确定性的壳。

Harness Engineering 做的就是这样一件事用确定性的工程手段，来约束和校正一个概率性的系统。

把它想象成给一个充满天马行空想象力但发挥不稳定的画匠，配上一整套工作室管理流程：

画匠负责挥洒灵感（LLM 生成内容）；
工作室负责打格子、量尺寸、检查颜料干没干、确认画布尺寸符合客户要求（Harness 的校验环节）；
画匠画一程，工作室看一眼，歪了马上提醒。

具体怎么做的呢？Harness 有五样拿手好戏：

1. 拿确定性的尺子量它：工具闭环

编译器、类型检查器、Linter、单元测试——这些东西是二进制的。对就是对，错就是错，没有“大概、也许、可能”。

Harness 的核心循环极其简单：

AI 生成代码 → 跑编译器/测试（错了） → 把错误信息扔回给 AI → 让它重写 → 再测。

以前这个循环是人在跑（程序员写完跑测试，红了再改）。现在 Harness 把这个循环自动化了。AI 的输出不再是最终答案，而是进入一个验证流水线的第一稿。本质是用数学确定性来验证概率输出。

2. 让你走五步就照一次镜子：缩短反馈回路

既然偏差会累积，那就别让你走远了才回头。Harness 的原则是：写完一个单元就测一个单元，改完一个模块就 Lint 一个模块。

步子越小，你能偏离正确方向的最大距离就越短。你没法让每一步都精准无误（那是模型的事），但你可以控制它跑偏多远就被拽回来。

3. 给它一本“团队外挂记忆手册”：外部化记忆

模型自己记不住，那就把记忆写在文件里。

AGENTS.md：告诉它整个项目的规矩、目录结构、常用命令。
docs/architecture/：架构决策记录。
skills/ 文件夹：按需加载的具体操作指南。

关键心法是 “不靠记住，靠每次现读”。别指望它脑子里装着，而是像查字典一样，需要什么翻什么（这叫 Skill 渐进披露）。就像你不把整本《新华字典》贴脑门上，而是遇到不认识的字再翻开。

4. 把大草原圈成小操场：约束搜索空间

LLM 的输出可能性是一片无边的大草原。它可以选任何框架、任何命名风格、任何设计模式。

Harness 通过规则、模板、强制的架构约束，把这片草原围成带护栏的操场。比如：

你只能用这三个库。
错误处理必须用这个宏。
文件命名必须是这种格式。

搜索空间越小，命中正确答案的概率就越高。这也是为什么很多团队发现，让 AI 干活之前，先把规范写死比什么都重要。

5. 把空气里的默契写成白纸黑字：隐性知识转化显性知识

每个团队都有大量“不成文的规矩”：

“那个依赖别用，有坑。”
“日志里一定要带 TraceID。”
“这个错误码要统一用 4 开头。”

人类新人靠聊天、靠 Code Review 挨骂，花几周慢慢学会。LLM 没有这个社会化学习的渠道。

如果你不把这些话显式地写进 Linter 规则或文档，AI 就会以机器速度、在每一个 PR 里、精准地、一遍又一遍地违反这些规矩。不是偶尔犯错，是系统性违规。

Harness 的一项核心脏活，就是把这空气里的隐性默契，挖掘出来、硬化成代码规则。

三、为什么它像“蒸汽机上的离心调速器”？（控制论视角）

如果你觉得上面五招像是东一榔头西一棒槌，那用一个更底层的框架一套就全通了：控制论。

Harness 本质是一个控制系统，它有两个方向的动作：

1.前馈控制（动手前先指路）

系统提示词、`AGENTS.md`、代码模板。

作用：提高第一次就做对的概率。

2.反馈控制（动手后马上查）

单元测试、Linter、AI Code Review。

作用：在错误滚成大雪球之前，自动发现并修正。

这两个缺一不可。只有前馈没反馈，你不知道它听没听话；只有反馈没前馈，它就反复踩坑反复挨打，效率极低。

这个模式在人类工程史上出现过标志性事件：

1788 年，瓦特蒸汽机上的离心调速器。以前靠工人盯着阀门手动调转速，后来靠飞球+连杆自动闭环。工人的角色从“拧阀门的操作工”变成了“设定转速的工程师”。

Harness Engineering 在AI上重现控制系统。

工程师的角色从 “一行行写代码的实现者” ，慢慢滑向 “定义原则、约束和目标来引导 AI 的系统设计者”。

四、为什么现在才火？早干嘛去了？

控制论 1948 年就有了。为什么 ChatGPT 刚出来那会儿大家只聊 Prompt，不聊 Harness？

因为那时候引擎太弱。引擎弱，你给他配再好的方向盘、刹车、防滚架也没用，它就是跑不动。

现在的局面是：引擎突然猛到能跑 200 迈了，但是没方向盘、没刹车、车门还能在高速上飞出去。

所以 Harness 的意义一下凸显出来——不是让它跑得更快，是让它安全、可靠地上路。

三个月，从命名到行业共识。速度之快，反映的是整个行业对 AI Agent 可靠性卡点的集体焦虑。

五、别把 Harness 和 Prompt 搞混了（一句话区分）

最后帮你在脑子里划条清晰的线：

Prompt Engineering：怎么问。（写提示词）
Context Engineering：给什么材料让它答好。（管理上下文窗口）
Harness Engineering：整个车间怎么运转。（约束、验证、记忆、反馈的系统工程）

Prompt 是告诉画匠“画一只老虎”，Harness 是给画匠配上标尺、颜料检查员、草稿审核流程，确保画出来的那只老虎有四条腿、花纹对称、且能挂在客户客厅里不掉下来。

说到底，Harness 就是 AI 世界的路面铺装和交通法规——让一辆动力凶猛但天生散漫的引擎，能真正安稳地跑在人类的生产大道上。