AI知识:Harness Engineering👆关注并星标★ 心河智能财务BP模型 ,不错过每一次推送~
你有没有过这样的体验:让 AI 帮你干一个复杂点的活,开始看着还行,但越往后越离谱——逻辑开始自相矛盾,写着写着就变了风格,最后干脆把前面定的规则都忘了? 这不是你提示词没写好,也不是 AI 突然“变笨”,而是大语言模型(LLM)的生成机制本身 带有三个无法绕开的“胎里毛病”。 把这三个毛病讲清楚,你就能立刻理解为什么现在整个行业都在拼命造一个东西叫 Harness (原意是“马具”或“线束”,在工程里指那套用来约束、连接和控制核心部件的配套设施)。 一、LLM 的三个“胎里毛病” 大语言模型本质是一个 token 预测器 。你给它一串字,它猜下一个最可能是什么字,猜完一个接上去,再用新序列猜下下一个。一个字一个字往外蹦。 1. 偏差会滚雪球(误差累积) 每一步预测都有概率偏差。写一句口号无所谓,但让它连续做 20 个步骤、写上万行代码,前面一个小小的走偏(比如误读了一个变量名),后面就会一路歪下去,最后轰然倒塌。这不是它“变蠢了”,是误差在乘法积累 。 2. 它没长记性(无状态) 每一次调用都是从零开始的对话。它不记得昨天你们讨论过的架构决策,不记得整个代码库长什么样,不记得规定的错误处理。它的世界只有当前这个上下文窗口 的大小,窗口外的东西对它是永恒的黑暗。 3. 它不会自我验证(无闭环) 写完一段代码,它没法自己去跑一遍测试、编译一下。它只能凭训练数据里的模式“猜”这段代码大概是对的。所以当你问“功能写完了吗?”它说“完成了”——它没骗你,它是真觉得自己完成了,因为它压根不知道真实世界里的编译器和测试套件长什么样。 这三个毛病叠加的后果就是:AI 一个人走夜路,既没有手电筒,也没有地图,还记不住自己五分钟前是从哪个路口拐进来的。 二、Harness Engineering 是给 AI 配个副驾驶 既然模型自身的概率属性改不了(那是数学决定的),那我们就在它外面包一层确定性的壳 。 Harness Engineering 做的就是这样一件事 用确定性的工程手段,来约束和校正一个概率性的系统。 把它想象成给一个充满天马行空想象力但发挥不稳定的画匠,配上一整套工作室管理流程: 工作室负责打格子、量尺寸、检查颜料干没干、确认画布尺寸符合客户要求(Harness 的校验环节); 1. 拿确定性的尺子量它:工具闭环 编译器、类型检查器、Linter、单元测试——这些东西是二进制 的。对就是对,错就是错,没有“大概、也许、可能 ”。 AI 生成代码 → 跑编译器/测试(错了) → 把错误信息扔回给 AI → 让它重写 → 再测。 以前这个循环是人在跑 (程序员写完跑测试,红了再改)。现在 Harness 把这个循环自动化 了。AI 的输出不再是最终答案,而是进入一个验证流水线 的第一稿。本质是用数学确定性来验证概率输出。 2. 让你走五步就照一次镜子:缩短反馈回路 既然偏差会累积,那就别让你走远了才回头。Harness 的原则是:写完一个 单元 就测一个 单元 ,改完一个模块就 Lint 一个模块。 步子越小,你能偏离正确方向的最大距离就越短。你没法让每一步都精准无误(那是模型的事),但你可以控制它跑偏多远就被拽回来 。 3. 给它一本“团队外挂记忆手册”:外部化记忆 AGENTS.md:告诉它整个项目的规矩、目录结构、常用命令。 docs/architecture/:架构决策记录。 关键心法是 “不靠记住,靠每次现读 ”。别指望它脑子里装着,而是像查字典一样,需要什么翻什么(这叫 Skill 渐进披露)。就像你不把整本《新华字典》贴脑门上,而是遇到不认识的字再翻开。 4. 把大草原圈成小操场:约束搜索空间 LLM 的输出可能性是一片无边的大草原 。它可以选任何框架、任何命名风格、任何设计模式。 Harness 通过规则、模板、强制的架构约束,把这片草原围成带护栏的操场 。比如: 搜索空间越小,命中正确答案的概率就越高。这也是为什么很多团队发现,让 AI 干活之前,先把规范写死 比什么都重要。 5. 把空气里的默契写成白纸黑字:隐性知识转化显性知识 人类新人靠聊天、靠 Code Review 挨骂,花几周慢慢学会。LLM 没有这个社会化学习的渠道。 如果你不把这些话显式地 写进 Linter 规则或文档,AI 就会以机器速度、在每一个 PR 里、精准地、一遍又一遍地违反这些规矩。不是偶尔犯错,是系统性违规 。 Harness 的一项核心脏活,就是把这空气里的隐性默契,挖掘出来、硬化成代码规则 。 三、为什么它像“蒸汽机上的离心调速器”?(控制论视角) 如果你觉得上面五招像是东一榔头西一棒槌,那用一个更底层的框架一套就全通了:控制论 。 Harness 本质是一个控制系统 ,它有两个方向的动作: 1. 前馈控制(动手前先指路) 2. 反馈控制(动手后马上查) 单元测试、Linter、AI Code Review。 这两个缺一不可。只有前馈没反馈,你不知道它听没听话;只有反馈没前馈,它就反复踩坑反复挨打,效率极低。 1788 年,瓦特蒸汽机上的离心调速器 。以前靠工人盯着阀门手动调转速,后来靠飞球+连杆自动闭环。工人的角色从“拧阀门的操作工”变成了“设定转速的工程师”。 Harness Engineering 在AI上重现 控制系统 。 工程师的角色从 “一行行写代码的实现者 ” ,慢慢滑向 “定义原则、约束和目标来引导 AI 的系统设计者 ”。 四、为什么现在才火?早干嘛去了? 控制论 1948 年就有了。为什么 ChatGPT 刚出来那会儿大家只聊 Prompt,不聊 Harness? 因为那时候引擎太弱。 引擎弱,你给他配再好的方向盘、刹车、防滚架也没用,它就是跑不动。现在的局面是:引擎突然猛到能跑 200 迈了,但是没方向盘、没刹车、车门还能在高速上飞出去。 所以 Harness 的意义一下凸显出来——不是让它跑得更快,是让它安全、可靠地上路 。 三个月,从命名到行业共识。速度之快,反映的是整个行业对 AI Agent 可靠性卡点 的集体焦虑。 五、别把 Harness 和 Prompt 搞混了(一句话区分) Prompt Engineering :怎么问。(写提示词) Context Engineering :给什么材料让它答好。(管理上下文窗口) Harness Engineering :整个车间怎么运转。(约束、验证、记忆、反馈的系统工程) Prompt 是告诉画匠“画一只老虎”,Harness 是给画匠配上标尺、颜料检查员、草稿审核流程,确保画出来的那只老虎有四条腿、花纹对称、且能挂在客户客厅里不掉下来。 说到底,Harness 就是 AI 世界的路面铺装和交通法规——让一辆动力凶猛但天生散漫的引擎,能真正安稳地跑在人类的生产大道上。