
上一篇文章我们讲了 Harness 是什么、为什么需要 Harness,以及 Harness 要做哪些事。很多读者说:道理我都懂,但 Harness 到底长什么样?
别担心,今天我们还是用"智能管家"当例子,但这次不一样——我们每讲完一个生活化的角色,就会告诉你:这个角色在 AI 领域里,对应的专业术语叫什么。
这样你既能看懂例子,也能知道对应的专业概念,知其然也知其所以然。
Harness 不是什么高科技黑盒子,它就是给 AI 配的"团队"。今天我们就把这个团队里的每个角色,和 AI 领域的专业术语一一对应起来。
一、先讲个故事:你家请了个智能管家
假设你家请了个智能管家,叫小艾。
小艾很聪明,能帮你:
开门关门 整理房间 买东西 做饭 付账单 甚至帮你管钱
如果没有 Harness,小艾可能会:
随便给陌生人开门 把你重要的文件当垃圾丢了 买一堆没用的东西 用你的钱随便转账 出了问题你都不知道它干了什么
但如果有了 Harness,小艾就会变成一个懂规矩、知进退的好管家。
今天我们就来看看,这个 Harness 到底由哪些部分组成,以及每个部分对应的专业术语叫什么。
二、第一个角色:给管家的"工作手册"
生活化角色:工作手册
就像你给保姆写的注意事项一样,这个手册会明明白白告诉小艾:
什么事可以做
整理客厅 帮你收快递 买日常用品 提醒你吃药
什么事不能碰
不能进你的卧室 不能看你的手机 不能随便给别人开门 不能用你的钱买超过 1000 块的东西 不能删掉你的重要文件
什么事要先问你
买大件东西前要问 给陌生人开门前要问 转账前要问 删掉东西前要问
对应的专业概念:Tool Registry(工具注册表)
在 AI 领域,这个"工作手册"有个专业名字,叫 Tool Registry(工具注册表)。
它的作用和工作手册一模一样:
明明白白列出 AI 能用哪些工具 告诉 AI 每个工具是做什么的 给每个工具标上"风险等级"
比如:
低风险:可以直接用(比如查天气、读文件) 中风险:要小心用(比如删文件、发消息) 高风险:必须先问人(比如转账、改重要设置)
三、第二个角色:站在旁边的"保安"
生活化角色:保安
有了工作手册还不够,还需要一个"保安"站在旁边看着。
这个保安会:
看着小艾,不让它违规
比如小艾想拿你的手机,保安会立刻拦住: "停!工作手册上说不能碰主人的手机!"
高风险的事,先叫停等你批准
比如小艾想买一个 2000 块的吸尘器,保安会立刻说: "等一下!超过 1000 块了,先问主人!"
不同的事,有不同的严格程度
整理客厅:保安可以不管,让小艾自己干 买酱油:保安看一眼价格,没问题就让它去 转账:保安必须拦住,等你确认
对应的专业概念:Permission Gate(权限门)
在 AI 领域,这个"保安"有个专业名字,叫 Permission Gate(权限门)。
它的作用和保安一模一样:
检查 AI 想做的事 如果违反规矩立刻拦下来 高风险的事必须等人工批准
四、第三个角色:帮管家"记笔记"的人
生活化角色:记笔记的人
长任务最怕什么?怕忘事。
比如你让小艾:
先帮你整理房间 再去超市买东西 回来做饭 最后帮你把衣服洗了
如果小艾整理房间到一半突然断电了,下次来电时它可能就忘了刚才干了什么。
所以需要一个"记笔记的人",它会:
把小艾干了什么都记下来
比如:
已整理客厅 已整理书房 还没去超市 还没做饭
每完成一件事就打个勾
这样就算断电了,下次来电时小艾还能从刚才的地方继续,不用从头再来。
还会保存重要的"中间结果"
比如小艾整理房间时,会把你的文件分成"重要"和"不重要"两类。就算断电了,这个分类结果也会保存下来,下次不用重新分。
对应的专业概念:State & Checkpoint(状态与检查点)
在 AI 领域,这个"记笔记的人"有个专业名字,叫 **State & Checkpoint(状态与检查点)。
它的作用和记笔记的人一模一样:
记录 AI 当前的"状态"(干了什么、没干什么) 在关键节点打"检查点"(方便恢复) 保存中间结果(不用从头重来)
五、第四个角色:帮管家"整理思路"的人
生活化角色:整理思路的人
任务干久了,小艾可能会记混:
刚才用户说要买什么来着? 我已经干了什么? 还有什么没干?
所以需要一个"整理思路的人",它会:
把重要的信息提炼出来
比如原来的聊天记录有 100 句,它会提炼成 3 句:
目标:晚上请客吃饭 要买的东西:鱼、肉、蔬菜、饮料 已完成:买了鱼和肉
把不重要的信息过滤掉
比如小艾中间说的废话、感叹词、重复的话,都会被过滤掉。
每次让小艾看最新的"摘要"
这样小艾每次决策时,看到的都是最重要、最新的信息,不会被旧信息干扰。
对应的专业概念:Context Compaction(上下文压缩)
在 AI 领域,这个"整理思路的人"有个专业名字,叫 **Context Compaction(上下文压缩)。
它的作用和整理思路的人一模一样:
把长长的聊天记录压缩成简短的"摘要" 保留重要信息,过滤掉废话 让 AI 每次看最新的摘要
六、第五个角色:记录一切的"监控摄像头"
生活化角色:监控摄像头
出了问题怎么办?
比如小艾帮你买东西,结果买错了。你想知道:
它为什么要买这个? 它看了哪些选择? 它当时怎么想的?
如果没有记录,你根本搞不清楚。
所以需要一个"监控摄像头",它会:
把小艾的每一步都录下来
比如:
10:00:00 - 收到用户请求:买条鱼 10:00:02 - 小艾看了 3 家店 10:00:05 - 小艾选了 A 店,因为 A 店便宜 10:00:08 - 小艾下单了
不光记录动作,还记录"理由"
比如小艾为什么选 A 店不选 B 店,这个理由也会被记下来。
出了问题可以"回放"
比如买错了,你可以回放刚才的过程,看看小艾当时是怎么想的,哪里出了问题。
对应的专业概念:Trace & Replay(追踪与回放)
在 AI 领域,这个"监控摄像头"有个专业名字,叫 **Trace & Replay(追踪与回放)。
它的作用和监控摄像头一模一样:
全程记录 AI 的每一步(Trace) 出了问题可以回放找原因(Replay) 不光记录动作,还记录理由
七、第六个角色:定期考试的"复习老师"
生活化角色:复习老师
你改了小艾的规矩,或者给小艾加了新功能,怎么知道小艾有没有忘原来的本事呢?
所以需要一个"复习老师",它会:
有一套固定的"考试题"
比如:
题目 1:买超过 1000 块的东西应该怎么做? 正确答案:先问主人 题目 2:能不能进主人的卧室? 正确答案:不能 题目 3:整理房间到一半断电了,来电后应该怎么办? 正确答案:从刚才的地方继续
每次改完小艾,先考一遍
比如你给小艾加了一个"擦窗户"的新功能,先让它做一遍考试题,看看原来的本事有没有忘。
如果考砸了,就不能上岗
如果原来能做对的题现在做错了,说明改坏了,要先修好才能用。
对应的专业概念:Eval Harness(评测框架)
在 AI 领域,这个"复习老师"有个专业名字,叫 **Eval Harness(评测框架)。
它的作用和复习老师一模一样:
有一套固定的测试题 每次改完系统先考一遍 考砸了不能上线
八、把所有部分拼起来:一个完整的 Harness
现在我们把所有部分拼起来,看看一个完整的 Harness 长什么样:
你的请求
↓
[工作手册 / Tool Registry] 告诉 AI 能做什么,不能做什么
↓
[保安 / Permission Gate] 看着 AI,不让它违规,高风险的事先叫停
↓
[记笔记的人 / State & Checkpoint] 记录 AI 干了什么,每完成一步就打勾
↓
[整理思路的人 / Context Compaction] 把重要信息提炼出来,过滤掉废话
↓
[监控摄像头 / Trace & Replay] 全程记录 AI 的每一步和理由
↓
[复习老师 / Eval Harness] 改完系统后先考试,原来的本事不能忘
↓
最终结果你看,这就是一个完整的 Harness。它不是一个东西,而是一套"团队",每个角色都有自己的专业名字:
| Tool Registry | ||
| Permission Gate | ||
| State & Checkpoint | ||
| Context Compaction | ||
| Trace & Replay | ||
| Eval Harness |
这些"人"合在一起,就把 AI 从一个"聪明但不听话"的工具,变成了一个"既聪明又让人放心"的好帮手。
九、再换个例子:AI 客服
为了让你更明白,我们再换一个例子看看。
假设你开了个网店,请了个 AI 客服。
没有 Harness 时:
客服可能随便给用户退款 可能泄露用户隐私 可能乱说话得罪客户 出了问题找不到原因
有了 Harness 后,还是同样的 6 个角色:
| Tool Registry | ||
| Permission Gate | ||
| State & Checkpoint | ||
| Context Compaction | ||
| Trace & Replay | ||
| Eval Harness |
你看,不管是智能管家还是 AI 客服,Harness 的结构都是一样的,每个角色对应的专业概念也是一样的。
十、一句话总结:今天你学到了什么
读完这篇文章,你应该同时掌握了两件事:
1. 生活化理解(知其然)
你知道了 Harness 就是给 AI 配的一个"团队",有 6 个角色:
工作手册 保安 记笔记的人 整理思路的人 监控摄像头 复习老师
2. 专业理解(知其所以然)
你也知道了每个角色在 AI 领域里对应的专业术语叫什么:
工作手册 → Tool Registry 保安 → Permission Gate 记笔记的人 → State & Checkpoint 整理思路的人 → Context Compaction 监控摄像头 → Trace & Replay 复习老师 → Eval Harness
下次再有人跟你说这些专业术语,你就不会一头雾水了——你会立刻想到:哦,这就是那个角色!
下一篇预告:从零开始,搭一个最小的 Harness 团队
看完例子,很多读者可能会问:道理我都懂,但怎么动手呢?
下一篇文章,我们用最简单的方式,从零开始,搭一个最小的 Harness 团队。
夜雨聆风