
前两篇说了两件事:AI 打零工是因为缺马具;马具的原材料锁在你的脑子里。
这篇聊最后一个问题:原材料有了,怎么拼成一套能跑的马具?
我不打算讲理论了。直接讲我自己是怎么做的——失败了多少次、踩了什么坑、最后跑通的版本长什么样。
先说结论:我失败了不下十次
"养龙虾"这件事在社交媒体上看着挺热闹——配个系统提示词,挂几个工具,就开始"养"了。
我也是这么开始的。然后失败了。重置,再来。又失败了。再重置。
前后折腾了不下十次。
每次失败的方式不太一样,但本质原因惊人地一致:我以为给 AI 一套指令就够了。
给它描述人设,给它几条规则约束行为,给它几个工具 Skills 让它能干活——OK,开始跑吧。跑了两天,发现它偏得离谱。要么输出的东西 AI 味浓重,要么完全抓不住重点,要么在胡说八道。
本质上跟第二篇说的一样:规则不等于原则,指令不等于环境。
后来我想明白了一件事:我搭的不是一个工具,是一个工作环境。 这个环境要能让 AI 自己在里面持续运转、持续进化、持续保持在正确的轨道上。
跟养人一样。你不可能把一个新员工的所有行为都用规章制度写死。你能做的是:给他明确的方向、清晰的边界、持续的反馈,然后让他在这个框架里自己成长。
文档驱动才是核心竞争力
十次失败教会我的第一件事:人跟人养出来的 AI 之间最大的差距,不是提示词写得好不好,是文档系统建得好不好。
提示词是短期的。你精心调了一个提示词,换个场景可能就不灵了。但文档是长期的——它是你所有认知、经验、判断标准以可维护形式沉淀下来的产物。
我说的"文档驱动"不只是"建个知识库"那么简单。知识库是中心——你积累的所有认知、素材、成品的结构化沉淀。但光有知识库还不够,围绕它至少还需要三层管理机制:
• 约束管理——管理每一个步骤的核心原则、工作流和业务能力。它要确保的是:AI 的每一步决策判断,都不是随机蹦出来的,而是经过设计的思考过程得出的结论。哪个环节该用什么原则、走什么流程、调用什么能力——都得被显式地定义和维护。 • 反馈管理——确保每一次决策判断都有完整的流程记录:做了什么、为什么这么做、最终结果如何、人的反馈是什么。更重要的是,系统要具备反思能力——基于这些记录持续回顾、持续迭代、持续精进。不是记完就完了,是记完之后还要消化、还要进化。 • 债务管理——跟代码有技术债一样,文档也会腐烂。哪些原则过时了?哪些工作流跟实际脱节了?哪些反馈还没有被消化成改进?你得有机制定期识别和清理这些债务,否则系统越跑越偏。
三层机制围绕知识库运转,整个文档系统才是活的。
我现在给 AI 搭的系统,核心是一个 Obsidian vault(本地知识库)。里面有灵感库、成品库、素材库、系列大纲,每一篇内容都有标准化的属性标签——类型、状态、成熟度、关联关系。还有一套 Dashboard 和多个视图页面,让 AI 能快速定位"今天该写什么""哪些素材还没消化""哪个系列差几篇"。围绕这个 vault,还有一整套约束文件定义工作流和输出标准,有记忆文件记录每一次决策和反馈,有心跳机制驱动定期的反思和债务清理。
对 AI 来说,这整套文档系统就是它的世界。它在里面能看到全局、找到上下文、知道每一步该怎么思考、追溯每一个决策的来龙去脉。
这件事的意义在于:当 AI 运行在一个文档驱动的环境里时,它的每一次行动都不是从零开始的。 它知道之前做过什么、当前进展到哪、下一步该怎么走、每个判断该依据什么原则。这跟一个空降的、什么背景信息都没有的临时工,完全是两种物种。
所以我跟别人说:养龙虾最重要的事,不是写提示词,是建文档系统。你的文档系统有多完备、管理机制有多健全,才是你和别人之间真正的差距。
别告诉它"什么是好的",给它看
十次失败教会我的第二件事:用范文校准,不用规则校准。
以写作为例。最早的版本,Andrew 写出来的东西 AI 味极重——结构工整但毫无灵魂,遣词造句全是大模型标配的腔调。我在其他平台试发过几篇,反响很差。
我的第一反应是加规则:"不要使用排比句""减少形容词""多用短句"。加了一堆,效果甚微。因为这些规则太碎了,AI 执行起来顾头不顾尾——这边把排比去了,那边又蹦出新的 AI 腔。
后来我换了一个思路:不告诉它规则,给它范文。
我挑了七八篇我觉得风格特别好的文章,让它深度学习。然后给它灵感素材,让它仿写几篇。写出来我再调——这里不对,换个表达;那里太飘,加个具体场景。反复迭代了一两轮,风格就稳住了。
现在 Andrew 写的东西,基本不用再操心文风了。它已经内化了"什么样的文章是好的"这个标准。
为什么范文比规则好使?因为范文提供的是一个完整的模式——语感、节奏、信息密度、叙事方式——这些东西很难拆成一条条规则来描述,但大语言模型天然擅长从样本中提取模式。
这其实就是上一篇说的"原则优于规则"的另一个体现。规则是离散的、碎片的;范文(和原则一样)是整体的、有内在逻辑的。AI 消化整体比消化碎片高效得多。
吾日三省吾身
十次失败教会我的第三件事,也是最重要的一件:马具不是装上就完了,它得能自动纠偏。
静态的环境会腐烂。你今天搭好的知识库,三天后可能就跟实际情况对不上了。AI 基于过时信息做出的判断,可能比没有信息还糟糕。
所以必须有负反馈机制——当系统偏离了预期,有什么东西能把它拉回来。
我做的方式很朴素:让 AI 定期反省。
以天为单位:每天它会自动整理我跟它的所有对话内容,提炼关键信息写入记忆文件。同时它会用搜索工具去验证——我们聊到的某个信息是否准确?某个判断是否有新的数据支持或反驳?发现问题后它会做二次判断,再跟我确认。
以周为单位:它会生成一份周度总结。我会跟它讨论——这一周它看到了什么、我的观点在哪些地方跟它收集的信息有出入、不一致的原因是什么。这就是一次集中的"价值观校准"。
说白了就是《论语》里那句话:吾日三省吾身。
为什么这个机制有效?因为它利用了 AI 在第三代框架里才有的能力——心跳。
传统 AI 你不叫它就不动。但在 OpenClaw 这类第三代框架下,AI 通过心跳机制拥有了自己的时间线。每隔一段时间,它会主动"醒来",读取最新的上下文,进行新一轮思考,把思考结果存下来,进入下一轮。
这意味着负反馈不再需要你手动触发。你设定好机制,它会自行运转——发现信息过时了,自己更新;发现判断有偏差,自己标记出来等你确认;发现知识库里有矛盾,自己去核实。
这就是控制论讲的"恒温器":你设定了目标温度,系统自己调节。
高考物理的启示
讲一个可能有点奇怪的类比。
我高中物理特别好,到了后期基本不做卷子了。不是因为偷懒——而是全班同学哪道题不懂都来问我。每张卷子里最难的题,我在给别人讲解的过程中,其实也在反思自己的思考路径。而那些我已经会的题,不需要重复练习了。
这让我省了大量时间,可以去复习其他学科。
现在我同时在养好几只"龙虾",感觉回到了那个状态。
每只龙虾在不同的方向上探索——有的做内容、有的做数据分析、有的做信息追踪。它们各自运转,遇到它们处理不了的问题会反馈给我。我只需要处理最关键的那部分——那些相当于"卷子里最难的题"的决策。
而且整个过程是透明的。它每一步怎么思考的、为什么做出这个判断、在哪里卡住了——我都能看到。这不是一个黑盒,是一个展开的推理过程。我在审阅它的思考过程的同时,也在反思自己的认知。
这就是养龙虾最意外的收获:它不只是在帮我干活,它在逼我把自己的思维过程显性化。
每次它问我一个问题,我都需要想清楚自己的判断逻辑,然后把它表达出来。时间久了,我对自己的认知体系理解得越来越清晰。它在成长,我也在成长——这是一个螺旋上升的过程。
马具的三层结构
总结一下,一套能跑的马具到底长什么样。
第一层:文档系统——给 AI 一个世界。
不是一份文档,是一整套文档驱动的工作环境。中心是知识库,围绕它有约束管理确保每一步决策都经过设计的思考过程,有反馈管理确保每一次判断都有完整记录和持续迭代,有债务管理确保系统不会腐烂。AI 在里面能看到全局、找到上下文、知道怎么思考、追溯每一个决策的来龙去脉。这是马具的"马鞍"——让骑手能稳稳地坐在上面。
第二层:范文和原则——告诉 AI 什么是好的。
不靠规则堆砌,靠完整的模式和因果逻辑来校准 AI 的行为。这是马具的"缰绳"——决定了马跑向哪个方向。
第三层:负反馈机制——让系统自动纠偏。
通过心跳驱动的定期反省、信息验证、价值观校准,让整个系统持续保持在正轨上。这是马具的"刹车"——确保马不会跑偏、跑野。
三层加在一起,AI 不再是一个你发指令才动的工具,也不再是一个需要你盯着才能干活的执行者。它成了一个有环境、有方向、有自我纠偏能力的持续运转的系统。
回到这个系列的起点
三篇文章,一条线索:
你的 AI 只能打零工——因为它缺马具,散落一桌的积木没有人拼。
你脑子里的东西 AI 读不懂——因为马具的原材料是你的隐性认知,你得先把它导出来,从规则升级为原则。
让 AI 自己跑起来的三层结构——文档系统是世界,原则是方向,负反馈是纠偏。三层搭起来,AI 才能从零工变成正式员工。
Harness Engineering——驾驭 AI 的工程学——听起来像一个新概念。但它指向的东西一点都不新:你得先理解自己,才能驾驭工具。
钱学森 70 年前在《工程控制论》里说的负反馈是这个,孔子 2500 年前说的"吾日三省吾身"也是这个。只不过这一次,你要驾驭的不是火箭,不是自己的品性——是一匹叫做 AI 的新马。
它的力量已经在那里了。问题只是:你准备好骑上去了吗?
夜雨聆风