AI 时代,别只学会用工具-夜雨聆风

AI 时代,别只学会用工具

生成出来，不等于交付了

现在用 AI 做事，最容易产生一种错觉：东西出来了，事情就差不多了。

一篇稿子有标题、有段落、有观点；一份方案有背景、有目标、有步骤；一段代码能跑一遍，甚至还能解释自己为什么这么写。它们都很像完成品，至少第一眼看上去是这样。

但真正要交出去时，问题才会冒出来。稿子能不能让人愿意读，方案能不能让人照着做，代码能不能过测试，资料有没有出处，流程下次还能不能复用。你很快会发现，生成只是把空白填满，交付要解决的是另一件事：别人能不能接住它。

工具让第一版变便宜了。以前要花半天搭结构，现在几分钟就能得到一个看起来完整的版本。但便宜的第一版也带来新的问题：人会更容易把“看起来像”误认为“已经是”。结构完整不等于可读，逻辑连贯不等于可信，能跑一次不等于能放心用。

很多人现在会用 AI，但卡住的不是怎么打开工具，也不是怎么多写几个提示词，而是怎么把一件事整理到可以交出去，并且交出去以后还能验回来。AI 能参与到什么程度，取决于你有没有把目标、材料、边界、标准和验收方式交代清楚。否则它最多是在帮你把空白填满，真正要交付时，压力还是回到人身上。

只会提问，很快会不够用

早期用 AI，prompt 确实重要。你要告诉它背景是什么，任务是什么，限制是什么，希望它用什么语气，输出什么格式。很多看起来是模型不行的问题，后来发现只是人没有把任务说清楚。

所以那段时间，大家学提示词、学结构化表达、学怎么补上下文，都是合理的。不会说清楚需求，AI 再强也只能猜。

但 prompt 有一个天然问题：它太像一次性沟通。你这次说清楚了，下次还要再说；你今天把背景补齐了，明天换个任务又要重新组织。你靠临场发挥把 AI 带到正确方向，但这套经验没有留下来。

这也是为什么我越来越重视 Skill。Skill 不是把 prompt 写得更长，而是把你反复做过的事情沉淀成一套方法。比如写文章时，怎么判断选题，怎么拆材料，怎么找主线，怎么去掉 AI 味，怎么核查事实；写代码时，怎么读项目，怎么定位 bug，怎么改最小 diff，怎么跑测试，怎么写变更说明。

这些东西如果每次都靠临场解释，就会一直消耗人的注意力。你会觉得自己已经在用 AI，但实际上你还是那个调度员。AI 每动一步，都要你在旁边补一句、盯一下、改一下。

Prompt 解决的是这一次怎么说清楚。Skill 解决的是下次不用从零开始。再往后才是 Agent，它能把多个 Skill 串起来，自己读取上下文、调用工具、执行步骤、检查结果。

这条路线看起来很顺：先把需求说清楚，再把方法沉淀下来，最后让系统组织这些方法去执行。问题是，很多人想从普通 prompt 直接跳到超级 Agent。今天还在问“帮我写一个方案”，明天就希望它自动完成研究、编码、测试、发布、复盘。

中间缺掉的那层东西，就是自己的方法、标准和验收机制。没有这些，Agent 就像一个很聪明的新同事刚入职，但没有员工手册，没有项目背景，没有权限边界。它当然能干活，但干出来的东西会飘。

有时候不是 AI 不够聪明，是你的工作还没有被整理成它可以参与的样子。

Agent 能跑，不代表你能放心

Anthropic 在《Building effective agents》里有一个区分，我觉得很实用：workflow 和 agent 不是一回事。

workflow 更像预设好的流程，任务能被拆成固定步骤，每一步按规则往下走。agent 更开放，它会根据任务动态决定下一步做什么，什么时候调用工具，什么时候继续探索。

听起来 agent 更高级，但开放性越强，越需要边界。它能自己决定下一步，也就可能自己决定错下一步。它能调用工具，也就可能调用不该调用的工具。它能修改文件，也就可能改到不该改的地方。

所以问题不是 Agent 能不能动起来。能动起来已经不稀奇了。麻烦在于，它动起来以后，怎么知道方向对不对，结果能不能验收，失败了能不能恢复。

这就是 harness 要解决的问题。这个词听起来有点技术，翻成人话并不复杂：harness 是一层控制外壳。你不是把 AI 裸放进工作流里，让它随便跑，而是给它目标、上下文、工具、权限、日志、测试、回滚和验收标准。

AI 像发动机，harness 像车架、刹车、仪表盘和安全带。发动机强当然重要，但你不会把一个发动机直接放到路上跑。你需要知道它往哪开，什么时候该停，哪里出了问题，撞到边界时怎么处理。

写文章也是一样。AI 可以先写，但读者愿不愿意读，是验收；观点有没有出处，是验收；段落有没有节奏，是验收；标题和正文是否一致，也是验收。没有这些检查，文章只是生成出来了，并没有真正完成。

代码更明显。能生成一堆文件，不等于能合并；能跑通一次，不等于能维护；能解释得很漂亮，不等于行为符合预期。测试、日志、对账、回滚、人工抽查，这些听起来不如“一个人顶一个团队”刺激，但它们才是 AI 进入真实工作的条件。

没有验证，AI 只是生成；有了验证，AI 才接近交付。

人的位置不是消失，而是上移

Karpathy 在讲 Software 3.0 时，有个说法我很喜欢。他说未来更像是 Iron Man suit，而不是 Iron Man robot。

我理解这句话，不是说我们要幻想一个完全自主的机器人替人做完所有事，而是要做一套半自主的增强系统。人还在里面，但人的位置变了。

以前人负责每一步，查资料、写代码、改 bug、跑测试、整理文档、发结果，很多工作都靠人自己一手推进。现在更高杠杆的方式，是人设计任务环境，定义目标，给出边界，配置工具，建立验证，然后让 AI 在里面跑。

这不是人消失了，是人从低层执行里往上移了一层。你不再只是那个亲自敲每一行代码、亲自看每一份资料的人。你开始变成任务的设计者、系统的管理者、结果的验收者。

以前执行贵，所以会做事的人很值钱。现在执行越来越便宜，会定义事、会放行事、会验收事的人，会变得更值钱。

如果 AI 只帮你写一句文案，你可以逐字看。如果 AI 帮你改一个函数，你可以逐行审。可如果 AI 帮你跑一个两小时任务，改二十个文件，整理五十页材料，生成一组测试和报告，你还想靠逐字逐行盯住它，就会重新变成瓶颈。

这时候需要的不是更勤奋地盯屏幕，而是更好的验收机制：任务要拆到什么粒度，哪些地方可以让它自主，哪些地方必须人工确认，每一步要不要留下记录，怎么做测试、对照、抽查和回滚，跑偏时怎么尽快发现。这些能力过去也重要，只是 AI 把它们放大了。

先分清主干和叶子

这里最容易走偏。一边是工具厂商的叙事：放心交给 AI，一切都会自动完成。另一边是很多有经验的人本能反感：这东西不可靠，重要的事情不能碰。

这两种说法都太粗。更准确的问题不是要不要交给 AI，而是哪一层可以交给 AI。

Anthropic 关于 vibe coding in prod 的分享里，有个很好用的边界：leaf nodes 和 trunk。

leaf nodes 是叶子节点，影响范围相对可控。比如一个小工具、一个独立页面、一个测试补充、一个日志处理器、一个不会被很多地方依赖的边缘功能。这里即使有一点技术债，风险也比较容易关住。

trunk 是主干。比如核心架构、权限系统、数据一致性、调度器、训练 loop、会影响很多模块的基础抽象。这里不能让 AI 自己决定方向，人必须控制。

这个原则放到非代码工作里也成立。文章的资料初筛，可以让 AI 先跑；最终观点不能交给它拍板。用户反馈的分组，可以让 AI 先整理；到底改哪个产品方向，不能让它替你决定。会议纪要可以让 AI 生成；哪些承诺真的要对外说，必须人来确认。

成熟的 AI 使用方式，不是“我全管”，也不是“我不管”，更像是人控制主干，AI 扩展叶子。

这句话看起来简单，但它要求你先知道自己的工作哪里是主干，哪里是叶子。很多人的问题，恰恰是不知道。有人什么都不敢交出去，AI 永远停在问答层。也有人什么都敢让 AI 改，最后系统越来越乱。

会划边界，会变成一项很硬的能力。哪些可以先让它跑，哪些只能让它提建议；哪些结果可以抽查，哪些必须全量核对；哪些错误可恢复，哪些错误一旦发生成本很高；哪些任务看起来复杂，但其实有明确验收，适合 AI；哪些任务看起来简单，但隐性规则太多，反而不适合放手。这个判断，工具不会替你做。

AI 会照出工作流的混乱

我有时觉得，Agent 最残酷的地方，不是它抢谁的工作，而是它会照出很多工作本来就没整理好。

你让它写文章，它总写成模板稿，可能不完全是它不会写，而是你没给它真实经历、判断偏好和读者关系。你让它改代码，它总乱动文件，可能是项目里本来就没有清晰边界。你让它整理资料，它总生成漂亮废话，可能是你没定义什么叫有用。你让它做自动化，它总在最后一步需要你手动补，可能是这个流程本来就没被设计成可以交付，只是靠你脑子里的习惯勉强跑着。

所以很多时候 AI 出问题不只是模型问题。它也在提醒你：这件事还没有被系统化。

文件散着，规则藏着，标准靠感觉，验收靠经验，失败靠人兜底。这样的工作交给人也会出问题，只是人会靠默契和现场感补掉一部分。AI 没有那些默契，就把问题暴露出来了。

过去，一个人厉害，可能体现为他自己很能干，很多隐性知识都在脑子里，别人问他就能处理。以后，一个人厉害，会越来越体现为他能把自己的判断、流程、标准和边界外化出来，让 AI 也能参与其中。

不是把自己变成工具人，而是把自己的工作方式变成系统。

比如你写文章，就不只是“让 AI 帮我写”。你要沉淀选题判断、资料筛选、事实核验、叙事风格、发布前检查。AI 是执行器，但你的风格和标准要在系统里。

比如你写代码，就不只是“让 AI 帮我改”。你要沉淀项目规则、测试门槛、review 标准、危险操作边界、回滚方式。AI 可以跑实现，但系统要能发现它跑偏。

比如你做运营，就不只是“让 AI 帮我总结”。你要沉淀用户分类、反馈权重、业务指标、不能碰的表达红线、哪些结论必须回原文验证。

参考稿里把这个叫个人工程操作系统。听起来像个大词，落到个人身上，就是把那些“我知道但没写下来”的东西，一点点变成 AI 能理解、能调用、能执行、能被检查的工作流。

先改造一个真实任务

所以我现在不太建议一上来就追“万能 Agent”。

万能 Agent 很迷人，但也很容易变成一种逃避。只要你相信未来有个超级系统会替你做完一切，你就不用面对今天自己的任务为什么交不出去。

更实际的做法，是先找一个真实任务，改造它。不要太大，也不要太假。太大，你很难控制风险。太假，它给不了你真实反馈。

你可以从一个旧项目开始，让 AI 先读目录、解释模块、找风险、改一个很小的功能，然后跑测试。你会马上知道它哪里能帮忙，哪里必须停下来。

你也可以从一批资料开始，让 AI 先分类、提炼观点、列出反例、标出出处。不要让它直接成稿，先让它做可验证的前置工作。

你还可以从一个重复流程开始，比如每周都要整理的一份报告、一次客服反馈归类、一个内部数据检查脚本。让 AI 先跑一半，看看最后卡在哪里。

关键不是证明 AI 无所不能，而是观察这件事：如果我要把这项工作交出去，它缺什么？

缺材料，就整理材料。缺规则，就写规则。缺验收，就设计验收。缺边界，就划边界。缺回滚，就补回滚。这样跑几次以后，你得到的不是一个漂亮 demo，而是一套更清楚的工作流。

这套工作流才是资产。模型会换，工具会换，今天流行 prompt，明天流行 agent，后天又会有新的名词。但你对任务的拆解方式、质量标准、验收机制、风险边界，会越积越厚。

AI 最迷人的地方，是它看起来像智能。它会聊天，会写作，会编码，会解释，会总结。很多时候，它一开口就让人觉得这事稳了。但进入真实工作以后，决定结果的不是它看起来多聪明，而是它有没有被放进正确的系统里。

裸模型是能力，prompt 是表达，Skill 是沉淀，Agent 是组织，harness 是控制，个人工作流是你自己的长期资产。

所以今天最值得问的，可能不是“我会不会用某个 AI 工具”，而是这些更具体的问题：我的任务有没有被说清楚，我的经验有没有沉淀下来，我的边界有没有写出来，我的质量标准能不能被检查，我的验证机制能不能让 AI 自己暴露错误，我的工作流能不能在我不逐步盯着的时候，继续往前走一点。

如果这些问题没有答案，会用再多工具，也很容易停在热闹里。如果这些问题开始有答案，一个普通人也会慢慢拥有自己的 AI 生产系统。

别只学会使用工具。学会把事情交出去，验回来，再沉淀下来。