这段时间,我越来越强烈地感受到一件事:
AI 真正拉开差距的地方,不是“回答得有多好”,而是“能不能接上真实工作流”。
如果只是把它当聊天工具来用,当然也有价值。你可以让它帮你查资料、写一段文案、改一页 PPT、补一段代码,效率会提升一点。但这种提升,本质上还是点状的。问一次,答一次;做完这次,下次重来。
e.g 用🦞 生成的工作台,数据都是假的,接入系统后,可以做更好的呈现,从Excel玩表到HTML网页可视。

真正进入工作以后,难的从来不是“这次产出一版内容”,而是另外一些问题:
上次讨论的背景还在不在
哪一版才是当前基线
某个判断为什么当时这么定
这个报告下次刷新时,该改哪一层
这个问题下次再出现,能不能更快定位
这个项目如果明天继续,能不能从昨天停下来的地方接上
这些问题,单靠聊天解决不了。
所以我后来不再只把 Agent 当成一个更聪明的对话框,而是开始把它组织进一套工作系统里。对我来说,OpenClaw 和 WorkBuddy 最有价值的地方,也恰恰在这里:它们不是单纯帮我“回答问题”,而是在逐步参与我处理信息、沉淀经验、推进项目和复用方法的全过程。
e.g 1万2千多份报告,用🦞30分钟做好了文件的分类整理,过去我找了2个小助手花了2个月也没整理完。

我后来把两个空间做了比较明确的分工。
OpenClaw 更像长期运行的个人工作底座,适合承载那些需要持续积累的东西:长期记忆、每日记录、方法沉淀、故障排查、工作区规范、技能管理、项目间可以迁移的经验。它的价值不只是在于能调工具,而是在于很多工作痕迹能留下来。某次排障怎么做的,某个项目结构为什么这么定,哪个版本是当前基线,之前在哪个问题上踩过坑,这些内容一旦落成文件,它就不再只是聊天记录,而开始变成真正的工作资产。
WorkBuddy 对我来说更像项目推进空间。它更适合承载单条项目主线,适合拆任务、盯某一轮改造、深入某个工作台、处理某个局部工程问题。一个偏长期,一个偏项目;一个偏沉淀,一个偏推进。这样的分工带来的好处非常直接:上下文更干净,记忆更稳定,项目推进和长期经验不会互相淹没。很多人把所有事情都堆在一个对话窗口里,最后得到的往往不是更强的系统,而是更大的噪音。
真正让我受益最大的,不是某个特别厉害的 Prompt,而是几条看起来很朴素、但一旦坚持下来非常有效的原则。
e.g 靠对话搭建出来的工作台和算法可视空间,可以成为一部分付费软件的平替,而且自由度更高,更贴近自身垂直业务。


第一条,是文件优先,不要只留在对话里。
如果你真的希望 AI 参与长期工作,就不要让重要信息只存在聊天记录里。后面我逐步形成了一个最基本的结构:长期记忆记录稳定偏好、关键经验和长期决策;每日记录记录当天做了什么、遇到什么问题、停在哪个位置;项目文档放方案、规范、备份、交接和正式产物;脚本和模板负责固化重复动作。它听起来很笨,但特别有效。因为一旦做成文件,AI 下次能接上,人下次也能接上;工具换了,资产还在;会话丢了,结构还在。很多人以为 AI 用不好,是因为模型不够强。我自己的体感反而是,更多时候问题不在模型,而在工作没有文件化。
第二条,是记忆分层,而不是把所有东西都往“记忆”里塞。
真正好用的记忆系统,至少要分三层。长期层放习惯、边界、长期项目背景和已经验证有效的方法;日常层放今天做了什么、任务推进到哪、哪个问题先停在哪;原始层保留完整对话、会话日志、工具调用轨迹和排障证据。这个分层非常重要。并不是所有东西都值得进入长期记忆,也不是所有内容都应该每次都完整加载。记忆一旦不分层,AI 很容易变成“什么都记得一点,但关键时刻抓不住重点”。分层之后,系统才会更稳定,也更像真实工作的信息结构。
第三条,是不要只问“结果是什么”,而要问“流程怎么搭”。
以前更容易提这种需求:帮我写一版报告、帮我改一个页面、帮我画一张图。后来我越来越习惯反过来问:这件事的真源是什么?中间层要不要独立出来?哪一层允许手改,哪一层不应该手改?以后刷新这份产物,应该怎么走?如果换个人接手,这条链路怎么解释最清楚?这会直接改变 AI 的角色。它不再只是代写,而更像在帮你搭生产线。对我来说,真正有价值的几个产出,几乎都不是“出了一版结果”这么简单,而是连“结果是怎么稳定生产出来的”也一起搭了出来。
这一点在报告生成场景里特别明显。很多人会让 AI 直接从一堆输入材料生成最终版报告,短期看很快,长期看很难维护。我后来更稳定的一种做法是把链路拆成三层:Excel 或 CSV 作为真源,JSON 作为中间层,HTML 作为展示层。这样做的好处非常大。数据变更回到真源层改,JSON 层负责结构化,HTML 层只负责展示。哪层能手改,哪层不能手改,一眼就清楚。下一次刷新时,也不容易把手工改动覆盖掉。AI 在这里最有价值的作用,并不是帮我一次性写一版 HTML,而是帮我把真源、中间层、展示层的边界理清,让整条链路以后还能继续跑。
同样的思路,也适用于脚本产品化和工作台改造。很多真实工作里的工具,最早都只是一段 Python、一套规则、几份零散经验。AI 真正能帮上的,不只是解释代码,而是继续往上抽:它服务的对象是谁,真实目标是什么,输入输出是什么,中间节点能不能拆出来,哪些规则可以编号化,哪些结论可以模板化。这样一来,一个原本只有作者自己能看懂的脚本,就开始往“别人也能用的工具”演化。工作台也是一样。AI 最容易做的是直接改页面,但更有价值的往往是先梳理页面结构、诊断布局问题、归纳能力边界、提出信息架构方案,再把修改文档、验收标准和回退记录一起补上。这时它的角色就不再只是前端写手,而更像半个产品经理、半个架构整理器和半个实现助手。
第四条,是先诊断,再执行。
这条在真实工作里特别重要。无论是排障,还是功能改造,我越来越不接受“先改了再说”的方式。更有效的节奏应该是:先看现象,再拆层次,再找根因,再提方案,最后执行。AI 时代这条原则反而更重要,因为模型很容易快速给出一个“看起来能做的方案”,但那不等于它真的理解了问题。真正稳定的做法,是让 Agent 先诊断、先归因、先说明边界,再进入动作层。这样少掉的不是一两次返工,而是一整类无效修改。
第五条,是所有重要改动都要有回退点。
如果 AI 要进入真实项目,这条几乎是底线。我后面基本形成了默认动作:改之前先存基线,重要文件先备份,原稿不覆盖,大改要有回滚方案,最终版本和过程版本分开放。原因很简单,AI 的价值不应该建立在“绝不犯错”上,而应该建立在“犯错也能快速纠正”上。这样系统才会更敢用,也更稳。
当然,真实使用里也踩过不少坑。
第一类坑,是不同 provider 的兼容性远没有看起来那么统一。很多模型虽然都挂着类似 OpenAI 风格接口,但真实情况往往是:有的支持 chat completions,有的支持 responses,有的根本不支持 embeddings,有的会返回结构不完整的 content。表面看像“模型坏了”,其实常常是协议层不匹配。所以后来我对模型配置的态度变得很明确:不能只看模型名能不能填,一定要看 endpoint、api 类型和返回结构。一旦异常,优先排查协议栈,而不是先怀疑业务逻辑。
第二类坑,是语义检索很好,但不能替代原始文件。检索确实方便,但它依赖 embedding 和 provider 稳定。一旦 provider 层出问题,检索能力就会整体受影响。所以我的做法越来越明确:语义搜索用来快速找到相关内容,最终依据还是 markdown、日志、版本记录和原始文件。也正因为如此,我才会反复强调文件化沉淀。检索是入口,不是全部。
第三类坑,是页面能打开,不代表系统真的可用。前端项目里很容易出现这种情况:页面壳子打开了,但 API 没通,按钮点了没反应,数据其实都没加载成功。如果没有把“静态预览”和“真实联调”区分开,很容易误判问题。后来我更习惯分三层看:编译层有没有过,页面层能不能正常挂载,交互层和接口层是不是真的打通了。很多所谓“页面坏了”,最后根本不是页面的问题,而是启动方式、代理层或者接口路径的问题。
第四类坑,是复杂界面不要急着拆页。工作台项目里,一个很典型的体会是,拆页不一定更高级。对于高频执行类场景,切页往往会打断作业流。SQL 任务、执行状态、日志、结果,很多时候就该在一个主舞台里联动。真正重要的不是“看起来模块化”,而是用户在执行任务时,认知链会不会被打断。这个判断很难只靠想象得出,必须在真实使用里反复校正。
第五类坑,是本地工具链不能预设“理想环境”。本地 AI 工具经常会遇到依赖、编译、系统版本、二进制兼容这些问题。我的经验是,不要默认每台机器都能顺畅走标准安装路线;遇到卡点时,优先找现实可运行的兼容方案;能直装应用就别过度折腾包管理器;能用 wrapper 补一层,就别硬追最标准路径。很多时候,真正的目标不是“完美安装”,而是“这条链路能稳定跑起来”。
如果你也想把 Agent 从聊天工具用成工作系统,我建议先做四件事。
第一,先搭最小文件结构。长期记忆、每日记录、项目文档、脚本模板、日志排障,这几类先有起来。不要一开始追求复杂,但一定要给 AI 一个可以落地写入的地方。
第二,给高频任务补中间层。无论你最常做的是周报、月报、数据检查、页面巡检、内容改写还是项目交接,都不要只让 AI 直接出最终结果。先问真源是什么、结构层是什么、展示层是什么、哪一步以后还会反复刷新。中间层一旦补出来,可维护性会立刻提升。
第三,给常见问题写 SOP。AI 最擅长帮你把重复动作结构化,所以高频问题别每次重聊,直接沉淀成排障清单、检查顺序、常见错误归因和修复动作模板。这样后面再遇到同类问题时,速度会快很多。
第四,明确每个空间的角色。如果你也同时用多个 Agent 或多个工作区,越早做角色分工越好。最常见的混乱,不是模型不够强,而是根本不知道什么东西该放哪,哪个空间负责长期记忆,哪个空间负责项目推进,哪个空间负责最终交付物。角色不清楚,AI 很快就会从帮手变成噪音源。
回头看,我觉得最值得分享的,不是哪次输出多惊艳,也不是哪个模型多强。真正让我感受到变化的,是我开始不是“使用 AI”,而是在“组织 AI 进入工作系统”。一旦这样做,很多事情都会变:记忆不再只是聊天上下文,文档不再只是最终成品,项目不再靠临时脑补续接,AI 也不再只是回答器,而开始成为结构化协作者。
如果让我把这段实践浓缩成一句话,我会这么说:
不要只问 AI 能不能帮你做一件事,更要问:能不能让它成为你工作流里稳定的一环。
这两者的差别,决定了 AI 最终只是一个更高级的聊天工具,还是一套真正能长期帮你干活的工作系统。
夜雨聆风