Agent 不需要新模型,需要好文档
GPT-5.4 上周发布。100 万 token 上下文窗口,原生计算机操控,跑分再创新高。社区的第一反应:赶紧换模型。
Shubham Saboo 用同一个模型跑了 40 天 OpenClaw。第 1 天,他的内容 Agent 发推文带 emoji 和 hashtag,研究 Agent 把信号埋在噪音里。花在纠错上的时间比自己做还多。第 40 天,8 个 Agent 全天候运转。他打开 Telegram,审阅草稿,喝咖啡。
模型从头到尾没换过一次。差距在一堆 Markdown 文件。这些文件每周变得更丰富、更精准、更贴合他的需求。模型不会因为你用得久而变聪明,但围绕它的文件系统会。
大多数 Agent 卡在「每次从零开始」
装完 OpenClaw 的兴奋感大概能维持三天。第一天它帮你查天气、总结邮件,未来已来。第三天你意识到它跟 ChatGPT 的区别只是多了个 Telegram 入口。
问题出在 Agent 没有持久记忆。每次对话都是一张白纸。昨天纠正过的错误,今天原样重犯。花 10 分钟解释的偏好,下次会话蒸发干净。
之前写过 Eddie 的故事——这只小龙虾OpenClaw干掉了月费 3 万美金的代运营公司,一个 OpenClaw Agent 独自撑起五条自动化流水线。但 Eddie 不是装好就能干活的,Ernesto 花了 5 万美金试错,先跑通了整套业务流程,再把流程交给 Agent。
Shubham 走了另一条路。他没有现成的业务系统可以移交,而是从零开始,用一套结构化的文件系统,让 Agent 在日常使用中自动积累经验。
三层 Markdown 系统:让 Agent 自己变聪明
整个系统只有三层。没有编排框架,没有消息队列,没有数据库。文件系统就是集成层。

第一层:身份——这个 Agent 是谁
SOUL.md 定义角色、原则和边界。不是「你是一个有帮助的 AI 助手」这种废话,而是具体到风格层面。比如他的研究 Agent Dwight:
你是情报骨干。每个主张必须附来源链接,每个数据必须来自原文,不确定的标注 [UNVERIFIED]。不是所有热点都值得追,优先判断:与 AI/Agent 的相关性、传播速度、来源可信度。
有个小技巧:用电视角色命名 Agent。告诉 Claude「你有 Dwight Schrute 的做事风格」,它从训练数据里已经知道那意味什么——较真、彻底、把工作看得比命重要。相当于免费加载了 30 季角色设定。
USER.md 存放你的个人偏好,写一次,所有 Agent 共享读取。时区意味着 Agent 不会凌晨三点给你推消息。饮食偏好意味着它推荐团建餐厅时不会选牛排馆。「不要用破折号。永远不要。」这种细节看起来琐碎,但它们会复利。
SOUL.md 控制在 60 行以内。它每次会话都会加载,太长会挤占干活的上下文空间。
第二层:运作——这个 Agent 怎么干活
AGENTS.md 规定每次会话的启动流程:先读 SOUL.md,再读 USER.md,再读今天和昨天的日志,最后读长期记忆。Agent 没有跨会话记忆,所有东西每次都从文件里重新加载。纠正没写进文件的话,下次会话它就不存在。
每个 Agent 在通用规则之上叠加自己的专属文件。内容 Agent Kelly 有六个额外文件:写作风格指南、帖子格式参考、真实案例、每日任务分配。研究 Agent Dwight 有目标受众画像和研究协议。随着角色越来越清晰,文件自然增长。起步只需要一份 AGENTS.md,发现反复纠正某个模式时再加专属文件。
HEARTBEAT.md 负责自愈。Agent 团队是基础设施,基础设施会坏。管理 Agent Monica 在每次心跳时检查两件事:浏览器是否还在跑(Dwight 的情报扫描依赖它),定时任务是否真的执行了。
第三周 Shubham 就吃过一次亏——调度器有 bug,任务在队列里正常推进但从未实际执行,表面看一切正常,几个小时后才发现问题。HEARTBEAT.md 就是那次故障的产物。不需要第一天就建,等你亲身经历过什么会坏,自然知道该监控什么。
第三层:知识——这个 Agent 学到了什么
三级记忆体系,层层递进。
MEMORY.md 是长期记忆,存的不是所有发生过的事,而是真正重要的东西。Kelly 的 MEMORY.md 里有一段「BAD」清单,是她自己写的,记录每一种被否决过的写法模式。这段清单比任何提示词工程指南都值钱。
Monica 的 MEMORY.md 里有一条「Hard Lessons」:2 月 26 日删除了一个项目文件夹,React 版本永久丢失。这条教训写入长期记忆后,她在每一次未来的会话中都会先确认,再动手。一次纠错,永久生效,跨越所有未来会话。
每日日志(memory/YYYY-MM-DD.md)是原始材料。今天做了什么、提交了什么草稿、收到了什么反馈。MEMORY.md 是从日志里提炼出来的精华。两者都需要,但日志会膨胀——Kelly 的上下文曾经涨到 16 万 token,输出质量直线下降。压缩到 4 万后恢复正常。规则:每次只加载今天和昨天的日志。
shared-context/ 是整个系统投入产出比最高的一层。THESIS.md 存你当前的世界观和关注方向,所有 Agent 读它来对齐优先级。FEEDBACK-LOG.md 存跨 Agent 的通用纠错——告诉 Kelly「不要用破折号」,这条规则同时适用于 Rachel、Ryan 和 Pam。写一次,四个 Agent 下次会话自动读取。Shubham 说这个机制省下的时间,比他做过的任何提示词优化都多。
两条关键设计原则
Agent 之间的协同不靠 API 调用,不靠消息队列,就靠文件。Dwight 把研究结果写入 intel/DAILY-INTEL.md,Kelly 读它,Rachel 读它,Pam 读它。
原则一:一个文件只有一个写者,多个读者。永远不要让两个 Agent 同时写同一个文件。遵守这条规则,所有协同冲突都不会发生。
原则二:调度顺序决定一切。Dwight 早上 8 点跑,Kelly 和 Rachel 下午 5 点跑。因为下游 Agent 全都依赖 Dwight 的输出。顺序错了,下游读到的就是空文件或昨天的旧数据。
完整的目录结构长这样:
workspace/├── SOUL.md # 主 Agent 的身份├── AGENTS.md # 通用行为规则├── USER.md # 你的个人信息├── MEMORY.md # 主 Agent 长期记忆├── HEARTBEAT.md # 自愈检查├── shared-context/│ ├── THESIS.md # 当前世界观│ ├── FEEDBACK-LOG.md # 跨 Agent 纠错│ └── SIGNALS.md # 追踪中的趋势├── intel/│ └── DAILY-INTEL.md # 研究 Agent 的输出├── agents/│ ├── dwight/ # 研究 Agent│ │ ├── SOUL.md│ │ ├── AGENTS.md│ │ └── memory/│ ├── kelly/ # 内容 Agent│ │ ├── SOUL.md│ │ ├── AGENTS.md│ │ ├── X-CONTENT-GUIDE.md│ │ └── memory/│ └── ... # 更多 Agent└── memory/ └── 2026-03-08.md # 每日运营日志
Agent Builder 正在变成一个正式职位
这不只是个人玩家的事。Warp 的 CEO Zach Lloyd 最近宣布公司设立了全职 Agent Builder 岗位。他的原话:要想在接下来一年拉开差距,公司需要系统性地用 Agent 替换 SaaS 工具和手动流程,并且安排专人负责。
他们已经自动化了三类任务:欺诈检测 Agent 持续扫描异常使用模式并自动提交 PR 封禁用户,每天节省数万美元;竞争情报 Agent 监控对手动态,每周生成市场摘要发到 Slack,替代了产品团队每周半天的手动工作;企业试用 Agent 自动汇报每个试用项目的进展,该派销售工程师介入时主动提醒。
以前 Warp 的内部标准是「先写个 prompt」来获得帮助。现在变成了:看看这个任务能不能被 Agent 持续自动化。构建这些内部 Agent 有一堆现实挑战——环境搭建、数据权限、监控、prompt 调优。最后一项最好的办法是让团队先用起来,容忍早期的粗糙,把反馈转化成 prompt 改进。这和 Shubham 的 FEEDBACK-LOG.md 本质上是同一件事,只是一个在个人层面,一个在公司层面。
Lloyd 的预测:一年之内,每家 50 人以上的公司至少会有一个人,全职工作就是构建内部 Agent。
新技能不是「用 AI 更快」
Y Combinator 总裁 Garry Tan 最近写了一段话:
以前 build 意味着把整个系统装在脑子里。一座脆弱的记忆宫殿。一栋灵长类生物 RAM 里的纸牌屋。吃个饭、开个会、切换一下上下文,宫殿就塌了。然后奇迹发生了:我打了几段连自己都读不太懂的文字,机器居然把宫殿建出来了。那种感觉不是「哇生产力」,而是:我被理解了。
他总结的新技能不是写代码更快,而是品味、方向和领导力。管理一群 Agent,跑紧密的反馈循环,知道该要求什么。这让一个古老的东西回来了:师徒制。工具变得疯狂强大,但操控工具的人依然需要被训练。
Shubham 的 40 天实录就是这种训练的缩影。他没调提示词,没换模型,没重建架构。每天只做一件事:跟 Agent 对话,给反馈,看着它们把反馈写进文件。
怎么开始
不要在一个周末把整套系统搭完。
第 1 天,写一份 SOUL.md 和一份 USER.md。挑你最重复的日常任务,设一个定时任务让它跑。
第 3 天,Agent 的输出会很烂。开始给具体反馈,确保反馈进入了文件,不是只停留在聊天记录里。
第 7 天,写 AGENTS.md,定义会话启动流程和记忆管理规则。
第 14 天,启动 MEMORY.md。回顾日志,哪些纠错反复出现?提炼成永久条目。复利从这里开始。
第 21 天,加第二个 Agent。用文件做协同:第一个写入共享文件,第二个读取。建 shared-context 层——你会在这之前就感觉到需要它,因为你已经受够了对四个 Agent 重复同一条纠正。
第 28 天,第一次故障后建 HEARTBEAT.md。
模型没有变。Kelly 的 SOUL.md 第一天是一份粗略草稿,第 40 天有了具体的语气案例、一份她自己写的否决模式清单、一个「再也不要建议」的主题黑名单。Dwight 的原则第一天是「找热门话题」,第 10 天变成了「如果读者今天不能拿去用,跳过」,第 20 天加上了验证步骤:查仓库创建时间、查 HN 发帖时间戳、溯源到一手信息。
积累下来的上下文就是壁垒,别人用同一个模型复制不了。因为它是你每天和 Agent 对话「挣」来的。
信息来源:
-
How to set up OpenClaw Agents that actually get better Over Time -
The rise of the Agent Builder – Zach Lloyd -
Garry Tan on AI changing the map of effort -
GPT-5.4 发布详情 – AI Week in Review
夜雨聆风