Agent 不需要新模型,需要好文档-夜雨聆风

Agent 不需要新模型,需要好文档

GPT-5.4 上周发布。100 万 token 上下文窗口，原生计算机操控，跑分再创新高。社区的第一反应：赶紧换模型。

Shubham Saboo 用同一个模型跑了 40 天 OpenClaw。第 1 天，他的内容 Agent 发推文带 emoji 和 hashtag，研究 Agent 把信号埋在噪音里。花在纠错上的时间比自己做还多。第 40 天，8 个 Agent 全天候运转。他打开 Telegram，审阅草稿，喝咖啡。

模型从头到尾没换过一次。差距在一堆 Markdown 文件。这些文件每周变得更丰富、更精准、更贴合他的需求。模型不会因为你用得久而变聪明，但围绕它的文件系统会。

大多数 Agent 卡在「每次从零开始」

装完 OpenClaw 的兴奋感大概能维持三天。第一天它帮你查天气、总结邮件，未来已来。第三天你意识到它跟 ChatGPT 的区别只是多了个 Telegram 入口。

问题出在 Agent 没有持久记忆。每次对话都是一张白纸。昨天纠正过的错误，今天原样重犯。花 10 分钟解释的偏好，下次会话蒸发干净。

之前写过 Eddie 的故事——这只小龙虾OpenClaw干掉了月费 3 万美金的代运营公司，一个 OpenClaw Agent 独自撑起五条自动化流水线。但 Eddie 不是装好就能干活的，Ernesto 花了 5 万美金试错，先跑通了整套业务流程，再把流程交给 Agent。

Shubham 走了另一条路。他没有现成的业务系统可以移交，而是从零开始，用一套结构化的文件系统，让 Agent 在日常使用中自动积累经验。

三层 Markdown 系统：让 Agent 自己变聪明

整个系统只有三层。没有编排框架，没有消息队列，没有数据库。文件系统就是集成层。

第一层：身份——这个 Agent 是谁

SOUL.md 定义角色、原则和边界。不是「你是一个有帮助的 AI 助手」这种废话，而是具体到风格层面。比如他的研究 Agent Dwight：

你是情报骨干。每个主张必须附来源链接，每个数据必须来自原文，不确定的标注 [UNVERIFIED]。不是所有热点都值得追，优先判断：与 AI/Agent 的相关性、传播速度、来源可信度。

有个小技巧：用电视角色命名 Agent。告诉 Claude「你有 Dwight Schrute 的做事风格」，它从训练数据里已经知道那意味什么——较真、彻底、把工作看得比命重要。相当于免费加载了 30 季角色设定。

USER.md 存放你的个人偏好，写一次，所有 Agent 共享读取。时区意味着 Agent 不会凌晨三点给你推消息。饮食偏好意味着它推荐团建餐厅时不会选牛排馆。「不要用破折号。永远不要。」这种细节看起来琐碎，但它们会复利。

SOUL.md 控制在 60 行以内。它每次会话都会加载，太长会挤占干活的上下文空间。

第二层：运作——这个 Agent 怎么干活

AGENTS.md 规定每次会话的启动流程：先读 SOUL.md，再读 USER.md，再读今天和昨天的日志，最后读长期记忆。Agent 没有跨会话记忆，所有东西每次都从文件里重新加载。纠正没写进文件的话，下次会话它就不存在。

每个 Agent 在通用规则之上叠加自己的专属文件。内容 Agent Kelly 有六个额外文件：写作风格指南、帖子格式参考、真实案例、每日任务分配。研究 Agent Dwight 有目标受众画像和研究协议。随着角色越来越清晰，文件自然增长。起步只需要一份 AGENTS.md，发现反复纠正某个模式时再加专属文件。

HEARTBEAT.md 负责自愈。Agent 团队是基础设施，基础设施会坏。管理 Agent Monica 在每次心跳时检查两件事：浏览器是否还在跑（Dwight 的情报扫描依赖它），定时任务是否真的执行了。

第三周 Shubham 就吃过一次亏——调度器有 bug，任务在队列里正常推进但从未实际执行，表面看一切正常，几个小时后才发现问题。HEARTBEAT.md 就是那次故障的产物。不需要第一天就建，等你亲身经历过什么会坏，自然知道该监控什么。

第三层：知识——这个 Agent 学到了什么

三级记忆体系，层层递进。

MEMORY.md 是长期记忆，存的不是所有发生过的事，而是真正重要的东西。Kelly 的 MEMORY.md 里有一段「BAD」清单，是她自己写的，记录每一种被否决过的写法模式。这段清单比任何提示词工程指南都值钱。

Monica 的 MEMORY.md 里有一条「Hard Lessons」：2 月 26 日删除了一个项目文件夹，React 版本永久丢失。这条教训写入长期记忆后，她在每一次未来的会话中都会先确认，再动手。一次纠错，永久生效，跨越所有未来会话。

每日日志（memory/YYYY-MM-DD.md）是原始材料。今天做了什么、提交了什么草稿、收到了什么反馈。MEMORY.md 是从日志里提炼出来的精华。两者都需要，但日志会膨胀——Kelly 的上下文曾经涨到 16 万 token，输出质量直线下降。压缩到 4 万后恢复正常。规则：每次只加载今天和昨天的日志。

shared-context/ 是整个系统投入产出比最高的一层。THESIS.md 存你当前的世界观和关注方向，所有 Agent 读它来对齐优先级。FEEDBACK-LOG.md 存跨 Agent 的通用纠错——告诉 Kelly「不要用破折号」，这条规则同时适用于 Rachel、Ryan 和 Pam。写一次，四个 Agent 下次会话自动读取。Shubham 说这个机制省下的时间，比他做过的任何提示词优化都多。

两条关键设计原则

Agent 之间的协同不靠 API 调用，不靠消息队列，就靠文件。Dwight 把研究结果写入 intel/DAILY-INTEL.md，Kelly 读它，Rachel 读它，Pam 读它。

原则一：一个文件只有一个写者，多个读者。永远不要让两个 Agent 同时写同一个文件。遵守这条规则，所有协同冲突都不会发生。

原则二：调度顺序决定一切。Dwight 早上 8 点跑，Kelly 和 Rachel 下午 5 点跑。因为下游 Agent 全都依赖 Dwight 的输出。顺序错了，下游读到的就是空文件或昨天的旧数据。

完整的目录结构长这样：

workspace/├── SOUL.md              # 主 Agent 的身份├── AGENTS.md            # 通用行为规则├── USER.md              # 你的个人信息├── MEMORY.md            # 主 Agent 长期记忆├── HEARTBEAT.md         # 自愈检查├── shared-context/│   ├── THESIS.md        # 当前世界观│   ├── FEEDBACK-LOG.md  # 跨 Agent 纠错│   └── SIGNALS.md       # 追踪中的趋势├── intel/│   └── DAILY-INTEL.md   # 研究 Agent 的输出├── agents/│   ├── dwight/          # 研究 Agent│   │   ├── SOUL.md│   │   ├── AGENTS.md│   │   └── memory/│   ├── kelly/           # 内容 Agent│   │   ├── SOUL.md│   │   ├── AGENTS.md│   │   ├── X-CONTENT-GUIDE.md│   │   └── memory/│   └── ...              # 更多 Agent└── memory/    └── 2026-03-08.md    # 每日运营日志

Agent Builder 正在变成一个正式职位

这不只是个人玩家的事。Warp 的 CEO Zach Lloyd 最近宣布公司设立了全职 Agent Builder 岗位。他的原话：要想在接下来一年拉开差距，公司需要系统性地用 Agent 替换 SaaS 工具和手动流程，并且安排专人负责。

他们已经自动化了三类任务：欺诈检测 Agent 持续扫描异常使用模式并自动提交 PR 封禁用户，每天节省数万美元；竞争情报 Agent 监控对手动态，每周生成市场摘要发到 Slack，替代了产品团队每周半天的手动工作；企业试用 Agent 自动汇报每个试用项目的进展，该派销售工程师介入时主动提醒。

以前 Warp 的内部标准是「先写个 prompt」来获得帮助。现在变成了：看看这个任务能不能被 Agent 持续自动化。构建这些内部 Agent 有一堆现实挑战——环境搭建、数据权限、监控、prompt 调优。最后一项最好的办法是让团队先用起来，容忍早期的粗糙，把反馈转化成 prompt 改进。这和 Shubham 的 FEEDBACK-LOG.md 本质上是同一件事，只是一个在个人层面，一个在公司层面。

Lloyd 的预测：一年之内，每家 50 人以上的公司至少会有一个人，全职工作就是构建内部 Agent。

新技能不是「用 AI 更快」

Y Combinator 总裁 Garry Tan 最近写了一段话：

以前 build 意味着把整个系统装在脑子里。一座脆弱的记忆宫殿。一栋灵长类生物 RAM 里的纸牌屋。吃个饭、开个会、切换一下上下文，宫殿就塌了。然后奇迹发生了：我打了几段连自己都读不太懂的文字，机器居然把宫殿建出来了。那种感觉不是「哇生产力」，而是：我被理解了。

他总结的新技能不是写代码更快，而是品味、方向和领导力。管理一群 Agent，跑紧密的反馈循环，知道该要求什么。这让一个古老的东西回来了：师徒制。工具变得疯狂强大，但操控工具的人依然需要被训练。

Shubham 的 40 天实录就是这种训练的缩影。他没调提示词，没换模型，没重建架构。每天只做一件事：跟 Agent 对话，给反馈，看着它们把反馈写进文件。

怎么开始

不要在一个周末把整套系统搭完。

第 1 天，写一份 SOUL.md 和一份 USER.md。挑你最重复的日常任务，设一个定时任务让它跑。

第 3 天，Agent 的输出会很烂。开始给具体反馈，确保反馈进入了文件，不是只停留在聊天记录里。

第 7 天，写 AGENTS.md，定义会话启动流程和记忆管理规则。

第 14 天，启动 MEMORY.md。回顾日志，哪些纠错反复出现？提炼成永久条目。复利从这里开始。

第 21 天，加第二个 Agent。用文件做协同：第一个写入共享文件，第二个读取。建 shared-context 层——你会在这之前就感觉到需要它，因为你已经受够了对四个 Agent 重复同一条纠正。

第 28 天，第一次故障后建 HEARTBEAT.md。

模型没有变。Kelly 的 SOUL.md 第一天是一份粗略草稿，第 40 天有了具体的语气案例、一份她自己写的否决模式清单、一个「再也不要建议」的主题黑名单。Dwight 的原则第一天是「找热门话题」，第 10 天变成了「如果读者今天不能拿去用，跳过」，第 20 天加上了验证步骤：查仓库创建时间、查 HN 发帖时间戳、溯源到一手信息。

积累下来的上下文就是壁垒，别人用同一个模型复制不了。因为它是你每天和 Agent 对话「挣」来的。

信息来源：

How to set up OpenClaw Agents that actually get better Over Time
The rise of the Agent Builder – Zach Lloyd
Garry Tan on AI changing the map of effort
GPT-5.4 发布详情 – AI Week in Review