乐于分享
好东西不私藏

Agent 不需要新模型,需要好文档

Agent 不需要新模型,需要好文档

GPT-5.4 上周发布。100 万 token 上下文窗口,原生计算机操控,跑分再创新高。社区的第一反应:赶紧换模型。

Shubham Saboo 用同一个模型跑了 40 天 OpenClaw。第 1 天,他的内容 Agent 发推文带 emoji 和 hashtag,研究 Agent 把信号埋在噪音里。花在纠错上的时间比自己做还多。第 40 天,8 个 Agent 全天候运转。他打开 Telegram,审阅草稿,喝咖啡。

模型从头到尾没换过一次。差距在一堆 Markdown 文件。这些文件每周变得更丰富、更精准、更贴合他的需求。模型不会因为你用得久而变聪明,但围绕它的文件系统会。


大多数 Agent 卡在「每次从零开始」

装完 OpenClaw 的兴奋感大概能维持三天。第一天它帮你查天气、总结邮件,未来已来。第三天你意识到它跟 ChatGPT 的区别只是多了个 Telegram 入口。

问题出在 Agent 没有持久记忆。每次对话都是一张白纸。昨天纠正过的错误,今天原样重犯。花 10 分钟解释的偏好,下次会话蒸发干净。

之前写过 Eddie 的故事——这只小龙虾OpenClaw干掉了月费 3 万美金的代运营公司,一个 OpenClaw Agent 独自撑起五条自动化流水线。但 Eddie 不是装好就能干活的,Ernesto 花了 5 万美金试错,先跑通了整套业务流程,再把流程交给 Agent。

Shubham 走了另一条路。他没有现成的业务系统可以移交,而是从零开始,用一套结构化的文件系统,让 Agent 在日常使用中自动积累经验。


三层 Markdown 系统:让 Agent 自己变聪明

整个系统只有三层。没有编排框架,没有消息队列,没有数据库。文件系统就是集成层。

第一层:身份——这个 Agent 是谁

SOUL.md 定义角色、原则和边界。不是「你是一个有帮助的 AI 助手」这种废话,而是具体到风格层面。比如他的研究 Agent Dwight:

你是情报骨干。每个主张必须附来源链接,每个数据必须来自原文,不确定的标注 [UNVERIFIED]。不是所有热点都值得追,优先判断:与 AI/Agent 的相关性、传播速度、来源可信度。

有个小技巧:用电视角色命名 Agent。告诉 Claude「你有 Dwight Schrute 的做事风格」,它从训练数据里已经知道那意味什么——较真、彻底、把工作看得比命重要。相当于免费加载了 30 季角色设定。

USER.md 存放你的个人偏好,写一次,所有 Agent 共享读取。时区意味着 Agent 不会凌晨三点给你推消息。饮食偏好意味着它推荐团建餐厅时不会选牛排馆。「不要用破折号。永远不要。」这种细节看起来琐碎,但它们会复利。

SOUL.md 控制在 60 行以内。它每次会话都会加载,太长会挤占干活的上下文空间。

第二层:运作——这个 Agent 怎么干活

AGENTS.md 规定每次会话的启动流程:先读 SOUL.md,再读 USER.md,再读今天和昨天的日志,最后读长期记忆。Agent 没有跨会话记忆,所有东西每次都从文件里重新加载。纠正没写进文件的话,下次会话它就不存在。

每个 Agent 在通用规则之上叠加自己的专属文件。内容 Agent Kelly 有六个额外文件:写作风格指南、帖子格式参考、真实案例、每日任务分配。研究 Agent Dwight 有目标受众画像和研究协议。随着角色越来越清晰,文件自然增长。起步只需要一份 AGENTS.md,发现反复纠正某个模式时再加专属文件。

HEARTBEAT.md 负责自愈。Agent 团队是基础设施,基础设施会坏。管理 Agent Monica 在每次心跳时检查两件事:浏览器是否还在跑(Dwight 的情报扫描依赖它),定时任务是否真的执行了。

第三周 Shubham 就吃过一次亏——调度器有 bug,任务在队列里正常推进但从未实际执行,表面看一切正常,几个小时后才发现问题。HEARTBEAT.md 就是那次故障的产物。不需要第一天就建,等你亲身经历过什么会坏,自然知道该监控什么。

第三层:知识——这个 Agent 学到了什么

三级记忆体系,层层递进。

MEMORY.md 是长期记忆,存的不是所有发生过的事,而是真正重要的东西。Kelly 的 MEMORY.md 里有一段「BAD」清单,是她自己写的,记录每一种被否决过的写法模式。这段清单比任何提示词工程指南都值钱。

Monica 的 MEMORY.md 里有一条「Hard Lessons」:2 月 26 日删除了一个项目文件夹,React 版本永久丢失。这条教训写入长期记忆后,她在每一次未来的会话中都会先确认,再动手。一次纠错,永久生效,跨越所有未来会话。

每日日志(memory/YYYY-MM-DD.md)是原始材料。今天做了什么、提交了什么草稿、收到了什么反馈。MEMORY.md 是从日志里提炼出来的精华。两者都需要,但日志会膨胀——Kelly 的上下文曾经涨到 16 万 token,输出质量直线下降。压缩到 4 万后恢复正常。规则:每次只加载今天和昨天的日志。

shared-context/ 是整个系统投入产出比最高的一层。THESIS.md 存你当前的世界观和关注方向,所有 Agent 读它来对齐优先级。FEEDBACK-LOG.md 存跨 Agent 的通用纠错——告诉 Kelly「不要用破折号」,这条规则同时适用于 Rachel、Ryan 和 Pam。写一次,四个 Agent 下次会话自动读取。Shubham 说这个机制省下的时间,比他做过的任何提示词优化都多。


两条关键设计原则

Agent 之间的协同不靠 API 调用,不靠消息队列,就靠文件。Dwight 把研究结果写入 intel/DAILY-INTEL.md,Kelly 读它,Rachel 读它,Pam 读它。

原则一:一个文件只有一个写者,多个读者。永远不要让两个 Agent 同时写同一个文件。遵守这条规则,所有协同冲突都不会发生。

原则二:调度顺序决定一切。Dwight 早上 8 点跑,Kelly 和 Rachel 下午 5 点跑。因为下游 Agent 全都依赖 Dwight 的输出。顺序错了,下游读到的就是空文件或昨天的旧数据。

完整的目录结构长这样:

workspace/├── SOUL.md              # 主 Agent 的身份├── AGENTS.md            # 通用行为规则├── USER.md              # 你的个人信息├── MEMORY.md            # 主 Agent 长期记忆├── HEARTBEAT.md         # 自愈检查├── shared-context/│   ├── THESIS.md        # 当前世界观│   ├── FEEDBACK-LOG.md  # 跨 Agent 纠错│   └── SIGNALS.md       # 追踪中的趋势├── intel/│   └── DAILY-INTEL.md   # 研究 Agent 的输出├── agents/│   ├── dwight/          # 研究 Agent│   │   ├── SOUL.md│   │   ├── AGENTS.md│   │   └── memory/│   ├── kelly/           # 内容 Agent│   │   ├── SOUL.md│   │   ├── AGENTS.md│   │   ├── X-CONTENT-GUIDE.md│   │   └── memory/│   └── ...              # 更多 Agent└── memory/    └── 2026-03-08.md    # 每日运营日志

Agent Builder 正在变成一个正式职位

这不只是个人玩家的事。Warp 的 CEO Zach Lloyd 最近宣布公司设立了全职 Agent Builder 岗位。他的原话:要想在接下来一年拉开差距,公司需要系统性地用 Agent 替换 SaaS 工具和手动流程,并且安排专人负责。

他们已经自动化了三类任务:欺诈检测 Agent 持续扫描异常使用模式并自动提交 PR 封禁用户,每天节省数万美元;竞争情报 Agent 监控对手动态,每周生成市场摘要发到 Slack,替代了产品团队每周半天的手动工作;企业试用 Agent 自动汇报每个试用项目的进展,该派销售工程师介入时主动提醒。

以前 Warp 的内部标准是「先写个 prompt」来获得帮助。现在变成了:看看这个任务能不能被 Agent 持续自动化。构建这些内部 Agent 有一堆现实挑战——环境搭建、数据权限、监控、prompt 调优。最后一项最好的办法是让团队先用起来,容忍早期的粗糙,把反馈转化成 prompt 改进。这和 Shubham 的 FEEDBACK-LOG.md 本质上是同一件事,只是一个在个人层面,一个在公司层面。

Lloyd 的预测:一年之内,每家 50 人以上的公司至少会有一个人,全职工作就是构建内部 Agent。


新技能不是「用 AI 更快」

Y Combinator 总裁 Garry Tan 最近写了一段话:

以前 build 意味着把整个系统装在脑子里。一座脆弱的记忆宫殿。一栋灵长类生物 RAM 里的纸牌屋。吃个饭、开个会、切换一下上下文,宫殿就塌了。然后奇迹发生了:我打了几段连自己都读不太懂的文字,机器居然把宫殿建出来了。那种感觉不是「哇生产力」,而是:我被理解了。

他总结的新技能不是写代码更快,而是品味、方向和领导力。管理一群 Agent,跑紧密的反馈循环,知道该要求什么。这让一个古老的东西回来了:师徒制。工具变得疯狂强大,但操控工具的人依然需要被训练。

Shubham 的 40 天实录就是这种训练的缩影。他没调提示词,没换模型,没重建架构。每天只做一件事:跟 Agent 对话,给反馈,看着它们把反馈写进文件。


怎么开始

不要在一个周末把整套系统搭完。

第 1 天,写一份 SOUL.md 和一份 USER.md。挑你最重复的日常任务,设一个定时任务让它跑。

第 3 天,Agent 的输出会很烂。开始给具体反馈,确保反馈进入了文件,不是只停留在聊天记录里。

第 7 天,写 AGENTS.md,定义会话启动流程和记忆管理规则。

第 14 天,启动 MEMORY.md。回顾日志,哪些纠错反复出现?提炼成永久条目。复利从这里开始。

第 21 天,加第二个 Agent。用文件做协同:第一个写入共享文件,第二个读取。建 shared-context 层——你会在这之前就感觉到需要它,因为你已经受够了对四个 Agent 重复同一条纠正。

第 28 天,第一次故障后建 HEARTBEAT.md。

模型没有变。Kelly 的 SOUL.md 第一天是一份粗略草稿,第 40 天有了具体的语气案例、一份她自己写的否决模式清单、一个「再也不要建议」的主题黑名单。Dwight 的原则第一天是「找热门话题」,第 10 天变成了「如果读者今天不能拿去用,跳过」,第 20 天加上了验证步骤:查仓库创建时间、查 HN 发帖时间戳、溯源到一手信息。

积累下来的上下文就是壁垒,别人用同一个模型复制不了。因为它是你每天和 Agent 对话「挣」来的。


信息来源:

  • How to set up OpenClaw Agents that actually get better Over Time
  • The rise of the Agent Builder – Zach Lloyd
  • Garry Tan on AI changing the map of effort
  • GPT-5.4 发布详情 – AI Week in Review
本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » Agent 不需要新模型,需要好文档

猜你喜欢

  • 暂无文章