AI Agent 不是装完就能用:我运行三个agent两个月后的真实经验

前几天，我让 Hermes 回忆我们一起工作的两个月。

它写了一份很长的时间线。

它记得我什么时候开始搭早间信息管道，记得一篇写完却没有发布的公众号文章，记得我研究过 FieldAI，也记得我曾把一百多个技能清理到只剩三十多个。

它甚至记得一些我自己已经模糊了的对话。

但就在几天前，我问过它一句：

你还记得我叫什么不？

它翻过记忆和历史对话，然后很诚实地回答：不记得。

这是我使用 AI Agent 两个月里，最准确、也最荒诞的一个瞬间。

它知道我怎么工作，却不知道我叫什么。

这件事也让我重新理解了“长期使用 Agent”这件事。

真正决定它是否好用的，不只是模型有多强、能安装多少技能，而是三个更具体的问题：

它应该记住什么，不同 AI 应该分别做什么，又应该在哪里停下来。

如果你也准备让 Agent 进入真实工作，这三个问题可能比安装教程更值得提前知道。

记忆：它记住的，是被写进系统的我

Hermes 是一套运行在我电脑上的常驻 Agent。

现在，它每天早上依次扫描国际媒体、国内科技媒体和 X，把结果发送到飞书；晚上再根据当天真实发生的工作，整理一份复盘。

经过反复纠正，它已经记住了很多具体规则：

新闻优先关注过去 24 小时，旧事件必须有明确的新变化；Reuters 的独家即使被二十家媒体转载，仍然只算一个信源；国内媒体没有搜到时，必须写“未返回”，不能拿其他内容顶替；没有完成、没有投递成功的任务，不能包装成已经完成；公众号可以准备初稿和配图，但不能替我决定最终是否发布。

它也记得 FieldAI 是我长期关注的公司——再研究时不必从头解释，它知道我要看的不只是产品，还有网站架构、叙事策略和内容节奏。

但它记得这些，并不是因为它逐渐拥有了人的理解。

这些规则要么来自它曾经犯过的错误，要么会在后续工作中持续使用，因此被写进了记忆、提示词和任务配置。

AI Agent 所谓的“长期记忆”，和人的记忆并不一样。

它不会天然知道什么对你最重要。它记住什么，取决于什么被保存、如何被组织，以及有没有人持续维护。

我的名字没有进入记忆系统，所以它忘了。

一条关于信源转载的规则被反复强调，所以它记住了。

长期使用 Agent，第一步不是把所有信息都塞给它，而是先分清楚：

哪些是长期身份与偏好，哪些是反复使用的工作流程，哪些只是用完即弃的一次性信息，哪些内容根本不应该被记录。

记忆越多，不代表 Agent 越懂你。未经整理的记忆，只会让下一次任务带着更多噪声开始。

减法：我训练它最多的动作，是删除

最开始使用 Agent 时，我也不断给它增加东西。

第一次让它设计一套内容发布包，它给出了七个字段，看起来非常完整。

我逐个追问：“这个有什么用？”“那个真的会用到吗？”

最后，七个字段被砍成了四个。

后来发生的事情几乎一样。

技能越来越多，我把一百多个技能清理到只留下真正与工作相关的三十多个。

早间任务最初只是搜索新闻，后来又加入筛选、选题判断和内容生成。提示词越来越长，输出看起来越来越完整，真正能用的信息却没有同步增加。

最后，我把它拆成三路独立扫描，并删除了自动选题判断。

现在，Hermes 只负责把信息加工到“可以开始判断”的位置。写不写、怎么写，仍然由我决定。

删除的不只是功能，还有提示词。

自动化运行久了，每次失败就加一条规则，提示词很容易变成错误修正的堆积场。最后，连人都不知道它为什么这样工作。

所以我也会定期合并重复要求、删除过时规则，把长期偏好、具体流程和一次性信息分开保存。

Agent 的能力范围变小了，反而比以前更可靠。

如果你的 Agent 已经安装了很多技能，却仍然不好用，也许需要做的不是继续安装，而是逐项追问：

这项能力最近真的被使用过吗？

权限：Cipher 必须等我说“发”

除了 Hermes，我还运行着另一套常驻 Agent。我给它起名叫 Cipher。

Cipher 曾经有一项任务：每天生成一篇 X 推文草稿，发送到飞书等待预览。

我们最初想做全自动发布，最后却保留了一道非常简单的闸门：

只有当我回复一个明确的“发”字，它才可以对外发布。

有一次，我连续十四天没有处理这些内容。Cipher 仍然每天照常工作，最后积压了八篇草稿。

它没有偷懒，也没有停止运行。

但那八篇草稿堆在那里，说明了一件事：没有人阅读、判断、确认，自动化只是在稳定地制造库存。

现在，我的两套常驻 Agent 都在关键位置停了下来。

Hermes 每天替我搜索信息，但不能替我决定写什么。

Cipher 每天替我生成草稿，但必须等我决定发不发。

这也形成了我现在使用 Agent 最稳定的一条权限边界：

搜索、整理、提醒和生成草稿可以自动执行；发布、删除、付款和重要判断必须由人确认。

权限不是一次性全给出去的。

更稳妥的方式，是先让 Agent 在低风险任务中持续运行。只有当输出稳定、失败方式也足够可预期之后，再逐步增加下一项权限。

分工：不是所有 AI 都需要长期运行

Hermes 和 Cipher 会一直待在后台，负责反复发生的任务。

Codex 的工作方式不同。

它不会每天替我扫描信息或生成草稿，而是在一个具体项目出现时集中介入：检查系统、阅读文件、修改配置、核验事实，或者完成一项有明确交付结果的任务。

这篇文章本身，就是三套 AI 分工的一次例子。

Hermes 根据长期记忆，写出了我们两个月的经历。它提供了很多只有长期协作才会留下的细节，但也会把这些经历组织成一段过于漂亮的故事。

它曾把两个月写成三个月，把每周一次的技能扫描描述成“每周自我进化”，也写下“纠正一次，它就不会再犯同样错误”这样的判断。

随后，Codex 读取 Hermes 当前的任务配置、记忆和运行日志，核验其中的事实，删掉无法证实或过度宣传的表述，也帮着整理结构和配图。

但 Codex 最初写出的版本，同样不是答案。它把文章写得像一份系统复盘。是我不断提醒它：这是一条回忆路线，读者看完必须能拿走一些东西。

这让我逐渐形成了一套更清楚的分工：

常驻 Agent 负责持续执行、保存上下文和发现变化；

项目型 AI 负责集中分析、改造系统和完成具体交付；

人负责定义问题、纠正方向和做最终决定。

没必要让一个 AI 承担所有工作，也没必要让所有 AI 都长期运行。

维护：24 小时运行，不等于 24 小时正常

长期运行 Agent 还有一个很少出现在产品演示里的事实：它们会坏。

写这篇文章当天，Hermes 的三个周末信息任务全部超时。

一个卡在网页搜索，一个卡在本地工具，另一个卡在 X 搜索。飞书连接偶尔会中断再重连，便宜模型在长任务里反复失败、反复重试，最终可能比直接使用更稳定的模型更贵。

Cipher 也曾因为一个插件的兼容问题陷入重启循环。按当时留下的记录，一晚上重启了三万四千多次。

所谓“24/7 AI 员工”，实际更像一套小型个人基础设施。

它需要查看日志、拆分任务、调整模型、清理记忆，也需要接受某些任务今天就是没有完成。

如果你准备搭建自己的 Agent，可以先选一项每周至少重复三次、规则明确、结果容易检查，而且失败不会造成严重后果的任务。

让它稳定运行一周。看看它在哪里失败，记录你的纠正，再决定是否增加第二项任务。

不要一开始就让它管理一切。

写这篇文章的时候，Hermes 的网关显示正在运行，日志里躺着三个超时任务。Cipher 仍然保留着发布闸门，等我回复一个“发”字。Codex 完成了这一版稿件，但在发出之前，它仍然需要经过我的最后确认。

它们记得很多关于我的事，也会忘记一些我以为重要的东西。

很多关于 Agent 的讨论，都在比谁更自主、谁能在你睡觉时把活全干完。两个月下来，我教它们最多的，不是多做，是在哪里停。

那几道停下来的闸门，不是它们能力的上限，是我愿意把工作交给它们的前提。

“ 拆解科技背后的商业真相，也记录它落入尘埃时的回响。”—— M

在代码编织的剧场里，打捞时代的硬通货，既然现实已赛博，不如让商业浪漫些。

这里是，赛博莫尼