
前几天,我让 Hermes 回忆我们一起工作的两个月。
它写了一份很长的时间线。

它记得我什么时候开始搭早间信息管道,记得一篇写完却没有发布的公众号文章,记得我研究过 FieldAI,也记得我曾把一百多个技能清理到只剩三十多个。
它甚至记得一些我自己已经模糊了的对话。
但就在几天前,我问过它一句:
你还记得我叫什么不?
它翻过记忆和历史对话,然后很诚实地回答:不记得。
这是我使用 AI Agent 两个月里,最准确、也最荒诞的一个瞬间。
它知道我怎么工作,却不知道我叫什么。
这件事也让我重新理解了“长期使用 Agent”这件事。
真正决定它是否好用的,不只是模型有多强、能安装多少技能,而是三个更具体的问题:
它应该记住什么,不同 AI 应该分别做什么,又应该在哪里停下来。
如果你也准备让 Agent 进入真实工作,这三个问题可能比安装教程更值得提前知道。
记忆:它记住的,是被写进系统的我
Hermes 是一套运行在我电脑上的常驻 Agent。
现在,它每天早上依次扫描国际媒体、国内科技媒体和 X,把结果发送到飞书;晚上再根据当天真实发生的工作,整理一份复盘。
经过反复纠正,它已经记住了很多具体规则:
新闻优先关注过去 24 小时,旧事件必须有明确的新变化;Reuters 的独家即使被二十家媒体转载,仍然只算一个信源;国内媒体没有搜到时,必须写“未返回”,不能拿其他内容顶替;没有完成、没有投递成功的任务,不能包装成已经完成;公众号可以准备初稿和配图,但不能替我决定最终是否发布。
它也记得 FieldAI 是我长期关注的公司——再研究时不必从头解释,它知道我要看的不只是产品,还有网站架构、叙事策略和内容节奏。
但它记得这些,并不是因为它逐渐拥有了人的理解。
这些规则要么来自它曾经犯过的错误,要么会在后续工作中持续使用,因此被写进了记忆、提示词和任务配置。
AI Agent 所谓的“长期记忆”,和人的记忆并不一样。
它不会天然知道什么对你最重要。它记住什么,取决于什么被保存、如何被组织,以及有没有人持续维护。
我的名字没有进入记忆系统,所以它忘了。
一条关于信源转载的规则被反复强调,所以它记住了。
长期使用 Agent,第一步不是把所有信息都塞给它,而是先分清楚:
哪些是长期身份与偏好,哪些是反复使用的工作流程,哪些只是用完即弃的一次性信息,哪些内容根本不应该被记录。
记忆越多,不代表 Agent 越懂你。未经整理的记忆,只会让下一次任务带着更多噪声开始。
减法:我训练它最多的动作,是删除
最开始使用 Agent 时,我也不断给它增加东西。
第一次让它设计一套内容发布包,它给出了七个字段,看起来非常完整。
我逐个追问:“这个有什么用?”“那个真的会用到吗?”
最后,七个字段被砍成了四个。
后来发生的事情几乎一样。
技能越来越多,我把一百多个技能清理到只留下真正与工作相关的三十多个。
早间任务最初只是搜索新闻,后来又加入筛选、选题判断和内容生成。提示词越来越长,输出看起来越来越完整,真正能用的信息却没有同步增加。
最后,我把它拆成三路独立扫描,并删除了自动选题判断。
现在,Hermes 只负责把信息加工到“可以开始判断”的位置。写不写、怎么写,仍然由我决定。
删除的不只是功能,还有提示词。
自动化运行久了,每次失败就加一条规则,提示词很容易变成错误修正的堆积场。最后,连人都不知道它为什么这样工作。
所以我也会定期合并重复要求、删除过时规则,把长期偏好、具体流程和一次性信息分开保存。
Agent 的能力范围变小了,反而比以前更可靠。
如果你的 Agent 已经安装了很多技能,却仍然不好用,也许需要做的不是继续安装,而是逐项追问:
这项能力最近真的被使用过吗?

权限:Cipher 必须等我说“发”
除了 Hermes,我还运行着另一套常驻 Agent。我给它起名叫 Cipher。
Cipher 曾经有一项任务:每天生成一篇 X 推文草稿,发送到飞书等待预览。
我们最初想做全自动发布,最后却保留了一道非常简单的闸门:
只有当我回复一个明确的“发”字,它才可以对外发布。
有一次,我连续十四天没有处理这些内容。Cipher 仍然每天照常工作,最后积压了八篇草稿。
它没有偷懒,也没有停止运行。
但那八篇草稿堆在那里,说明了一件事:没有人阅读、判断、确认,自动化只是在稳定地制造库存。
现在,我的两套常驻 Agent 都在关键位置停了下来。
Hermes 每天替我搜索信息,但不能替我决定写什么。
Cipher 每天替我生成草稿,但必须等我决定发不发。
这也形成了我现在使用 Agent 最稳定的一条权限边界:
搜索、整理、提醒和生成草稿可以自动执行;发布、删除、付款和重要判断必须由人确认。
权限不是一次性全给出去的。
更稳妥的方式,是先让 Agent 在低风险任务中持续运行。只有当输出稳定、失败方式也足够可预期之后,再逐步增加下一项权限。
分工:不是所有 AI 都需要长期运行
Hermes 和 Cipher 会一直待在后台,负责反复发生的任务。
Codex 的工作方式不同。
它不会每天替我扫描信息或生成草稿,而是在一个具体项目出现时集中介入:检查系统、阅读文件、修改配置、核验事实,或者完成一项有明确交付结果的任务。
这篇文章本身,就是三套 AI 分工的一次例子。
Hermes 根据长期记忆,写出了我们两个月的经历。它提供了很多只有长期协作才会留下的细节,但也会把这些经历组织成一段过于漂亮的故事。
它曾把两个月写成三个月,把每周一次的技能扫描描述成“每周自我进化”,也写下“纠正一次,它就不会再犯同样错误”这样的判断。
随后,Codex 读取 Hermes 当前的任务配置、记忆和运行日志,核验其中的事实,删掉无法证实或过度宣传的表述,也帮着整理结构和配图。
但 Codex 最初写出的版本,同样不是答案。它把文章写得像一份系统复盘。是我不断提醒它:这是一条回忆路线,读者看完必须能拿走一些东西。
这让我逐渐形成了一套更清楚的分工:
常驻 Agent 负责持续执行、保存上下文和发现变化;
项目型 AI 负责集中分析、改造系统和完成具体交付;
人 负责定义问题、纠正方向和做最终决定。
没必要让一个 AI 承担所有工作,也没必要让所有 AI 都长期运行。
维护:24 小时运行,不等于 24 小时正常
长期运行 Agent 还有一个很少出现在产品演示里的事实:它们会坏。
写这篇文章当天,Hermes 的三个周末信息任务全部超时。
一个卡在网页搜索,一个卡在本地工具,另一个卡在 X 搜索。飞书连接偶尔会中断再重连,便宜模型在长任务里反复失败、反复重试,最终可能比直接使用更稳定的模型更贵。
Cipher 也曾因为一个插件的兼容问题陷入重启循环。按当时留下的记录,一晚上重启了三万四千多次。
所谓“24/7 AI 员工”,实际更像一套小型个人基础设施。
它需要查看日志、拆分任务、调整模型、清理记忆,也需要接受某些任务今天就是没有完成。
如果你准备搭建自己的 Agent,可以先选一项每周至少重复三次、规则明确、结果容易检查,而且失败不会造成严重后果的任务。
让它稳定运行一周。看看它在哪里失败,记录你的纠正,再决定是否增加第二项任务。
不要一开始就让它管理一切。
写这篇文章的时候,Hermes 的网关显示正在运行,日志里躺着三个超时任务。Cipher 仍然保留着发布闸门,等我回复一个“发”字。Codex 完成了这一版稿件,但在发出之前,它仍然需要经过我的最后确认。
它们记得很多关于我的事,也会忘记一些我以为重要的东西。
很多关于 Agent 的讨论,都在比谁更自主、谁能在你睡觉时把活全干完。两个月下来,我教它们最多的,不是多做,是在哪里停。
那几道停下来的闸门,不是它们能力的上限,是我愿意把工作交给它们的前提。
在代码编织的剧场里,打捞时代的硬通货,既然现实已赛博,不如让商业浪漫些。
这里是,赛博莫尼
推荐阅读:
一份 1.75 万亿的自我介绍:SpaceX 想让你把它当成谁(内附路演 PDF)
这一周,具身智能正在疯狂自证,真正的分野在浅数据与深数据(第三篇)
当机器人企业挤进工厂,却发现桌子是甲方的。深度拆解具身智能(第二篇)
一个DeepSeek,不够推翻英伟达,但足够撕开一道裂缝(第一篇)
681 亿,只是起点:黄仁勋把“算力=收入”写进了世界的底层逻辑
Meta的千亿美元"出走":6吉瓦部署AMD,英伟达定价权开始松动?
IBM单日消300亿,同一天北大1纳米破壁:软件退下,物理升上
算力逃离地球,机器人走进车间:2026科技圈上演“天地对决” (近期总结)
当国产替代不再是免死金牌,AI芯片公司今年必须回答:钱从哪来?
左手倒右手,右手造太阳:马斯克的万亿赌局与太空AI革命(附原文)
AI 觉醒?不,它只是人类恐惧的倒影——Moltbook 实验解析
夜雨聆风