为什么 AI Agent 总像第一次,Hermes 让它开始“长记性”

Hermes 这波讨论里，真正把我吸引住的，不是模型跑分，也不是架构图，而是一个很不起眼的任务：把一个 Next.js 项目部署到 Vercel。

第一次，它花了十几轮工具调用，连续踩了环境变量、Node 版本和部署参数的坑，才勉强跑通。真正让人烦的，不是第一次折腾，而是第二次你再说一句“帮我部署到 Vercel”，很多 Agent 还是会像第一次一样重新交学费。

这个场景一下就把 Hermes 值不值得看的问题说透了。

因为如果你最近也密集用过 AI 编程工具，你大概率会懂这种烦。不是“它这次没答对”的烦，而是“它明明做成过，怎么又像没学过”的烦。这个情绪比报错更消耗人。

如果你现在就处在这个阶段，你不是一个人。我自己会多看 Hermes，也不是因为它名字更响，而是因为这种“重复交学费”的感觉，最近实在见得太多了。

这两天 Hermes Agent 很火。很多人转它时，最爱用的一句话是：它会“自我进化”。

这句话不算错，但很容易把重点带偏。因为“自我进化”听起来太像一句会传播的口号，听完之后你以为自己懂了，实际上什么都没抓住。

如果你现在对各种 memory、skills、长期记忆 这些词已经有点烦了，很正常。因为过去不少产品确实只是换了一套新名字，在重复讲同一件旧事。

我这次没有把 Hermes 从头到尾完整跑一遍，而是专门对照了官方 README、公开文档和几段关键源码。看完之后，我反而更确定一件事：

Hermes 真正值得看的，不是它又做了一个更花哨的 Agent，而是它第一次把 Agent 的经验，认真做成了一种可以沉淀、检索、修补和复用的资产。

我对它感兴趣，也不是因为它看起来更酷，而是因为这个问题太具体了：如果 Agent 不能把已经跑通的路留下来，它就永远像一个临场发挥很强、但永远带不出团队方法的人。你每次看它做事，都像重新带一个聪明但不长记性的同事开工。

这个判断不是从宣传词里抠出来的。截至 2026-04-16 晚上，Hermes 官方仓库已经有 92,410 个 stars。官方 README 直接把它定义成 the only agent with a built-in learning loop。更重要的是，代码里也确实能看到这条线：prompt_builder.py 把触发阈值写成了 5+ tool calls；同一个文件还明确要求 skill 过期时要 patch immediately；skill_manager_tool.py 里真有 create / edit / patch，而且写入前后带原子写和安全扫描；skills_tool.py 则把 skill 分成 metadata、完整说明、linked files 三层按需加载，而不是一次性塞爆上下文。

也就是说，Hermes 不是只有一个“会学习”的概念页，它是真的把“创建经验、加载经验、修补经验、控制风险”这几件事拆成了工程模块。

这件事为什么重要？因为过去这一轮 Agent 产品，大家一直在卷“会不会做事”。会调工具、会写代码、会开子 Agent、会跑长任务，当然都重要。

但很多系统卡住的地方，其实不是“这次会不会做”，而是“上次做成的事，下次还能不能更稳、更便宜地再做一遍”。

这正是 Hermes 和大多数 Agent 拉开距离的地方。

大多数 Agent 最大的问题，不是不会做事，而是每次都像第一次

如果你最近半年密集用过 AI 编程工具，你应该会很熟悉这种感觉。

某个任务它明明做成过。比如部署项目、排一类奇怪的报错、整理一次发布前检查、把一套工具链接起来。第一次虽然折腾，但是跑通了。你以为下次再来，它会轻松很多。

结果往往不是。

到了下一次，它还是要重新摸索上下文，重新踩一遍坑，重新把那条已经走通的路再走一遍。不是模型不会写，不是工具不会调，而是这段经验没有真正留下来。

真正让人泄气的，往往不是它第一次没做好，而是你明明知道它做成过一次，它第二次还是像没学过一样。如果你也被这种“会了又像没会”的感觉折磨过，你就知道这不是小毛病，而是所有日常自动化迟迟长不成真正工作流的根源。

很多人把这个问题理解成“记忆不够强”。我觉得不准。

因为大多数所谓记忆，存下来的其实只是事实：你喜欢什么风格、这个项目用什么框架、那次部署成功了。它更像笔记，不像方法。

而真正能让一个 Agent 越用越顺手的，不只是“记住发生过什么”，而是“把做成这件事的方法留下来”。

这两者差别很大。

前者是：

•你上次部署过 Vercel

•你这个仓库是 Next.js

•你常用某个 provider

后者是：

•遇到这类任务，先检查什么

•哪几个步骤最容易出错

•什么情况下该换路径

•用什么方式验证这次真的做对了

也就是说，前者是信息，后者才是经验。

这也是我看 Hermes 时最在意的一点。它在系统提示里，明确要求 Agent 在完成复杂任务、修掉棘手错误、发现非平凡工作流之后，把方法保存成 skill；而且一旦在使用 skill 时发现它过期、不完整或者有错，要立即 patch，而不是等用户来提醒。

这里最关键的一句其实不是“保存 skill”，而是“立即 patch”。因为很多系统也能存模板，但一旦模板过期，就会从资产迅速变成负债。Hermes 至少在机制设计上，已经把这个问题想到了前面。

这不是一个小功能细节。这是一个非常明确的产品哲学：

Agent 不该只会做事，还应该对自己做成过的事负责。

这句听起来简单，但它直接决定了系统会不会越来越值钱。

一个只会“当场表现”的 Agent，很像一个每次都能临场发挥、但从不写 SOP 的高手。你用他的时候很惊艳，不用他的时候什么都留不下。下一次重来，成本几乎归零地回到原点。

而 Hermes 想做的是另一件事：把一次成功，从临时表现，变成后续默认能力。

下一代 Agent 的差距，不在谁今天更会干活，而在谁能把今天干成的事，变成明天更便宜的默认能力。

Hermes 真正值钱的，不是会存 Skill，而是把 Skill 做成了闭环

如果 Hermes 只是“可以保存技能文档”，那它没什么稀奇。

因为保存模板、保存提示词、保存工作流说明，这件事现在谁都会讲。真正稀缺的，从来不是“能不能存”，而是“存下来之后，能不能活起来”。

Hermes 最值得看的，是它把这件事做成了一个闭环。

第一步，Agent 自己判断什么时候该提炼经验。

不是用户说“帮我记一下”，它才记；而是系统直接告诉它，复杂任务、棘手报错、非平凡工作流，做完之后就该沉淀成 skill。这个动作从一开始就是主动的，不是被动的。

第二步，存下来的不是一句 prompt，而是一份带结构的操作资产。

Hermes 的 skill 不是纯文本收藏夹。它有 frontmatter，有平台条件，有 toolset 依赖，有描述，有正文步骤，还可以挂参考文件。换句话说，它保存的不是“怎么说一句话”，而是“这类任务以后按什么方法做”。

第三步，它不会把所有 skill 一股脑塞进上下文，而是先给索引，再按需加载。

这一点很关键。因为很多人一讲 Agent 学习，就默认把所有历史经验拼命往上下文里灌。这样短期看像是“更聪明”，长期看是更贵、更慢、更乱。skills_tool.py 开头就把这套东西写得很直白：metadata 只在索引层展示，完整说明用 skill_view 按需加载，linked files 再下一层按需读。Hermes 用的是一种很工程化的思路：先让模型看到有哪些 skill，再决定加载哪一个完整内容。它不是单纯在堆 token，而是在做经验检索。

这也是我愿意多看它一眼的原因。很多系统讲到“长期记忆”时，重点停在“记住更多”。Hermes 至少把重点挪到了另一边：不是记住更多，而是让真正有用的方法能被重新找到、重新用上、重新修掉。

第四步，加载 skill 之后，它不是拿来展示，而是拿来执行。

这一点决定了 skill 不是知识库条目，而是工作流组件。系统会把它放进当前任务里，让它真的影响工具调用和行动路径。

第五步，也是最重要的一步：**它允许 skill 在使用中被修。**

这一点才是闭环真正闭合的地方。

如果一个 Agent 只会把经验写下来，但不会在下一次使用时修正过期内容，那这些经验很快就会变成负担。旧命令、旧路径、旧假设，都会让 skill 从资产变成垃圾。

Hermes 至少在设计上，已经把这个问题正面摆上了桌面。它要求 Agent 一旦发现 skill 缺步骤、命令过时、坑没有写进去，就应该立刻 patch。也就是说，它不是把经验当“归档文件”，而是当“持续维护的操作资产”。

这背后的判断，比“会自学习”四个字扎实得多。

因为企业里真正值钱的，从来不是谁脑子里有经验，而是谁能把经验写进组织，并且在使用中持续修订。人类团队靠 SOP、Playbook、Runbook 才能规模化。Agent 迟早也会走到这一步。

从这个角度看，Hermes 的意义不是“又一个顶流开源 Agent”，而是它把一个很多人都在隐约意识到、但还没认真落地的问题往前推了一大步：

Agent 的长期价值，不该只来自模型表现，而该来自经验资产的复利。

这也是为什么我不太想把它简单归到“Skills 系统”“自我进化”或者“更强记忆”里。

这些词都没错，但都太轻。

更准确的说法应该是：

Hermes 在尝试把 Agent 从“一次性解决问题的临时工”，往“会积累方法、会修补经验的长期协作者”推。

这件事未必已经完全跑通，至少今天还远没到“所有 Agent 都该照抄”的程度。它也有明显风险。比如 skill 质量怎么控，什么时候该建、什么时候不该建，过度沉淀会不会反而让系统越来越臃肿，这些都还是现实问题。

而且这些问题不是边角料，是主问题。一个会乱记、乱建、乱 patch 的 Agent，不会变成更强的同事，只会变成一个持续制造历史包袱的实习生。所以我认可 Hermes 的方向，不等于我觉得它已经把这件事做完了。

但方向是对的。

因为只要 Agent 继续进入真实工作流，这个问题迟早都会变成主问题：它不是能不能完成一次任务，而是能不能让下一次完成这类任务的成本继续下降。

如果一套系统做不到这一点，它再聪明，也很难越用越值钱。

把它记成一句话

如果你最近也在看各种 Agent、Skills、Memory、Routines，我建议你别先问“它是不是更聪明”，先问一句更硬的问题：

它能不能把一次成功，变成下一次更稳的默认做法？

如果不能，那它大概率还停留在“会干活”的阶段。

而 Hermes 真正让我多看一眼的，不是它又多会了什么，而是它开始认真回答另一个更难的问题：

Agent 的经验，到底怎样才能变成资产。