Hermes 这波讨论里,真正把我吸引住的,不是模型跑分,也不是架构图,而是一个很不起眼的任务:把一个 Next.js 项目部署到 Vercel。
第一次,它花了十几轮工具调用,连续踩了环境变量、Node 版本和部署参数的坑,才勉强跑通。真正让人烦的,不是第一次折腾,而是第二次你再说一句“帮我部署到 Vercel”,很多 Agent 还是会像第一次一样重新交学费。
这个场景一下就把 Hermes 值不值得看的问题说透了。
因为如果你最近也密集用过 AI 编程工具,你大概率会懂这种烦。不是“它这次没答对”的烦,而是“它明明做成过,怎么又像没学过”的烦。这个情绪比报错更消耗人。
如果你现在就处在这个阶段,你不是一个人。我自己会多看 Hermes,也不是因为它名字更响,而是因为这种“重复交学费”的感觉,最近实在见得太多了。
这两天 Hermes Agent 很火。很多人转它时,最爱用的一句话是:它会“自我进化”。
这句话不算错,但很容易把重点带偏。因为“自我进化”听起来太像一句会传播的口号,听完之后你以为自己懂了,实际上什么都没抓住。
如果你现在对各种 memory、skills、长期记忆 这些词已经有点烦了,很正常。因为过去不少产品确实只是换了一套新名字,在重复讲同一件旧事。
我这次没有把 Hermes 从头到尾完整跑一遍,而是专门对照了官方 README、公开文档和几段关键源码。看完之后,我反而更确定一件事:
Hermes 真正值得看的,不是它又做了一个更花哨的 Agent,而是它第一次把 Agent 的经验,认真做成了一种可以沉淀、检索、修补和复用的资产。

我对它感兴趣,也不是因为它看起来更酷,而是因为这个问题太具体了:如果 Agent 不能把已经跑通的路留下来,它就永远像一个临场发挥很强、但永远带不出团队方法的人。你每次看它做事,都像重新带一个聪明但不长记性的同事开工。
这个判断不是从宣传词里抠出来的。截至 2026-04-16 晚上,Hermes 官方仓库已经有 92,410 个 stars。官方 README 直接把它定义成 the only agent with a built-in learning loop。更重要的是,代码里也确实能看到这条线:prompt_builder.py 把触发阈值写成了 5+ tool calls;同一个文件还明确要求 skill 过期时要 patch immediately;skill_manager_tool.py 里真有 create / edit / patch,而且写入前后带原子写和安全扫描;skills_tool.py 则把 skill 分成 metadata、完整说明、linked files 三层按需加载,而不是一次性塞爆上下文。
也就是说,Hermes 不是只有一个“会学习”的概念页,它是真的把“创建经验、加载经验、修补经验、控制风险”这几件事拆成了工程模块。
这件事为什么重要?因为过去这一轮 Agent 产品,大家一直在卷“会不会做事”。会调工具、会写代码、会开子 Agent、会跑长任务,当然都重要。
但很多系统卡住的地方,其实不是“这次会不会做”,而是“上次做成的事,下次还能不能更稳、更便宜地再做一遍”。
这正是 Hermes 和大多数 Agent 拉开距离的地方。
大多数 Agent 最大的问题,不是不会做事,而是每次都像第一次
如果你最近半年密集用过 AI 编程工具,你应该会很熟悉这种感觉。
某个任务它明明做成过。比如部署项目、排一类奇怪的报错、整理一次发布前检查、把一套工具链接起来。第一次虽然折腾,但是跑通了。你以为下次再来,它会轻松很多。
结果往往不是。
到了下一次,它还是要重新摸索上下文,重新踩一遍坑,重新把那条已经走通的路再走一遍。不是模型不会写,不是工具不会调,而是这段经验没有真正留下来。
真正让人泄气的,往往不是它第一次没做好,而是你明明知道它做成过一次,它第二次还是像没学过一样。如果你也被这种“会了又像没会”的感觉折磨过,你就知道这不是小毛病,而是所有日常自动化迟迟长不成真正工作流的根源。
很多人把这个问题理解成“记忆不够强”。我觉得不准。
因为大多数所谓记忆,存下来的其实只是事实:你喜欢什么风格、这个项目用什么框架、那次部署成功了。它更像笔记,不像方法。
而真正能让一个 Agent 越用越顺手的,不只是“记住发生过什么”,而是“把做成这件事的方法留下来”。
这两者差别很大。
前者是:
•你上次部署过 Vercel
•你这个仓库是 Next.js
•你常用某个 provider
后者是:
•遇到这类任务,先检查什么
•哪几个步骤最容易出错
•什么情况下该换路径
•用什么方式验证这次真的做对了
也就是说,前者是信息,后者才是经验。

这也是我看 Hermes 时最在意的一点。它在系统提示里,明确要求 Agent 在完成复杂任务、修掉棘手错误、发现非平凡工作流之后,把方法保存成 skill;而且一旦在使用 skill 时发现它过期、不完整或者有错,要立即 patch,而不是等用户来提醒。
这里最关键的一句其实不是“保存 skill”,而是“立即 patch”。因为很多系统也能存模板,但一旦模板过期,就会从资产迅速变成负债。Hermes 至少在机制设计上,已经把这个问题想到了前面。
这不是一个小功能细节。这是一个非常明确的产品哲学:
Agent 不该只会做事,还应该对自己做成过的事负责。
这句听起来简单,但它直接决定了系统会不会越来越值钱。
一个只会“当场表现”的 Agent,很像一个每次都能临场发挥、但从不写 SOP 的高手。你用他的时候很惊艳,不用他的时候什么都留不下。下一次重来,成本几乎归零地回到原点。
而 Hermes 想做的是另一件事:把一次成功,从临时表现,变成后续默认能力。
下一代 Agent 的差距,不在谁今天更会干活,而在谁能把今天干成的事,变成明天更便宜的默认能力。
Hermes 真正值钱的,不是会存 Skill,而是把 Skill 做成了闭环
如果 Hermes 只是“可以保存技能文档”,那它没什么稀奇。
因为保存模板、保存提示词、保存工作流说明,这件事现在谁都会讲。真正稀缺的,从来不是“能不能存”,而是“存下来之后,能不能活起来”。
Hermes 最值得看的,是它把这件事做成了一个闭环。
第一步,Agent 自己判断什么时候该提炼经验。
不是用户说“帮我记一下”,它才记;而是系统直接告诉它,复杂任务、棘手报错、非平凡工作流,做完之后就该沉淀成 skill。这个动作从一开始就是主动的,不是被动的。
第二步,存下来的不是一句 prompt,而是一份带结构的操作资产。
Hermes 的 skill 不是纯文本收藏夹。它有 frontmatter,有平台条件,有 toolset 依赖,有描述,有正文步骤,还可以挂参考文件。换句话说,它保存的不是“怎么说一句话”,而是“这类任务以后按什么方法做”。
第三步,它不会把所有 skill 一股脑塞进上下文,而是先给索引,再按需加载。
这一点很关键。因为很多人一讲 Agent 学习,就默认把所有历史经验拼命往上下文里灌。这样短期看像是“更聪明”,长期看是更贵、更慢、更乱。skills_tool.py 开头就把这套东西写得很直白:metadata 只在索引层展示,完整说明用 skill_view 按需加载,linked files 再下一层按需读。Hermes 用的是一种很工程化的思路:先让模型看到有哪些 skill,再决定加载哪一个完整内容。它不是单纯在堆 token,而是在做经验检索。

这也是我愿意多看它一眼的原因。很多系统讲到“长期记忆”时,重点停在“记住更多”。Hermes 至少把重点挪到了另一边:不是记住更多,而是让真正有用的方法能被重新找到、重新用上、重新修掉。
第四步,加载 skill 之后,它不是拿来展示,而是拿来执行。
这一点决定了 skill 不是知识库条目,而是工作流组件。系统会把它放进当前任务里,让它真的影响工具调用和行动路径。
第五步,也是最重要的一步:**它允许 skill 在使用中被修。**
这一点才是闭环真正闭合的地方。
如果一个 Agent 只会把经验写下来,但不会在下一次使用时修正过期内容,那这些经验很快就会变成负担。旧命令、旧路径、旧假设,都会让 skill 从资产变成垃圾。
Hermes 至少在设计上,已经把这个问题正面摆上了桌面。它要求 Agent 一旦发现 skill 缺步骤、命令过时、坑没有写进去,就应该立刻 patch。也就是说,它不是把经验当“归档文件”,而是当“持续维护的操作资产”。
这背后的判断,比“会自学习”四个字扎实得多。
因为企业里真正值钱的,从来不是谁脑子里有经验,而是谁能把经验写进组织,并且在使用中持续修订。人类团队靠 SOP、Playbook、Runbook 才能规模化。Agent 迟早也会走到这一步。
从这个角度看,Hermes 的意义不是“又一个顶流开源 Agent”,而是它把一个很多人都在隐约意识到、但还没认真落地的问题往前推了一大步:
Agent 的长期价值,不该只来自模型表现,而该来自经验资产的复利。
这也是为什么我不太想把它简单归到“Skills 系统”“自我进化”或者“更强记忆”里。
这些词都没错,但都太轻。
更准确的说法应该是:
Hermes 在尝试把 Agent 从“一次性解决问题的临时工”,往“会积累方法、会修补经验的长期协作者”推。

这件事未必已经完全跑通,至少今天还远没到“所有 Agent 都该照抄”的程度。它也有明显风险。比如 skill 质量怎么控,什么时候该建、什么时候不该建,过度沉淀会不会反而让系统越来越臃肿,这些都还是现实问题。
而且这些问题不是边角料,是主问题。一个会乱记、乱建、乱 patch 的 Agent,不会变成更强的同事,只会变成一个持续制造历史包袱的实习生。所以我认可 Hermes 的方向,不等于我觉得它已经把这件事做完了。
但方向是对的。
因为只要 Agent 继续进入真实工作流,这个问题迟早都会变成主问题:它不是能不能完成一次任务,而是能不能让下一次完成这类任务的成本继续下降。
如果一套系统做不到这一点,它再聪明,也很难越用越值钱。
把它记成一句话
如果你最近也在看各种 Agent、Skills、Memory、Routines,我建议你别先问“它是不是更聪明”,先问一句更硬的问题:
它能不能把一次成功,变成下一次更稳的默认做法?
如果不能,那它大概率还停留在“会干活”的阶段。
而 Hermes 真正让我多看一眼的,不是它又多会了什么,而是它开始认真回答另一个更难的问题:
Agent 的经验,到底怎样才能变成资产。
夜雨聆风