Hermes:让AI自己造缰绳-夜雨聆风

Hermes:让AI自己造缰绳

两个月41.7k星，它凭什么

2026年2月，一个叫Hermes的项目在GitHub上线，两个月后，41.7k stars。这个数字放在任何项目上都是现象级，放在AI Agent赛道里更是炸裂。但如果你以为它只是又一个“Claude Code杀手”或“OpenClaw替代品”，那从一开始就理解错了。

先说清楚三者的区别，这事关整个AI Agent生态的分工：

• Claude Code：交互式编码助手，定位是人机协作。你敲代码它补全，你debug它给建议，全程需要你盯着屏幕。它解决的是“编码效率”问题。
• OpenClaw：配置即行为。你通过写cloudy文件、hooks来“养”出一个符合你工作流的Agent。社区生态成熟，44000+ Skill可以直接用。它解决的是“行为定制”问题。
• Hermes：自主后台+自改进。你把它扔到服务器上，它会自己学、自己改规则、自己长记性。它解决的是“持续自主运行”问题。

三者不是竞品，是生态里三种角色。Claude Code是你的编码搭档，OpenClaw是你一手养大的龙虾，Hermes是那种放养后不但不会死还会自己进化的龙虾。

OpenClaw的生态确实是Hermes目前比不了的，如果你需要现成的Skill，OpenClaw现阶段更实用；但如果你想省时间、要一个能自主进化、不用管、越用越聪明、在后台默默干活Agent，Hermes直接碾压。

Harness Engineering：缰绳决定上限

说一个反常识的数据：同一模型，只改配置不改参数，成绩能从52.8%跃升到66.5%，排名从二十名开外冲进前五。

这就是Harness Engineering—套缰绳工程学。模型是马，规则、约束、记忆、提示词模板这些就是缰绳。同样的马，不同的缰绳，跑出来天差地别。

过去搞Harness Engineering很痛苦。你需要手动写配置文件、搭建记忆系统、调试规则冲突、持续维护。这活门槛高、迭代慢、容易出错，本质上是在用人肉对抗系统熵增。

Hermes把这件事自动化了。它内建了一套机制，让AI自己能感知到“缰绳不好用”，然后自己调整、自己测试、自己固化。这就是所谓“AI自己给自己造缰绳”。

关键逻辑：记忆喂养Skill，Skill使用中产生新记忆，新记忆触发Skill改进，形成闭环——这就是Hermes“越用越聪明”的核心原因。
传统的Harness Engineering是右边那条虚线箭头——人盯着输出、分析问题、手动改配置。Hermes把这根线变成了实线自动化回路。每完成一次任务，它就自己走一圈这个循环。

这不是概念验证，是已经在SWE-bench上跑出来的结果。

学习循环：每次犯错都在进化

Hermes的核心运行逻辑就一个闭环：执行任务 → 完成/失败 → 自动复盘 → 生成规则 → 下次生效。

具体说，每次任务结束后它会做三件事：

第一，回溯整个执行过程，定位哪里出了问题。是工具调用错了？是忽略了用户的某个偏好？还是某个Skill的逻辑有漏洞？

第二，把错误归类并生成修复策略。如果是知识缺失就补知识到记忆，如果是流程问题就改规则，如果是工具使用不当就更新Skill。

第三，把新规则写入配置层，下次同类场景自动触发。

学习循环是核心中的核心，相当于Hermes的“心脏”。每完成1个复杂任务或15次工具调用，就会自动复盘，分析不足、优化方法，触发Skill改进

我在实际使用中踩过一个典型场景：让它每天整理某个数据源的最新报告。第一天它直接把所有数据dump出来，我让它精简成表格。第二天它做了表格，但列的顺序不是我想要的。第三天它记住了列顺序偏好。到第五天，它连“这个数据源周三更新最晚”这种规律都自己摸清了，自动把执行时间推后了两小时。

这就是学习循环的实际价值——不是一次配置受益终身，而是持续观察、持续适配。你用一个月Hermes和用第一天是完全不同的东西。

三层记忆：记什么、怎么记、记多久

很多Agent号称“有记忆”，但说白了就是个超长上下文窗口。Hermes把记忆分了三层，这设计很务实：

核心三层为会话记忆（临时上下文）、持久记忆（跨会话存储）、Skill记忆（固化方法），用SQLite+FTS5实现高效检索，不会像Open Claude那样记忆膨胀成“怪兽文件”。

会话记忆最浅，就是当前对话的上下文窗口。会话结束就清空，不拖泥带水。

持久记忆是真正值钱的部分。它存用户偏好、历史决策、长期配置。比如“用户喜欢表格超过纯文本”、“上次这个任务的失败原因是超时”、“每周五下午不要打扰”。这些信息跨会话保留，是Agent越来越懂你的基础。

Skill记忆是最大的亮点。每个Skill是一个独立的Markdown文件，里面写明了这个技能的触发条件、执行逻辑、依赖工具、已知坑点。它不像传统工具定义那样写死，而是可以在使用中被Agent自己更新，会根据学习循环自动改进，触发创建的条件包括：连续5次以上工具调用、错误恢复、用户纠正等。

举个例子：你让Hermes写了一个“监控竞品动态”的Skill。第一次运行它只会抓取竞品官网，然后你告诉它“顺便看他们的公众号和招聘信息”。它会把这条逻辑写进Skill文件。第三次运行你又让它“发现高管变动时特别标注”，它继续追加。这个Skill会随着你的反馈越来越精准，而且是直接修改Markdown源文件，不是写在某个隐式的embedding里。

这带来一个附带好处：Skill文件是纯文本，你可以直接打开看、手动改、甚至分享给别人。

工具生态与多平台大脑

Hermes内置40+工具，覆盖文件操作、网络请求、数据处理、系统调用等基础能力。通过MCP协议可以接入6000+外部应用。

更值得说的是多平台设计：12个平台共用一个“大脑”。你在Telegram上的对话、Discord里的指令、网页端的交互，走的都是同一套记忆和规则。不会出现“在网页端教了它一个习惯，到TG上又变回白痴”的情况。

这个设计对实际使用体验影响巨大。很多Agent号称多平台其实就是多套独立实例，数据不通。Hermes是真正的单一大脑多端接入。

OpenClaw vs Hermes：两种养成哲学

既然都提到了，就摊开讲清楚：

OpenClaw的养成路径是“人主导”。你写cloudy文件定义行为，你调试hooks控制流程，你从社区44000+ Skill里挑选组装。这模式的优点是精准可控，社区资源丰富，遇到问题有一堆人踩过坑。缺点是费人，Agent永远不会比你更懂你的需求。

Hermes的养成路径是“自演化”。你给初始方向和反馈，它自己调整规则、自己扩充记忆、自己改进Skill。优点是越用越省心，后期维护成本趋近于零。缺点是冷启动阶段会犯蠢，而且生态还没OpenClaw成熟，能直接用的现成Skill少得多。

一句话总结：OpenClaw是你养出来的龙虾，你每天喂食换水控制水温；Hermes是那种扔进池塘第二年能长到五斤还自己学会了躲避天敌的龙虾。

选哪个取决于你的控制欲有多强。如果你享受调参和定制，OpenClaw更对味。如果你想要一个扔出去自己就能活的，Hermes更合适。

适合谁用

如果你是AI Agent开发者、对Harness Engineering有研究兴趣、或者单纯想搭一个个人AI助手让它自己跑，Hermes值得关注。

但如果你的需求是“现在就得有一个成熟稳定的Agent帮我干活”，那说实话OpenClaw的社区生态目前更靠谱。Hermes还在早期，自改进机制很好但目前也偶有“越改越糟糕”的情况，特别在复杂任务链中偶尔会出现规则冲突。

下一期我会拆解Hermes的核心模块实现，包括学习循环的触发机制、三层记忆的读写逻辑、Skill的自我迭代流程。