乐于分享
好东西不私藏

Hermes:让AI自己造缰绳

Hermes:让AI自己造缰绳

两个月41.7k星,它凭什么

2026年2月,一个叫Hermes的项目在GitHub上线,两个月后,41.7k stars。这个数字放在任何项目上都是现象级,放在AI Agent赛道里更是炸裂。但如果你以为它只是又一个“Claude Code杀手”或“OpenClaw替代品”,那从一开始就理解错了。

先说清楚三者的区别,这事关整个AI Agent生态的分工:

  • • Claude Code:交互式编码助手,定位是人机协作。你敲代码它补全,你debug它给建议,全程需要你盯着屏幕。它解决的是“编码效率”问题。
  • • OpenClaw:配置即行为。你通过写cloudy文件、hooks来“养”出一个符合你工作流的Agent。社区生态成熟,44000+ Skill可以直接用。它解决的是“行为定制”问题。
  • • Hermes:自主后台+自改进。你把它扔到服务器上,它会自己学、自己改规则、自己长记性。它解决的是“持续自主运行”问题。

三者不是竞品,是生态里三种角色。Claude Code是你的编码搭档,OpenClaw是你一手养大的龙虾,Hermes是那种放养后不但不会死还会自己进化的龙虾。

OpenClaw的生态确实是Hermes目前比不了的,如果你需要现成的Skill,OpenClaw现阶段更实用;但如果你想省时间、要一个能自主进化、不用管、越用越聪明、在后台默默干活Agent,Hermes直接碾压。

Harness Engineering:缰绳决定上限

说一个反常识的数据:同一模型,只改配置不改参数,成绩能从52.8%跃升到66.5%,排名从二十名开外冲进前五。

这就是Harness Engineering—套缰绳工程学。模型是马,规则、约束、记忆、提示词模板这些就是缰绳。同样的马,不同的缰绳,跑出来天差地别。

过去搞Harness Engineering很痛苦。你需要手动写配置文件、搭建记忆系统、调试规则冲突、持续维护。这活门槛高、迭代慢、容易出错,本质上是在用人肉对抗系统熵增。

Hermes把这件事自动化了。它内建了一套机制,让AI自己能感知到“缰绳不好用”,然后自己调整、自己测试、自己固化。这就是所谓“AI自己给自己造缰绳”。

传统方式

Hermes方式

模型基础能力
Harness配置层
规则与约束
记忆系统
工具与Skill
输出表现
人工分析调整
自动复盘分析
生成新规则
更新记忆
优化Skill

关键逻辑:记忆喂养Skill,Skill使用中产生新记忆,新记忆触发Skill改进,形成闭环——这就是Hermes“越用越聪明”的核心原因。
传统的Harness Engineering是右边那条虚线箭头——人盯着输出、分析问题、手动改配置。Hermes把这根线变成了实线自动化回路。每完成一次任务,它就自己走一圈这个循环。

这不是概念验证,是已经在SWE-bench上跑出来的结果。

学习循环:每次犯错都在进化

Hermes的核心运行逻辑就一个闭环:执行任务 → 完成/失败 → 自动复盘 → 生成规则 → 下次生效

具体说,每次任务结束后它会做三件事:

第一,回溯整个执行过程,定位哪里出了问题。是工具调用错了?是忽略了用户的某个偏好?还是某个Skill的逻辑有漏洞?

第二,把错误归类并生成修复策略。如果是知识缺失就补知识到记忆,如果是流程问题就改规则,如果是工具使用不当就更新Skill。

第三,把新规则写入配置层,下次同类场景自动触发。

学习循环是核心中的核心,相当于Hermes的“心脏”。每完成1个复杂任务或15次工具调用,就会自动复盘,分析不足、优化方法,触发Skill改进

我在实际使用中踩过一个典型场景:让它每天整理某个数据源的最新报告。第一天它直接把所有数据dump出来,我让它精简成表格。第二天它做了表格,但列的顺序不是我想要的。第三天它记住了列顺序偏好。到第五天,它连“这个数据源周三更新最晚”这种规律都自己摸清了,自动把执行时间推后了两小时。

这就是学习循环的实际价值——不是一次配置受益终身,而是持续观察、持续适配。你用一个月Hermes和用第一天是完全不同的东西。

三层记忆:记什么、怎么记、记多久

很多Agent号称“有记忆”,但说白了就是个超长上下文窗口。Hermes把记忆分了三层,这设计很务实:

三层记忆架构

热数据

温数据

冷数据

过期清除

持久化存储

版本管理

会话记忆层
当前对话上下文
持久记忆层
用户偏好历史决策长期配置
Skill记忆层
技能库Markdown文件支持自我改进
会话结束
跨会话可用
可回溯可迭代

核心三层为会话记忆(临时上下文)、持久记忆(跨会话存储)、Skill记忆(固化方法),用SQLite+FTS5实现高效检索,不会像Open Claude那样记忆膨胀成“怪兽文件”。

会话记忆最浅,就是当前对话的上下文窗口。会话结束就清空,不拖泥带水。

持久记忆是真正值钱的部分。它存用户偏好、历史决策、长期配置。比如“用户喜欢表格超过纯文本”、“上次这个任务的失败原因是超时”、“每周五下午不要打扰”。这些信息跨会话保留,是Agent越来越懂你的基础。

Skill记忆是最大的亮点。每个Skill是一个独立的Markdown文件,里面写明了这个技能的触发条件、执行逻辑、依赖工具、已知坑点。它不像传统工具定义那样写死,而是可以在使用中被Agent自己更新,会根据学习循环自动改进,触发创建的条件包括:连续5次以上工具调用、错误恢复、用户纠正等。

举个例子:你让Hermes写了一个“监控竞品动态”的Skill。第一次运行它只会抓取竞品官网,然后你告诉它“顺便看他们的公众号和招聘信息”。它会把这条逻辑写进Skill文件。第三次运行你又让它“发现高管变动时特别标注”,它继续追加。这个Skill会随着你的反馈越来越精准,而且是直接修改Markdown源文件,不是写在某个隐式的embedding里。

这带来一个附带好处:Skill文件是纯文本,你可以直接打开看、手动改、甚至分享给别人。

工具生态与多平台大脑

Hermes内置40+工具,覆盖文件操作、网络请求、数据处理、系统调用等基础能力。通过MCP协议可以接入6000+外部应用。

更值得说的是多平台设计:12个平台共用一个“大脑”。你在Telegram上的对话、Discord里的指令、网页端的交互,走的都是同一套记忆和规则。不会出现“在网页端教了它一个习惯,到TG上又变回白痴”的情况。

这个设计对实际使用体验影响巨大。很多Agent号称多平台其实就是多套独立实例,数据不通。Hermes是真正的单一大脑多端接入。

OpenClaw vs Hermes:两种养成哲学

既然都提到了,就摊开讲清楚:

OpenClaw的养成路径是“人主导”。你写cloudy文件定义行为,你调试hooks控制流程,你从社区44000+ Skill里挑选组装。这模式的优点是精准可控,社区资源丰富,遇到问题有一堆人踩过坑。缺点是费人,Agent永远不会比你更懂你的需求。

Hermes的养成路径是“自演化”。你给初始方向和反馈,它自己调整规则、自己扩充记忆、自己改进Skill。优点是越用越省心,后期维护成本趋近于零。缺点是冷启动阶段会犯蠢,而且生态还没OpenClaw成熟,能直接用的现成Skill少得多。

一句话总结:OpenClaw是你养出来的龙虾,你每天喂食换水控制水温;Hermes是那种扔进池塘第二年能长到五斤还自己学会了躲避天敌的龙虾。

选哪个取决于你的控制欲有多强。如果你享受调参和定制,OpenClaw更对味。如果你想要一个扔出去自己就能活的,Hermes更合适。

适合谁用

如果你是AI Agent开发者、对Harness Engineering有研究兴趣、或者单纯想搭一个个人AI助手让它自己跑,Hermes值得关注。

但如果你的需求是“现在就得有一个成熟稳定的Agent帮我干活”,那说实话OpenClaw的社区生态目前更靠谱。Hermes还在早期,自改进机制很好但目前也偶有“越改越糟糕”的情况,特别在复杂任务链中偶尔会出现规则冲突。

下一期我会拆解Hermes的核心模块实现,包括学习循环的触发机制、三层记忆的读写逻辑、Skill的自我迭代流程。