OpenClaw 是目前最火的开源 AI 助手,35 万 Stars,130 多个扩展模块,社区贡献源源不断。想连什么平台、想加什么能力,基本都能找到现成的。
但不管用了多久,它对你的理解基本不会变。你的偏好要反复交代,纠正过的问题下次还犯。说到底,它是一个功能很强的工具箱——而工具箱不会因为你多用几次就更懂你。
Hermes Agent 走了另一条路。Nous Research 今年初开源,几周拿下 4.5 万 Stars。功能数量比不上 OpenClaw,但它在做一件不同的事:每次合作都在积累经验、更新记忆、琢磨你的习惯。用得越久,越顺手。
具体怎么做到的?一起看看。
第一层:自己学会新本事
大多数 Agent 的 Skill(技能)系统都是单行道——开发者写好、发布到生态、Agent 调用。OpenClaw 把这条路走得很成熟:130 多个 extension,社区源源不断地贡献新工具,模块化做得干干净净。但工具一旦发布就是固定的,不顺手也不会自己改。
Hermes 的技能不是别人塞给它的,是它自己干活干出来的。
触发条件挺明确:一次工作流只要涉及 5 次以上工具调用、出过错要重来、你纠正过它、或者撞出了非常规解法,系统就会自动把这次经验提炼成一个可复用的 Skill。下次碰到类似问题,直接套用,不用从头推理。
更新方式也聪明。它不会推翻重写,而是用 patch 操作——只改出问题的那部分,已验证的好做法保留。像一个搭档在老经验上做微调,不是每次从零开始。
这些 Skill 遵循 agentskills.io 标准,已经被 11 个主流工具采用——Claude Code、Cursor、GitHub Copilot、Gemini CLI、VS Code 都在用。搭档学到的东西不光自己受益,整个生态都能拿去用。
第二层:五层记忆,从"记住"到"懂你"
OpenClaw 有跨会话的持久记忆和偏好配置——你告诉它,它就记住。你不说,它就不知道。这是便签式的记忆,被动、显式,全靠你主动配置。
Hermes 的记忆不在便签上,在脑子里。它有五层认知,从表层到深层——像一个搭档从"记得你说的话"慢慢变成"真正懂你这个人"。
第一层:张口就来的事。 MEMORY.md、USER.md、SOUL.md 三个文件每次对话自动加载。容量故意做小,只给 3,575 字符——逼它只记最核心的那几条。
第二层:翻翻记录能想起的事。 每次会话写进 SQLite,用 FTS5 全文索引。不会自动灌进上下文,但需要时能检索,还会让 LLM 先摘要再用。三个月前的对话,你一提,关键细节很快回来了。
第三层:知道怎么干活。 Skill 系统本身就是一种记忆——"这类问题该怎么处理"。默认只记要点,真用的时候才展开完整步骤。
第四层:举一反三。 所有技能和文档都做了向量化语义索引。你描述一个新问题,哪怕用词完全不同,Agent 也能联想到最相关的老经验。
第五层:真正懂你。 最深的一层。Hermes 集成的 Honcho 框架是一套辩证推理系统——每次对话后自动分析,跨 12 个维度琢磨你的偏好、习惯和目标。它提供四个工具:honcho_search(搜历史)、honcho_context(辩证查询)、honcho_profile(画像)、honcho_conclude(沉淀结论)。写入是异步的,完全不卡主对话。
结果就是:你是资深后端工程师?它不会多嘴解释 REST API。你是第一次碰 React 的 Go 开发者?它会自然地拿后端概念类比前端。这种默契不是你教出来的,是它自己悟出来的。
一个小细节:记忆召回时用 XML fence(<memory-context>)包着,防止模型把回忆内容误读成当前指令。小地方,大讲究。
五层叠加,构成一个正反馈循环:
你交代任务 → 搭档完成 → 自动总结经验 + 记住要点 + 更新对你的理解 → 下次更默契
这一切都不用重训模型。纯粹靠积累经验和理解你来变强。
第三层:下班后还在练
前面说的五层记忆和 Skill 积累,是 Hermes 在工作中的日常成长——每天变强一点,但"大脑"本身没变。而 RL 训练飞轮(Reinforcement Learning,强化学习——简单说就是让 AI 从自己的工作经历中"练级")是另一回事:不光积累经验,还真的让模型变聪明。
打个比方:日常成长像一个员工攒了越来越多的笔记和模板,干活越来越熟练;RL 飞轮像这个员工回去读了个在职研究生——脑子本身升级了。OpenClaw 在这个维度上是空白。
每次干活都是素材
Hermes 会把每次干活的完整过程录下来——你说了什么、它怎么想的、调了哪些工具、结果是什么——全部按标准格式存好。不是随便记的流水账,是结构化的"教学案例":
用户指令 → 模型推理(含 <think> 标签)→ 工具调用 → 工具结果 → 最终回复
每一条都是一次完整的"做对了什么、做错了什么"的案例,可以直接拿来训练下一代模型。
会剪辑的轨迹压缩器
但原始记录太长了——一个复杂任务动辄几万字。trajectory_compressor.py 负责"剪辑":把冗余部分去掉,只留关键决策点、出错怎么救回来的、为什么中途换了方向。就像写复盘报告——不记流水账,只提炼最值钱的经验。
Atropos + Tinker:双引擎
真正干"练级"这件事的是两个组件:Atropos 负责出题和评分(管训练环境和评估,能协调上千个 worker 同时干活);Tinker 负责"改大脑"(更新模型权重,用的是 GRPO 算法 + LoRA 微调,最多 2,048 路并行训练)。
Hermes 4 的训练中,Atropos 出了约 1,000 种不同类型的考题,只有答得好的案例才会被选中用来"练级"——质量把关很严。
整条链路就是"干活 → 复盘 → 变强"的循环:
用户使用 → 产生工作记录 → 压缩后喂 RL 训练 → 训出更强的模型 → 干活更好 → 更多人用 → 更多素材
这就是飞轮。干得越多转得越快。
第三条进化路径:GEPA
Hermes 还有一个独立进化项目叫 hermes-agent-self-evolution,用 GEPA 算法(你可以理解为"让 AI 自己找自己的 bug,然后自己修")自动优化 Agent。不只是发现哪里做错了,而是分析为什么做错,然后提出针对性改进。每次改进要过严格门禁——测试全过、大小合规、语义不变、人工审核——全过了才算数。
最实惠的是成本——跑一轮优化只要 $2-10,不用 GPU。小团队也玩得起。
飞轮的硬前提
这套打法不新鲜。Tesla 用自动驾驶数据做的是这事,GitHub Copilot 用代码补全历史做的也是这事——产品即工位,用户即导师。这也是 Nous Research 开源 Hermes 的真正原因:把搭档放到活最多的地方去。
但飞轮有个硬前提。Hermes 的轨迹记录默认是关着的,飞轮的威力完全取决于有多少用户主动开启。如果大多数人选择不贡献数据,飞轮转不起来。这个问题,Nous Research 得持续作答。
第四层:能分工,能出差,还会省钱
分工
OpenClaw 的多 Agent 协同是它的强项之一——多个 Agent 各司其职,Agent 编排层跟 Skill 框架深度绑定,可以搭出挺复杂的自动化流水线。但 Agent 之间通信链路越多,安全面也越大。
Hermes 走小分队路线:每个子 Agent 独立上下文、独立工具集、独立终端会话。禁止递归委派、禁止写共享记忆、禁止发消息到外部。最多 3 个并发,最多嵌套 2 层。人少,但每个人职责边界清清楚楚——能力隔离 + 预算约束,自主干活又不越界。
出差
Hermes 支持 6 种执行后端:本地、Docker(生产级隔离)、SSH(跨会话持久远程环境)、Daytona(无服务器开发环境)、Singularity(HPC 集群)、Modal(无服务器生产,支持休眠/唤醒)。统一实现 BaseEnvironment 接口,切换零改动。
你在手机上用 Telegram 发消息,Agent 在云端 VM 上干活——哪里都能办公,闲时零成本休眠,要用秒级上线。OpenClaw 主要在本地环境或 Plugin 调外部 API,灵活性差一截。
省钱
smart_model_routing.py 根据任务复杂度路由——闲聊丢给便宜模型,debug、refactor、架构这类重活才用强模型。每月 API 成本能省约 3 倍。OpenClaw 有 model failover,但没有基于任务复杂度的智能路由。
拆完了,怎么看?
总结一下 Hermes 的四层成长机制:
1. Skill 自生长——干活中自动提炼经验,patch 更新,还能跨工具共享
2. 五层记忆——从肌肉记忆到深层理解,越用越懂你
3. RL 数据飞轮——把工作记录变成训练素材,系统性地升级模型本身
4. 执行层设计——安全隔离的子 Agent、6 种远程后端、智能省钱路由
OpenClaw 在工具丰富度和社区生态上依然领先,这一点毫无疑问。但 Hermes 切入的角度不一样——它赌的不是"谁的工具更多",而是"谁能越用越强"。
这个赌注能不能成立,取决于飞轮能不能转起来。轨迹记录默认关闭,数据全靠用户 opt-in。如果大多数人不开,飞轮就是停着的。
但如果转起来了,这种优势很难被追上。工具可以被更好的工具替代,但磨合出来的默契没有捷径。
瑞士军刀再好,用一百次还是同一把刀。一个好搭档,合作一百次之后,已经是一个完全不同的人了。
夜雨聆风