最近在评估 Hermes Agent 和 OpenClaw,两款工具都号称让 AI 更好用,但用了一段时间之后,感觉它们在解决完全不同的问题。这个差异,比功能列表更值得说清楚。先把两者的定位说清楚OpenClaw 是一个 AI 自动化框架。它更像是一套”水管”,负责把各种消息平台(微信、Telegram、Slack)、各种大模型(GPT、Claude、Ollama)、各种工具(浏览器、文件、命令行)接在一起,用 TypeScript 写自定义流程。逻辑透明,行为可审计,开发者来决定 AI 怎么走、做什么。Hermes Agent 是一个自进化 AI Agent。它更像是一个”数字打工人”,告诉它做什么,它自己想办法做完、记住经验、下次做得更好。目标是 Agent 主动积累能力,减少人的干预。一句话概括:OpenClaw 是框架,由人来编程;Hermes 是 Agent,由它来学习。这个定位差异决定了两者创新的方向截然不同。比较它们哪个”更好”,就像比较锤子和电钻哪个更好用——问题问错了。Hermes 在解决什么问题:AI 每次都要重新认识你用过 Claude Code 或者 ChatGPT 的人都有一个感受——每次对话结束就是一次”失忆”。上周跟它说”我习惯用这个表格格式”,下周它不记得了。反复交代背景,反复说明偏好,每次都像第一次见面。即便有了 Projects 功能可以保存系统提示,也只是”存了一段说明文字”,不是”记住了一套工作方式”。这是市面上绝大多数 AI 工具的共同问题。它们解决的是”如何让大模型更好地调用工具”,没有解决”如何让 Agent 在用过之后变得更聪明”。Hermes 切的就是这个点。技能自动生成这是 Hermes 最核心的创新。用 Hermes 做过一件复杂的事——整理一份财务报告、搜集竞品信息——做完之后,它会自动把这次的执行流程提炼成一个技能文件(Skill.md),下次遇到类似任务直接召回。如果这个技能文件在后续使用中发现有问题,它会用 patch 方式自动修补,而不是全量重写,也不是等着人来改。这不是”保存聊天记录”,是”把做过的事变成可复用的能力”。区别在于:聊天记录是线性的、被动的,你要翻历史才能找到;技能文件是结构化的、主动的,遇到合适的任务它自动上来。人类的经验沉淀方式更接近后者——老员工的价值不在于”记得以前做过什么”,在于”遇到类似问题,知道怎么做”。三层记忆架构Hermes 在记忆设计上分了三层:工作记忆处理当前对话,用完就清。这部分和所有 AI 一样,没有区别。长期记忆(MEMORY.md + USER.md)保存关键事实和偏好。比如”这个项目用 Python 3.11,注释用英文,提交信息用中文”——记住了就不用再说,每次新对话都自动带着这些规则进来。技能库(Skills)保存可复用的操作流程。对应人类的”程序性记忆”——骑车怎么骑,不需要每次重新想,也不需要别人提醒,遇到了就自动启用。三层之间还有一个技术细节值得注意:记忆内容在会话开始时就锁定(冻结快照机制),不会因为对话中途更新记忆而打乱 AI 的上下文缓存。这个设计在实际使用中意味着运行成本更低——上下文不需要反复重新计算。闭环是真正闭合的Hermes 的学习路径:完成任务 → 判断哪些值得记 → 生成/更新技能 → 下次召回技能 → 完成任务。这个循环不靠用户手动管理,是 Agent 自主判断。对比其他框架,这个闭环往往是断的——用户要手动告诉它”记住这个”、”下次用这个方法”。一旦需要人主动干预才能闭合,”越用越聪明”就变成了”用户越勤快才越聪明”,本质还是用户在管理 AI,而不是 AI 在管理自己。OpenClaw 在解决什么问题:AI 做复杂任务半途而废OpenClaw 解决的是另一个让开发者头疼的问题——大模型在复杂任务中途”偷懒停下”。让 AI 修 10 个 bug,它修了 4 个就说”完成了”。让它整理一份文档,它写了一半就停。让它跑一套测试流程,中途遇到一个小报错,它就把整个任务停掉而不是绕过去。这个问题的根源在于大模型的推理特性:模型在某个时刻会判断”这里应该结束了”,这个判断基于训练数据的分布,不是基于任务实际完成与否。换句话说,模型”觉得”任务差不多了,不等于任务真的完成了。Goal 机制OpenClaw 的核心创新直接对准这个问题。做法是在 Agent 的执行过程中加一个”任务导航系统”——设定一个目标(Goal),全程盯着,不让模型自己决定何时结束。AI 停下来时,系统自动检测”任务完成了吗”,如果没完成,自动注入一句”还没到,继续”。几个关键设计:
连续 3 次遇到同样的错误,判定为真正卡住(Blocked),提示人工介入,不再无意义地循环
内置 Token 预算上限,防止失控跑费
完成(Complete)是终态,不可撤销,防止 AI 虚报”任务完成”
这个机制背后有六个状态:进行中、暂停、卡住、预算耗尽、限制中、完成。状态转换有严格规则,不是靠模型自由发挥。整套设计的逻辑是:不信任模型的自我判断,用工程化的状态机来兜底。可编程工作流除了 Goal 机制,OpenClaw 的另一个价值在于透明度。用 TypeScript 或 YAML 写自定义的 AI 工作流,逻辑完全显式定义,所有数据留在本地。出了问题,可以从代码层面追溯到每一步发生了什么,而不是只有一个”AI 说它做了”。对于需要把 AI 嵌入企业内部系统、需要合规审计的场景,这一点比 AI 有多聪明更重要。一个好用但不可审计的 AI 工具,在合规体系严格的环境里,等于不能用。两者创新的本质差异