乐于分享
好东西不私藏

我同时跑了 Hermes 和 OpenClaw,一个让我惊喜,一个让我头疼

我同时跑了 Hermes 和 OpenClaw,一个让我惊喜,一个让我头疼

我同时跑了 Hermes 和 OpenClaw,一个让我惊喜,一个让我头疼

 两周前我干了件挺疯的事——在公司生产环境旁边挂了两台机器,一台跑 Hermes Agent,一台跑 OpenClaw。同一个任务池,同一个 API 网关,就看谁能活下来。

结果你们猜怎么着?

Hermes 第一周就学会了我的日报格式。不是我教的,是它自己观察了三天的邮件往来,然后在周四晚上自动生成了一个叫“周报聚合”的 skill。我当时坐在屏幕前愣了足足半分钟。

OpenClaw 那边呢?用 Docker 一键拉起来确实爽,接飞书也丝滑,但我让三个 Agent 协同处理客户工单的时候,它们互相等了四十分钟——死锁了。不是模型的问题,是调度器没处理好并发任务依赖。

到第二周结束,我把 OpenClaw 的实例关了,但 Hermes 那个我至今还开着。不是它没毛病,而是它犯的错我能接受。


一个 30 万星,一个 19 万星,路子完全不同

2026 年开年到现在,AI Agent 圈就两个名字刷屏:OpenClaw 和 Hermes Agent。

OpenClaw 的 GitHub star 在年初冲到 30 万,被社区戏称为“龙虾”。它的生态工具爆发速度吓人——DenchClaw 做 CRM,ClawdTalk 做语音通话,1Panel 直接内置了 OpenClaw 部署支持。看起来所有人都在给它写 wrapper。

Hermes Agent 同期也干到了 19.3 万 star(GitHub 数据),而且中文社区的教程多到离谱。掘金上随便一搜就有十几篇从零部署到企业微信对接的保姆级文章,评论区讨论质量不低。

但这两个框架代表的是两条完全不同的路线。OpenClaw 是个工具编排系统,它的核心是多 Agent 协同和渠道集成。Hermes 是个认知记忆系统,它的核心是“越用越懂你”。

我在实际用的是哪类场景?日常写作、定时爬取、消息推送、团队协作。这两个框架在这些场景上,表现差距大到像两个时代的产品。


两周实测:Hermes 让我删了好几个工具,OpenClaw 让我重装了三次

先说 Hermes。

我给它配置的是 Claude Sonnet 4 作为底层模型,开启了完整的三层记忆架构。第一周我只是让它帮我定时爬几个技术博客、整理成日报推送到飞书。任务本身不复杂,很多框架都能做。

但第四天发生了一件事。我那天没让它整理日报,我自己手动写了份简短的。它在会话里问我:“你今天改格式了?之前都是三段式,今天是列表式。”我当时还没意识到这意味着什么。

第二天我让它继续推送日报,它自动用了列表式——就是我手动写的那种。然后它干了一件让我真正震住的事:它创建了一个 skill,把列表式日报模板保存下来,命名为 daily-report-minimal,并且在 skill 描述里写了“Owner prefers this format on Thursdays and Fridays”。

这不是我配置的,不是 prompt 里写的,是它自己从四天的交互里总结出来的。

第二周更离谱。它观察到每周五我会发一份周报到团队群,内容是把前四天的日报汇总。它在周三就开始准备结构,到周五自动把四个 daily-report-minimal 的输出拼成一份周报,还标注了“本周关键事项”和“待跟进问题”。

我当时的反应是:这玩意儿是不是偷看了我的 Notion?

当然它也会翻车。有一回我随口说“下周可能要去趟深圳”,它就把所有跟深圳相关的资讯权重调高了,甚至帮我在日历上预留了周三到周五的行程。问题是——我只是可能去,还没定。等我发现的时候,它已经“固化”了这个信念,我得手动进 memory 面板把相关条目降权。

这是 Hermes 最让人头疼的地方:它的自我进化有时候方向会跑偏,而纠正的成本不低。得有人盯着,得定期做“记忆审计”。

再看 OpenClaw。

我用的版本是 2.3.1,Docker 部署:

version:'3.8'
services:
openclaw:
image:openclaw/agent:2.3.1
environment:
-OPENCLAW_MODEL=claude-sonnet-4-20250514
-OPENCLAW_CHANNELS=feishu,web
ports:
-"8080:8080"
volumes:
-./config:/app/config

拉起来五分钟,接飞书十分钟,这条链路顺得没话说。团队里的人不用装任何客户端,在飞书群里 @机器人就能调度 Agent。

问题出在一开始的多 Agent 协同上。我设了三个 Agent:一个负责接客诉、一个负责查后台数据、一个负责生成回复模版。它们之间的任务依赖关系是串行的——Agent B 要等 Agent A 确认工单类型才能查数据,Agent C 要等 Agent B 的结果才能写回复。

第一次跑就死锁了。Agent A 产出结果后广播了一条消息,Agent B 没收到——因为通信协议用的是内部 Pub-Sub,消息体格式和 Agent B 期待的 MCP 协议不一致。Agent B 就一直等,Agent C 也等,等了四十分钟我把任务手动终止了。

后来我查了社区,发现这是个已知问题。OpenClaw 的 Agent 间通信在 2.3 版本里用的是自己定义的协议,而很多社区 wrapper 是按 MCP 或 A2A 协议写的,两者互操作时有坑。官方说 3.0 会统一,但目前的生产环境还是得小心配。

简单任务的对比呢?我拿定时爬取某技术博客的任务在两个框架上同时跑了一周:

  • 任务完成率:都是 100%
  • 平均延迟:Hermes 2.3 秒,OpenClaw 1.8 秒
  • 格式准确率:Hermes 在第三天之后稳定在 98%,OpenClaw 稳定在 92%
  • 失败的奇葩原因:OpenClaw 有天因为飞书 API 限频没推送成功,Hermes 有天因为“觉得这篇博客内容质量低”自己决定不推送

你看,这就是两个框架底层的差异。OpenClaw 是个听话的执行器,快、稳、但不会多想。Hermes 是个有主见的助手,会判断、会学习、但偶尔替你做决定。


闪光点和翻车现场,谁也别跑

Hermes 的闪光点全在它的三层记忆架构上。短期记忆管会话上下文,长期记忆管用户偏好和知识库,反思层定期压缩和重组记忆——这不是我说的,是他们论文里的设计。我在实际用的时候能明确感受到:重启会话之后它还记得我的偏好,换了个任务领域它能把之前的 skill 迁移过来。

MemOS 项目(GitHub 上 9850 star)跟 Hermes 配合之后,Token 消耗直接降了 35.24%。这个数字不是我编的,是 MemOS 的实测数据。我在第二周开启 MemOS 后,日均 Token 从 120 万降到 78 万,一天省两三块钱——积少成多。

但 Hermes 翻车翻在哪?它的自我进化没有护栏。那个“信念固化”的问题最让人抓狂——一旦它在某个记忆上权重加高了,想纠正回来得去翻 JSON 文件。目前没有好的 GUI 审计工具,Hermes Studio(7881 star)还停留在会话管理和任务调度的层面,没深入到记忆纠错。

更关键的一点:Hermes 没有原生的多 Agent 协作能力。它是单体 Agent 的架构,要搞多 Agent 得靠外部桥接,像那个用 XMPP 协议让 OpenClaw 和 Hermes 互相通信的实验项目,好玩是好玩,生产环境真不敢用。

OpenClaw 的闪光点刚好是 Hermes 的短板。多 Agent 协同、渠道集成、企业级安全治理,这三板斧打得漂亮。1Panel 把 OpenClaw 做进 VPS 控制面板这件事说明它在运维圈已经有了实际生产力场景。

但它的翻车点也够呛。安装和配置对非开发者极不友好——你可能会说 Docker 一行命令的事,但配置飞书应用的 app_id/secret、搞定 OAuth 回调、配消息卡片模版,这些事一个普通运营根本搞不定。然后社区为了解决这些痛点写了一堆 wrapper:ClawHuddle、DumbClaw、Clawly…结果 wrapper 太多,碎片化严重,你都不知道该用哪个。

我第三次重装就是因为选错了 wrapper——用了 DumbClaw 想“简化”,结果它简化过头,把多 Agent 通信模块给砍了。


架构底层的分歧:技能树 vs 调度中心

话说到底,这两个框架的差异在架构设计层面就注定了。

Hermes 的核心是“记忆-反思-技能”闭环。它不是工具调用的专家,它是认知管理的专家。每次跟你交互,它都在做三件事:把新信息编码进记忆、定期反思和重组记忆、把反复成功的操作模式沉淀成 skill。

这个架构有个学名叫“认知架构”,灵感来自人脑的记忆系统。它的工具调用不是靠预定义的 MCP 连接,而是通过学习你的使用模式,自己生成工具调用策略。这意味着它能用你没教过的方式调用工具,但也意味着它偶尔会“创新”出你不需要的用法。

OpenClaw 的核心是“中心调度 + 多 Agent 松散耦合”。调度器负责任务分配和状态管理,每个 Agent 通过显式的 MCP 或 A2A 协议连接外部工具和其他 Agent。这是典型的分布式操作系统思路。

两者的设计哲学差异大到我怀疑它们的作者根本没在同一个问题上思考。Hermes 的作者在想“怎么让 AI 记住用户”,OpenClaw 的作者在想“怎么让 AI 管好工具”。这不是谁对谁错的问题——是你到底要一个伙伴,还是要一个工头。


生态:龙虾的壳很硬,爱马仕的鞍很少

OpenClaw 的生态已经像个 App Store 了。DenchClaw 做客户管理,ClawdTalk 做语音呼叫,1Panel 做服务器管理面板,AstrBot 直接标榜自己是 OpenClaw 替代品(34618 star)。还有个叫 SEOBuild Onpage 的项目用 OpenClaw 跑 SEO 页面生成,号称“一条命令进去,能排名的页面出来”。

Hermes 的生态走的是另一条路。agency-agents-zh(14835 star)给 Hermes 配了 211 个即插即用的角色模板,覆盖小红书、抖音、微信等中国市场场景。Mnemosyne 和 MemOS 专注记忆增强,EverOS(7407 star)想做成跨 Agent 平台的便携记忆层。

多模态方面,OpenClaw 有更多语音和浏览器交互的实验项目。Hermes 社区搞了个 Vessel Browser,是专门给 Agent 用的浏览器——不是给人用的。这玩意儿的设计思路挺疯,但确实说明 Hermes 生态更侧重“个人化能力”的深挖。


你到底该用哪个?我不和稀泥

如果你是个独立开发者,想要一个越来越懂你的长期 AI 搭档,选 Hermes。但有个前提:你得愿意花时间做“记忆审计”,每周至少看一次它的 memory 面板,纠正跑偏的信念。你在养一个会自己进化的 AI,不是在用一个工具。

如果你是小团队或者企业场景,需要多个 Agent 协作跑工作流,选 OpenClaw。但得准备好 DevOps 投入——至少要有人会写 Docker Compose、会配飞书开放平台、会调 MCP 协议。

现在社区有人试图把两个框架桥接起来,比如用 XMPP 让 Hermes 和 OpenClaw 互相调用。我试了,能跑,但不稳定。一旦任务链路变长,通信超时和协议不匹配的问题就冒出来。如果你问我能不能在生产环境把两个框架混着用,我的判断是:先别。等一方补齐另一方的短板再说。


2026 下半年,Agent 的关键突破在哪

跑了这两周,我对 Agent 的发展方向有几个判断。

记忆的标准化和可移植性会变成 Agent 的操作系统层。EverOS、agentmemory(22734 star)、MemOS 这些项目都在干这件事。未来你不会把自己的 Agent 锁在一个框架里,而是带着记忆数据在框架间迁移。

多 Agent 通信协议会变成基础设施。MCP 和 A2A 已经是事实标准了,AgentVerse 这种 Agent 社交网络也在冒头。OpenClaw 被吐槽最多的通信协议不统一问题,大概率会在 3.0 版本解决——这是社区用脚投票的结果。

但最棘手的问题不是技术,是治理。EU AI Act 在 2026 年 8 月 2 日生效,对自治代理的审计和可解释性有硬性要求。那个 Ouroboros 项目(634 star)搞了个“自我创建”的 Agent,听起来很酷,但在合规框架下怎么跑?AIR Blackbox 这种合规层项目已经在做准备了。

自我进化和安全护栏的平衡,会是 Hermes 这类框架最大的挑战。Agent 不能只“进化”,还得能“被审计”。我个人判断,明年会有专门的 Agent 治理框架出现,把记忆审计、行为追踪、权限控制做成标准化模块。


我们该为什么样的未来准备

这场 Hermes 和 OpenClaw 的对决,本质上不是谁更好用的问题。是 AI 到底该往“自治伙伴”走,还是往“可靠工具”走。

我的建议是两条路都学一点。先把一个框架的核心机制吃透——Hermes 的记忆闭环或者 OpenClaw 的调度架构——再理解跨框架的通信协议。框架会过时,但架构思想和协议标准不会。

关注一下合规趋势。2026 年 8 月之后,任何跑在生产环境的自治 Agent 都得有审计日志、可解释的决策链路、人工干预的入口。如果你现在开始做,这比事后补救省十倍成本。

最后说句实话。这两个框架的竞争正在把 Agent 从“能做什么”推往“能记住什么”和“能协作多少”。未来的应用不会是单个 Agent,而是 Agent 网络。你现在踩的每一个坑,都是在为那个未来攒经验。

我反正已经把 Hermes 留着了。它会犯错,但它在学。比起一个永远不会出错的工具,我更需要一个真的懂我在干什么的搭档。