乐于分享
好东西不私藏

QClaw 双引擎实战:OpenClaw vs Hermes,2周后的使用分享

QClaw 双引擎实战:OpenClaw vs Hermes,2周后的使用分享

大家好,我是老王。

我同时用 OpenClaw 和 Hermes Agent 快两周了。

不是浅尝辄止那种——公众号文章写作、信息检索分析、深度研究、定时任务,全都在两个引擎上跑了一遍。同样的活,换不同的引擎干,体感差异比我想象的大得多。

先给结论:Hermes 更稳,OpenClaw 更灵活,但 OpenClaw 的模型切换是个大坑。

下面一条一条说。


01 · 中断率:Hermes 几乎不中断

这是我体感最强的差异。

用 OpenClaw 跑长任务——比如一轮完整的信息搜集+分析+写报告——中途断掉是常事。上下文超了,token 炸了,模型抽风了,各种原因。断一次就得重新开 session,重传上下文,重新解释我在干什么。

换到 Hermes 之后,中断频率体感下降了 90%。

不是夸张。两周里,Hermes 只有过一次任务中断,还是我手动停的。而 OpenClaw,平均一个长任务要断 2-3 次。

为什么?猜测核心原因是 Hermes 的上下文管理更激进。它会在任务执行过程中主动压缩上下文,把早期的对话摘要化,给当前任务腾空间。OpenClaw 更保守,倾向于保留完整历史,结果就是窗口更快被填满,然后爆掉。

但 Hermes 这套机制也不是没代价——下一节说。


02 · Hermes 的上下文压缩 Bug:丢了最新的对话

Hermes 的上下文压缩,绝大部分时候工作得很好。但它有一个 Bug,踩到一次就够你崩溃的。

压缩失败后,它丢失的是最新的对话,不是最早的。

想象一下:你跟 Agent 聊了 50 轮,前 40 轮的旧信息都在,但最后 10 轮——也就是你最新给出的指令、刚做的决策、刚刚修正的方向——全没了。

这就像你写了两个小时的文档,自动保存的版本是半小时前的。

我已经把这个 Bug 反馈给 Qclaw 团队,希望可以认真进行修复。但在修好之前,这是用户必须知道的风险。

临时对策:重要决策和关键指令,自己复制一份到笔记里。别完全信任它的压缩机制。


03 · QClaw的龙虾切换模型后降智严重

这是我最大的槽点。

最为Qclaw新版本的卖点之一是模型自由切换——GLM-5.1、Kimi K2.6、DeepSeek V4 Pro,下拉菜单点一下就换。

自从上次更新之后,我就尝试使用不同的模型。

但切换之后,模型能力断崖式下降。

同样的任务,不同模型,在 OpenClaw 里跑出来的质量切换前后明显存在差异。表现包括:

  • 指令遵循能力下降:明确要求三段式输出,它给你两大段混在一起
  • 上下文理解变弱:前面刚聊过的内容,后面就忘了
  • 工具调用出错:调用搜索、文件操作等工具时,参数格式频繁出错

这不是某一个模型的问题。GLM-5.1、Kimi K2.6、DeepSeek V4 Pro,切换过去都是一样的感受——好像换一个模型就变笨了。

我猜原因有两个:

  1. System Prompt 污染:OpenClaw 自身的 System Prompt 很长(Agent 配置、工具说明、Skill 指令),占掉大量上下文空间,留给模型”思考”的窗口被压缩
  2. 模型适配不充分:不同模型对指令格式、工具调用的理解方式不同,Qclaw 可能没有针对每个模型做充分适配,而是用一套通用 Prompt 套所有模型

无论是哪个原因,结果就是:你选了 GLM-5.1,但实际体验不到 GLM-5.1 应有的水平。


04 · 自学习:Hermes 的隐藏王牌

这是我最想夸 Hermes 的一点。

我的「小搜」Agent(跑在 OpenClaw 上)和 Hermes 的「互联网情报站」做同样的信息检索分析任务,Hermes 的输出质量明显更高。

不是模型能力的差异——两边用的模型差不多。差距来自自学习。

Hermes 的 Skill 系统有一个关键机制:完成任务后,自动总结方法论,生成新的 Skill 文件。 你教它一次”怎么搜 AI 新闻”,它就把这个流程固化为一个 Skill,下次直接调,不用从头解释。

我用 Hermes 的互联网情报站跑「AI 周报」任务,第一周需要详细告诉它:搜哪些关键词、怎么筛信息源、报告用什么格式。第二周开始,只要说”跑一轮周报”,它就自动调出之前沉淀的方法论,执行质量甚至比第一周手动指导时更高。

OpenClaw 的 Skill 也有类似能力,但需要手动编写和维护。 你得自己写 (或者让Agent写)SKILL.md,自己维护 references 目录,自己确保 Skill 内容是最新的。能做,但门槛高,大部分人不会去写。

Hermes 把这个过程自动化了——用得越多,Skill 越多,能力越强。这是一条正反馈飞轮。


05 · 深度研究:Hermes 仍然领先

我在《我搭了一个互联网情报站》那篇文章里详细介绍过 Hermes 的横纵分析法——纵向追时间深度,横向追同期广度,交汇出判断。

两周下来,这个结论更牢固了。

举例:让两个引擎分别做一份「Browser-Use 深度研究」。

OpenClaw(小搜)的输出:搜了 5 轮关键词,返回 10 条相关文章的摘要,筛选出 3 条高价值源,最后给了一份 2000 字的信息简报。够用,但浅。

Hermes(互联网情报站)的输出:自动调出横纵分析 Skill,纵向追溯了 Browser-Use 从 Selenium 宏到 92K Star 的完整演进路径,横向对比了 Playwright/Puppeteer/Selenium 三条线的能力边界,最后交汇判断——它填补了「零配置浏览器自动化」的空白,未来会跟 Agent 框架深度融合。5000 字的深度报告,带时间线和竞品对比表。

差距不是 10% 或 20%,是量级上的。

原因还是自学习。Hermes 的横纵分析不是每次从零开始,而是调用了之前沉淀的方法论 Skill,包括:信息源地图(哪些源靠谱、哪些已失效、哪些是软文重灾区)、采集工具决策树(不同页面类型用不同工具)、五星影响力评级(判断信息价值)。

这些方法论,是之前多次研究任务积累下来的。 OpenClaw 的小搜没有这个积累——每次搜索,方法论全靠我口述或者当前 Prompt 里写。我还测试了将Skill迁移到小搜,但是随着任务累计,差距也会逐渐显现。


06 · 一个真实场景:AI 日报双引擎并行

我现在的 AI 热点实时日报工作流是两个引擎同时跑:

Hermes 负责:深度研究、横纵分析、方法论沉淀。跑完之后产出一份带来源、有判断、有评级的研究报告,并沉淀到obsidian。

OpenClaw(小搜)负责:快速信息检索、交叉验证、格式化输出。把 Hermes 的研究结果整理成 Markdown 格式。

这个分工用了两周,效果比单引擎好。原因是:

  1. 各取所长:Hermes 的研究深度 + OpenClaw 的格式化能力
  2. 交叉验证:两个引擎独立搜同一主题,结果互相印证,可信度更高
  3. 容错:一个引擎出问题(中断、Bug),另一个还能顶上

但也有摩擦:

  • 上下文不互通:Hermes 搜到的信息,我得手动复制给 OpenClaw;反过来也一样
  • 风格不一致:两个引擎的输出风格不同,最终稿件需要人工统稿
  • Hermes 的压缩 Bug:偶尔丢失最新对话,得重新喂一遍信息,不能在一个session长时间对话研究

07 · 两个引擎各自的坑

OpenClaw 的坑

问题
影响
当前状态
模型切换后降智
选 GLM-5.1 体验不到 GLM-5.1 的水平
未修复
长任务中断频率高
复杂任务需要反复开 session
需手动绕过
Skill 需手动编写
自学习门槛高
设计如此

Hermes 的坑

问题
影响
当前状态
上下文压缩 Bug
丢失最新对话
已反馈
搜索工具不如 OpenClaw 丰富
没有 multi-search-engine 这种聚合搜索
需自建 Skill 补齐
中文生态不如 OpenClaw
连接器、技能市场偏英文
持续改善中

08 · 结论:双引擎互补,但别指望无缝

两周双引擎并行,我的结论:

Hermes 更适合做深度研究和长任务——自学习飞轮是真正的差异化优势,用得越久越强。但上下文压缩的 Bug 是定时炸弹,在修好之前需要手动备份关键信息。

OpenClaw 更适合做日常工具和格式化输出——搜索工具丰富,连接器生态完善,中文支持好。但模型切换降智是个硬伤,选了好模型却用不出好效果,这个代价不小。

双引擎并行是目前的最优解——Hermes 做研究,OpenClaw 做输出。但两者之间没有原生的上下文同步机制,虽然可以借助伪共享通信,但人工搬运信息的成本不低。

如果你只能选一个

  • 重度信息分析和深度研究 → Hermes
  • 日常工具和内容生产 → OpenClaw
  • 两个都要 → 忍受人工搬运,等原生的双引擎联动

这不是终局。两个引擎都在快速迭代。Hermes 修好压缩 Bug,OpenClaw 解决降智问题,各自的短板补上之后,双引擎并行的必要性可能会降低。

但现阶段,两个都用,是目前最务实的选择。

有人问为啥不用原生的,非得用QClaw。1.嫌麻烦 2.工作区干净 3.GUI用着顺手

都看到这了,就关注一下吧

#Qclaw#Hermes#OpenClaw
QClaw终于接了Hermes内核:养虾又养马,我等这天等太久了
一些分享:我的AI情报站(Qclaw)是如何搭建的?搜集+整理+分析+Obsidian沉淀
一些思考:怎么搭一个AI Native团队?