QClaw 双引擎实战:OpenClaw vs Hermes,2周后的使用分享

大家好，我是老王。

我同时用 OpenClaw 和 Hermes Agent 快两周了。

不是浅尝辄止那种——公众号文章写作、信息检索分析、深度研究、定时任务，全都在两个引擎上跑了一遍。同样的活，换不同的引擎干，体感差异比我想象的大得多。

先给结论：Hermes 更稳，OpenClaw 更灵活，但 OpenClaw 的模型切换是个大坑。

下面一条一条说。

01 · 中断率：Hermes 几乎不中断

这是我体感最强的差异。

用 OpenClaw 跑长任务——比如一轮完整的信息搜集+分析+写报告——中途断掉是常事。上下文超了，token 炸了，模型抽风了，各种原因。断一次就得重新开 session，重传上下文，重新解释我在干什么。

换到 Hermes 之后，中断频率体感下降了 90%。

不是夸张。两周里，Hermes 只有过一次任务中断，还是我手动停的。而 OpenClaw，平均一个长任务要断 2-3 次。

为什么？猜测核心原因是 Hermes 的上下文管理更激进。它会在任务执行过程中主动压缩上下文，把早期的对话摘要化，给当前任务腾空间。OpenClaw 更保守，倾向于保留完整历史，结果就是窗口更快被填满，然后爆掉。

但 Hermes 这套机制也不是没代价——下一节说。

02 · Hermes 的上下文压缩 Bug：丢了最新的对话

Hermes 的上下文压缩，绝大部分时候工作得很好。但它有一个 Bug，踩到一次就够你崩溃的。

压缩失败后，它丢失的是最新的对话，不是最早的。

想象一下：你跟 Agent 聊了 50 轮，前 40 轮的旧信息都在，但最后 10 轮——也就是你最新给出的指令、刚做的决策、刚刚修正的方向——全没了。

这就像你写了两个小时的文档，自动保存的版本是半小时前的。

我已经把这个 Bug 反馈给 Qclaw 团队，希望可以认真进行修复。但在修好之前，这是用户必须知道的风险。

临时对策：重要决策和关键指令，自己复制一份到笔记里。别完全信任它的压缩机制。

03 · QClaw的龙虾切换模型后降智严重

这是我最大的槽点。

最为Qclaw新版本的卖点之一是模型自由切换——GLM-5.1、Kimi K2.6、DeepSeek V4 Pro，下拉菜单点一下就换。

自从上次更新之后，我就尝试使用不同的模型。

但切换之后，模型能力断崖式下降。

同样的任务，不同模型，在 OpenClaw 里跑出来的质量切换前后明显存在差异。表现包括：

指令遵循能力下降：明确要求三段式输出，它给你两大段混在一起
上下文理解变弱：前面刚聊过的内容，后面就忘了
工具调用出错：调用搜索、文件操作等工具时，参数格式频繁出错

这不是某一个模型的问题。GLM-5.1、Kimi K2.6、DeepSeek V4 Pro，切换过去都是一样的感受——好像换一个模型就变笨了。

我猜原因有两个：

System Prompt 污染：OpenClaw 自身的 System Prompt 很长（Agent 配置、工具说明、Skill 指令），占掉大量上下文空间，留给模型”思考”的窗口被压缩
模型适配不充分：不同模型对指令格式、工具调用的理解方式不同，Qclaw 可能没有针对每个模型做充分适配，而是用一套通用 Prompt 套所有模型

无论是哪个原因，结果就是：你选了 GLM-5.1，但实际体验不到 GLM-5.1 应有的水平。

04 · 自学习：Hermes 的隐藏王牌

这是我最想夸 Hermes 的一点。

我的「小搜」Agent（跑在 OpenClaw 上）和 Hermes 的「互联网情报站」做同样的信息检索分析任务，Hermes 的输出质量明显更高。

不是模型能力的差异——两边用的模型差不多。差距来自自学习。

Hermes 的 Skill 系统有一个关键机制：完成任务后，自动总结方法论，生成新的 Skill 文件。 你教它一次”怎么搜 AI 新闻”，它就把这个流程固化为一个 Skill，下次直接调，不用从头解释。

我用 Hermes 的互联网情报站跑「AI 周报」任务，第一周需要详细告诉它：搜哪些关键词、怎么筛信息源、报告用什么格式。第二周开始，只要说”跑一轮周报”，它就自动调出之前沉淀的方法论，执行质量甚至比第一周手动指导时更高。

OpenClaw 的 Skill 也有类似能力，但需要手动编写和维护。 你得自己写（或者让Agent写）SKILL.md，自己维护 references 目录，自己确保 Skill 内容是最新的。能做，但门槛高，大部分人不会去写。

Hermes 把这个过程自动化了——用得越多，Skill 越多，能力越强。这是一条正反馈飞轮。

05 · 深度研究：Hermes 仍然领先

我在《我搭了一个互联网情报站》那篇文章里详细介绍过 Hermes 的横纵分析法——纵向追时间深度，横向追同期广度，交汇出判断。

两周下来，这个结论更牢固了。

举例：让两个引擎分别做一份「Browser-Use 深度研究」。

OpenClaw（小搜）的输出：搜了 5 轮关键词，返回 10 条相关文章的摘要，筛选出 3 条高价值源，最后给了一份 2000 字的信息简报。够用，但浅。

Hermes（互联网情报站）的输出：自动调出横纵分析 Skill，纵向追溯了 Browser-Use 从 Selenium 宏到 92K Star 的完整演进路径，横向对比了 Playwright/Puppeteer/Selenium 三条线的能力边界，最后交汇判断——它填补了「零配置浏览器自动化」的空白，未来会跟 Agent 框架深度融合。5000 字的深度报告，带时间线和竞品对比表。

差距不是 10% 或 20%，是量级上的。

原因还是自学习。Hermes 的横纵分析不是每次从零开始，而是调用了之前沉淀的方法论 Skill，包括：信息源地图（哪些源靠谱、哪些已失效、哪些是软文重灾区）、采集工具决策树（不同页面类型用不同工具）、五星影响力评级（判断信息价值）。

这些方法论，是之前多次研究任务积累下来的。 OpenClaw 的小搜没有这个积累——每次搜索，方法论全靠我口述或者当前 Prompt 里写。我还测试了将Skill迁移到小搜，但是随着任务累计，差距也会逐渐显现。

06 · 一个真实场景：AI 日报双引擎并行

我现在的 AI 热点实时日报工作流是两个引擎同时跑：

Hermes 负责：深度研究、横纵分析、方法论沉淀。跑完之后产出一份带来源、有判断、有评级的研究报告，并沉淀到obsidian。

OpenClaw（小搜）负责：快速信息检索、交叉验证、格式化输出。把 Hermes 的研究结果整理成 Markdown 格式。

这个分工用了两周，效果比单引擎好。原因是：

各取所长：Hermes 的研究深度 + OpenClaw 的格式化能力
交叉验证：两个引擎独立搜同一主题，结果互相印证，可信度更高
容错：一个引擎出问题（中断、Bug），另一个还能顶上

但也有摩擦：

上下文不互通：Hermes 搜到的信息，我得手动复制给 OpenClaw；反过来也一样
风格不一致：两个引擎的输出风格不同，最终稿件需要人工统稿
Hermes 的压缩 Bug：偶尔丢失最新对话，得重新喂一遍信息，不能在一个session长时间对话研究

07 · 两个引擎各自的坑

OpenClaw 的坑

问题	影响	当前状态
模型切换后降智	选 GLM-5.1 体验不到 GLM-5.1 的水平	未修复
长任务中断频率高	复杂任务需要反复开 session	需手动绕过
Skill 需手动编写	自学习门槛高	设计如此

Hermes 的坑

问题	影响	当前状态
上下文压缩 Bug	丢失最新对话	已反馈
搜索工具不如 OpenClaw 丰富	没有 multi-search-engine 这种聚合搜索	需自建 Skill 补齐
中文生态不如 OpenClaw	连接器、技能市场偏英文	持续改善中