Hermes 能替代 OpenClaw 吗?一次成本和速度实测

最近一个月多，Hermes Agent 的 tokens 调用量和社区讨论热度都在上升，社区里出现一种说法：有了 Hermes，OpenClaw 可以不用了。

这两个我都在用。Hermes 有它的长处——能自动提炼 skill，长任务管理做得不错。但在实际使用中，我并没有觉得它能完全替代 OpenClaw，尤其在反应速度上，两者差异比较明显。

感觉毕竟是主观的，为了更客观的验证，我做了一次对比测试，从 tokens 消耗和响应速度两个维度，量化两者在实际任务中的差异。

一、测评方法

1.1、任务设计

设计了 4 类任务，覆盖内容工作流中的几种典型场景。

短内容生成：主题"为什么同模对打比默认配置对比更公平"，要求输出 3 个不超过 20 字的小红书标题、一段 120–150 字的导语、一句 50 字以内的公众号摘要。纯文案创作，不读取外部材料。

网页理解与提炼：输入一份本地保存的 HTML 网页快照（AI Agent 行业分析长文），要求读取全文后输出 3 个公众号选题角度、一段 150 字摘要、3 个小红书开头句。考察完整读取长网页并进行提炼的能力。

数据转内容：输入一份 CSV，包含小红书、公众号、视频号、搜索四个渠道 3–6 月的浏览量和点击率。要求计算各渠道增量和增长率，输出 3 条数据洞察、一段 120 字小红书文案、一句公众号摘要。信息处理密度最高的一类。

多步内容编排：输入一份 Markdown 底稿（主题为"内容团队为什么要将总 tokens 拆分为启动基线和任务增量"），要求重组为含标题、导语、两个小节和总结的公众号导读稿，供后续排版工具直接处理。

每类 3 次，合计 24 条样本。n=3 样本偏小，但本轮看到的效应量很大（10 倍级别），方向性判断足够。绝对值建议读者在自己的工作流里多跑几次核对。

1.2、测试环境

在大部分条件上都保持了一致：

同一台 Mac Mini 本地运行，排除网络和服务端差异

仅通过 CLI 执行，排除前端渲染干扰

同一模型和参数：openai-codex/gpt-5.4，thinking: high，fastmode: true

同一批素材、同一套题目，对齐可用的内容类技能（agent-reach、summarize、md2wechat、nano-banana-pro）

1.3、技能挂载

openclaw和hermes的内容类技能在挂载层面是对等的。Hermes bench profile 里真实挂载了五个技能，对应 SKILL.md 文件在技能目录里真实存在；OpenClaw 侧使用的是同名原生技能。但是两边的加载机制不同，这也直接影响了测试的结果，放在后面分析。

1.4、计量方式

为保证测量准确，使用 Codex 作为计量 agent，对两边数据库关键字段进行监控。

tokens 均取自底层持久化记录：Hermes 读取 state.db 中的 input_tokens、output_tokens、cache_read_tokens、cache_write_tokens，汇总为 total_tokens；OpenClaw 读取每次运行返回的结构化 usage 数据，字段一致。另外记录了系统提示字符数和技能提示字符数作为辅助参考。

延迟使用 wall_clock_ms：从 runner 发出任务命令，到底层记录确认任务完成为止的总时长，不依赖终端前台进程的退出状态。

为保证样本口径一致，对两侧的执行闭环做了修正：Hermes 要求最终 assistant 内容完整落库且 tokens 字段写入后才计为有效样本；OpenClaw 弃用 --session-id，改为每个任务克隆独立 agent 实例，执行完毕后销毁，并通过探针测试确认前后任务不共享上下文。

二、测评结果

2.1、tokens 消耗（按任务类型）

任务的复杂度会直接影响测试结果，最终结果如下图所示：

短内容生成

Hermes 平均：13,024 tokens

OpenClaw 平均：7,876 tokens

原始数据：Hermes 25,580 / 6,373 / 7,119；OpenClaw 7,796 / 8,110 / 7,721

Hermes 有一次达到 25,580，其余两次为六七千，波动较大；OpenClaw 三次均在 7,700–8,100 之间。

网页理解与提炼

Hermes 平均：74,251 tokens

OpenClaw 平均：7,742 tokens

原始数据：Hermes 56,917 / 116,215 / 49,622；OpenClaw 7,755 / 7,724 / 7,747

网页理解是本次测试结果差距最大的任务。OpenClaw 消耗的tokens仅为 Hermes 的 10.4%。Hermes 有一次达到 11.6 万，为其余两次的两倍以上；OpenClaw 三次之间相差不超过 31。

数据转内容

Hermes 平均：71,608 tokens

OpenClaw 平均：7,927 tokens

原始数据：Hermes 88,455 / 71,679 / 54,689；OpenClaw 7,998 / 8,337 / 7,446

OpenClaw 仅为 Hermes 的 11.1%。

多步内容编排

Hermes 平均：12,013 tokens

OpenClaw 平均：8,151 tokens

原始数据：Hermes 12,008 / 11,977 / 12,055；OpenClaw 7,912 / 8,714 / 7,827

在这个任务中，Hermes 的表现终于稳定起来，三次结果几乎一致；hermes消耗的tokens比OpenClaw多50%。

小结：整体来看，两者在tokens消耗上的差距在信息密集型任务上更为明显。网页理解和数据转内容中，Hermes 的消耗约为 OpenClaw 的 10 倍；而短文案和编排类任务中差距约 1.5–1.7 倍。

2.2、响应速度（按任务类型）

响应速度的表现如下图所示：

速度各有优劣：信息密集型任务 OpenClaw 快，轻量任务 Hermes 快。OpenClaw 的 `wall_clock_ms` 包含测试框架的"克隆 agent → 执行 → 清理"完整流程；若只取 OpenClaw 的纯执行时间，轻量任务上两者速度更接近。

2.3、波动性

同一任务重复 3 次，用波动系数（CV，标准差 / 均值）衡量结果的一致性：

Hermes 全局 tokens CV：81.2%

OpenClaw 全局 tokens CV：4.0%

Hermes 的 81.2% 主要被网页任务的 116,215 的离群值拉高。但即使去掉这个点，Hermes 三类重任务的 token 也在 5 万–9 万之间跳动。OpenClaw 三次结果之间相差从不超过几百 token。

三、原因分析

两种技能加载机制

先排除一个点，两边空转的固定启动消耗，Hermes 约 5,205 token，OpenClaw 约 6,358 token。因此导致tokens消耗差异的不是启动加载的上下文。

Hermes：技能按需装载 + 每轮完整回传

Hermes 只在 `available_skills` 里告诉模型"有哪些技能可用"，技能正文需要模型主动调用 `skill_view(name=...)` 才会进入上下文。

查证本轮样本，Hermes 只有网页任务明确触发了 `skill_view("local-html-snapshot-summary")`。其他三类任务（短文案、数据转内容、多步编排）里，模型没有调用 `skill_view`，而是用通用的文件读取、终端计算、直接生成自行规划路径——`md2wechat`、`agent-reach` 等技能虽然挂着，实际没被读进来用。

再叠加每轮交互完整回传历史的机制（多数 agent 框架的默认做法），任务越复杂累积上下文越大。网页任务 28 条消息、13 次工具调用，每轮都把前面累积的全部内容重发一次，这就是 token 消耗达到 5–11 万的直接原因。

路径由模型临场规划，调用链不固定，结果也就不稳定。56,917 / 116,215 / 49,622 这三次波动，本质是每次规划出来的路径不同。

OpenClaw：技能静态拼入 + prompt cache

OpenClaw 把选中的技能正文直接拼进系统提示，每次请求完整可见，走 prompt cache 复用。网页任务一条样本：

- input_tokens = 535

- output_tokens = 277

- cache_read_tokens = 6,912

- total_tokens = 7,724

真正新增的输入只有几百 token，主体是 system prompt + 技能正文，靠缓存复用。模型不需要再发工具调用去读技能，路径更短、更固定。

OpenClaw 的系统提示字符数约 18,356（Hermes 的 2.5 倍），但 `total_tokens` 反而远低于 Hermes。差距不在提示词长度，而在"每次请求发多少新 token 给模型"。

两种做法的适用场景

- OpenClaw 的静态拼装在"少数核心技能高频使用"场景下效率更高。内容工作流就是这种。代价是技能集扩张到上百个之后，系统提示会变臃肿。

- Hermes 的按需装载在"技能库很大、单次只用少数"场景下理论上更省tokens。比如有 100 个技能每次只用 2 个，按需装载只加载那 2 个，比静态全拼入更划算。

四、总结

两者不存在绝对替代关系

经过本轮测试和日常使用，我的判断是：两者各有适用场景，不存在完全替代关系。

Hermes Agent ：

优势：能自动提炼 skill，使用越久越贴合个人习惯；长任务管理能力强；配置门槛低，上手简单。

不足：单 agent 架构，不支持多 agent 协同；生态尚不成熟；信息密集型任务上 tokens 消耗高且波动大。

OpenClaw ：

优势：目前最大的开源智能体项目，生态最丰富；支持多 agent 协同；在信息密集型任务上的 tokens 消耗和响应速度均有明显优势；结果稳定性高。

不足：配置和优化需要一定技术能力，上手门槛比 Hermes 高。

选择建议

如果已经在使用 OpenClaw 并且用得顺手，没有必要切换。在信息密集型内容工作流上，它目前仍是更优的选择。

如果刚开始接触智能体、希望尽快上手，可以从 Hermes Agent 开始。它的自动 skill 提炼和低配置要求对新用户更为友好。

写在最后

OpenClaw 是一个具有标志性意义的产品，它不一定是 Agent 的最终形态，但功不可没，因为它让"智能体"这一概念真正进入了大众视野，也推动了模型厂商 tokens 消耗和整个 AI 产业链的发展。在这一轮热度中获益最多的，首先是模型厂商——智能体让 tokens 消耗量成倍增长，这是实打实的营收；其次是 tokens 中转站，低买高卖赚差价；再就是做配置教程、训练营、安装调试的服务方。对个人用户来说，与其纠结是不是要更新最新的智能体，不如聚焦己身，找到 AI Agent 在自身应用场景中的落地方式，才能真正抓住智能体成长期的红利，这远比追逐潮流反复摇摆更有价值。