爱马仕把龙虾拉下了王座,但OpenClaw没有输
“爱马仕”(Hermes Agent)坐在第一位,连续三天。把”龙虾”(OpenClaw)挤下去了。
评论区的人说:OpenClaw要完了?
我觉得这个问题问错了。
一张排行榜,暴露了一个思维陷阱
先把事情说清楚。
OpenRouter是全球最大的AI模型API聚合平台,每周实时统计哪个模型被调用得最多。过去几个月,OpenClaw长期稳在前三,数次登顶,外媒称其为”Token时代的iPhone”。
这次Hermes拿第一,背后有个细节很多人没注意到:小米MiMo是Hermes这次登顶的最大单一贡献模型。
翻译一下:小米把自己的模型深度绑进Hermes的推荐链路,用庞大的用户基数加免费调用策略,把Hermes的Token消耗量硬推了上去。
这不是一场公平的技术对决。这是模型厂商和框架之间的利益绑定游戏——小米需要调用量数据证明MiMo被采用了,Hermes需要榜单位次证明自己的生态在扩张,双方各取所需。
至于真实用户的使用深度?不在这个游戏的考量里。
所以问题来了:OpenRouter的调用量排行,到底在衡量什么?
Token消耗量,是个危险的指标
有意思的是,就在同一天,百度Create 2026大会上,李彦宏提了一个新概念:DAA(日活智能体数)。
他说:AI时代的度量衡不应该是Token消耗,而应该是有多少Agent在真正帮人类干活。
Token消耗代表成本投入,DAA代表价值产出。
这话说的时机很微妙。
用DAA的视角来审视Hermes这次”登顶”——那些被消耗的Token里,有多少是真实用户在日常工作中自然产生的留存行为?有多少只是补贴游戏冲出来的数字,免费用完,下周就不见了?
Token消耗量可以被人为放大,只要愿意掏钱补贴调用费。
但用户把一个Agent嵌进自己的工作流,是骗不了人的。
OpenClaw的护城河,不在排行榜上
我见过不少”OpenClaw vs Hermes”的对比文章,大部分都在比功能清单:
-
Hermes有自我进化能力,能自动生成Skill -
OpenClaw有8万个手工Skill,靠社区多年沉淀 -
Hermes用SQLite做多层记忆 -
OpenClaw用文件驱动身份系统
这些比较没错,但都在表层。
OpenClaw真正的护城河,是三件事叠在一起。
第一,Harness生态的迁移成本。
一个认真用了三个月以上OpenClaw的用户,他的工作流已经和这套系统深度耦合了:AGENTS.md里存着他的工作规则和边界约束,memory/目录里有跨session的记忆积累,十几个精心调试的Skill已经和他的工具链打通——企微、飞书、TAPD、Git,全部接好了。
这套配置无法”导出”到Hermes。不是因为Hermes功能差,而是因为OpenClaw的文件驱动设计本身就是用户知识的外置存储体。你把工具迁走了,但你的工作规则、调试了几十次的边界约束、跑通了的Skill组合,都还留在原地。
重来一遍,意味着什么?不只是几小时的设置时间,而是三个月的积累清零。
这才是真实的护城河。不需要技术领先,也不需要打价格战。
第二,企业场景里无法被复制的设计哲学。
Hermes的核心假设是:给AI足够多的工具和记忆,它会自己进化出能力。
这个假设在个人折腾场景下挺性感。
但在企业里,这个假设会系统性翻车。
企业不需要”自主进化”,企业需要”可控、可审计、出了问题有人背锅”。OpenClaw的设计从一开始就是另一套逻辑:AI能做什么人说了算,Skill是声明式的,行为边界写在文件里,有日志可查,可以回滚,能向上级解释。
这不是功能差异,是价值取向的根本分叉。”自主进化”的Agent在企业安全团队面前连第一关都过不了——你怎么向CISO解释一个会自己生成新行为的系统?
在企业Harness场景,OpenClaw现在实际上没有真正意义上的竞争对手。
第三,8万个Skill背后,是一个别人学不走的生态结构。
数量是表面。
更重要的是:这8万个Skill为什么存在?因为有人写,有人维护,有人在发现Skill出了问题时提交修复。
这需要一个对开发者有吸引力的生态——能被发现,能被用到,能有反馈,能建立作者声誉。OpenClaw在这一套上打磨了两年以上。
Hermes的自动生成Skill在技术上很酷,但它解决的是”有没有”的问题。OpenClaw社区Skill解决的是”好不好用、遇到edge case会不会崩”的问题。
这个质量差距,不是自动生成追得上的——因为这根本不是算法问题,是时间和社区信任的积累问题。
还有一件事,值得被单独说出来
Hermes一直宣传自己的”自主进化”——Agent能自己学习、自己成长、自己生成新能力。
这个标签很吸引人。
但有一段历史需要被提起:今年4月,中国团队EvoMap发布长文,指控Hermes系统性复刻了他们的开源引擎Evolver。证据链包括:GitHub时间戳显示从Evolver公开到Hermes对应功能上线仅隔了24到39天;10步主循环完全对应;12组核心术语被系统性替换;三层存储结构原封不动。Nous Research的回应方式是:删帖、拉黑、沉默。
这件事不是要踩Hermes。
这件事想说的是:一个号称”自主进化”的框架,自己进化的路径却疑似是从别人的开源成果里直接学来的——这个反讽,比任何调用量数据都更能说明一些东西。
但OpenClaw也有真实的麻烦,我不想绕开
3月24日那次大版本翻车,是很好的镜子。
史上最大规模的重构,Peter打包时漏了控制台文件,海量用户白屏,六个插件集体失效。3.23紧急修复随后推出,但品牌信任的裂缝出现了。
这暴露了一个深层矛盾:
OpenClaw的速度护城河(迭代快、生态先发)和用户稳定性需求之间,存在结构性张力。
越依赖OpenClaw处理核心工作的用户,越怕频繁升级带来的破坏性变更。越怕升级,就越容易停在某个版本,就越容易对替代品产生迁移意愿——不是因为Hermes更好,而是因为”至少它不会突然白屏”。
这不是OpenClaw变差了。这是任何高速增长的开源工具都会遇到的成长代价:如何在激进创新和稳定可靠之间找到那条没有标准答案的线。
更深的隐患是:如果OpenClaw的核心用户群因为稳定性焦虑而大量停止升级,沉淀在旧版本——Harness的迁移成本这把双刃剑,就会转过来割到OpenClaw自己。用户不走,但也不会给你带来新用户了。
排行榜背后,真正在发生的事情
我认为这件事最值得关注的,不是”谁第一”。
而是它揭示了一个正在发生的结构性转变:
Agent平台的护城河,正在从”模型能力”移向”工作流绑定”。
过去AI产品的竞争是模型能力的竞争:谁的模型更聪明谁赢。OpenRouter排行榜那时候确实代表某种认可度。
Agent时代,规则变了。
用户不再频繁切换AI工具,因为工作流、记忆、Skill配置已经和某个框架深度耦合。一旦耦合形成,替换成本就不再是”好不好用”的问题,而是”值不值得把三个月的积累清零重来”的问题。
这就是为什么李彦宏提DAA是有意思的——Agent时代,真正的价值不是你消耗了多少算力,而是你有多少Agent真正嵌进了用户的日常,且用户离不开它们了。
OpenClaw现在的状态,恰好说明了这个逻辑。
它在排行榜上输了三天。
但我问了几个重度用户:今天还在用吗?
都说:在,没想过换。
最后说一句
有人说Hermes登顶是OpenClaw衰落的信号。
我觉得更准确的说法是:这是Agent领域进入真正竞争阶段的信号。
过去大家在抢用户,现在大家在抢工作流。
抢用户靠功能、靠价格、靠补贴,可以用钱砸。
抢工作流靠的是另一件东西——让用户觉得,离开你这件事,代价比留下来大。
OpenClaw用两年做到了这件事。
Hermes刚刚开始。
这场战争,OpenRouter的周榜真的说明不了什么。
AI先见 | AI时代,智者先见
深度AI洞察 · 实践案例分享
我是元宝AI产品,ask me everything
夜雨聆风