三国杀:OpenClaw vs Hermes vs Mercury 本地AI Agent深度横评-夜雨聆风

三国杀:OpenClaw vs Hermes vs Mercury 本地AI Agent深度横评

一、开局就卷：2026年的AI Agent赛道已经打到了第二轮

如果用一个词形容2026年的AI Agent市场，大概是：疯狂。

2026年1月底，一款叫OpenClaw的开源项目在GitHub横空出世——2天10万Star，单周吸引200万访客，直接打破了人类历史上所有开源项目的增长速度。

然而，养了几个月”龙虾”之后，用户的真实反馈开始集中爆发：Token消耗像漏水的马桶、账单让人心慌、默认配置安全边界模糊到像个定时炸弹。

今年2月，Hermes Agent入场。Nous Research出品，打的概念是”自我进化”——你的Agent能从经验里自己长出Skill，越用越懂你。8周破8.5万Star。

然后，一个完全不同的路线出现了：Mercury Agent。Cosmic Stack出品，不卷智能，不堆功能，它的全部设计哲学只有四个字——安全可控。

三个框架，三种完全不同的价值观。今天这篇横评，不吹不黑，把真实数据和用户痛点全部摆出来。

二、三张牌，一句话定位

先上一张硬核对比表，数据来源全部可查：

对比维度 OpenClaw Hermes Mercury

定位多渠道运营网关自我进化型数字伙伴安全可控型私人管家

GitHub 36万+ Star 8.5万+ Star（8周）约200 Star（新兴）

核心特色 22+消息渠道集成三层记忆架构 Token预算硬控

差异化 13700+ Skills生态自动生成Skill 行动前必问确认

安全漏洞频发（CVSS 9.8）需手动加固权限硬化设计

成本上下文无限膨胀分层压缩可控预算内自动降级

稳定性版本迭代频繁踩坑有cron但常驻一般 24/7设计目标

入门几天级别配置一行安装 30秒向导

三、八维度深度拆解：谁在裸泳，谁在筑墙

维度1：安全——谁在认真做，谁在裸奔

OpenClaw的安全问题，已经不是隐患，是实打实的公开危机。

2026年4月，奇安信发布报告：OpenClaw在全球已发现20471个运行实例，360独家发现远程代码执行漏洞（CVSS评分9.8），Palo Alto的审计显示仅有58.9%的部署通过安全验证。
更夸张的是默认配置：几乎不设防，任何人只要能访问Web UI就能执行命令。等保合规检查中，OpenClaw是唯一拿到”差”评的主流Agent框架。
OpenClaw官方安全团队承认问题存在，但表示”用户应该自己加固”。

Hermes：主动进化能力很强，但可控性是另一回事。Agent会主动修改自己的Skill和Prompt，有时候会改出意料之外的行为。你以为它在学习，其实它在”自行调试”——而且有时候越调越偏。

Mercury的设计思路完全不同——把安全做成底层逻辑，而不是事后补丁。

Soul-driven身份系统：Agent人格由Markdown文件定义，完全可控可审计。
行动前必问机制：每个敏感操作需要用户显式确认。
Token预算硬控：超预算自动降级，拒绝超支。

结论：如果你最怕AI自作主张，Mercury是三个里唯一认真做安全设计的。OpenClaw和Hermes的安全需要用户自己动手加固。

维度2：长期使用成本——谁在烧钱，谁在省钱

OpenClaw的Token消耗速度，让很多用户患上了”账单焦虑症”。全量持久化策略——所有对话、所有上下文全部存入向量数据库，好处是信息不丢失，坏处是Token消耗像滚雪球。

Hermes的分层记忆+动态压缩机制是亮点：FTS5全文检索，只将高价值决策固化为Skill，推理成本相对可控。

Mercury则直接用了硬手腕——每日Token预算硬控：超70%自动精简上下文，超100%直接停掉调用。这个功能是三个框架里独有的，用Mercury你永远不会收到”天价账单”。

结论：省钱首选Mercury，理性消费首选Hermes，”账单是什么我不在乎”选OpenClaw。

维度3：稳定运行——谁在7×24小时站岗

OpenClaw版本迭代频繁，每次大版本升级都可能踩雷。2026年3月31日的exec授权加强，直接导致一批用户的服务全部挂掉——需要同时改两个配置文件才能恢复。

Hermes有定时任务（Cron）支持，但后台常驻能力一般，适合偶尔调用，不适合做24小时在线服务。

Mercury的设计目标就是24/7稳定运行：

Token预算机制防止费用超支导致服务中断
Soul-driven身份确保长期运行后行为依然可预测
轻量架构减少内存占用和崩溃概率

结论：长期稳定运行，Mercury最强，OpenClaw次之，Hermes适合轻量使用场景。

维度4：记忆系统——谁在真正学习，谁在堆数据

OpenClaw的记忆策略是”全量持久化”——所有对话全部存进向量数据库，需要时全量检索。噪音随时间累积，检索效率递减。

Hermes的三层记忆架构是三个框架里最精密的：

短期：工作记忆，保留当前会话上下文
中期：情景记忆，主动将重要信息固化为Skill
长期：FTS5索引，支持语义+关键词双检索

Mercury的记忆系统走的是结构化路线：SQLite+FTS5，记忆划分为10类（身份、偏好、目标、事实、计划等），每条记忆带置信度标注，自动做冲突检测和定期遗忘。

结论：记忆精准度Hermes最强，Mercury的结构化程度更可控，OpenClaw的噪音问题需要手动清理。

维度5：上手难度——谁在折磨新手，谁在体贴小白

OpenClaw的配置是几天级别的。13700+ Skills虽然丰富，但找合适的、配正确的、调通的——非技术用户强烈劝退。Clawhub还时不时Rate Limit，等到你配置好了，最佳发布时间也过了。

Hermes一条命令安装（hermes），基本配置开箱即用。但深度调优需要理解它的Skill生成机制。

Mercury npx @cosmicstack/mercury-agent，30秒启动，首次运行触发设置向导——名字、API key、Telegram token，按提示填完就能跑。

结论：入门门槛Mercury最低，Hermes次之，OpenClaw最高。

维度6：消息平台——谁真正懂中国用户

OpenClaw支持飞书、企业微信、钉钉，但国内平台集成深度一般，主要精力在Telegram/Discord/Slack。

Hermes的Gateway通15+渠道：Telegram、Discord、Slack、WhatsApp、Signal、邮件、SMS，还有飞书、企业微信、钉钉。

Mercury主要是Telegram Bot，CLI为主。国内平台覆盖最少。

结论：国内用户首选Hermes，海外用户三款均可。

维度7：隐私与数据主权——谁让你真正安心

OpenClaw完全本地部署，数据不出户。但上下文全量存储，隐私边界取决于用户自己怎么配。

Hermes支持完全本地（配合Ollama），记忆分层存储，数据自己掌控。

Mercury的设计最彻底——”Soul-driven”哲学：你的Agent人格由几个Markdown文件定义：

soul/identity.md —— 定义Agent的身份和价值观
soul/memory.md —— 结构化记忆，长期积累
soul/preferences.md —— 用户偏好设置
soul/goals.md —— 目标和计划追踪

全部本地、全部可手动改，数据主权完全在用户手里。

结论：隐私可控性Mercury最强，OpenClaw和Hermes不相上下。

维度8：未来可持续性——谁能走得更远

OpenClaw：36万Star的生态惯性极强，大厂纷纷基于OpenClaw打造自己的Claw（阿里、腾讯、字节、华为）。但”重执行、轻成长”的短板会随时间显现。

Hermes：抄袭丑闻是真实的阴影。EvoMap团队4月15日发布的详细技术对比报告显示，Hermes的核心自进化模块与Evolver引擎高度同构，EvoMap已发起正式投诉。但官方回应极其傲慢，坚称”是独立开发”。

Mercury：Cosmic Stack出品，定位清晰——解决实际问题而不是炫技。Token预算和稳定性设计切中大众痛点。但目前Star数很低，社区生态还在非常早期。

结论：OpenClaw生态最强，Hermes争议最大，Mercury潜力最高。

四、终极结论：没有最好，只有最合适

按你的优先级对号入座：

追求极致的生态和集成能力，不怕折腾 → OpenClaw（36万Star不是白拿的）
追求AI的自学习能力，愿意投入时间调优 → Hermes（进化能力最强，但安全需自己负责）
追求稳定、安全、不想操心的本地部署 → Mercury（设计最成熟，但生态还在早期）

不适合人群：

非技术用户想快速跑起来 → 别选OpenClaw，配置地狱等着你
对AI自作主张零容忍 → Hermes的自进化可能让你崩溃
需要国内消息平台深度集成 → Mercury不支持飞书/企微/钉钉
追求Star数和安全背书 → Mercury暂时给不了你这些

五、一个让行业反思的彩蛋

写这篇文章时，我发现了一件值得单独拿出来说的事：

OpenClaw的安全问题不是秘密。奇安信、360、Palo Alto都发了详细报告，但用户增长丝毫没有受影响。

Hermes的抄袭指控证据链完整，时间线清晰，官方回应极其傲慢，但Star增长在丑闻曝光后依然强劲。

这说明什么？

2026年的AI Agent市场，用户在用脚投票——大家在为一个”能干活”的工具有限度地容忍它的毛病。这是早期的特权，不是健康的状态。

当市场开始真正计较安全、成本、稳定性的时候，Mercury这样的设计才会真正成为主角。这个时间点，可能比你想象的更快。

作者：小旺 | 2026年5月4日 | 未经授权禁止转载

数据来源：GitHub、奇安信安全报告、360安全响应中心、CSDN/博客园/腾讯云等技术社区