四款 AI 编程 Agent 横评:Hermes、OpenClaw、Claude Code、Codex 怎么选

过去半年，AI 编程工具从"辅助补全"进化到了"自主干活"。能在终端里独立跑任务、能接消息通道远程指挥、能记住项目上下文，这类工具现在太多了。

但真正在国内开发者圈子里用得最多、讨论最热的，集中在四个：Hermes（爱马仕）、OpenClaw（龙虾）、Claude Code CLI、Codex CLI。

我这几个月都在用，有些跑了几个月了，有些反复折腾过好几轮。现在把我自己的使用情况整理出来，看看怎么选。

先说它们分别是什么

这四个工具虽然都跟 AI 编程相关，但定位差异很大：

Hermes（爱马仕）——Nous Research 出品，开源自托管。核心卖点是"越用越聪明"的学习循环，跑完任务会自动总结经验生成 Skill 文档。支持 16+ 消息通道，包括微信、飞书。定位是长期跑在服务器上的私人 AI 助手。

OpenClaw（龙虾）——最早叫 Clawdbot，2026 年初爆火。定位是本地 AI 操作系统，能连消息通道、调浏览器、跑脚本、管日程。生态最大，插件最多，但更新极频繁，升级经常出事。

Claude Code CLI——Anthropic 官方出品，纯终端编程工具。背后跑的是 Opus 4.7，专门优化过代码推理和大规模重构。不做消息通道，不做日程管理，只管写代码。

Codex CLI——OpenAI 官方出品，同样是纯终端编程工具。用 GPT-5.5 驱动，强项是 /goal 持久化任务和高吞吐后台执行。跟 Claude Code 是直接竞品。

图源 AI 生成 | 四个工具对比

核心维度对比表

维度	Hermes	OpenClaw	Claude Code	Codex
适用环境	服务器/本地常驻	服务器/本地常驻	终端按需启动	终端按需启动
主要功能	编程+自动化+消息	编排+插件+自动化	纯编程	纯编程
特色功能	学习循环、自动生成 Skill	ClawHub 插件生态	/loop 自动调试、Agent Team	/goal 持久任务、安全沙箱
安装难度	⭐⭐ 简单	⭐⭐⭐⭐ 较难	⭐ 极简	⭐ 极简
支持模型	400+ (OpenRouter/Ollama/任意)	多模型 (API/Ollama)	Claude 系列为主	GPT 系列为主
微信/飞书	✅ 原生支持	✅ 插件支持	❌ 不支持	❌ 不支持
稳定性	🟢 高	🔴 升级必死	🟢 高	🟢 高

龙虾工具：Hermes 比 OpenClaw 省心

如果你想要的是一个"跑在电脑上、能通过微信或飞书随时指挥干活"的 AI 助手，也就是我们常说的"养虾"，那 Hermes 和 OpenClaw 是这个赛道的两个主力。

OpenClaw 的问题大家都知道了：升级就是赌命。

3.23 那次升级直接导致微信插件全崩，不降级就没法用。到现在这个毛病也没改，每次看到 GitHub 有新版本我第一反应不是"有什么新功能"，而是"这次又会炸什么"。

更头疼的是安全。OpenClaw 从诞生到现在攒了一堆 CVE 漏洞，SSRF、注入、认证缺陷轮着来。如果你把它部在有敏感数据的机器上，这个风险是真实存在的。

Hermes 走了一条不同的路。它的核心不是"功能多"，而是"用着稳"。

装好之后跑 hermes gateway setup，跟着向导选微信或飞书，扫码就完事。不需要折腾 webhook、不需要自己搭公网端点。飞书走 WebSocket，微信走 iLink Bot API 长轮询，都不需要额外开端口。

Hermes 是新秀

它的学习循环机制，跑完任务后会自动反思"哪些步骤有效"，然后把经验写成 Skill 文档。下次碰到类似任务直接复用。

然后它的提示和输出格式、权限、聪明程度，都要比Openclaw好很多。

用了两个月后，它处理我的日常事务明显比第一周快。

另外一个实际好处：Hermes 支持 400+ 模型接入，通过 OpenRouter 可以随便切。想用国内模型省钱，挂个 Ollama 或者百炼 API 就行。OpenClaw 虽然也支持多模型，但配置复杂度高出一截。

如果你之前在用 OpenClaw，Hermes 甚至提供了 hermes claw migrate 命令，可以把你现有的配置和 Skills 迁移过来。

图源 github

纯 CLI 编程工具：Claude Code 体验好，Codex 越来越强

如果你的需求很纯粹，或者想干净一点，就是在终端里让 AI 帮你写代码、改代码、跑测试，那 Claude Code CLI 和 Codex CLI 是这个品类的两强。

Claude Code 的强项很明确：推理深度。Opus 4.7 在处理跨文件重构、理解复杂依赖关系、保持架构一致性这些事上，目前确实是第一梯队。它的 1M token 上下文窗口意味着你可以把整个大项目喂进去，不用反复手动加载文件。

/loop 命令也很实用——设一个目标（比如"所有测试通过"），它会自动改代码、跑测试、再改、再跑，直到绿灯或者你叫停。Agent Team 模式可以起多个子代理并行干活，处理大型任务的效率很高。

Codex 的强项在效率和成本。GPT-5.5 的 token 消耗明显低于 Opus 4.7，同样的任务花费更少。/goal 模式可以设定持久化目标，关掉终端再打开，任务状态还在。系统级沙箱（Linux 用 Landlock，macOS 用 Seatbelt）比 Claude Code 的应用层权限控制更硬核。

对于 DevOps 脚本、CI/CD 流水线这类结构明确的任务，Codex 的执行速度确实更快。

Anthropic 的路越走越窄

Claude Code 产品力强，但对第三方接入额外收费、护照验证封号中国区用户、API 定价不透明，一系列操作越搞越小气。

相比之下 OpenAI 虽然也不完美，但 Codex 的开放性、与 ChatGPT 生态的打通、MCP 协议的 90+ 插件生态，长期看不错。

说直白一点：Claude Code 现在是最好用的 CLI 编程工具，但如果 Anthropic 继续这种封闭路线，被 Codex 替代只是时间问题。

安装方式，及上手难度

最简单的是 Claude Code 和 Codex，都是一行 npm 命令：

npm install -g @anthropic-ai/claude-code

npm install -g @openai/codex

装完配个 API Key 就能用，五分钟内开工。

Hermes 稍微多一步，需要 Python 环境和 Docker（用于沙箱执行），但 hermes gateway setup 交互式向导做得不错，跟着走就行。正常人 15 分钟能搞定。

OpenClaw 是最折腾的。不光安装步骤多，还涉及 Secret 管理、通道配置、权限设置。最要命的是，好不容易配好了，一升级可能全白费。社区里"装好别动"是共识。

图源 Unsplash | 选择与决策

选择建议

两条线路，各建议一个：

🦐 龙虾工具推荐：Hermes

稳定、权限管理完整、功能覆盖面广、安装简单。微信和飞书原生支持，不用装插件。学习循环机制让它越用越顺手。如果你想"养一只虾"当长期 AI 助手，Hermes 是目前最省心的选择。

⌨️ CLI 编程推荐：Claude Code CLI

当前最强的终端编程工具，推理深度和代码质量都是天花板。但如果 OpenAI 继续保持 Codex 的迭代速度和开放姿态，Claude Code 被替代是迟早的事。

如果你两个都想要，安装 Hermes 管日常事务和消息通道，本地终端开 Claude Code 写代码和处理某些特定工作，目前是比较好的方法。