【笔记】OpenClaw 与 Hermes 技术全景解读
当 AI 不再只会聊天:OpenClaw 与 Hermes 技术全景解读
从「大模型」到「能动手、能记住、能进化」的个人 Agent
一、先回答一个根本问题:它们到底是什么?
很多人第一次听到 OpenClaw 和 Hermes,会把它们当成「又一个 ChatGPT 套壳」。这其实差了一层。
更准确的说法是:
-
• 大模型(LLM) 是「大脑」——负责理解、推理、生成文本。 -
• OpenClaw / Hermes 是「神经系统 + 手脚 + 记忆」——负责把大脑接到真实世界:发消息、跑命令、读文件、记偏好、反复试错直到任务完成。
它们不是模型本身,而是开源的 AI Agent 编排框架:你自选 Claude、GPT、Gemini 或本地 Ollama,框架负责会话、工具调用、记忆注入、多平台接入与安全边界。
行业正在经历一次范式迁移:
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
| Agent |
|
|
OpenClaw 与 Hermes 都站在第三阶段,但架构哲学不同——这一点后文会反复提到。
二、从底层概念讲起:读懂 Agent 的四个关键词
2.1 Agent Loop:不是一次对话,而是一圈又一圈
真正的 Agent 运行方式,学术上常叫 ReAct(Reason + Act)或更广义的 Agentic Loop:
是
否
OpenClaw 官方文档把这一圈描述为:intake → context assembly → model inference → tool execution → streaming replies → persistence。Hermes 则在 run_agent.py 里用同步 ReAct 实现同一逻辑:组 prompt → 调 API → 执行 tool → 再调 API,直到结束或触达 90 轮硬上限(防无限循环烧额度)。
关键洞察:Agent 的复杂度不在「写一句漂亮的 prompt」,而在循环是否可靠——队列、超时、会话锁、工具结果截断、中途打断(steering)等工程细节。
2.2 编排层 vs 模型层:为什么要框架?
若只用 API 调模型,你很快会遇到:
-
• 工具调用格式各家不一(OpenAI function calling、Anthropic tools、OpenRouter 长 model id…) -
• 会话历史膨胀,需要 Compaction(摘要压缩) -
• 多渠道(Telegram、Slack、WhatsApp)要统一路由 -
• 副作用操作( rm -rf、发消息)需要审批与沙箱
框架的价值,就是把上述「脏活」标准化。OpenClaw 用 Gateway + 嵌入式 Agent Runtime;Hermes 用 单核心 AIAgent + 可选 Gateway。二者都是「编排层」,模型可换。
2.3 提示词工程在 Agent 时代变了
传统 Prompt Engineering 关注单次任务效果;Agent 时代多了三类「可编辑上下文」:
|
|
|
|
|---|---|---|
| 身份层 |
|
SOUL.md |
| 用户层 |
|
USER.md |
| 操作层 |
|
AGENTS.md
TOOLS.md |
这些 Markdown 文件会在每次会话启动时注入 system prompt(OpenClaw 称 Bootstrap Files;Hermes 称 Tier-1 记忆)。你不是在 Chat 框里重复「我是资深工程师、别废话」——而是把规则写进仓库,让 Agent 自带人设。
2.4 Skills:从「会一次」到「会一辈子」
Skill 是可复用的程序性记忆:一份带 YAML 头信息的 SKILL.md,描述流程、坑点、验收标准。Agent 遇到相似任务时先检索 Skill,而不是从零推理——这是降低 token、提高稳定性的核心手段。
两家都拥抱 agentskills.io 开放标准,但谁创建 Skill、如何进化——正是 OpenClaw 与 Hermes 最大的分水岭。
三、OpenClaw:以 Gateway 为中心的个人 AI 助手
3.1 理念:本地优先、渠道即产品
OpenClaw(GitHub 超 37 万 star,2025 年底兴起)的定位非常清晰:
Personal AI Assistant —— 跑在你自己的设备上,在你已经在用的聊天 App 里回复你。
核心主张:
-
• Local-first:数据默认留在本机;Gateway 默认绑定 127.0.0.1:18789 -
• Own your data:无遥测、MIT 开源、可审计 -
• Any channel:WhatsApp、Telegram、Discord、Slack、Signal、iMessage、Matrix、飞书等数十渠道 -
• BYOM(Bring Your Own Model):OpenAI、Anthropic、OpenRouter、Ollama 均可
官网一句话:Gateway 只是控制平面,产品才是助手本身。
3.2 核心架构:Gateway 枢纽
OpenClaw 用「龙虾缸」类比(社区梗:Molty 太空龙虾 🦞):
Gateway 是唯一长期驻留的守护进程:
-
• 维持各消息平台连接(如 WhatsApp 通过 Baileys,每主机仅一个会话) -
• 暴露类型化 WebSocket API( connect握手 →req/res/event) -
• 设备配对、签名挑战、Tailscale/SSH 远程隧道 -
• 管理 Canvas( /__openclaw__/canvas/)、A2UI 可视化工作区
Nodes(macOS/iOS/Android)以 role: node 接入,提供相机、录屏、定位等设备能力。
这与传统「把 Bot 部署到云函数」相反:控制平面在本地,渠道触达在云端 API。
3.3 Agent 工作区与 Bootstrap:提示词即配置
每个 Agent 有独立 Workspace(agents.defaults.workspace),作为工具 cwd 与上下文根目录。首次运行推荐 openclaw setup,会生成:
|
|
|
|---|---|
SOUL.md |
|
AGENTS.md |
|
USER.md |
|
IDENTITY.md |
|
TOOLS.md |
|
BOOTSTRAP.md |
|
新会话首条消息前,这些文件被注入 Project Context;过大文件会截断并提示「读原文」。这是 OpenClaw 提示词工程的主战场:改 Markdown = 改 Agent 行为,无需改 TypeScript。
3.4 Agent Loop 与队列:工程化的「可靠」
OpenClaw 的 Agent Loop 入口包括 Gateway RPC agent、CLI openclaw agent 等。工程亮点:
-
• 按 session 序列化 + 可选全局 lane,避免工具竞态 -
• Session 写锁(跨进程文件锁,默认等待 60s) -
• Steering:流式生成中途可注入新指令( /queue steer等模式) -
• Compaction:上下文过长自动摘要,带 compaction流事件 -
• Hook 双系统:Gateway 生命周期钩子 + Plugin 钩子( before_tool_call、before_prompt_build…)
插件用 TypeScript 编写,支持热重载;内置 50+ 集成,社区 Plugin Registry。
3.5 Skills 加载优先级
Skills 从多处合并(高优先级覆盖低):
-
1. Workspace /skills -
2. /.agents/skills -
3. ~/.agents/skills -
4. ~/.openclaw/skills -
5. Bundled 内置
Skill 本质是目录 + SKILL.md;可通过配置与环境变量门控。
3.6 OpenClaw 的技术栈小结
-
• 语言:TypeScript 为主(约 92%),辅以 Swift/Kotlin(移动端) -
• 运行时:Node 22.19+ / 推荐 Node 24 -
• 协议:TypeBox → JSON Schema → 可生成 Swift 模型 -
• 安全:配对审批、设备 token、Exec Approvals、可选沙箱 workspace
一句话总结 OpenClaw:把「个人助手」产品化——极强渠道覆盖 + 本地 Gateway + 可扩展插件,Skills 以人写/社区为主,Agent 负责执行。
四、Hermes:以「闭环学习」为中心的进化型 Agent
4.1 理念:不是 Copilot,是「住在你机器上的同事」
Hermes Agent(Nous Research,2026 年 2 月发布,两个月 GitHub star 破 9 万)的定位:
Agent 住在你的服务器上,用得越久越强——记住项目、自建 Skill、在 Telegram 等处找到你。
与 OpenClaw 的对比,社区有一句精辟 framing:
Hermes 用 Gateway 包裹一个会学习的 Agent;OpenClaw 用 Agent 包裹一个消息 Gateway。
4.2 核心架构:单 AIAgent,多入口
所有入口汇入同一个AIAgent 类——平台无关不是口号,是代码结构。
执行环境可配置六种后端:本机终端、Docker、SSH、Modal、Daytona、Singularity——改配置不改代码即可从笔记本迁到云 GPU。
4.3 三层记忆:提示词的分层设计
|
|
|
|
|
|---|---|---|---|
| Tier 1 |
|
MEMORY.md
USER.md(约 1375 字符) |
|
| Tier 2 |
|
|
|
| Tier 3 |
|
|
|
另有 SOUL.md 占 system prompt #1 槽位——身份先于一切记忆与 Skill 加载。记忆记「是什么」,Skill 记「怎么做」,SOUL 记「我是谁」。
4.4 闭环学习(Closed Learning Loop):Hermes 的杀手锏
这是 Hermes 相对 OpenClaw 最本质的差异:
触发 Skill 自动创建的条件包括:
-
• 完成复杂任务(≥5 次工具调用) -
• 踩坑后找到正确路径 -
• 用户纠正做法 -
• 发现非平凡工作流
skill_manage 支持 create / patch / edit / delete 等操作;patch 优先(省 token)。
渐进式披露(Progressive Disclosure) 控制成本:
-
• L0:仅 Skill 名称 + 描述(全库约 3k tokens) -
• L1:命中后再加载完整 SKILL.md -
• L2:再钻取 references/ 子文件
Curator(垃圾回收):7 天未跑 + 空闲 2 小时 → 后台 fork Agent;30 天未用标记 stale,90 天归档;动刀前 tar.gz 快照,可一键回滚。
4.5 GEPA:当「自我感觉良好」不够用时
运行时自写 Skill 有弱点:Agent 容易自我_congratulation(以为自己做得很好)。
GEPA(Genetic-Pareto Prompt Evolution)在独立仓库 hermes-agent-self-evolution 中离线运行:
-
1. 读执行 trace,找真实失败点 -
2. 遗传式搜索 prompt/skill 变体 -
3. LLM-as-judge + rubric 评分(非二元 pass/fail) -
4. 100% 测试集通过、Skill <15KB 等硬约束 -
5. 最优变体以 PR 形式提交,非直接覆盖
无需 GPU,单次优化约 $2–10 API 成本。与 Atropos RL、ShareGPT 轨迹导出等结合,Hermes 还面向 MLOps / 微调数据生产——这是 OpenClaw 较少强调的方向。
4.6 Hermes 技术栈小结
-
• 语言:Python 3.11+ -
• 安装: curl | bash+hermes setup向导 -
• 模型:OpenRouter 200+、OpenAI、Anthropic、Gemini、本地 vLLM/Ollama;建议 ≥64k 上下文 -
• Skill Hub:官方 687+ Skills(内置、LobeHub、Anthropic 等来源) -
• 许可:MIT
一句话总结 Hermes:把「经验沉淀」产品化——运行时写 Skill、后台 Curator、离线 GEPA,三层记忆 + 可选训练管线。
五、并排对比:该选哪一个?
|
|
|
|
|---|---|---|
| 首要目标 |
|
|
| 架构重心 |
|
|
| 主语言 |
|
|
| 记忆 |
|
|
| Skill 来源 |
|
Agent 自写
|
| 进化机制 |
|
|
| 渠道广度 |
|
|
| 可视化 |
|
|
| 典型用户 |
|
|
二者不是互斥竞品,更像同一赛道两种哲学:
-
• 要 「在我常用的聊天软件里,一个靠谱的全能管家」 → OpenClaw 更贴脸。 -
• 要 「重复劳动越来越少、Skill 库自动长大」 → Hermes 更贴脸。 -
• 技术团队也可 OpenClaw 管触达,Hermes 管深度任务(需自行集成,非官方一键方案)。
六、提示词工程实践:两家共通的设计智慧
无论你是 OpenClaw 还是 Hermes 用户,以下原则都适用:
6.1 把「人设」从对话里搬到文件里
SOUL.md 示例(Hermes / OpenClaw 通用思路):
# SOUL.md你是务实的高级工程师,品味鲜明。优先真实、清晰、有用,而非客套。硬限制:不执行未确认的破坏性 shell;不向外发送隐私路径。
6.2 控制上下文预算
-
• 核心记忆保持短小(Hermes 用字符上限强制蒸馏) -
• 长文档用 read 工具按需加载,不要全塞进 system prompt -
• 善用 Compaction / 合并(OpenClaw 自动;Hermes 80% 阈值触发)
6.3 Skill 写好的三要素
-
1. description:写清「何时激活」(触发器比正文更重要) -
2. Pitfalls:写踩过的坑(Agent 最贵的是重复犯错) -
3. Verification:可检查的完成标准
6.4 安全提示词与系统策略并行
提示词里写「不要删库」不够;必须配合:
-
• OpenClaw:Exec Approvals、沙箱 workspace、配对与 Gateway auth -
• Hermes:执行后端隔离(Docker/SSH)、90 轮上限、Curator 只动 agent-authored Skills
Agent 能执行 shell 时,威胁模型从 Prompt Injection 升级为 Full Computer Access——生产环境务必默认沙箱 + 最小权限。
七、生态与趋势:为什么现在值得关心?
-
1. 从 Chat 到 Act:企业不再满足于 FAQ Bot;个人也需要能「清 1 万封邮件、审 Deck、建 GitHub Issue」的助手。 -
2. Local-first 反弹:数据主权、合规、成本推动自托管框架爆发。 -
3. 程序性记忆的标准化:Skill 格式 + Hub 降低「每个团队重造 Agent 轮子」的成本。 -
4. 学习闭环是否成立:Hermes 把「每次任务」当训练数据点;GEPA 用 trace 纠偏——这是走向 Self-improving Agent 的早期工程尝试。 -
5. OpenClaw 的社区规模:极高 star 数带来渠道适配、插件与实战案例的快速累积。
八、结语:选框架之前,先选问题
OpenClaw 和 Hermes 回答的不是「哪个模型更强」,而是:
你希望 AI 在数字生活里扮演什么角色?
-
• 若是 随时响应的多渠道管家——研究 OpenClaw 的 Gateway、Bootstrap 与 Canvas。 -
• 若是 会积累工作流、越用越省心的同事——研究 Hermes 的记忆分层、闭环学习与 GEPA。
底层都是同一套现代 Agent 技术栈:ReAct 循环 + 工具调用 + 分层记忆 + Markdown 驱动的提示词工程 + 开源可审计。差别在于:OpenClaw 把「连接世界」做到极致;Hermes 把「从经验中学习」做到极致。
参考: OpenClaw 文档 · OpenClaw GitHub · Hermes Agent · Nous Research 社区技术文章
夜雨聆风