乐于分享
好东西不私藏

【笔记】OpenClaw 与 Hermes 技术全景解读

【笔记】OpenClaw 与 Hermes 技术全景解读

当 AI 不再只会聊天:OpenClaw 与 Hermes 技术全景解读

从「大模型」到「能动手、能记住、能进化」的个人 Agent


一、先回答一个根本问题:它们到底是什么?

很多人第一次听到 OpenClaw 和 Hermes,会把它们当成「又一个 ChatGPT 套壳」。这其实差了一层。

更准确的说法是:

  • • 大模型(LLM) 是「大脑」——负责理解、推理、生成文本。
  • • OpenClaw / Hermes 是「神经系统 + 手脚 + 记忆」——负责把大脑接到真实世界:发消息、跑命令、读文件、记偏好、反复试错直到任务完成。

它们不是模型本身,而是开源的 AI Agent 编排框架:你自选 Claude、GPT、Gemini 或本地 Ollama,框架负责会话、工具调用、记忆注入、多平台接入与安全边界。

行业正在经历一次范式迁移:

阶段
形态
典型能力
Chat
一问一答
写作、答疑
Copilot
IDE 内辅助
补全、改代码
Agent
长时运行、自主执行
清邮箱、跑脚本、跨 App 协作

OpenClaw 与 Hermes 都站在第三阶段,但架构哲学不同——这一点后文会反复提到。


二、从底层概念讲起:读懂 Agent 的四个关键词

2.1 Agent Loop:不是一次对话,而是一圈又一圈

真正的 Agent 运行方式,学术上常叫 ReAct(Reason + Act)或更广义的 Agentic Loop

接收任务

组装上下文

模型推理

需要工具?

执行工具

观察结果

输出回复并持久化

OpenClaw 官方文档把这一圈描述为:intake → context assembly → model inference → tool execution → streaming replies → persistenceHermes 则在 run_agent.py 里用同步 ReAct 实现同一逻辑:组 prompt → 调 API → 执行 tool → 再调 API,直到结束或触达 90 轮硬上限(防无限循环烧额度)。

关键洞察:Agent 的复杂度不在「写一句漂亮的 prompt」,而在循环是否可靠——队列、超时、会话锁、工具结果截断、中途打断(steering)等工程细节。

2.2 编排层 vs 模型层:为什么要框架?

若只用 API 调模型,你很快会遇到:

  • • 工具调用格式各家不一(OpenAI function calling、Anthropic tools、OpenRouter 长 model id…)
  • • 会话历史膨胀,需要 Compaction(摘要压缩)
  • • 多渠道(Telegram、Slack、WhatsApp)要统一路由
  • • 副作用操作(rm -rf、发消息)需要审批与沙箱

框架的价值,就是把上述「脏活」标准化。OpenClaw 用 Gateway + 嵌入式 Agent Runtime;Hermes 用 单核心 AIAgent + 可选 Gateway。二者都是「编排层」,模型可换。

2.3 提示词工程在 Agent 时代变了

传统 Prompt Engineering 关注单次任务效果;Agent 时代多了三类「可编辑上下文」:

类型
作用
典型载体
身份层
人格、边界、语气
SOUL.md
用户层
偏好、称呼、禁忌
USER.md
操作层
工作区规则、工具约定
AGENTS.md

 / TOOLS.md

这些 Markdown 文件会在每次会话启动时注入 system prompt(OpenClaw 称 Bootstrap Files;Hermes 称 Tier-1 记忆)。你不是在 Chat 框里重复「我是资深工程师、别废话」——而是把规则写进仓库,让 Agent 自带人设

2.4 Skills:从「会一次」到「会一辈子」

Skill 是可复用的程序性记忆:一份带 YAML 头信息的 SKILL.md,描述流程、坑点、验收标准。Agent 遇到相似任务时先检索 Skill,而不是从零推理——这是降低 token、提高稳定性的核心手段。

两家都拥抱 agentskills.io 开放标准,但谁创建 Skill、如何进化——正是 OpenClaw 与 Hermes 最大的分水岭。


三、OpenClaw:以 Gateway 为中心的个人 AI 助手

3.1 理念:本地优先、渠道即产品

OpenClaw(GitHub 超 37 万 star,2025 年底兴起)的定位非常清晰:

Personal AI Assistant —— 跑在你自己的设备上,在你已经在用的聊天 App 里回复你。

核心主张:

  • • Local-first:数据默认留在本机;Gateway 默认绑定 127.0.0.1:18789
  • • Own your data:无遥测、MIT 开源、可审计
  • • Any channel:WhatsApp、Telegram、Discord、Slack、Signal、iMessage、Matrix、飞书等数十渠道
  • • BYOM(Bring Your Own Model):OpenAI、Anthropic、OpenRouter、Ollama 均可

官网一句话:Gateway 只是控制平面,产品才是助手本身。

3.2 核心架构:Gateway 枢纽

OpenClaw 用「龙虾缸」类比(社区梗:Molty 太空龙虾 🦞):

消息渠道

WhatsApp

Telegram

Slack

Gateway 守护进程WS :18789

嵌入式 Agent Runtime

外部 LLM API

浏览器 / Shell / Canvas / Cron

CLI / macOS App / WebChat

Gateway 是唯一长期驻留的守护进程:

  • • 维持各消息平台连接(如 WhatsApp 通过 Baileys,每主机仅一个会话)
  • • 暴露类型化 WebSocket APIconnect 握手 → req/res/event
  • • 设备配对、签名挑战、Tailscale/SSH 远程隧道
  • • 管理 Canvas(/__openclaw__/canvas/)、A2UI 可视化工作区

Nodes(macOS/iOS/Android)以 role: node 接入,提供相机、录屏、定位等设备能力。

这与传统「把 Bot 部署到云函数」相反:控制平面在本地,渠道触达在云端 API。

3.3 Agent 工作区与 Bootstrap:提示词即配置

每个 Agent 有独立 Workspaceagents.defaults.workspace),作为工具 cwd 与上下文根目录。首次运行推荐 openclaw setup,会生成:

文件
含义
SOUL.md
人格、边界、语气
AGENTS.md
操作指令 +「记忆」式规则
USER.md
用户画像
IDENTITY.md
名字、 vibe、 emoji
TOOLS.md
工具使用约定(不控制工具是否存在)
BOOTSTRAP.md
首次启动仪式(完成后可删)

新会话首条消息前,这些文件被注入 Project Context;过大文件会截断并提示「读原文」。这是 OpenClaw 提示词工程的主战场:改 Markdown = 改 Agent 行为,无需改 TypeScript。

3.4 Agent Loop 与队列:工程化的「可靠」

OpenClaw 的 Agent Loop 入口包括 Gateway RPC agent、CLI openclaw agent 等。工程亮点:

  • • 按 session 序列化 + 可选全局 lane,避免工具竞态
  • • Session 写锁(跨进程文件锁,默认等待 60s)
  • • Steering:流式生成中途可注入新指令(/queue steer 等模式)
  • • Compaction:上下文过长自动摘要,带 compaction 流事件
  • • Hook 双系统:Gateway 生命周期钩子 + Plugin 钩子(before_tool_callbefore_prompt_build…)

插件用 TypeScript 编写,支持热重载;内置 50+ 集成,社区 Plugin Registry。

3.5 Skills 加载优先级

Skills 从多处合并(高优先级覆盖低):

  1. 1. Workspace /skills
  2. 2. /.agents/skills
  3. 3. ~/.agents/skills
  4. 4. ~/.openclaw/skills
  5. 5. Bundled 内置

Skill 本质是目录 + SKILL.md;可通过配置与环境变量门控。

3.6 OpenClaw 的技术栈小结

  • • 语言:TypeScript 为主(约 92%),辅以 Swift/Kotlin(移动端)
  • • 运行时:Node 22.19+ / 推荐 Node 24
  • • 协议:TypeBox → JSON Schema → 可生成 Swift 模型
  • • 安全:配对审批、设备 token、Exec Approvals、可选沙箱 workspace

一句话总结 OpenClaw把「个人助手」产品化——极强渠道覆盖 + 本地 Gateway + 可扩展插件,Skills 以人写/社区为主,Agent 负责执行。


四、Hermes:以「闭环学习」为中心的进化型 Agent

4.1 理念:不是 Copilot,是「住在你机器上的同事」

Hermes Agent(Nous Research,2026 年 2 月发布,两个月 GitHub star 破 9 万)的定位:

Agent 住在你的服务器上,用得越久越强——记住项目、自建 Skill、在 Telegram 等处找到你。

与 OpenClaw 的对比,社区有一句精辟 framing:

Hermes 用 Gateway 包裹一个会学习的 Agent;OpenClaw 用 Agent 包裹一个消息 Gateway。

4.2 核心架构:单 AIAgent,多入口

CLI hermes

Telegram Bot

IDE 集成

AIAgentrun_agent.py

三层记忆

Skill 库 + skill_manage

执行后端本地/Docker/SSH/Modal…

多 Provider 翻译层

Curator 后台维护

GEPA 离线进化

所有入口汇入同一个AIAgent 类——平台无关不是口号,是代码结构。

执行环境可配置六种后端:本机终端、Docker、SSH、Modal、Daytona、Singularity——改配置不改代码即可从笔记本迁到云 GPU。

4.3 三层记忆:提示词的分层设计

层级
名称
机制
特点
Tier 1
核心记忆
MEMORY.md

(约 2200 字符)、USER.md(约 1375 字符)
每会话冻结注入;满约 80% 触发合并压缩
Tier 2
情景记忆
SQLite + FTS5 全文检索
容量无限,需主动 search + LLM 摘要
Tier 3
外部记忆
8 种可插拔 Provider(一次仅激活一个)
每轮预取、回合后同步

另有 SOUL.md 占 system prompt #1 槽位——身份先于一切记忆与 Skill 加载。记忆记「是什么」,Skill 记「怎么做」,SOUL 记「我是谁」。

4.4 闭环学习(Closed Learning Loop):Hermes 的杀手锏

这是 Hermes 相对 OpenClaw 最本质的差异:

复杂任务 5+ tool calls

试错解决

skill_manage 写入 SKILL.md

下次相似任务

渐进式加载 Skill

跳过重复探索

使用中 patch 改进

Curator 归档/合并

GEPA 离线验证

触发 Skill 自动创建的条件包括:

  • • 完成复杂任务(≥5 次工具调用)
  • • 踩坑后找到正确路径
  • • 用户纠正做法
  • • 发现非平凡工作流

skill_manage 支持 create / patch / edit / delete 等操作;patch 优先(省 token)。

渐进式披露(Progressive Disclosure) 控制成本:

  • • L0:仅 Skill 名称 + 描述(全库约 3k tokens)
  • • L1:命中后再加载完整 SKILL.md
  • • L2:再钻取 references/ 子文件

Curator(垃圾回收):7 天未跑 + 空闲 2 小时 → 后台 fork Agent;30 天未用标记 stale,90 天归档;动刀前 tar.gz 快照,可一键回滚。

4.5 GEPA:当「自我感觉良好」不够用时

运行时自写 Skill 有弱点:Agent 容易自我_congratulation(以为自己做得很好)。

GEPA(Genetic-Pareto Prompt Evolution)在独立仓库 hermes-agent-self-evolution 中离线运行:

  1. 1. 读执行 trace,找真实失败点
  2. 2. 遗传式搜索 prompt/skill 变体
  3. 3. LLM-as-judge + rubric 评分(非二元 pass/fail)
  4. 4. 100% 测试集通过、Skill <15KB 等硬约束
  5. 5. 最优变体以 PR 形式提交,非直接覆盖

无需 GPU,单次优化约 $2–10 API 成本。与 Atropos RL、ShareGPT 轨迹导出等结合,Hermes 还面向 MLOps / 微调数据生产——这是 OpenClaw 较少强调的方向。

4.6 Hermes 技术栈小结

  • • 语言:Python 3.11+
  • • 安装curl | bash + hermes setup 向导
  • • 模型:OpenRouter 200+、OpenAI、Anthropic、Gemini、本地 vLLM/Ollama;建议 ≥64k 上下文
  • • Skill Hub:官方 687+ Skills(内置、LobeHub、Anthropic 等来源)
  • • 许可:MIT

一句话总结 Hermes把「经验沉淀」产品化——运行时写 Skill、后台 Curator、离线 GEPA,三层记忆 + 可选训练管线。


五、并排对比:该选哪一个?

维度
OpenClaw 🦞
Hermes
首要目标
全渠道个人助手、Always-on
越用越强的学习型 Agent
架构重心
Gateway 控制平面
单 Agent 核心 + Gateway
主语言
TypeScript
Python
记忆
Bootstrap MD + Session JSONL
三层记忆 + SQLite FTS
Skill 来源
人写 / 社区 / Bundled 为主
Agent 自写

 + Hub + Curator
进化机制
插件、Hooks、配置
闭环学习 + GEPA 离线优化
渠道广度
极广(含 WhatsApp、iMessage 等)
强(Telegram 等),侧重开发者
可视化
Live Canvas、A2UI
偏终端与消息
典型用户
想「一个助手管生活+工作」
想「Agent 记住我的工作流并进化」

二者不是互斥竞品,更像同一赛道两种哲学:

  • • 要 「在我常用的聊天软件里,一个靠谱的全能管家」 → OpenClaw 更贴脸。
  • • 要 「重复劳动越来越少、Skill 库自动长大」 → Hermes 更贴脸。
  • • 技术团队也可 OpenClaw 管触达,Hermes 管深度任务(需自行集成,非官方一键方案)。

六、提示词工程实践:两家共通的设计智慧

无论你是 OpenClaw 还是 Hermes 用户,以下原则都适用:

6.1 把「人设」从对话里搬到文件里

SOUL.md 示例(Hermes / OpenClaw 通用思路):

# SOUL.md你是务实的高级工程师,品味鲜明。优先真实、清晰、有用,而非客套。硬限制:不执行未确认的破坏性 shell;不向外发送隐私路径。

6.2 控制上下文预算

  • • 核心记忆保持短小(Hermes 用字符上限强制蒸馏)
  • • 长文档用 read 工具按需加载,不要全塞进 system prompt
  • • 善用 Compaction / 合并(OpenClaw 自动;Hermes 80% 阈值触发)

6.3 Skill 写好的三要素

  1. 1. description:写清「何时激活」(触发器比正文更重要)
  2. 2. Pitfalls:写踩过的坑(Agent 最贵的是重复犯错)
  3. 3. Verification:可检查的完成标准

6.4 安全提示词与系统策略并行

提示词里写「不要删库」不够;必须配合:

  • • OpenClaw:Exec Approvals、沙箱 workspace、配对与 Gateway auth
  • • Hermes:执行后端隔离(Docker/SSH)、90 轮上限、Curator 只动 agent-authored Skills

Agent 能执行 shell 时,威胁模型从 Prompt Injection 升级为 Full Computer Access——生产环境务必默认沙箱 + 最小权限。


七、生态与趋势:为什么现在值得关心?

  1. 1. 从 Chat 到 Act:企业不再满足于 FAQ Bot;个人也需要能「清 1 万封邮件、审 Deck、建 GitHub Issue」的助手。
  2. 2. Local-first 反弹:数据主权、合规、成本推动自托管框架爆发。
  3. 3. 程序性记忆的标准化:Skill 格式 + Hub 降低「每个团队重造 Agent 轮子」的成本。
  4. 4. 学习闭环是否成立:Hermes 把「每次任务」当训练数据点;GEPA 用 trace 纠偏——这是走向 Self-improving Agent 的早期工程尝试。
  5. 5. OpenClaw 的社区规模:极高 star 数带来渠道适配、插件与实战案例的快速累积。

八、结语:选框架之前,先选问题

OpenClaw 和 Hermes 回答的不是「哪个模型更强」,而是:

你希望 AI 在数字生活里扮演什么角色?

  • • 若是 随时响应的多渠道管家——研究 OpenClaw 的 Gateway、Bootstrap 与 Canvas。
  • • 若是 会积累工作流、越用越省心的同事——研究 Hermes 的记忆分层、闭环学习与 GEPA。

底层都是同一套现代 Agent 技术栈:ReAct 循环 + 工具调用 + 分层记忆 + Markdown 驱动的提示词工程 + 开源可审计差别在于:OpenClaw 把「连接世界」做到极致;Hermes 把「从经验中学习」做到极致。


参考: OpenClaw 文档 · OpenClaw GitHub · Hermes Agent · Nous Research 社区技术文章


本站作品均采用知识共享署名-非商业性使用-相同方式共享 4.0进行许可,资源收集于网络仅供用于学习和交流,本站一切资源不代表本站立场,我们尊重软件和教程作者的版权,如有不妥请联系本站处理!

 沪ICP备2023009708号

© 2017-2026 夜雨聆风   | sitemap | 网站地图