OpenClaw、Hermes、OpenHuman:假如它们是三种团队-夜雨聆风

OpenClaw、Hermes、OpenHuman:假如它们是三种团队

OpenClaw、Hermes、OpenHuman 源码架构拆解

写在前面

本人对工具的逻辑有很多好奇心，本次调研也是从非开发人员角度，看一看当前主流的agent工具逻辑。文中展示了大量的比喻，争取能通俗易懂。

为什么对比这三个

AI 助手框架今年井喷。

OpenClaw、Hermes、OpenHuman 是三个代表——GitHub 上都有几万星，但长得完全不一样。这篇文章用团队比喻把三者的设计逻辑拆开：

各自在解决什么问题、用什么方法、优点在哪、缺点在哪。

不需要技术背景。

每个专业概念第一次出现会配白话翻译。

快速一览

OpenClaw → 一个呼叫中心。

总台统一接全部来电，按号码转到对应座席。每人一条热线，互不串线。新业务线随时加。

Hermes → 一个会写 SOP 的项目组长，带三个助手。

每次项目结束，组长自己写操作手册。下次接同类型项目，档案柜自动弹出手册。

OpenHuman → 一个独立顾问。

一个人、一台电脑、一套方法。数据不出本地。不依赖公司，不需要和任何人协调。

按出场顺序展开

① OpenClaw（呼叫中心）—— 2023年首发

（Agent = 能自己干活儿的 AI，不只是聊天，还能调工具、读文件、上网搜。）

它解决什么问题

一个人同时用微信、Telegram、Discord、网页聊天。不同的人来找，AI 得记得住不同的上下文，不能串。有人连发三条消息，AI 得有策略——打断、排队、还是合并？

OpenClaw 是第一个把这个问题做成系统的。

怎么干的

总台（Gateway = 一个 24 小时在线的程序，像公司的总机接线员）接收所有消息。每条消息进来，总台判断”归哪个坐席管”。然后分配一条独立热线（Lane = 每人一条车道，互不占线）。

座席之间物理隔离。3 号工位跟客户聊的内容，5 号工位看不到。隔离靠一把唯一钥匙实现（Session Key = agent:助手名:平台:账号:私聊or群聊:对方ID）。

总台还管排班。同一个人连发三条消息，总台根据规则选择：

打断当前，先处理新的
把新消息塞进当前对话，一起考虑
等全说完了再处理（防一句话拆三段）

新业务线（插件）五种类型，随时加：新消息渠道、新工具、新 AI 模型、安全检查、外部回调。

优点

连接力最强：20+ 消息平台，一个总台全接
Lane 并发模型：多人同时聊，互不等待，互不串线
插件体系成熟：五种注入点，加新能力不碰核心代码
设备节点配对：手机、平板能作为 AI 的”外设”接入

缺点

部署比另外两个复杂，需要维护一个常驻后台程序。对非开发者不够友好。
技能系统只给说明书，不执行代码。技能是一份 Markdown 文档，Agent 读了靠理解去执行。AI 理解错了，技能就废了。
不会自我进化。技能靠人写，Agent 不会从经验里提炼新技能。每次对话结束，学到的东西不存档。下次同类型任务从头来。
对话结束后，不会自动提炼经验存下来。下次同类型任务还是从头来。

② Hermes（会写 SOP 的项目组长）—— 2025年7月建仓，2026年3月首发

它解决什么问题

OpenClaw 不会学习。每次对话结束，经验清零。同样的任务再做一遍，从头来。

Hermes 换了一个问题：AI 能不能像人一样积累经验？

做完一个项目 → 总结套路 → 写操作手册 → 下次自动翻出来 → 用的时候发现过时了再自己改。

怎么干的

项目组长（Agent 主循环）的工作节奏是一圈一圈来的：整理桌面（”我是谁 + 记住什么 + 刚才聊到哪”）→ 问 AI → AI 说”需要查资料”？→ 需要就去翻 → 回到整理桌面继续。最多转 90 圈，防止死循环。

做完一个复杂项目后，组长走五步闭环：

做 → 想（”这里面有套路吗？”）→ 写（写操作手册，叫 Skill 文件）→ 改（下次用着发现过时了，自己修正）→ 用（跨项目自动召回）。

档案柜分三层：

桌面草稿（当前对话）→ 客户卡片（长期积累的知识）→ SOP 手册（操作流程）。对应人脑的三类记忆——”昨天吃了火锅”（情景）、”火锅是辣的”（语义）、”我知道怎么调火锅蘸料”（程序性）。

忙不过来时，可以同时派三个助手（spawn = 从 Agent 里临时生出子 Agent 并行干活）。助手不能自己再招实习生（防套娃），不知道组长之前聊了什么（隔离），不能在档案柜里乱写（防污染）。

优点

会自我进化。这三者里唯一有内置学习闭环的。越用，档案柜越厚。
三层记忆扎实。情景/语义/程序性，认知科学基础清晰。
上下文压缩不简单截断。用辅助 AI 做结构化摘要，保留关键信息。
子 Agent 隔离机制安全。深度=1、无父历史、禁止写记忆，三道防护。

缺点

单人模式，不能服务多用户。没有 OpenClaw 那样的多 Agent 工作空间。一个人用可以，一个团队用不行。
技能自创质量不稳定。组长自己写操作手册——”自己判断套路”这件事靠 AI 的理解，不是确定性规则。有时生成的操作手册是废话，有时漏掉重要步骤。
Python 生态，没有桌面端。没有图形界面，没有手机 App。在终端里跑，安装靠 pip/brew/docker。
冻结快照的代价。记忆读写在项目开始时拍快照，中途学到的新东西只记便签，下个项目才归档。当前项目里新学到的经验，不能马上在本项目里用上。
迭代预算 90 圈是硬限制。任务确实需要更多步骤时，到 90 圈强制停，可能交出半成品。

③ OpenHuman（独立顾问）—— 2026年初首发，最晚但最完整

它解决什么问题

前两个框架都在服务器上跑——OpenClaw 需要 Gateway 常驻，Hermes 需要 Python 环境。普通人只想要一个在自己电脑上的 AI 助手：不折腾命令行、不租服务器、数据不出门。

OpenHuman 的回答：把它做成一个桌面应用。双击打开。

怎么干的

桌面应用用 Rust + Tauri 写成。

Rust = 性能极高、不容易崩的编程语言。Tauri = 让开发者用网页技术写界面、但最终生成的是原生窗口程序——体积小，不占内存。

文件柜（Memory Tree = 分层摘要树）有层级目录：全年记录 → 当月关键 → 本周重点 → 当前上下文。

压缩成树状层级结构。灵感来自 OpenAI 联创 Andrej Karpathy 用笔记软件 Obsidian 管理知识的思路。

定期断舍离（TokenJuice = 自研压缩引擎）：给每段记忆打重要性分数，低分的扔掉。

宣称最多省 80% token。Token = AI 计费最小单位，约 0.75 个英文单词。

工具箱里的技能是真代码（QuickJS 沙箱 = 把代码关在小黑屋里跑，炸了不影响外面）。AI 说”用这个”，代码自己跑完，结果确定，不会被 AI 理解错。

对外接了 118+ 个服务（Gmail、GitHub、Slack…），通过 OAuth 连接。OAuth = 点一下”用谷歌登录”，不把密码告诉对方，对方发临时令牌。数据全程在本机。

优点

零门槛安装。DMG/EXE 双击就用，不需要终端，不需要 pip。
数据全部本地。SQLite 一个文件存所有。离线也能跑（接本地模型 Ollama）。
记忆压缩高效。TokenJuice 语义评分压缩，低分的裁剪掉。
技能确定性执行。代码在小黑屋里跑，不靠 AI 理解。
118+ 第三方集成，数据不出本地。

缺点

单人单机，不能服务多用户。没有总台，没有坐席隔离。它只能是你自己的工具。
不会自我进化。技能靠人写，没有 Hermes 那样的学习闭环。
GPL-3.0 许可证。传染性开源协议，基于它做商业产品，你的代码也须开源。
桌面端的天花板。不能接 Telegram/微信消息，不能做手机端（Tauri 移动端还在早期）。
QuickJS 沙箱只支持受限的 JavaScript 子集，部分 npm 包不能用。

三者的对比

	OpenClaw（呼叫中心）	Hermes（项目组长）	OpenHuman（独立顾问）
首发时间	2023年	2026年3月	2026年初
核心问题	能不能管好多个平台上的多个人？	经验能不能自动积累？	数据能不能不出我的电脑？
部署方式	Node.js 进程	pip/brew/docker	桌面应用双击
多用户	✅ Lane隔离	❌ 单人模式	❌ 单人模式
自我进化	❌ 技能靠人写	✅ 五阶段闭环	❌ 技能靠人写
桌面端	❌ 终端/网页	❌ 终端	✅ 原生桌面
技能确定性	❌ AI 理解说明书	❌ AI 理解说明书	✅ 沙箱代码执行
记忆体系	会话级	三层 + 快照	树状分层 + 语义压缩
最大卖点	连接力	进化力	隐私力
最大短板	不会学	不能多人用	不能多人用，不会学

三条路线往同一个方向走：

把 AI 从”一问一答的聊天机器人”变成”看得见生活、记得住事情、能动手干活的日常伙伴”。

三条路线回答的是一件事的不同侧面——信任。

信它管得住渠道（OpenClaw），信它自学的东西靠谱（Hermes），信它拿数据不外传（OpenHuman）。

人脑是怎么记东西的——三种记忆，一顿火锅

前面讲的是机器怎么记。先倒过来看看人脑怎么记。搞清楚这个，三个框架的差异会变得更直观。

认知科学把人脑记忆分成三类。用一顿火锅说明：

情景记忆——”昨天和王哥在海底捞吃了顿火锅。” 有具体的时间、地点、人物。脑子里能回放那个画面：王哥坐对面，锅里红油翻滚，他说”再加份脑花”。

语义记忆——”火锅是辣的，毛肚七上八下十五秒。” 脱了具体场景也能说的知识。不需要想起”谁教的”，反正知道。鸳鸯锅一半辣一半不辣，这也是语义记忆。

程序性记忆——调蘸料的肌肉记忆。蒜泥两勺、香油没过碗底、蚝油一甩、香菜一把。手自己会动，脑子不用想。让你写步骤反而写不全——”蚝油放多少？就一甩嘛。”

同一次火锅，三种记忆都在场。记得和谁吃的（情景）、知道毛肚怎么烫（语义）、手自己会调蘸料（程序性）。

三个框架分别在模仿哪一种？

记忆类型	火锅里是什么	对应的框架	为什么
情景	和王哥吃的这顿火锅	Hermes	五步闭环记录的是”我在什么情况下做了什么事、结果如何”——正是情景记忆
语义	毛肚七上八下	OpenClaw	插件和技能是标准化的知识条目，脱了单次对话也能用——正是语义记忆
程序性	调蘸料的手感	OpenHuman	桌面操作（打开文件、发邮件、调系统设置）练多了就成肌肉记忆——正是程序性

没有一个框架能同时覆盖三种记忆。Hermes 记得住情景但管不了多人的语义库，OpenClaw 的插件是语义级的但不会从对话里自学，OpenHuman 动手能力强但不会跨会话提炼经验。三种记忆——三个框架各占一块。

同一个场景，三种发 prompt 的方式

下面用同一个真实任务——调研中国第二款干细胞药 RY_SW01 的上市过程和临床路线设计——演示三个框架分别是怎么通过 API 向大语言模型发提示词的。

这个任务是典型的多轮复杂调研：搜信息→筛来源→交叉验证→补缺口→结构化输出。每个框架的 prompt 构建方式和 LLM 调用模式完全不同。

① OpenClaw：总台先判断，坐席再干活

用户在企业微信里发了一句话：”帮我调研一下睿源生物 RY_SW01 这款药，写一份分析。”

第一步：Gateway 总台接收消息，做意图分类。

Gateway 拿到这条消息，先不发任务——先调用一次 LLM，用一段简短的分类 prompt：

你是一个意图分类器。判断用户消息属于哪个领域：- 医药调研- 日常办公- 代码开发- 其他用户消息："帮我调研一下睿源生物 RY_SW01 这款药，写一份分析。"输出：医药调研

LLM 返回”医药调研”，Gateway 把这条消息路由到配置了”医药调研技能包”的 Lane（坐席）。

第二步：Lane 内的 Agent 开始工作。它拿到的是 Gateway 已经”预处理”过的消息。它的 System Prompt 已经被技能包注入了一段固定的专业描述：

你是一个医药行业调研助手。工具列表：- web_search：搜索互联网- web_fetch：抓取网页内容- read_file：读取本地文件- write_file：写入文件回答风格：客观、引用来源、标注数据局限。

第三步：Agent 循环开始。和 Hermes 一样是 ReAct 循环——思考→行动→观察→再思考。但核心差异在于：OpenClaw 的 Agent 每轮都带完整 System Prompt（含技能包固定描述），不会从本次任务中”学到”新东西加到 System Prompt 里。

第一轮：

User: "帮我调研一下睿源生物 RY_SW01 这款药，写一份分析。"→ Agent 思考 → 决定：先搜基本信息和临床数据→ 调用 web_search → 收到结果

第二轮：

→ Agent 思考 → 提取关键来源 → 调用 web_fetch 抓取详情页→ 收到页面内容 → 发现"三条策略嵌套"是关键信息→ 调用 write_file → 写入本地文件

多轮循环直到完成任务。

OpenClaw 的 prompt 特点：System Prompt 是固定的（来自技能包的一次性注入）。Agent 不会在这次任务结束后把”干细胞药调研”的经验写成新技能——下次遇到类似任务，还是从头搜。记忆中只有本次会话内的对话历史。

② Hermes：自己写 SOP，下次自己用

同一句话：”帮我调研一下睿源生物 RY_SW01 这款药，写一份分析。”

第一步：Hermes 直接进入 Agent 循环。没有 Gateway，没有总台——用户直接和 Agent 对话。

第二步：Agent 的 System Prompt 和 OpenClaw 不同。 Hermes 注入了一段”你是有学习能力的 Agent”的描述：

你是一个能自我进化的 AI 助手。完成任务后，你会：1. 从本次任务中提炼可复用的操作步骤2. 将步骤保存为 Skill3. 下次遇到类似任务时自动调用这个 Skill工具列表：web_search, web_fetch, read_file, write_file, save_skill, recall_skill

注意最后两个工具——save_skill 和 recall_skill——OpenClaw 没有这两个。

第三步：Agent 完成调研。过程类似——搜索→抓取→交叉验证→补缺口→写文件。但任务结束后多了一步：

Agent: "任务完成。我从中提炼了一个可复用的流程。"→ 调用 save_skill({name: "医药调研-干细胞新药",trigger: "用户要求调研某款未上市的干细胞药物",steps: ["1. 搜索'药品名称 + CDE/优先审评/临床数据'","2. 抓取CDE公示页和药品数据库","3. 搜索'公司名称 + 股东/融资/创始人'做交叉验证","4. 重点分析临床路线设计——I期拆分、适应症跳跃、报产并行","5. 查患病率和市场空间评估商业化前景","6. 输出结构化分析：药品本身→适应症→路线设计→管线→局限"    ],context_patterns: ["干细胞", "未上市新药", "优先审评", "临床路线"]  })

第四步：下次用户说要调研另一款干细胞药，Hermes 会自动召回这个 Skill。 System Prompt 中动态追加了之前保存的步骤——不用重新探索”应该搜什么、按什么结构写”。

Hermes 的 prompt 特点：System Prompt 是动态增长的。每次任务结束后，Agent 从对话中提炼经验，存入记忆系统。下次同类任务，这些经验自动注入 System Prompt——不是重新从零开始，而是”上次我是这么干的，这次直接套”。

③ OpenHuman：本地单线程，数据不出门

同一句话。

第一步：用户在桌面客户端输入。没有 Gateway，没有多个 Agent——只有一个独立顾问。

第二步：System Prompt 比前两个更”个人化”。 OpenHuman 的 System Prompt 注入了用户的本地上下文：

你是用户的桌面 AI 助手。你能访问用户的本地文件。当前可以使用的工具：local_search（搜索本地文件）, web_search（搜索互联网）, local_write（写入本地文件）。用户的文件目录结构：- /调研笔记/- /写作项目/- /财务数据/隐私规则：任何用户数据不得上传到云端。web_search 只能发送搜索关键词，不能附带用户本地文件内容。

第三步：Agent 的循环和前两个类似，但工具调用的”边界”不同。

关键差异在工具：

web_search 发出前，Agent 先剥离任何可能含用户隐私的上下文——搜索词只能是”RY_SW01 临床数据”，不能带”我老板让我调研的”这种信息
搜索结果显示后，Agent 在本地做筛选和整理
最终输出直接 local_write 到用户的本地文件夹——不经过任何云端中转

OpenHuman 的 prompt 特点：隐私规则是硬编码在 System Prompt 里的，不是”建议”而是”红线”。每次调 API 前，Agent 先检查 Prompt 是否含敏感信息，含了就裁掉再发。

三种 prompt 构建方式的核心差异

	OpenClaw	Hermes	OpenHuman
System Prompt 来源	技能包一次性注入，固定不变	技能包 + 历史经验动态注入，越用越长	技能包 + 本地上下文 + 隐私规则
学习方式	不学	任务结束后提炼 Skill	不学（但用户手动加规则）
隐私控制	所有数据走 Gateway 云端	对话内容走云端	web_search 发前裁隐私、文件操作全本地
同一任务多次执行	每次都从零搜	第二次自动套上次的 Skill	每次都从零搜
适合什么	固定流程、多人共享	同类任务反复做	数据敏感、单人用

国内日常办公能用到哪些

前面三个框架是”底层思路”。日常工作用的是落地的产品。以下产品按实际架构来归类，不用标签套。

WorkBuddy（腾讯）

实际架构：自研 Agent 框架，五层设计。

底座层是 Agent 循环（理解→规划→调用→监控），和 OpenClaw 一样有技能系统（20+ 内置技能包），该产品负责人明确说没使用 OpenClaw 任何一行源码。

最核心的差异在”半自动”——WorkBuddy 刻意加了人工确认环节，不会在未授权情况下自主对外发布内容。执行模式分两种：敏感数据走本地（数据不出电脑），复杂推理走云端沙箱（任务完成数据自动删除）。

它像谁：不直接等于任何一个开源框架。从功能形态看，最接近 OpenHuman 的”独立顾问”路线——桌面端、读本地文件、一个用户一个实例。但它比 OpenHuman 多了云端能力和企业微信/飞书/钉钉多端接入，比 OpenClaw 少了完全自主执行。

CC（Claude Code）

实际架构：Tool Use Loop 无限循环 + 流式并行工具执行。

核心是 while(true) 包裹的 Agent 循环：

用户输入 → 调模型 API（streaming 输出）→ 模型边输出边并行执行工具 → 结果拼回对话 → 下一轮。

六个层级的上下文压缩（Snip → Microcompact → Collapse → Auto Compact → Reactive Compact → Manual Compact）。多 Agent 有三种模式：Fork 子 Agent（共享缓存）、Coordinator 模式（主 Agent 调度异步 Worker）、Team Agent（进程内 teammate）。

它像谁：Agent 主循环和 Hermes 最像——都是思考→行动→观察的 ReAct 范式。差别在于 CC 不会自我进化（不写 SOP），但它有六层上下文压缩和三种多 Agent 模式，工程深度超过 Hermes。

扣子空间（字节跳动）

实际架构：可视化工作流编排 + 插件系统 + 知识库。

智能体 = LLM（大脑）+ 知识库（记忆）+ 插件（手脚），工作流用拖拽节点搭建。

和 OpenClaw 一样是”搭 Bot 给不同场景用”的思路——一个平台，建多个 Agent，分别管不同渠道。

区别是扣子是低代码可视化（拖拽），OpenClaw 是代码级（写 SKILL.md）。

它像谁：最接近 OpenClaw 的”呼叫中心”路线——Bot 工厂，批量生产、各管一摊。但扣子的编排是可视化的，面向业务人员；OpenClaw 的编排是代码级的，面向开发者。

钉钉悟空（阿里）

实际架构：钉钉原生 AI 平台，底层是 Agent OS。

深度集成钉钉生态——日程、审批、文档、会议全链路打通。企业级安全管控（组织权限适配、三级风险拦截）。

和 OpenClaw 一样强调”一个入口接所有事”，但它只接钉钉生态内的事。

它像谁：定位上接近 OpenClaw——统一入口、多任务调度。但范围窄得多：OpenClaw 接一切渠道，悟空只管钉钉里的事。

Marvis（腾讯）

实际架构：1 个 PM Agent + 5 个专业 Agent，端云混合。 PM Agent（项目经理）用混元/DeepSeek V4 理解意图、拆任务、分派。五个专业 Agent 各管一块：File（文件）、Computer（系统设置）、App（操控桌面应用）、Browser（网页）、Search（搜索）。敏感任务纯端侧跑 Qwen 模型，数据零上云。

它像谁：自成一派。它是操作系统层级的——不是”帮你聊天的工具”，是”替操作系统的 AI 中间层”。这个定位在三个开源框架里没有对应。非要说的话，专业 Agent 的分工方式和 OpenClaw 的多坐席有点像，但 Marvis 是绑定操作系统的，不是 Bot 工厂。

国内办公，怎么选

市占率的数据支撑了最简单的选型框架。不需要纠结”哪个更强”——看三件事。

在干什么。写文章、整表格、搜信息、管文件 → WorkBuddy。写代码、调bug、跑测试 → CC 接 DeepSeek。

数据能不能出门。财务、法务、HR 等敏感场景 → WorkBuddy 本地模式或 Marvis 隐私模式。数据零上云是硬底线。

是一个人用还是团队用。目前还没有比较适合团队用的agent，团队协作还没被提上日程。

一个参考组合：

非代码人员日常办公 → WorkBuddy（桌面端，本地文件，零门槛）
开发人员写代码 → CC + DeepSeek（终端 Agent，六层压缩，流式并行）
系统级操控电脑 → Marvis（改设置、开应用、跨端协同——别人做不到的）

数据来源：GitHub 仓库 README、官方文档、社区深度分析文章、腾讯云开发者社区 WorkBuddy 架构拆解、Claude Code 源码分析（Yoyo_Lee）、火山引擎扣子开发者文档、CSDN Marvis 架构解析