乐于分享
好东西不私藏

OpenClaw、Hermes、OpenHuman:假如它们是三种团队

OpenClaw、Hermes、OpenHuman:假如它们是三种团队

OpenClaw、Hermes、OpenHuman 源码架构拆解
写在前面
本人对工具的逻辑有很多好奇心,本次调研也是从非开发人员角度,看一看当前主流的agent工具逻辑。文中展示了大量的比喻,争取能通俗易懂。

为什么对比这三个
AI 助手框架今年井喷。
OpenClaw、Hermes、OpenHuman 是三个代表——GitHub 上都有几万星,但长得完全不一样。这篇文章用团队比喻把三者的设计逻辑拆开:
各自在解决什么问题、用什么方法、优点在哪、缺点在哪。
不需要技术背景。
每个专业概念第一次出现会配白话翻译。

快速一览
OpenClaw → 一个呼叫中心。
总台统一接全部来电,按号码转到对应座席。每人一条热线,互不串线。新业务线随时加。
Hermes → 一个会写 SOP 的项目组长,带三个助手。
每次项目结束,组长自己写操作手册。下次接同类型项目,档案柜自动弹出手册。
OpenHuman → 一个独立顾问。
一个人、一台电脑、一套方法。数据不出本地。不依赖公司,不需要和任何人协调。

按出场顺序展开
① OpenClaw(呼叫中心)—— 2023年首发
Agent = 能自己干活儿的 AI,不只是聊天,还能调工具、读文件、上网搜。)
它解决什么问题
一个人同时用微信、Telegram、Discord、网页聊天。不同的人来找,AI 得记得住不同的上下文,不能串。有人连发三条消息,AI 得有策略——打断、排队、还是合并?
OpenClaw 是第一个把这个问题做成系统的。
怎么干的
总台(Gateway = 一个 24 小时在线的程序,像公司的总机接线员)接收所有消息。每条消息进来,总台判断”归哪个坐席管”。然后分配一条独立热线(Lane = 每人一条车道,互不占线)。
座席之间物理隔离。3 号工位跟客户聊的内容,5 号工位看不到。隔离靠一把唯一钥匙实现(Session Key = agent:助手名:平台:账号:私聊or群聊:对方ID)。
总台还管排班。同一个人连发三条消息,总台根据规则选择:
  • 打断当前,先处理新的
  • 把新消息塞进当前对话,一起考虑
  • 等全说完了再处理(防一句话拆三段)
新业务线(插件)五种类型,随时加:新消息渠道、新工具、新 AI 模型、安全检查、外部回调。
优点
  • 连接力最强:20+ 消息平台,一个总台全接
  • Lane 并发模型:多人同时聊,互不等待,互不串线
  • 插件体系成熟:五种注入点,加新能力不碰核心代码
  • 设备节点配对:手机、平板能作为 AI 的”外设”接入
缺点
  • 部署比另外两个复杂,需要维护一个常驻后台程序。对非开发者不够友好。
  • 技能系统只给说明书,不执行代码。技能是一份 Markdown 文档,Agent 读了靠理解去执行。AI 理解错了,技能就废了。
  • 不会自我进化。技能靠人写,Agent 不会从经验里提炼新技能。每次对话结束,学到的东西不存档。下次同类型任务从头来。
  • 对话结束后,不会自动提炼经验存下来。下次同类型任务还是从头来。

② Hermes(会写 SOP 的项目组长)—— 2025年7月建仓,2026年3月首发
它解决什么问题
OpenClaw 不会学习。每次对话结束,经验清零。同样的任务再做一遍,从头来。
Hermes 换了一个问题:AI 能不能像人一样积累经验?
做完一个项目 → 总结套路 → 写操作手册 → 下次自动翻出来 → 用的时候发现过时了再自己改。
怎么干的
项目组长(Agent 主循环)的工作节奏是一圈一圈来的:整理桌面(”我是谁 + 记住什么 + 刚才聊到哪”)→ 问 AI → AI 说”需要查资料”?→ 需要就去翻 → 回到整理桌面继续。最多转 90 圈,防止死循环。
做完一个复杂项目后,组长走五步闭环:
 → (”这里面有套路吗?”)→ (写操作手册,叫 Skill 文件)→ (下次用着发现过时了,自己修正)→ (跨项目自动召回)。
档案柜分三层:
桌面草稿(当前对话)→ 客户卡片(长期积累的知识)→ SOP 手册(操作流程)。对应人脑的三类记忆——”昨天吃了火锅”(情景)、”火锅是辣的”(语义)、”我知道怎么调火锅蘸料”(程序性)。
忙不过来时,可以同时派三个助手(spawn = 从 Agent 里临时生出子 Agent 并行干活)。助手不能自己再招实习生(防套娃),不知道组长之前聊了什么(隔离),不能在档案柜里乱写(防污染)。
优点
  • 会自我进化。这三者里唯一有内置学习闭环的。越用,档案柜越厚。
  • 三层记忆扎实。情景/语义/程序性,认知科学基础清晰。
  • 上下文压缩不简单截断。用辅助 AI 做结构化摘要,保留关键信息。
  • 子 Agent 隔离机制安全。深度=1、无父历史、禁止写记忆,三道防护。
缺点
  • 单人模式,不能服务多用户。没有 OpenClaw 那样的多 Agent 工作空间。一个人用可以,一个团队用不行。
  • 技能自创质量不稳定。组长自己写操作手册——”自己判断套路”这件事靠 AI 的理解,不是确定性规则。有时生成的操作手册是废话,有时漏掉重要步骤。
  • Python 生态,没有桌面端。没有图形界面,没有手机 App。在终端里跑,安装靠 pip/brew/docker。
  • 冻结快照的代价。记忆读写在项目开始时拍快照,中途学到的新东西只记便签,下个项目才归档。当前项目里新学到的经验,不能马上在本项目里用上。
  • 迭代预算 90 圈是硬限制。任务确实需要更多步骤时,到 90 圈强制停,可能交出半成品。

③ OpenHuman(独立顾问)—— 2026年初首发,最晚但最完整
它解决什么问题
前两个框架都在服务器上跑——OpenClaw 需要 Gateway 常驻,Hermes 需要 Python 环境。普通人只想要一个在自己电脑上的 AI 助手:不折腾命令行、不租服务器、数据不出门。
OpenHuman 的回答:把它做成一个桌面应用。双击打开。
怎么干的
桌面应用用 Rust + Tauri 写成。
Rust = 性能极高、不容易崩的编程语言。Tauri = 让开发者用网页技术写界面、但最终生成的是原生窗口程序——体积小,不占内存。
文件柜(Memory Tree = 分层摘要树)有层级目录:全年记录 → 当月关键 → 本周重点 → 当前上下文。
压缩成树状层级结构。灵感来自 OpenAI 联创 Andrej Karpathy 用笔记软件 Obsidian 管理知识的思路。
定期断舍离(TokenJuice = 自研压缩引擎):给每段记忆打重要性分数,低分的扔掉。
宣称最多省 80% token。Token = AI 计费最小单位,约 0.75 个英文单词。
工具箱里的技能是真代码(QuickJS 沙箱 = 把代码关在小黑屋里跑,炸了不影响外面)。AI 说”用这个”,代码自己跑完,结果确定,不会被 AI 理解错。
对外接了 118+ 个服务(Gmail、GitHub、Slack…),通过 OAuth 连接。OAuth = 点一下”用谷歌登录”,不把密码告诉对方,对方发临时令牌。数据全程在本机。
优点
  • 零门槛安装。DMG/EXE 双击就用,不需要终端,不需要 pip。
  • 数据全部本地。SQLite 一个文件存所有。离线也能跑(接本地模型 Ollama)。
  • 记忆压缩高效。TokenJuice 语义评分压缩,低分的裁剪掉。
  • 技能确定性执行。代码在小黑屋里跑,不靠 AI 理解。
  • 118+ 第三方集成,数据不出本地。
缺点
  • 单人单机,不能服务多用户。没有总台,没有坐席隔离。它只能是你自己的工具。
  • 不会自我进化。技能靠人写,没有 Hermes 那样的学习闭环。
  • GPL-3.0 许可证。传染性开源协议,基于它做商业产品,你的代码也须开源。
  • 桌面端的天花板。不能接 Telegram/微信消息,不能做手机端(Tauri 移动端还在早期)。
  • QuickJS 沙箱只支持受限的 JavaScript 子集,部分 npm 包不能用。

三者的对比
OpenClaw(呼叫中心)
Hermes(项目组长)
OpenHuman(独立顾问)
首发时间
2023年
2026年3月
2026年初
核心问题
能不能管好多个平台上的多个人?
经验能不能自动积累?
数据能不能不出我的电脑?
部署方式
Node.js 进程
pip/brew/docker
桌面应用双击
多用户
✅ Lane隔离
❌ 单人模式
❌ 单人模式
自我进化
❌ 技能靠人写
✅ 五阶段闭环
❌ 技能靠人写
桌面端
❌ 终端/网页
❌ 终端
✅ 原生桌面
技能确定性
❌ AI 理解说明书
❌ AI 理解说明书
✅ 沙箱代码执行
记忆体系
会话级
三层 + 快照
树状分层 + 语义压缩
最大卖点
连接力
进化力
隐私力
最大短板
不会学
不能多人用
不能多人用,不会学
三条路线往同一个方向走:
把 AI 从”一问一答的聊天机器人”变成”看得见生活、记得住事情、能动手干活的日常伙伴”。
三条路线回答的是一件事的不同侧面——信任
信它管得住渠道(OpenClaw),信它自学的东西靠谱(Hermes),信它拿数据不外传(OpenHuman)。

人脑是怎么记东西的——三种记忆,一顿火锅
前面讲的是机器怎么记。先倒过来看看人脑怎么记。搞清楚这个,三个框架的差异会变得更直观。
认知科学把人脑记忆分成三类。用一顿火锅说明:
情景记忆——”昨天和王哥在海底捞吃了顿火锅。” 有具体的时间、地点、人物。脑子里能回放那个画面:王哥坐对面,锅里红油翻滚,他说”再加份脑花”。
语义记忆——”火锅是辣的,毛肚七上八下十五秒。” 脱了具体场景也能说的知识。不需要想起”谁教的”,反正知道。鸳鸯锅一半辣一半不辣,这也是语义记忆。
程序性记忆——调蘸料的肌肉记忆。 蒜泥两勺、香油没过碗底、蚝油一甩、香菜一把。手自己会动,脑子不用想。让你写步骤反而写不全——”蚝油放多少?就一甩嘛。”
同一次火锅,三种记忆都在场。记得和谁吃的(情景)、知道毛肚怎么烫(语义)、手自己会调蘸料(程序性)。
三个框架分别在模仿哪一种?
记忆类型
火锅里是什么
对应的框架
为什么
情景
和王哥吃的这顿火锅
Hermes
五步闭环记录的是”我在什么情况下做了什么事、结果如何”——正是情景记忆
语义
毛肚七上八下
OpenClaw
插件和技能是标准化的知识条目,脱了单次对话也能用——正是语义记忆
程序性
调蘸料的手感
OpenHuman
桌面操作(打开文件、发邮件、调系统设置)练多了就成肌肉记忆——正是程序性
没有一个框架能同时覆盖三种记忆。Hermes 记得住情景但管不了多人的语义库,OpenClaw 的插件是语义级的但不会从对话里自学,OpenHuman 动手能力强但不会跨会话提炼经验。三种记忆——三个框架各占一块。

同一个场景,三种发 prompt 的方式
下面用同一个真实任务——调研中国第二款干细胞药 RY_SW01 的上市过程和临床路线设计——演示三个框架分别是怎么通过 API 向大语言模型发提示词的。
这个任务是典型的多轮复杂调研:搜信息→筛来源→交叉验证→补缺口→结构化输出。每个框架的 prompt 构建方式和 LLM 调用模式完全不同。

① OpenClaw:总台先判断,坐席再干活
用户在企业微信里发了一句话:”帮我调研一下睿源生物 RY_SW01 这款药,写一份分析。”
第一步:Gateway 总台接收消息,做意图分类。
Gateway 拿到这条消息,先不发任务——先调用一次 LLM,用一段简短的分类 prompt:
你是一个意图分类器。判断用户消息属于哪个领域:医药调研日常办公代码开发其他用户消息:"帮我调研一下睿源生物 RY_SW01 这款药,写一份分析。"输出:医药调研
LLM 返回”医药调研”,Gateway 把这条消息路由到配置了”医药调研技能包”的 Lane(坐席)。
第二步:Lane 内的 Agent 开始工作。 它拿到的是 Gateway 已经”预处理”过的消息。它的 System Prompt 已经被技能包注入了一段固定的专业描述:
你是一个医药行业调研助手。工具列表:web_search:搜索互联网web_fetch:抓取网页内容read_file:读取本地文件write_file:写入文件回答风格:客观、引用来源、标注数据局限。
第三步:Agent 循环开始。 和 Hermes 一样是 ReAct 循环——思考→行动→观察→再思考。但核心差异在于:OpenClaw 的 Agent 每轮都带完整 System Prompt(含技能包固定描述),不会从本次任务中”学到”新东西加到 System Prompt 里。
第一轮:
User"帮我调研一下睿源生物 RY_SW01 这款药,写一份分析。"→ Agent 思考 → 决定:先搜基本信息和临床数据→ 调用 web_search → 收到结果
第二轮:
→ Agent 思考 → 提取关键来源 → 调用 web_fetch 抓取详情页→ 收到页面内容 → 发现"三条策略嵌套"是关键信息→ 调用 write_file → 写入本地文件
多轮循环直到完成任务。
OpenClaw 的 prompt 特点:System Prompt 是固定的(来自技能包的一次性注入)。Agent 不会在这次任务结束后把”干细胞药调研”的经验写成新技能——下次遇到类似任务,还是从头搜。记忆中只有本次会话内的对话历史。

② Hermes:自己写 SOP,下次自己用
同一句话:”帮我调研一下睿源生物 RY_SW01 这款药,写一份分析。”
第一步:Hermes 直接进入 Agent 循环。 没有 Gateway,没有总台——用户直接和 Agent 对话。
第二步:Agent 的 System Prompt 和 OpenClaw 不同。 Hermes 注入了一段”你是有学习能力的 Agent”的描述:
你是一个能自我进化的 AI 助手。完成任务后,你会:1. 从本次任务中提炼可复用的操作步骤2. 将步骤保存为 Skill3. 下次遇到类似任务时自动调用这个 Skill工具列表:web_search, web_fetch, read_file, write_file, save_skill, recall_skill
注意最后两个工具——save_skill 和 recall_skill——OpenClaw 没有这两个。
第三步:Agent 完成调研。 过程类似——搜索→抓取→交叉验证→补缺口→写文件。但任务结束后多了一步:
Agent"任务完成。我从中提炼了一个可复用的流程。"→ 调用 save_skill({name"医药调研-干细胞新药",trigger"用户要求调研某款未上市的干细胞药物",steps: ["1. 搜索'药品名称 + CDE/优先审评/临床数据'","2. 抓取CDE公示页和药品数据库","3. 搜索'公司名称 + 股东/融资/创始人'做交叉验证","4. 重点分析临床路线设计——I期拆分、适应症跳跃、报产并行","5. 查患病率和市场空间评估商业化前景","6. 输出结构化分析:药品本身→适应症→路线设计→管线→局限"    ],context_patterns: ["干细胞""未上市新药""优先审评""临床路线"]  })
第四步:下次用户说要调研另一款干细胞药,Hermes 会自动召回这个 Skill。 System Prompt 中动态追加了之前保存的步骤——不用重新探索”应该搜什么、按什么结构写”。
Hermes 的 prompt 特点:System Prompt 是动态增长的。每次任务结束后,Agent 从对话中提炼经验,存入记忆系统。下次同类任务,这些经验自动注入 System Prompt——不是重新从零开始,而是”上次我是这么干的,这次直接套”。

③ OpenHuman:本地单线程,数据不出门
同一句话。
第一步:用户在桌面客户端输入。 没有 Gateway,没有多个 Agent——只有一个独立顾问。
第二步:System Prompt 比前两个更”个人化”。 OpenHuman 的 System Prompt 注入了用户的本地上下文:
你是用户的桌面 AI 助手。你能访问用户的本地文件。当前可以使用的工具:local_search(搜索本地文件), web_search(搜索互联网), local_write(写入本地文件)。用户的文件目录结构:/调研笔记//写作项目//财务数据/隐私规则:任何用户数据不得上传到云端。web_search 只能发送搜索关键词,不能附带用户本地文件内容。
第三步:Agent 的循环和前两个类似,但工具调用的”边界”不同。
关键差异在工具:
  • web_search 发出前,Agent 先剥离任何可能含用户隐私的上下文——搜索词只能是”RY_SW01 临床数据”,不能带”我老板让我调研的”这种信息
  • 搜索结果显示后,Agent 在本地做筛选和整理
  • 最终输出直接 local_write 到用户的本地文件夹——不经过任何云端中转
OpenHuman 的 prompt 特点:隐私规则是硬编码在 System Prompt 里的,不是”建议”而是”红线”。每次调 API 前,Agent 先检查 Prompt 是否含敏感信息,含了就裁掉再发。

三种 prompt 构建方式的核心差异
OpenClaw
Hermes
OpenHuman
System Prompt 来源
技能包一次性注入,固定不变
技能包 + 历史经验动态注入,越用越长
技能包 + 本地上下文 + 隐私规则
学习方式
不学
任务结束后提炼 Skill
不学(但用户手动加规则)
隐私控制
所有数据走 Gateway 云端
对话内容走云端
web_search 发前裁隐私、文件操作全本地
同一任务多次执行
每次都从零搜
第二次自动套上次的 Skill
每次都从零搜
适合什么
固定流程、多人共享
同类任务反复做
数据敏感、单人用

国内日常办公能用到哪些
前面三个框架是”底层思路”。日常工作用的是落地的产品。以下产品按实际架构来归类,不用标签套。
WorkBuddy(腾讯)
实际架构自研 Agent 框架,五层设计。
底座层是 Agent 循环(理解→规划→调用→监控),和 OpenClaw 一样有技能系统(20+ 内置技能包),该产品负责人明确说没使用 OpenClaw 任何一行源码
最核心的差异在”半自动”——WorkBuddy 刻意加了人工确认环节,不会在未授权情况下自主对外发布内容。执行模式分两种:敏感数据走本地(数据不出电脑),复杂推理走云端沙箱(任务完成数据自动删除)。
它像谁:不直接等于任何一个开源框架。从功能形态看,最接近 OpenHuman 的”独立顾问”路线——桌面端、读本地文件、一个用户一个实例。但它比 OpenHuman 多了云端能力和企业微信/飞书/钉钉多端接入,比 OpenClaw 少了完全自主执行。
CC(Claude Code)
实际架构Tool Use Loop 无限循环 + 流式并行工具执行。
 核心是 while(true) 包裹的 Agent 循环:
用户输入 → 调模型 API(streaming 输出)→ 模型边输出边并行执行工具 → 结果拼回对话 → 下一轮。
六个层级的上下文压缩(Snip → Microcompact → Collapse → Auto Compact → Reactive Compact → Manual Compact)。多 Agent 有三种模式:Fork 子 Agent(共享缓存)、Coordinator 模式(主 Agent 调度异步 Worker)、Team Agent(进程内 teammate)。
它像谁:Agent 主循环和 Hermes 最像——都是思考→行动→观察的 ReAct 范式。差别在于 CC 不会自我进化(不写 SOP),但它有六层上下文压缩和三种多 Agent 模式,工程深度超过 Hermes。
扣子空间(字节跳动)
实际架构可视化工作流编排 + 插件系统 + 知识库。
智能体 = LLM(大脑)+ 知识库(记忆)+ 插件(手脚),工作流用拖拽节点搭建。
和 OpenClaw 一样是”搭 Bot 给不同场景用”的思路——一个平台,建多个 Agent,分别管不同渠道。
区别是扣子是低代码可视化(拖拽),OpenClaw 是代码级(写 SKILL.md)。
它像谁:最接近 OpenClaw 的”呼叫中心”路线——Bot 工厂,批量生产、各管一摊。但扣子的编排是可视化的,面向业务人员;OpenClaw 的编排是代码级的,面向开发者。
钉钉悟空(阿里)
实际架构钉钉原生 AI 平台,底层是 Agent OS。
深度集成钉钉生态——日程、审批、文档、会议全链路打通。企业级安全管控(组织权限适配、三级风险拦截)。
和 OpenClaw 一样强调”一个入口接所有事”,但它只接钉钉生态内的事。
它像谁:定位上接近 OpenClaw——统一入口、多任务调度。但范围窄得多:OpenClaw 接一切渠道,悟空只管钉钉里的事。
Marvis(腾讯)
实际架构1 个 PM Agent + 5 个专业 Agent,端云混合。 PM Agent(项目经理)用混元/DeepSeek V4 理解意图、拆任务、分派。五个专业 Agent 各管一块:File(文件)、Computer(系统设置)、App(操控桌面应用)、Browser(网页)、Search(搜索)。敏感任务纯端侧跑 Qwen 模型,数据零上云。
它像谁自成一派。 它是操作系统层级的——不是”帮你聊天的工具”,是”替操作系统的 AI 中间层”。这个定位在三个开源框架里没有对应。非要说的话,专业 Agent 的分工方式和 OpenClaw 的多坐席有点像,但 Marvis 是绑定操作系统的,不是 Bot 工厂。

国内办公,怎么选
市占率的数据支撑了最简单的选型框架。不需要纠结”哪个更强”——看三件事。
在干什么。 写文章、整表格、搜信息、管文件 → WorkBuddy。写代码、调bug、跑测试 → CC 接 DeepSeek。
数据能不能出门。 财务、法务、HR 等敏感场景 → WorkBuddy 本地模式 或 Marvis 隐私模式。数据零上云是硬底线。
是一个人用还是团队用。 目前还没有比较适合团队用的agent,团队协作还没被提上日程。
一个参考组合
  • 非代码人员日常办公 → WorkBuddy(桌面端,本地文件,零门槛)
  • 开发人员写代码 → CC + DeepSeek(终端 Agent,六层压缩,流式并行)
  • 系统级操控电脑 → Marvis(改设置、开应用、跨端协同——别人做不到的)

数据来源:GitHub 仓库 README、官方文档、社区深度分析文章、腾讯云开发者社区 WorkBuddy 架构拆解、Claude Code 源码分析(Yoyo_Lee)、火山引擎扣子开发者文档、CSDN Marvis 架构解析