乐于分享
好东西不私藏

所有人都在装 OpenClaw,但 90% 的人只看到了它的“壳”

所有人都在装 OpenClaw,但 90% 的人只看到了它的“壳”

你好,我是Bin哥,一名 AI 时代的探索者,正在努力研究如何与 AI 共生,今天是我在公众号学习分享的 第290天 。

现在我的 AI 微信群里,六个群里,有五个都在聊"小龙虾"。

不是吃的那种——是 OpenClaw,那个红遍全网的 AI Agent 开源项目。有人晒截图说"帮我自动回了 200 封邮件",有人抱怨 Mac mini 涨价还断货,还有人说公司已经组织了"小龙虾安装大赛",装不好要扣绩效。

这场景像极了 2023 年初全民注册 ChatGPT——上次那波热闹之后,真正跑起来的 AI 项目有几个?

今天不教你怎么装小龙虾。我想带你做一件更值钱,并且有意义的事:看懂它的骨架。 当你理解了 OpenClaw 为什么这样设计,你对整个 AI Agent 的认知会上一个台阶——不管你用不用它。

你只有真正了解了它,你才能知道它能给你带来什么。

一、先看全貌:把 OpenClaw 想象成一家公司

大多数人以为 OpenClaw 是一个"更强的聊天机器人"。不对。

OpenClaw 的本质是一个 Agent 操作系统——它不只是能聊天,而是能住在你电脑里、连接你的各种工具、定时帮你干活、甚至在你睡觉时自己启动任务的系统。

听起来有点抽象?我们换一种方式理解。

把 OpenClaw 想象成一家公司,每一层对应公司里的一个角色:

架构层
公司类比
一句话说明
Channels 渠道层
对外窗口
企微、飞书、QQ、网页……客户从哪来都行
Gateway 控制平面
前台总机
所有请求从这里统一调度,24 小时不下班
Session 会话管理
会议室
每个对话有自己的房间,记录不串、上下文不乱
Agent 智能体
员工
接到任务后思考、拆解、执行
Soul 灵魂
员工的人设手册
定义这个员工的性格、价值观、行为边界
Tools 工具层
员工的工具箱
浏览器、文件系统、API、数据库
Memory 记忆层
知识库 + 笔记本
记住做过什么、知道什么
Context 上下文引擎
会前议程准备
每次开会前决定带什么资料进"会议室"
plugin 插件 & skills 技能包
培训手册 + 外包能力
随时可以学新本事、接新能力

上面那张架构图就是这家"公司"的组织架构。接下来,我们一层一层拆开看。

二、逐层拆解:每一层是什么、干什么、为什么重要

第 1 层:渠道层——"对外窗口"

OpenClaw 不是一个只能在网页里用的聊天框。你可以通过企微、飞书、QQ、Discord、Telegram、WhatsApp、命令行给它发消息下指令。

更酷的是,它还有"设备节点"概念:你的手机摄像头、电脑屏幕,都可以变成 Agent 的"感官器官"。

为什么重要? 传统 AI 助手只活在一个聊天窗口里。OpenClaw 把 Agent 放进了你日常生活的每一个入口——你在手机飞书里说一句话,它就能帮你干活,不需要打开另一个 App,这是多端合一的最好表现。

这就像一家好公司,客户从电话、企微、邮件、柜台都能联系到,体验还是连续的。

第 2 层:Gateway——"前台总机"

这是 OpenClaw 最核心的一层。

Gateway 是一个常驻运行的守护进程(可以理解为 24 小时不下班的前台),做四件关键的事:

  1. 统一接收:所有渠道的消息都先到它这里
  2. 事件路由:判断这个请求该交给哪个 Agent 处理
  3. 定时调度:内建了"闹钟"(cron),能定时触发任务——比如每天 9 点生成日报
  4. 状态管理:维护所有 Session 和 Agent 的运行状态

为什么重要? 很多团队做 Agent,都是"来一个请求临时起一个程序处理",没人记得上次聊到哪了。Gateway 的存在,让 Agent 从"一次性对话"变成了"持续运行的系统"。

第 3 层:Session——"会议室"

这是很多人忽略但极其关键的一层。

每次你和 Agent 对话,背后都有一个 Session(会话)在管理这次"会议"。Session 做的事包括:

  1. 对话隔离:你和 Agent 聊工作是一个 Session,你老婆和同一个 Agent 聊家务是另一个 Session——两边信息不会串。OpenClaw 用 dmScope 来控制隔离粒度,可以按发送者、按渠道、甚至按账号分别隔离。
  2. 历史保存:每个 Session 的对话记录存成 .jsonl 文件(一种结构化日志),Agent 下次醒来能继续上次的话题。
  3. 自动压缩:聊太久了,历史记录超过模型能处理的长度怎么办?Session 会自动把旧对话"压缩"成摘要,保留最近的完整消息——就像会议记录太长时,有人帮你做了一份精华摘要。
  4. 跨渠道续接:你在飞书上聊了一半,换到网页继续,Session 知道这是同一个人同一件事,上下文不断。

为什么重要? 没有 Session 管理的 Agent,就像一家公司没有会议室——所有对话在大厅里喊,谁都能听到,没人记得上次说了啥。Session 是 Agent 从"玩具"变成"可用系统"的基础设施。

第 4 层:Agent + Soul——"员工 + 人设手册"

Agent 是真正"干活"的部分。它接到 Gateway 通过 Session 转过来的指令后,会理解意图、拆解步骤、调用工具执行、返回结果。Agent 背后调用的是大语言模型(Claude、GPT、DeepSeek 等),但模型只是它的"大脑",真正让它能做事的是下面的工具层和记忆层。

Soul 则是 Agent 的"灵魂"——一个叫 SOUL.md 的 Markdown 文件。

这个设计非常有意思:每次 Agent 启动一个新会话,它做的第一件事就是读自己的 SOUL.md——用官方的话说,它在"把自己读入存在"。

SOUL.md 里定义了什么?

  • 性格和语气:比如"简洁直接,不说废话""适度幽默但不油腻"
  • 价值观和边界:比如"涉及金融建议时必须加免责声明""不执行任何可能泄露用户数据的操作"
  • 行为规则:比如"收到邮件先分类再处理""写代码前先确认需求"

你可以随时打开这个文件修改——改完之后,下次对话 Agent 就"变了一个人"。

除了 SOUL.md,还有几个配套文件:

  • IDENTITY.md:外在表现——名字、头像、表情符号(Soul 是内在,Identity 是外在)
  • USER.md:关于你的信息——你的偏好、工作习惯(让 Agent 更懂你)
  • AGENTS.md:Agent 之间的协作指令

为什么重要? 传统聊天机器人每次对话都像失忆了一样从零开始。OpenClaw 的 Agent 每次醒来都知道"我是谁、我该怎么做事、我服务的人是谁"。而且这一切都是人可以直接编辑的 Markdown 文件——改一个文本文件就能改变 AI 的"人格",不需要重新训练模型。

关于多 Agent 协作: OpenClaw 支持多个 Agent 通过 Gateway 协同工作。你可以把它想成一家公司有多个员工——主 Agent 像项目经理,接到复杂任务后,通过 sessions_spawn 派活给子 Agent(数据分析员、代码工程师等)。每个子 Agent 有自己的 Soul、Session 和 Memory,独立干活,做完把结果交回来。就像项目经理委派子任务,组员做完交付,项目经理汇总。子 Agent 的 Session 会嵌套在父 Agent 的 Session 下面,互不干扰。

第 5 层:工具层——"员工的工具箱"

Agent 光会想没用,得有工具才能做事。OpenClaw 内建的核心工具包括浏览器(独立隔离的)、文件系统、终端命令、定时任务等。

关键设计:工具不是随便用的。 每个工具都有三重管控:

  • Schema 定义(说明书):明确的参数说明,模型知道该怎么调用
  • 白名单/黑名单(权限):控制 Agent 能用哪些工具
  • 调用记录(日志):每次操作留痕

为什么重要? 就像公司给员工配工具——发工牌、配工具、做记录,而不是给一把万能钥匙自己摸索。很多 Agent 项目翻车,不是模型"想错了",而是"做错了"——没有工具管控就是在裸奔。

第 6 层:记忆层——"知识库 + 笔记本"

Agent 的记忆分两层:

  • 每日日志memory/YYYY-MM-DD.md):今天做了什么、聊了什么,像工作日志每天记一份
  • 长期记忆MEMORY.md):整理过的重要信息,比如"用户偏好简洁风格""Q2 预算确认为 500 万"

注意,记忆的真相源是 Markdown 文件——你可以直接打开看、直接修改。先有人可以看的真相,再用插件提供搜索能力。

为什么重要? 很多 Agent 系统把记忆全丢进向量数据库(一种 AI 专用的搜索引擎),结果记忆变成黑盒——没人知道 Agent 为什么"想起"了某条信息。OpenClaw 的思路是:先有真相,再有检索。 出了问题,打开文件就能查。

第 7 层:上下文引擎——"会前议程准备"

大语言模型有"窗口"限制——每次能处理的信息量有限。上下文引擎的工作是:每次模型"开会"前,准备最合适的"议程"——带什么历史记录、召回什么记忆、放哪些工具说明、压缩掉什么旧信息。

这个引擎被设计成可替换的插件——法务场景可以自动带合同模板,客服场景自动带工单历史。

为什么重要? 同一个模型,给它不同的上下文,表现天差地别。好的上下文引擎就像一个好助理——会前帮你准备好关键材料,而不是把所有历史文件一股脑堆到桌上。

底层:插件和技能包——"培训手册 + 外包能力"

  • 插件(Plugins):运行时级别的扩展——新工具、新渠道、新记忆引擎。改变的是"Agent 能做什么"。
  • 技能包(Skills):方法论级别的扩展——周报写作技能、需求拆解技能。改变的是"Agent 怎么做"。

同类插件(比如记忆引擎)只允许激活一个——叫"槽位(slot)"机制,像一个岗位同时只能有一个人上岗。

三、这套架构最大的好处

说了这么多层,核心好处就一个:

每一层都可以独立替换,不用牵一发动全身。

想换模型?只改 Agent 层。想加飞书?只改渠道层。想换记忆方案?只换 Memory 插件。想换 Agent 性格?改一个 SOUL.md 文件。想隔离不同用户的对话?调一个 Session 配置。

这就像一家管理好的公司——换一个前台不影响业务部门,新来一个员工不需要重建流程。

四、冷思考:别急着照搬到企业里

第一,安全模型是"个人级"的。 官方明确说了:一个 Gateway 对应一个信任边界。多人共用一个 Agent,默认没有用户间的权限隔离。Bloomberg 报道提到超过 4 万个 OpenClaw 实例暴露在公网上,超过六成存在可被利用的漏洞。

第二,Soul 文件是安全重灾区。 SOUL.md 定义了 Agent 的一切行为,一旦被恶意篡改,等于整个 Agent 被劫持——而且重启后依然生效。安全研究者已经演示了通过网页注入修改 SOUL.md 的攻击链。

第三,插件生态有"供应链风险"。 审计发现约 12% 的公开技能包含恶意代码。企业应该学它的插件架构,但必须建私有白名单注册中心

五、设计 Agent 可以参考的五条建议

建议 1:学它的“分层思维”,别学它的“全部打通”

不管你做什么 Agent 项目,先把架构拆成“渠道层 → 控制层 → 执行层 → 能力层 → 治理层”,让每层职责清晰、接口明确。适用于任何想从 demo 走向真实使用的 Agent 项目。代价是前期需要多花 30% 的设计时间。

建议 2:给 Agent 一个可编辑的“灵魂文件”

借鉴 OpenClaw 的 SOUL.md 思路:用一个人可以直接修改的配置文件,定义 Agent 的性格、规则和边界。不要把这些内容硬编码在代码里。需要注意的是,要做好 Soul 文件的安全防护,防止被注入篡改。

建议 3:Session 隔离是底线,不是可选项

只要有超过一个用户使用你的 Agent,就必须做 Session 隔离,让每个用户的对话独立、上下文不串。代价是运维复杂度增加,存储成本上升。

建议 4:记忆一定要有“人能看懂的真相层”

不要把所有记忆一股脑丢进向量数据库。至少保留一层人工可审阅的文本或文档记忆,作为“真相源”。适用于任何需要跨对话保持状态的 Agent。代价是需要定期审阅和清理,存储成本略增。

建议 5:工具要“登记在册”,不要“偷偷开后门”

每个 Agent 能用的工具,都必须有说明书(Schema)、有权限控制(白名单)、有使用记录(日志)。适用于 Agent 需要操作外部系统(发邮件、改文件、调 API)的任何场景。代价是短期开发效率下降,需要维护工具注册表。

六、最后

这波小龙虾热潮终究会退。但 OpenClaw 真正留给行业的,不是"帮你自动回邮件"的炫酷演示——而是它用一个开源项目,向所有人展示了 Agent 从"能聊天"到"能做事",中间到底需要几层架构。

从渠道接入,到请求调度,到会话管理,到灵魂定义,到任务执行,到工具管控,到记忆存储,到上下文编排——每一层都不是多余的。

记住一句话:装小龙虾只要 10 分钟,但看懂它的骨架,够你用三年。

--- END ---

如果你对 AI 也感兴趣,或者在 AI 学习中有任何疑问,都可以私信我,和我交流。

有什么不同观点也可以在评论区一起讨论~如果觉得有帮助,可以点击下方卡片关注哦~谢谢~