乐于分享
好东西不私藏

拆解小龙虾OpenClaw

拆解小龙虾OpenClaw

人们叫它 “长着手的克劳德”。

这个说法很形象,也很有趣。但从工程角度看,它到底凭什么被这么称呼?

今天这篇文章,不想再写一份安装教程,而是想把 OpenClaw 当成一个教学工具来讲。

它的架构非常干净、简洁,并且开源实现了今天所有严肃 AI 智能体都在运行的底层模式:智能体循环、工具使用、上下文注入、持久化记忆。

一旦你看懂 OpenClaw 是怎么跑起来的,你就真正看懂了所有 AI 智能体的工作原理。


OpenClaw 到底是什么?

先把边界讲清楚:

OpenClaw 不是聊天机器人。

它是一个跑在你电脑或 VPS 上的本地网关进程。这个网关连接你常用的聊天平台,把所有进来的消息,路由给一个基于 LLM 的智能体。

这个智能体不只可以回文字,更重要的是:它能在现实世界里真正动手做事。

你可以用自己的 API 密钥,接入任何模型:Claude、GPT、Gemini,甚至本地跑的 Ollama 模型。OpenClaw 是模型无关的。

表面看,它像一个智能消息助手。本质上,它是一个AI 智能体的本地编排平台


第一步:Gateway 网关 —— 整个系统的神经中枢

OpenClaw 里所有数据,都经过一个叫 Gateway 的单一进程。

官方文档把它定义为:会话、路由、通道连接的 “唯一数据源”。你可以把它理解成整个系统的神经系统

网关通常是一个长期后台进程:

  • Linux 用 systemd
  • macOS 用 LaunchAgent

客户端通过 WebSocket 连接,默认地址:ws://127.0.0.1:18789

它只做四件事:

  • 路由
  • 连接
  • 身份认证
  • 会话管理

而推理、执行,交给智能体运行时。

这是第一个真正重要的架构思想:真正的 AI 智能体,一定在模型前面加一层编排层。你不会把原始 LLM API 直接暴露给用户输入,中间必须有一个受控进程,负责路由、编排、状态管理。

OpenClaw 把这个模式做得非常直白、易懂。


第二步:输入归一化 —— 所有消息先 “统一格式”

当你发给 OpenClaw 一条 WhatsApp 消息,第一件事不是进模型,而是:

通道适配器先把它 “归一化”。

OpenClaw 支持十几个平台:WhatsApp、Telegram、Slack、Discord、Signal、iMessage、微信……

每个平台协议不一样,消息格式天差地别。语音、图片、文件、文本,结构完全不同。

通道适配器会把所有东西,转成统一的消息对象:发件人、正文、附件、元数据。语音会先转文字,再进模型。

这是工业级 AI 的标准做法:输入先规范化,再进模型。输入乱,输出一定乱。


第三步:路由与会话 —— 为什么要串行?

网关拿到标准化消息后,要决定两件事:

  1. 交给哪个智能体
  2. 属于哪个会话

OpenClaw 支持多智能体路由。你可以给不同渠道、不同联系人、不同群,配不同智能体。

重点来了:同一个会话,OpenClaw 永远串行处理,不并行。

靠的是 Command Queue(命令队列)。

原因很现实:如果同一会话两条消息同时跑,会:

  • 工具冲突
  • 状态错乱
  • 会话历史不一致

并发在共享状态的智能体里,是危险的。串行不是限制,是工程上必须的设计。


第四步:智能体循环 —— 这才是核心中的核心

官方文档一句话定义:

智能体循环 = 接收 → 上下文组装 → 模型推理 → 工具执行 → 流式回复 → 持久化

这一段,就是所有 AI 智能体的灵魂。

1)上下文组装

模型没有眼睛,它只知道你塞进上下文窗口的东西。

OpenClaw 的系统提示由四块组成:

  • 基础提示(核心指令)
  • 技能提示(可用技能清单)
  • Bootstrap 上下文(环境级信息)
  • 运行时覆盖(临时注入指令)

上下文怎么拼,是智能体最关键的工程决策。模型知道什么、相信什么、能做什么,全由这一步决定。

2)模型推理

组装好的上下文,发给你配置的厂商:Anthropic、OpenAI、Google、Ollama……

OpenClaw 帮你处理两个细节:

  • 强制遵守模型上下文限制
  • 保留令牌缓冲区(压缩储备)确保模型永远不会因为空间不够而哑火。

3)工具执行 —— 为什么叫 “长着手”?

LLM 的回复只有两种:

  • 直接回文本(本轮结束)
  • 请求调用工具

工具调用就是模型说:“我要读文件、搜网页、发邮件、改代码、查日历……”

OpenClaw 拦截这个请求 → 执行工具 → 拿到结果 → 塞回对话。模型再决定下一步:继续调用工具,还是最终回答。

这就是 ReAct 循环:Reason + Act。这就是智能体和聊天机器人的本质区别。

你可以在 OpenClaw 里实时看到:工具怎么调用、结果怎么返回、模型怎么推理。这就是 “长着手” 的由来。

第五步:技能 —— 优雅的提示工程

技能(Skill)是 OpenClaw 最优雅的设计之一。

一个技能就是一个文件夹,里面有一个 SKILL.md。里面写的是自然语言指令、示例、工具配置。

比如:

  • GitHub PR 审查
  • 代码解读
  • 邮件处理
  • 文档生成

关键点:OpenClaw 不会把所有技能全文塞进提示。

它只注入:技能名称、描述、路径。模型按需读取相关技能。

上下文窗口是宝贵的。这种设计,让基础提示永远简洁。

⚠️ 但一定要注意安全:第三方技能可能存在提示注入、数据泄露、密钥窃取。装技能之前,一定要审。


第六步:MCP—— 让工具 “标准化插拔”

OpenClaw 正在深度支持 MCP(模型上下文协议)。

简单说:MCP 把外部服务变成一组标准工具。Google 日历、Notion、家庭自动化、自定义 API……都能统一接入。

智能体不直接碰底层服务,只调用标准接口。好处是:一个工具写好,能在所有兼容 MCP 的智能体里复用。


第七步:记忆 ——AI 智能体最难的题

LLM 天生无状态。怎么让它记住你几天、几周、几个月的偏好?

OpenClaw 的答案非常简洁 —— 这也是它最棒的设计:

全部存在 Markdown 里。

默认路径:~/.openclaw/workspace/

结构非常干净:

  • AGENTS.md:智能体配置
  • SOUL.md:个性、语气、风格
  • MEMORY.md:长期记忆、偏好
  • HEARTBEAT.md:主动任务清单
  • memory/2026-04-26.md:每日日志

重点:历史日志不会每次都塞进上下文。智能体只在相关时,通过内存工具按需检索。避免上下文爆炸。

当历史太长时,OpenClaw 会做压缩:把旧对话汇总,保留语义,减少 token。

内存检索支持:

  • 基于嵌入的搜索
  • sqlite-vec 加速
  • 关键词匹配

不需要外部数据库,不需要 Redis,不需要 Pinecone。

SQLite + Markdown 就能搞定。

工程里,最简单且能用的方案,往往才是正确方案。


第八步:心跳 —— 让 AI 主动做事,而不是被动等待

OpenClaw 最惊艳的设计之一:心跳机制

默认每 30 分钟触发一次。

每次心跳,智能体读 HEARTBEAT.md:里面是它应该主动检查的任务。

有需要处理的 → 主动做事,甚至主动发消息提醒你。没有 → 回复 HEARTBEAT_OK,网关屏蔽,不打扰你。

这就是:从被动应答 → 主动代理。

你可以用它:

  • 发每日简报
  • 监控网页变化
  • 提前发现日历冲突
  • 定时跑任务

整条流程串起来,就是这样:

消息 → 通道适配器 → 网关 → 路由 → 会话 →上下文组装 → 模型推理 → 工具 / 回复 → 记忆 → 心跳

这就是一套完整的 AI 智能体系统


OpenClaw 教会我们什么通用道理?

现代所有主流智能体框架,底层模式几乎一样:

  • 网关 / 编排层
  • 上下文组装
  • ReAct 循环
  • 工具层
  • 技能 / 提示系统
  • 持久记忆
  • 调度 / 主动行为

OpenClaw 的价值,就是把这些模式写明白、跑起来、看得见

你可以打开:SOUL.md、MEMORY.md、SKILL.md直接看智能体在想什么、记住了什么、按什么规则行动。

透明,是它最大的工程优势,也是最大的安全点。

一个能碰你文件、浏览器、邮件、聊天记录的智能体,权力极大。恶意技能、提示注入,都可能带来风险。所以:安全审计、技能审查,必不可少。

最后总结

OpenClaw 之所以在 2026 年初爆火,不是因为它只是一个好用的工具,而是因为它定义了一种架构范式

本地网关 + 智能体循环 + 技能 + 持久记忆

这会是未来个人 AI 智能体的标准蓝图。

如果你一直想弄懂:AI 智能体到底内部怎么跑?OpenClaw 是你能找到的最好的实战教材之一

代码开源、架构清晰、概念通用。

去读源码,去改配置,去拆文件,去折腾。

这才是真正学会智能体的方式。