OpenClaw 基础架构详解-夜雨聆风

OpenClaw 基础架构详解

OpenClaw 是一款 MIT 开源、本地优先（Local-First）的 AI Agent 执行网关与运行时操作系统，其核心定位是为 AI Agent 提供完整的、自托管的执行环境 ——LLM 提供智能，OpenClaw 提供调度、隔离、持久化与扩展能力，将 “对话式 AI” 升级为 “可执行的 AI Agent”。

其基础架构遵循中心辐射式（Hub-Spoke）核心范式，以 Gateway 网关为唯一的控制中枢与事实来源，所有子系统、扩展能力、交互入口均作为分支节点通过标准化接口与 Gateway 通信，实现了交互渠道、AI 推理、任务执行、能力扩展的完全解耦，同时严格遵循本地优先、沙箱执行、模型无关三大设计哲学。

一、核心分层架构（官方标准架构）

OpenClaw 整体架构从外到内可分为 5 个核心层级，每层职责单一、边界清晰，通过标准化的 WebSocket/HTTP 接口通信，层间严格遵循依赖倒置原则，保证核心稳定的同时实现无侵入式扩展。

1. 接入层：系统与外界的交互入口

接入层是用户、设备与 OpenClaw 交互的唯一入口，分为渠道适配器和控制接口两大模块，核心职责是屏蔽底层差异，实现消息与指令的标准化输入输出。

（1）渠道适配器（Channels Adapter）

负责对接各类通讯平台，将不同平台的消息协议、格式、认证体系标准化，让上层系统无需关心消息来源。

核心能力：认证鉴权、入站消息解析、访问控制、出站消息格式化

原生支持：WhatsApp、Telegram、Discord、Slack、iMessage、飞书、企业微信等 50 + 主流通讯平台

扩展方式：通过渠道插件新增自定义平台，无需修改核心代码

（2）控制接口（Control Interfaces）

提供多种 Gateway 管控方式，适配不同使用场景，所有控制指令均通过 WebSocket 与 Gateway 通信，核心包括：

Web UI：默认监听127.0.0.1:18789，提供聊天、配置管理、会话检查、健康监控等可视化能力

CLI：命令行工具，覆盖 Gateway 启停、Agent 调用、渠道配对、健康诊断等全生命周期操作

桌面 / 移动端应用：macOS 菜单栏应用、iOS/Android 移动端节点，提供 Gateway 生命周期管理、设备能力扩展（摄像头、位置、屏幕录制等）

2. Gateway 核心控制平面层：系统的神经中枢

Gateway 是 OpenClaw 架构的唯一 Hub 核心，基于 Node.js 构建，默认绑定127.0.0.1:18789，是整个系统的唯一事实来源与全局调度中心，所有消息、指令、事件都必须经过 Gateway 流转。

其核心职责包括：

连接管理：维护所有渠道、控制接口、Agent 运行时、节点的 WebSocket 长连接，管理连接生命周期

消息路由与调度：入站消息经过访问控制校验后，解析归属会话，精准分派到对应的 Agent Runtime，同时管理事件分发与重试

会话与状态管理：持有全量会话状态，管理会话隔离、上下文持久化、在线状态、定时任务等，是系统状态的唯一可信源

权限与安全管控：实现接入认证、IP 白名单、渠道级访问控制、操作幂等性保障，防止重复执行与越权操作

配置热重载：支持配置动态更新，无需重启 Gateway 即可生效，同时管理全系统的配置分发

3. Agent Runtime 智能体运行时层：AI 决策的执行引擎

Agent Runtime 是 OpenClaw 的 AI 核心，基于 Pi Agent Core 库实现，是端到端运行 Agent 智能循环的执行引擎，负责将用户指令转化为模型推理与工具执行动作。

其核心执行流程（单轮循环）分为 4 步：

会话解析：根据消息来源，映射到对应会话（个人主会话、DM 会话、群聊会话），加载会话权限与沙箱规则，会话是系统的核心安全边界

上下文组装：动态拼接系统提示、会话历史、技能说明、内存检索结果、工具定义，构建完整的模型输入上下文，避免提示词膨胀

模型推理与工具执行：流式调用配置的 LLM（支持 OpenAI、Anthropic、Gemini、DeepSeek 等 40 + 模型 / 自托管模型），拦截并执行模型发起的工具调用，将工具结果流式回传给模型，完成多轮推理

状态持久化：对话轮次完成后，将更新后的会话历史、工具调用记录、状态数据持久化到磁盘，保证会话连续性

系统提示架构（可组合式设计）

OpenClaw 采用分层可组合的提示词体系，无需修改核心代码，仅通过编辑工作区文件即可定制 Agent 行为：

核心基线：AGENTS.md（全局规则、权限边界）、SOUL.md（个性语气）、TOOLS.md（工具使用约定）

动态注入：会话历史、相关技能说明、语义检索的内存片段、自动生成的工具定义

基础底座：Pi Agent Core 内置的基础指令

4. 能力执行层：Agent 的行动与记忆底座

该层是 Agent 能力的最终载体，负责工具执行、记忆持久化、安全隔离，核心分为三大模块：

（1）工具 / 技能系统（Tools & Skills）

工具（Tools）：原子化的执行能力，内置 bash 终端、浏览器自动化、文件操作、Canvas 渲染等核心能力，可通过工具插件无限扩展，所有工具调用均受沙箱规则管控

技能（Skills）：结构化的任务执行 SOP，基于工具组合实现复杂场景能力（如网页调研、报表生成、邮件自动化），运行时仅注入与当前任务相关的技能，避免提示词冗余

（2）内存系统（Memory）

负责 Agent 的长期记忆与上下文管理，默认基于 SQLite 实现本地持久化，支持通过内存插件替换为向量数据库、知识图谱等存储后端。

核心能力：会话历史持久化、语义记忆检索、用户偏好存储、跨会话上下文继承

设计特点：内存与模型解耦，记忆检索在运行时本地完成，仅相关片段注入模型上下文，兼顾隐私与上下文窗口效率

（3）沙箱执行环境（Sandbox）

OpenClaw 安全架构的核心，基于 Docker 实现工具执行的强隔离，避免 Agent 直接操作主机系统。

可配置隔离规则：不同会话可设置不同的沙箱权限，如个人主会话可开放主机权限，群聊 / DM 会话默认严格隔离

执行管控：所有工具调用均经过权限校验，高危操作需用户二次确认，执行日志全量留存

5. 插件扩展层：无侵入式能力扩展

OpenClaw 采用全插件化设计，无需修改核心代码即可扩展系统能力，插件通过标准化 API 注册到系统，由 Gateway 统一管理生命周期，支持热加载。

官方原生支持四大类插件：

表格

插件类型核心作用扩展场景

渠道插件新增通讯平台适配对接企业微信、钉钉、自定义 IM 系统

模型 Provider 插件新增 LLM 接入能力对接自托管模型、国产大模型

工具插件新增原子执行能力对接企业内部系统、第三方 API、自定义工具

内存插件替换 / 扩展内存存储对接向量数据库、知识图谱、企业知识库

二、核心架构设计亮点

严格的控制与执行分离：Gateway 作为唯一控制平面，不执行 AI 推理与工具调用；Agent Runtime 作为执行平面，无状态、可隔离，两者解耦保证了系统的稳定性与安全性

会话级安全边界：以会话为核心权限单元，不同渠道、不同用户、不同群聊的会话完全隔离，可独立配置权限、模型、工作区，避免权限泄露

本地优先的隐私设计：对话历史、会话状态、工具执行全流程在用户自有基础设施上完成，仅模型 API 调用发送到 LLM 服务商，数据主权完全归用户所有

模型无关的兼容性：Agent Runtime 与 LLM 完全解耦，可无缝切换不同模型，同时支持多模型降级、负载均衡，不绑定任何 AI 厂商

事件驱动的异步架构：全系统基于事件驱动设计，无轮询开销，客户端通过订阅事件获取状态更新，响应延迟低，资源占用少

三、完整请求处理工作流

一条用户消息从发送到得到响应，完整的架构流转流程如下：

用户通过 WhatsApp/Telegram 等渠道发送消息，对应渠道适配器接收消息，完成认证、格式解析、访问控制校验，将消息标准化后发送到 Gateway

Gateway 接收消息，解析消息归属的会话 ID，校验会话权限，将消息分派到对应的 Agent Runtime

Agent Runtime 加载会话上下文，拼接系统提示、历史消息、相关技能、内存片段，构建完整的模型输入

Agent Runtime 流式调用 LLM，拦截模型发起的工具调用请求，根据会话沙箱规则，在 Docker 隔离环境中执行工具

工具执行结果流式回传给 LLM，模型完成多轮推理与内容生成

Agent Runtime 将生成的响应内容发送给 Gateway，同时持久化更新会话状态

Gateway 将响应内容路由回对应的渠道适配器，适配器完成平台格式转换，发送给用户

整个流程中，Gateway 全程管控事件流转、状态更新、权限校验，保证全链路可追溯、可管控