OpenClaw(小龙虾)是一个开源的个人AI助手平台,被设计为AI智能体的操作系统。2026年1月,该项目在短短8周内成长为GitHub历史上增长最快的开源项目之一,突破26万+星标。本文深入分析OpenClaw的核心架构设计,包括轮辐式网关架构、智能体运行时机制以及六阶段执行流程,探讨其如何实现"本地优先"的智能体交互体验。
1引言
1.1 项目背景
OpenClaw(小龙虾)是一个开源的个人AI助手平台,它不是围绕AI模型API的简单聊天机器人包装器,而是被设计为AI智能体的操作系统。2026年1月,一个周末项目在短短8周内成长为GitHub历史上增长最快的开源项目之一,突破26万+星标,超越了Linux当年用18年达成的不朽成绩。这个项目最初只是一个WhatsApp中继脚本,由奥地利开发者Peter Steinberger创建,旨在帮助人们通过消息应用与AI进行交互。
1.2 研究意义
随着社区的积极参与和贡献,OpenClaw逐渐演变成一个功能强大、灵活性高的智能体平台。不同于传统的聊天机器人,OpenClaw强调的是"会行动的智能体"——它不仅能够理解和回应用户,还能够执行各种实际任务,如浏览器自动化、文件操作、代码运行等。这种设计理念为个人AI助手的发展提供了新的范式。
2核心设计理念
2.1 AI作为基础设施
OpenClaw将AI视为基础设施问题,而非仅仅是提示工程问题。传统的做法试图通过巧妙的提示让大语言模型"记住"上下文或安全行事,但这种方法存在根本性的局限性——模型受限于上下文窗口大小,无法真正保持长期记忆;模型也无法保证工具调用的安全性。
2.2 结构化执行环境
OpenClaw采取了不同的路径:在模型周围构建结构化的执行环境,配备适当的会话管理、内存系统、工具沙箱和消息路由。这种设计的核心理念是:LLM提供智能,OpenClaw提供操作系统。AI模型可以随时更换——无论是Anthropic的Claude、OpenAI的GPT,还是本地部署的开源模型——但执行环境保持不变。这意味着用户不会被锁定在特定的AI提供商上,可以根据自己的需求和偏好选择最合适的模型。
| 传统方法局限上下文窗口限制 | 传统方法局限无法保证工具安全 | OpenClaw方案结构化执行环境 |
3轮辐式架构设计
3.1 架构起源
轮辐式架构(Hub-and-Spoke Architecture)是一种经典的系统设计模式,最早起源于航空业。在传统的航空网络中,所有航班都从周边城市(辐条)飞往枢纽机场,再从枢纽飞往目的地。这种设计的核心优势在于资源的集中管理与分配——航空公司不需要在每两个城市之间都建立直飞航线,只需要确保所有城市都能连接到枢纽即可。
3.2 应用扩展
这种模式被广泛应用于各种分布式系统中,例如传统数据库的主从复制、CDN的内容分发、消息队列的集中路由等。在软件架构领域,轮辐式架构被用于构建需要统一入口和集中管理的系统。OpenClaw采用了这种经典的架构模式来解决一个复杂的问题:如何让用户通过多种不同的消息平台与AI助手进行交互,同时保持一致的用户体验和集中化的状态管理。
3.3 OpenClaw实现
在OpenClaw中,Gateway(网关)扮演着"枢纽机场"的角色,而各种消息平台的适配器则相当于"辐条"。所有来自不同消息平台的用户输入都先汇聚到网关,再由网关分发给智能体运行时处理;响应的回传也遵循同样的路径——从智能体运行时到网关,再到对应的消息平台适配器,最后到达用户。
4智能体运行时机制
4.1 核心角色
如果说网关是OpenClaw的"大脑",负责协调和路由,那么智能体运行时(Agent Runtime)就是它的"心脏",负责驱动整个AI交互的生命周期。智能体运行时是一个端到端运行AI循环的引擎,它执行的核心循环包括:从会话历史和内存中组装上下文,调用大语言模型,针对系统可用功能执行工具调用,并持久化更新后的状态。
4.2 与传统聊天机器人的区别
理解智能体运行时的运作机制,是理解OpenClaw如何实现真正"智能"行为的关键。在传统的聊天机器人中,系统只是简单地将用户消息发送给模型,然后将模型的响应返回给用户。但OpenClaw的智能体运行时要做的事情远比这复杂——它需要理解用户意图、决定是否需要调用工具、执行工具并处理结果、并将结果整合到响应中。
4.3 执行循环阶段
智能体运行时的执行循环可以分为几个关键阶段:
| 第一阶段:会话解析 |
| 第二阶段:上下文组装 |
5消息处理六阶段流程
5.1 阶段概述
我们将这个流程分为六个主要阶段:摄取、访问控制和路由、上下文组装、模型调用、工具执行、响应交付。每个阶段都有其特定的责任和性能特征,下面我们将逐一深入分析。
5.2 阶段一:消息摄取
当你通过WhatsApp向OpenClaw发送消息"今天天气怎么样?"时,这条消息首先通过WhatsApp的服务器到达你的手机,然后到达OpenClaw的WhatsApp适配器。在这个阶段,适配器扮演着关键的"翻译"角色。WhatsApp有自己的消息格式和协议,适配器需要理解这些格式并将其转换为OpenClaw内部的标准化表示。
| 适配器核心职责: |
5.3 阶段二:访问控制与路由
消息被适配器转换为内部格式后,通过WebSocket发送给网关。网关在不到10毫秒的时间内完成访问控制检查,这是整个流程中最快的步骤之一。访问控制检查包括:验证消息来源是否被授权、确定消息应该路由到哪个智能体会话、检查会话是否处于活跃状态、验证用户是否有权限执行请求的操作。
5.4 阶段三:上下文组装
智能体运行时接收到消息后,首先进行会话解析,确定这条消息属于哪个会话并加载其保存的状态。从磁盘加载会话通常不到50毫秒,这是一个相当快的操作,因为会话数据被设计为紧凑且易于读取。
会话加载完成后,进入上下文组装阶段,这个阶段通常需要不到100毫秒。上下文组装的过程包括:读取AGENTS.md、SOUL.md和TOOLS.md文件来组装系统提示;根据当前会话的需要,注入相关的技能定义;查询内存搜索系统,找到语义上类似的过去对话。
5.5 阶段四:模型调用
上下文组装完成后,运行时开始调用模型。这个阶段的延迟取决于多个因素:网络条件(到模型提供商的延迟)、模型本身的速度(某些模型比其他模型更快)、以及上下文大小(更长的上下文意味着更长的处理时间)。根据网络状况,从模型获得第一个令牌通常需要200到500毫秒。
| 流式传输设计: |
5.6 阶段五:工具执行
工具执行是OpenClaw实现真正"智能"行为的关键机制。当模型决定需要获取天气信息时,它会在响应中包含一个工具调用请求。运行时拦截这个请求,并执行相应的工具。
不同工具的执行时间差异很大:简单的bash命令通常在100毫秒内完成,而浏览器自动化可能需要1到3秒。OpenClaw的工具执行架构设计得非常灵活。主会话中的工具直接在主机上执行,拥有完整的系统访问权限——这对于需要访问文件系统、运行系统命令等操作是必要的。非主会话中的工具则在Docker沙箱中受限执行——这提供了额外的安全隔离。
5.7 阶段六:响应交付
最终响应准备好后,需要从运行时传回给用户。这个过程从运行时通过WebSocket将响应块发送给网关开始,然后网关将响应路由到正确的频道适配器,最后适配器将响应转换为平台特定的格式并发送出去。
整个响应交付过程被设计为流式的——响应块在生成时立即开始传输,而不是等待完整响应。这减少了用户感知到的延迟,特别是对于较长的响应。
6多平台支持与本地优先
6.1 消息平台整合
OpenClaw让用户可以通过WhatsApp、Telegram、Slack、iMessage、Discord、Signal、Microsoft Teams等已经使用的消息应用访问一个持久运行在自有硬件上的AI助手。这意味着你不需要学习新的界面或工具,只需要用你日常沟通的方式就能获得AI的帮助。
6.2 数据隐私保护
更重要的是,整个体验都在你自己的控制之下——对话历史保存在本地,工具执行在本地进行,数据不会离开你的设备。这种"本地优先"(Local-First)的设计理念在当今数据隐私日益受到关注的背景下显得尤为重要。
| 数据存储本地保存 | 工具执行本地进行 | API调用发送到外部 |
用户可以完全控制助手在哪里运行、如何路由消息、可以使用哪些工具,以及如何隔离会话。模型API调用仍然发送到Anthropic、OpenAI或你的模型所在的任何地方,但所有敏感数据都保留在你的基础设施上。
夜雨聆风