OpenClaw 拆解①丨我花一周读完源码,发现 Agent 正在重新发明操作系统

上周我做了一件可能有点疯狂的事。

我把 OpenClaw 的核心源码，从 Agent Loop 到 System Prompt，从 Memory 系统到 Context Engine，一行一行读完了。不是看文档，不是读博客，是直接啃 TypeScript 源码。

你问为什么？其实吧，我最近一直在研究 Agent 框架的架构设计。看了 LangGraph、AutoGen、CrewAI 各种框架的设计文档，总觉得隔靴搔痒。文档告诉你「怎么用」，但不告诉你「为什么这么设计」。而 OpenClaw 作为一个 367K Star 的项目，它的架构选择一定经过了大量用户场景的验证。

所以我决定，直接看源码。

结果这一看，还真看出了一些让我挺震撼的东西。

🔬 五个模块 · 二十一个知识缺口 · 一个贯穿始终的洞察

我先说结论，然后再一个一个展开。

我读完整个代码库之后，脑子里冒出来的第一个念头是，这玩意不是一个 AI 应用框架，这是一个操作系统。

不是比喻，是真的在结构上高度同构。

Agent Loop 的三层嵌套循环，和 OS 的进程调度如出一辙。Memory 的三层架构，和你手机里的内存层级一模一样。Prompt 的六层组装，像极了网络协议的 OSI 模型。甚至连错误恢复的 Failover 策略，都和 Kubernetes 的 Pod RestartPolicy 几乎一一对应。

你要是做过系统架构，看到这些映射关系的时候，真的会有一种「原来如此」的感觉。

好，一个一个聊。

大部分人对 Agent 的理解是，用户说一句话，Agent 回一句话，一来一回。

坦率的讲，我之前也是这么想的。

但 OpenClaw 的 Agent Loop 完全不是这个结构。它是一个三层嵌套循环，每一层处理不同粒度的故障。

L1: for(;;)  ← Provider 级别故障转移（换 API Provider）
  L2: while(true)  ← Model 级别重试（换模型/Profile）
    L3: runEmbeddedAttemptWithBackend()  ← 单次 API 调用

L3 是最内层，负责一次具体的 API 调用。如果调用失败了，L2 会决定要不要换一个 API Key 重试，或者切换到备用模型。如果 L2 的所有重试都用完了，L1 会尝试切换到完全不同的 Provider。

这个结构让我想到了什么？

CFS 调度器。

Linux 内核的 CFS（完全公平调度器）也是类似的嵌套结构。最外层是 CPU 级别的负载均衡，中间是调度域内的任务迁移，最内层是单个 CPU 上的时间片分配。每一层处理不同粒度的「故障」，失败了就上升一层处理。

💡 Agent Loop 的三层嵌套 = OS 调度器的三级调度。不是巧合，是同一个问题的同一个解法。

但最让我觉得有意思的，不是这个结构本身，而是 OpenClaw 的重试策略。

它不是简单地「再来一次」。

每次重试，它会往 Prompt 里追加一条新的「修正指令」。第一次失败，追加 ackExecutionFastPath 修正。第二次失败，追加 planningOnlyRetry。第三次，reasoningOnlyRetry。每一轮的 Prompt 都比上一轮多了一条「上次你做错了什么」的反馈。

反直觉 重试不是 ctrl+z 重来，而是每次带着新的诊断信息重试。

这让我想到了 TCP 的拥塞控制。TCP 也不是丢包了就原样重发，它会根据丢包的模式调整窗口大小。慢启动、快重传、快恢复，每一次重传都带着对网络状态的新认知。

OpenClaw 的重试策略，就是 Agent 世界的拥塞控制。

顺着这个再聊聊 Failover 的决策逻辑。OpenClaw 有一个函数叫 resolveRunFailoverDecision，它是一棵三阶段五出口的决策树。

决策	含义
`continue_normal`	没事，继续
`rotate_profile`	换一个 API Key
`fallback_model`	切换备用模型
`surface_error`	放弃，告诉用户
`return_error_payload`	返回错误但不崩

你看这五个出口，是不是特别眼熟？

continue_normal ≈ K8s Pod Running，rotate_profile ≈ 换 Node 重调度，fallback_model ≈ 降级到 BestEffort QoS，surface_error ≈ CrashLoopBackOff 最终放弃。

还有一个反直觉的设计，重试次数上限不是固定常量。它是 resolveMaxRunRetryIterations(profileCandidates.length)，你配了多少个 API Key，上限就有多高。多配 Key 不只是提高可用性，还能增加容错空间。就像 RAID 阵列，磁盘越多，冗余度越高。

🧠 三层记忆，和你手机的内存一模一样

说真的，这是整个拆解过程中让我最兴奋的部分。

OpenClaw 的记忆系统分三层。

层级	名称	容量	速度	持久性
L1	ContextEngine（工作记忆）	~100K tokens	即时	会话级
L2	MEMORY.md（长期记忆）	无限	较慢	永久
L3	MemorySearchManager（语义检索）	无限	最慢	永久

L1 是当前对话的上下文，相当于你手机的 RAM。容量有限，速度最快，掉电就没了。

L2 是持久化的 Markdown 文件，相当于 Flash 存储。容量无限（磁盘能有多大就有多大），但读写需要额外操作。

L3 是基于向量的语义搜索，相当于搜索引擎。你不需要记住信息在哪，描述一下你要找什么，它帮你检索。

你看，L1 ≈ RAM，L2 ≈ Flash，L3 ≈ 搜索引擎。容量从小到大，速度从快到慢，持久性从弱到强。这就是经典的存储金字塔。

💡 计算机科学 70 年反复验证的存储层级设计，Agent 框架又重新发明了一遍。

但更有意思的是 compact（压缩）机制。

当 L1 的对话历史太长，快要超出 token 预算的时候，OpenClaw 不是简单地截断旧消息。它会把整个对话发给 LLM，让 LLM 生成一份摘要，然后用摘要替代原始历史。

这个过程有个名字叫 compactEmbeddedPiSessionDirect。我读到这个函数的时候愣了一下，因为它复用了完整的 System Prompt 来做压缩。不是一个精简的「请总结以下对话」的提示词，而是带着完整的角色定义、工具列表、行为规范的 System Prompt。

为什么？

因为如果 LLM 在压缩时不知道自己是谁、能做什么，它生成的摘要就会「跑偏」。就像你让一个不知道自己是医生的人总结一段医疗对话，他可能会漏掉关键的诊断信息。

反直觉 压缩操作比正常对话更贵（需要完整 System Prompt + 全部历史），但这是正确的设计。用短期成本换长期质量。

这跟 PostgreSQL 的 VACUUM 是同一个道理。VACUUM 清理死元组的时候，也需要完整的表结构信息才能正确工作。

📦 六层 Prompt 组装，就是 AI 版的 OSI 模型

每次 OpenClaw 调用 LLM API，它发出去的 Prompt 不是一个简单的字符串。

它是一个精心组装的六层结构。

L1: System Prompt (~8-15K tokens)        ← 身份+规则+工具，类比 OSI 物理层
    ═══ CACHE BOUNDARY ═══
L2: Memory Addition (~2-5K tokens)       ← 注入长期记忆
L3: Bootstrap Files (~3-10K tokens)      ← SOUL.md/AGENTS.md/CLAUDE.md
L4: Context Files (~5-15K tokens)        ← 项目代码快照
L5: Conversation History (~30-80K tokens)← 最大层，compact 管理
L6: User Message (~0.5-5K tokens)        ← 当前用户输入

每一层都有自己的来源、自己的预算管理、自己的牺牲策略。

中间那个 CACHE BOUNDARY 是 OpenClaw 的一个精妙设计。它在 System Prompt 中间画了一条线，线以上的内容是「稳定的」，可以被 LLM API 的 prompt cache 命中。线以下的内容是「动态的」，每轮都会变化。

你想想看，每次 API 调用都要发送 50-130K tokens。如果每次都从头计算，成本会非常高。通过把稳定内容放在前面，OpenClaw 能让 API Provider 缓存大约 40-60% 的 Prompt，显著降低延迟和成本。

这跟 HTTP 的 Cache-Control 是完全一样的思路。stablePrefix 是 public, max-age=forever，动态部分是 no-cache。

💡 每次空对话就要消耗 21K tokens，固定开销占总预算的 16%。这解释了为什么 OpenClaw 要在提示词中精打细算每一行文字。

然后是牺牲顺序。当 token 预算不够的时候，谁先被砍？

L5 对话历史 → L3 Bootstrap Files → L4 Context Files → L2 Memory → L1 System Prompt → L6 用户消息

用户消息永远不被压缩，System Prompt 几乎不被压缩，对话历史第一个被牺牲。

反直觉 这个顺序不是一个统一的「优先级调度器」控制的。每一层都有自己独立的预算管理机制。牺牲顺序是各层独立响应资源压力「涌现」出来的。像经济学的价格机制，没有中央计划者，但宏观上形成了有序的退出序列。

⚠️ 中文用户的隐藏陷阱

这个发现让我有点不舒服，但我觉得必须说出来。

OpenClaw 的 token 计数用的是字符估算法。核心参数是这样的。

CHARS_PER_TOKEN_ESTIMATE = 4    // 每 4 个字符 ≈ 1 个 token
SAFETY_MARGIN = 1.2              // 安全系数 1.2 倍

对英文来说，这个估算是偏保守但基本准确的。英文平均大约 3.5-4.5 个字符一个 token。

但对中文呢？

中文的 token 密度完全不一样。一个中文字通常是 1-2 个 token，也就是说 chars/token 大约是 1.5-2，而不是 4。

所以实际情况是什么呢？

OpenClaw 会低估中文对话的 token 使用量，大约低估 50-60%。

后果是，中文用户的对话会比系统预期更快地逼近 token 上限，触发 compaction 的频率更高。你可能聊了没几轮就发现 Agent 的「记忆力」变差了，那不是 LLM 的问题，是 token 预算被低估导致过早压缩了。

⚠️ CHARS_PER_TOKEN = 4 是一个西文中心主义的假设。对中文、日文、韩文等 CJK 语言，这个数字应该是 1.5-2。但代码里没有语言检测逻辑，一刀切用 4。

这让我想到了 Unicode 的变长编码（UTF-8）。英文 1 字节，中文 3 字节。很多早期系统假设 1 字符 = 1 字节，导致中文处理一堆 bug。现在 Agent 框架又在 token 层面犯了同样的错误。

我觉得这不是故意的忽视。大概率是因为开发团队主要处理英文场景，测试数据也以英文为主。但作为一个中文用户，这个数字差异带来的体验退化是实实在在的。

🎯 我的判断

读完这些源码之后，我有几个比较确定的判断。

第一，Agent 框架正在不可避免地走向操作系统化。

你看 OpenClaw 的架构，三层循环是调度器，记忆系统是存储层级，ContextEngine 是 MMU（内存管理单元），Prompt Cache Boundary 是 Cache Line 对齐。这些不是巧合，是因为 Agent 框架和操作系统面对的是同一类问题，在有限的资源（token 预算 ≈ 内存/CPU）上，管理多个并发任务（工具调用 ≈ 系统调用），同时保持状态的一致性和可恢复性。

第二，ContextEngine 是 Agent 框架里最被低估的组件。

OpenClaw 目前的 ContextEngine 实现（叫 Legacy）几乎是空壳，assemble() 直接 pass-through 返回所有消息，ingest() 是 no-op。真正的 token 管理逻辑分散在 compaction、bootstrap 等调用方。

但这个「空壳」其实是最值得关注的扩展点。未来如果有人实现一个基于重要性评分的 ContextEngine，能根据对话内容的语义权重智能选择保留哪些消息、丢弃哪些消息，而不是简单粗暴地做 LLM 摘要，那 Agent 的「智慧感」会有质的飞跃。

第三，Heartbeat 的设计范式值得深思。

OpenClaw 的 Heartbeat 不是定时器。它没有 setInterval，没有 watchdog 线程。它就是在 System Prompt 里加了一段话，告诉 LLM「你需要定期汇报进度」。

用语言控制行为，而不是用代码控制行为。这是 Agent 框架特有的设计范式。传统系统用硬件中断驱动心跳，Agent 用「提示词中的行为契约」驱动心跳。

💡 当你的「CPU」（LLM）能理解自然语言时，很多传统的控制流机制都可以「上移」到提示词层面。这不是偷懒，这是新的设计空间。

第四，Agent 记忆隔离和 Android 进程模型几乎一模一样。

每个 Agent 的记忆空间按 agentId + workspace 隔离。父 Agent 的 MEMORY.md 对子 Agent 不可见。信息传递不通过共享文件系统，而是通过 prepareSubagentSpawn() 时显式传递的 context。

agentId ≈ Linux UID，workspace ≈ /data/data/<package>/，显式 context 传递 ≈ Binder IPC。

连安全模型都是一样的，默认隔离，需要共享就走显式的通信通道。

还有一个细节很有意思。OpenClaw 的记忆生命周期通过 events.jsonl 记录了三种事件。

memory.recall.recorded 是每次检索记忆。memory.promotion.applied 是从短期记忆提升到长期记忆。memory.dream.completed 是周期性的记忆整理。

recall → promotion → dream，检索 → 巩固 → 整合。

你不觉得这和人脑的记忆巩固过程惊人地相似吗？工作记忆中的信息被反复检索（recall），重要的被海马体标记并转移到皮层（promotion），然后在睡眠期间重组整合（dream）。

OpenClaw 甚至把这个文件叫 .dreams。我不确定起名的人是不是故意的，但这个命名也太贴切了。

回到最开始的那个判断，Agent 框架正在重新发明操作系统。

这句话听着像是批评，但其实不是。

计算机科学的历史就是在不同的抽象层级上反复解决同一类问题。硬件层解决了进程调度，数据库层解决了事务管理，网络层解决了可靠传输。现在 Agent 层在解决「如何在有限 token 预算上管理多任务 AI 会话」，用到的解法和前辈们一脉相承。

说真的，我觉得这恰恰说明了这些设计模式的生命力。它们不是过时的东西，是经过几十年验证的、解决资源约束下任务编排问题的最优解。

如果你是做 Agent 开发的，我建议你去翻翻操作系统的教科书。不是为了考试，是为了少走弯路。OpenClaw 的架构师们显然读过这些书，所以他们的设计才这么优雅。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～

谢谢你看我的文章，我们，下次再见。