乐于分享
好东西不私藏

OpenClaw 又变强了

OpenClaw 又变强了

之前一直在用3.28版本,怕升级挂了,一直没升级。今天升级了一下最新版本,研究了一下都有哪些新功能。
AI 工具这两年多到眼花,每周都有新产品出来说自己更聪明、更快、更懂你。大多数我试了两天就放下了。
OpenClaw 不一样的地方,不是它背后跑的哪个模型有多强——它接了几十个模型,这不是它的差异点。它真正不一样的地方,是它在解决一个绝大多数 AI 工具都假装不存在的问题:你和 AI 之间的关系,能不能随着时间积累?
你今天花两小时跟它讲清楚你的项目背景、你的偏好、你踩过的坑。明天打开,一切清零。你得重新介绍自己。
这不是某一个工具的问题,这是整个行业的默认状态。大家默认 AI 是无状态的,每次对话是全新开始,记忆靠上下文窗口塞。
OpenClaw 这几个月的更新,有一条很清晰的主线:他们在认真拆解这个问题,一层一层地解决它。
下面我按版本顺序,从最早到最新,讲讲这几个月他们都做了什么。

PART 01

v2026.4.5(4月6日):打基础的一个大版本
这个版本的更新量很大,100 多个贡献者,8000 多个 commit。我把里面我觉得真正重要的东西挑出来讲。
Dreaming 的第一次亮相
Dreaming 是这几个月最核心的功能线,它在这个版本里以”实验性功能”的形态首次出现。
先解释一下它是什么,以及为什么这件事比表面上看起来重要得多。
现在市面上几乎所有的 AI 记忆方案,本质都是「更大的上下文窗口」。你说过的话,存在数据库里,下次对话时候塞进提示词里,让模型「看到」。这个方案有效,但有三个根本性的天花板:
第一,成本随时间线性增长。你用的时间越长,历史记录越多,每次对话的 token 消耗越大。用到一定程度,经济上不可持续。
第二,没有遗忘机制。你六个月前说自己不喜欢写文档,三个月前说要改变这个习惯,今天已经在认真写了。但这三条信息在上下文里权重完全相同,AI 无法判断哪条更反映现在的你。
第三,无法建立跨对话的规律。你在十次不同的对话里,都在某个类似的决策节点上卡壳。这个模式藏在十次对话的日志里,上下文塞入方案看不到它。
Dreaming 的思路来自人类的睡眠记忆机制。睡眠研究里有一个关键发现:大脑对白天经历的处理,主要发生在睡眠的不同阶段。轻度睡眠做初步筛选,深度慢波睡眠做信息压缩,REM 阶段做跨记忆的整合与联结。这不是比喻,是有神经生物学实验支撑的机制。
OpenClaw 的 Dreaming 把这个结构直接映射到 AI 记忆处理上:
  • Light 阶段:处理最近的对话日志,过滤掉一次性的信息,比如「今天下雨了」这类不具持久价值的内容。
  • Deep 阶段:把经过初筛的内容提炼成「持久事实」——不是存原始对话,而是提取你的偏好、工作模式、反复出现的背景信息,压缩成更精炼的条目。
  • REM 阶段:把 Deep 阶段的结果真正写入持久记忆(
MEMORY.md
)。这个阶段还会生成「可能的持久真理」作为候选,供操作者确认。设计上是幂等的——重复运行 REM 是安全的,它做的是对账而不是重复写入。
三个阶段有独立的触发时机和频率,不是每次对话结束都全跑一遍。你可以通过
/dreaming
命令手动触发,也可以配置自动运行的频率。
这个版本里 Dreaming 还是实验性的,后续几个版本都有持续打磨,我在对应版本里继续说。
内置视频和音乐生成工具
这个版本加了两个内置工具:
video_generate
music_generate
视频生成接了三家:xAI 的
grok-imagine-video
、阿里云通义万象(Wan)、Runway。
音乐生成接了 Google Lyria(DeepMind 出品,目前 AI 音乐生成第一梯队)、MiniMax、ComfyUI 工作流。
同时,ComfyUI作为独立插件被接入——这是目前本地图像视频生成里自定义空间最大的工具,基于节点图构建工作流,社区有数千个现成工作流可用。现在你可以在对话里直接调 ComfyUI 的工作流,输入提示词和参考图,输出图像、视频或音频,全程本地运行,数据不离开你的机器。
多语言界面:12 种语言同时上线
控制界面一次性加入了简体中文、繁体中文、巴西葡萄牙语、德语、西班牙语、日语、韩语、法语、土耳其语、印尼语、波兰语、乌克兰语。
值得一提的是,中文界面同时覆盖了简繁两种,说明这次本地化不是走过场,而是认真考虑了不同地区的中文用户。
新增供应商:Qwen、Fireworks AI、StepFun、Amazon Bedrock Mantle
  • 通义千问(Qwen):阿里云旗舰模型,中文理解和指令遵循能力在国内几家里属于前列。
  • Fireworks AI:专注推理速度优化的平台,相同质量下速度更快,成本更低,适合需要高频调用、低延迟的场景。
  • StepFun(阶跃星辰):擅长长上下文处理和多模态理解。
  • Amazon Bedrock Mantle:Mantle 是 AWS 的一个新路由层,用 IAM 凭证自动认证,可以一次性接入 Bedrock 上托管的 Claude、GPT 开源版、Qwen、Kimi、GLM 等多个模型,还支持自动发现可用的推理配置和区域。对已经在 AWS 体系里的企业用户来说,这意味着几乎零配置成本接入全套模型。
Prompt 缓存的系统性优化
Prompt 缓存的原理是:如果你的提示词的某个前缀和上次一样,服务端可以复用上次的计算结果,不需要重新跑。这能显著降低延迟和 API 费用。
这个版本针对那些「无意义地破坏缓存」的场景做了一系列修复:工具定义顺序固定化、系统提示格式归一化、
HEARTBEAT.md
移到缓存边界以下、移除系统提示里重复的工具定义文本。这些合在一起,实际使用中缓存命中率大幅提升,
openclaw status --verbose
里可以直接看到数字。
安全加固
  • 设备配对越权:非管理员身份只能管理自己的设备 token,不能触碰其他设备的访问权限。
  • 浏览器SSRF绕过:每次导航跳转后都重新跑封锁检查,防止通过点击序列引导 AI 访问内网地址。
  • ClaudeCLI环境隔离:OpenClaw 启动 Claude CLI 子进程时清理继承的环境变量,防止请求被重定向到不同的配置树或代理。

PART 02

v2026.4.12(4月13日):质量巩固 + Active Memory 登场
Active Memory:记忆检索层
Dreaming 解决长期记忆的沉淀问题,Active Memory 解决另一个问题:当前对话里,该从记忆库里取哪些内容出来用?
Active Memory 插件会在每次回复之前,自动从你积累的记忆里检索相关内容附加进上下文。三种模式:
message
(针对当前消息)、
recent
(最近几条对话)、
full
(全量检索)。用
/verbose
可以实时看到它在调取哪些内容。
这和 Dreaming 组合起来是一套完整的记忆架构:Dreaming 负责把短期信息整理成长期记忆,Active Memory 负责在需要的时候把对的记忆取出来用。
LM Studio 本地模型接入
加了 LM Studio 的内置供应商,包含完整引导流程、运行时模型自动发现、流式预加载,以及用于 memory search 的本地 embedding。本地模型配置门槛大幅降低。
macOS 本地语音(实验性)
通过 Apple MLX 框架在 macOS 上实现本地语音合成。以前 Talk Mode 语音必须调云端 API,现在苹果芯片 Mac 用户可以完全本地运行,延迟更低,不需要联网。
Dreaming 稳定性修复
对 Dreaming 的事件消费和 transcript 处理做了修复,解决了重复摄入的问题。

PART 03

v2026.4.22(4月23日):xAI 全家桶 + 性能飞跃
这个版本有 2000 多个 commit,70 多个贡献者。
xAI 全面接入
图像生成:
grok-imagine-image
(标准版)和
grok-imagine-image-pro
(高质量版)。
语音合成(TTS):6 个不同风格的实时语音,多种音频格式输出。
语音识别(STT):xAI STT,同时扩展了整体 STT 支持,Deepgram、ElevenLabs、Mistral 的流式转录也在这个版本加入。
「流式转录」和普通 STT 的区别:普通 STT 说完一句识别一句,流式转录边说边识别实时输出。这对语音助手体验影响很大——用户感觉到的是「AI 在实时听懂我」。
腾讯云接入
加了腾讯云插件,包含
hy3-preview
模型。
TUI 本地模式
不需要启动 Gateway 后台服务,直接用终端嵌入式聊天模式,同时保留插件审批机制。偶尔想快速问一个问题,不想开服务的场景非常方便。
插件加载速度提升 82-90%
通过 Jiti 原生加载替换动态解析,doctor 命令懒加载优化,整体启动速度大幅提升,
openclaw doctor
运行时间减少 74%。
重要修复
  • WhatsApp 重复发送:30 分钟入站静默后 cron 任务会重复发送 7-12 倍消息的严重 bug,这个版本修掉了。
  • 控制界面认证:bootstrap 配置 JSON 现在必须先通过认证才能获取。
  • 文件符号链接安全:修复通过父目录替换进行符号链接攻击的漏洞。

PART 04

v2026.4.23(4月24日):图像生成扩展 + Dreaming 架构优化
通过 Codex OAuth 使用 OpenAI 图像生成
以前用
gpt-image-2
需要单独申请 OpenAI 图像生成 API 权限,这个权限一直在排队。现在通过 Codex OAuth 认证,只要有 OpenAI 账号用了 Codex,就可以直接调用
gpt-image-2
,包括参考图编辑功能。
OpenRouter 在这个版本也加入了
image_generate
工具支持,背后聚合的大量图像生成模型都可以通过统一接口调用。
图像生成工具新增了 quality、output format 参数,以及 OpenAI 特有的 background、moderation、compression 参数透传。
Dreaming 从心跳进程中解耦
之前 Dreaming 触发绑在心跳(Heartbeat)进程上,现在改为独立 Agent 运行,有自己的生命周期和错误处理。这让 Dreaming 更稳定,排查问题也更容易。
安全修复
  • Teams Bot Framework token 验证:加入
appid
/
azp
字段严格验证,防止伪造请求。
  • Android 连接限制:只允许本地回环连接走明文 HTTP,防止局域网中间人攻击。
  • Agent 配置编辑限制:Agent 驱动的配置修改限制在白名单路径内。
  • Secret 每次请求重新解析:确保配置重载后始终使用最新密钥值。

PART 05

v2026.4.24(4月25日,昨天刚发布):DeepSeek V4 + Google Meet + 实时语音全面升级
这是目前最新版本,150 多个贡献者参与。
DeepSeek V4 Flash 和 V4 Pro
就是昨天发布的新模型,同一天进了 OpenClaw 内置目录。V4 Flash 被设为新用户开箱默认模型——速度快、成本低、中文能力强,日常任务质量已经相当能打,是一个「用起来流畅、不需要纠结」的默认选项。V4 Pro 给复杂逻辑推理、大文档处理、精细代码生成等高要求场景用。
这个版本还修了 DeepSeek V4 在开启 thinking(思维链)时跟进工具调用的
reasoning_content
占位符处理问题。
Google Meet 内置插件
Google Meet 现在作为内置参与者插件,可以加入会议负责:实时转录(Chrome 或 Twilio)、生成会议纪要(Artifact)、出席记录(Attendance export)、录音转录。认证用你自己的 Google 个人账号 OAuth,数据在自己控制下。还加了 Doctor/Recovery 流程,包括 tab 恢复、OAuth 状态检查、浏览器状态修复。
实时语音能力全面升级
Talk Mode、Voice Call、Google Meet 现在全部支持基于 WebRTC 的实时语音循环,语音过程中可以调用完整 Agent 能力(工具调用、记忆检索等)。
新增Gemini Live作为实时语音后端,GradiumTTS提供商(支持语音备注和电话场景),Gemini TTS 支持通过
audioProfile
speakerName
配置说话风格。ElevenLabs 修复了语音通话场景下 PCM 格式输出问题。
浏览器自动化升级
  • 坐标点击:支持通过视口坐标直接点击,不再受限于 CSS 选择器。
  • 更长操作超时:新增
browser.actionTimeoutMs
,默认 60 秒,复杂页面操作不再频繁超时。
  • 按 Profile 配置 headless 模式:不同浏览器配置文件独立配置是否 headless,方便混合使用场景。
OTEL 诊断链路追踪
run 生命周期、model-call、工具执行现在都生成 OTEL span,可导出到 Jaeger、Tempo、Datadog 等可观测性平台。配合
diagnostics.otel.captureContent
配置可记录内容属性,方便调试。
Matrix 安全加固
openclaw matrix verify self
命令加入,从 CLI 建立完整跨签名身份信任。自设备验证现在要求完整跨签名身份信任。

PART 06

把这五个版本放在一起看
把这五个版本的更新连起来看,有几条清晰的演进轨迹:
  1. 记忆系统从无到有,从粗糙到可用。v2026.4.5 的 Dreaming 是第一次亮相,是实验性的。v2026.4.12 的 Active Memory 是配套的检索层。v2026.4.23 把 Dreaming 从心跳进程里解耦出来。三个版本合在一起,才算是一套完整的、可以在实际场景里用的记忆架构。
  2. 多模态能力从「能用」到「好用」。图像生成在 v2026.4.23 解决了 API 权限门槛;视频和音乐生成在 v2026.4.5 打通端到端流程;语音能力在 v2026.4.22 覆盖 xAI 完整语音栈,v2026.4.24 又通过 WebRTC 实时循环提升了一个层次。
  3. 本地化和隐私优先在持续推进。LM Studio 本地模型、macOS MLX 本地语音、ComfyUI 本地工作流,对想在本地跑、数据不出门的用户来说,选项越来越丰富。
  4. 性能和启动速度在持续优化。v2026.4.22 插件加载速度提升 82-90%,v2026.4.24 静态模型目录、懒加载依赖,持续在同一方向推进。
  5. 安全是每个版本都在认真做的事情。每个版本都有不止一处安全修复,而且很多是有实际攻击面的漏洞,不是走过场。

PART 07

跟hermes agent怎么选
最近hermes agent很火,我用了两周,感觉确实非常好用,但是不管是用openclaw还是hermes agent,只要能解决你的问题,都是好东西,不必纠结,选一个好好用就行
不喜欢长篇大论,只喜欢简简单单的干货,关注我,获取更多AI技巧