OpenClaw v2026.4.5更新:龙虾学会做梦了,还自己拍视频剪音乐

大家好，我是寂寞的熊猫。

之前写过一篇Claude Code 源码泄露：从 51 万行代码里学到了什么，里面有一个隐藏模块——autoDream，一个在用户空闲时偷偷启动的后台记忆重组机制。

如果 AI 的记忆管理能像人类睡眠一样，有浅睡、深睡和 REM 周期，Agent 的长期记忆质量会不会有质的飞跃？

OpenClaw 现在的最新版本 v2026.4.5，里面最核心的新功能就是一个叫 Dreaming 的记忆系统——把 Claude Code 藏在闭源代码里的 autoDream 实现了，而且是透明的、可审计的、用户完全可控的。

这只是这次更新的一部分。完整的 changelog 包含了约 40 项重大新特性和数百项底层优化。

省流版

Dreaming 记忆系统——三阶段记忆消化（Light/Deep/REM），开源实现了 Claude Code 泄露代码中 autoDream 的核心理念，但完全透明、可观测、用户可控
video_generate 和 music_generate 变成内置工具——不再是插件，Agent 可以直接调用 xAI、阿里万相、Runway、Google Lyria 等多家服务生成视频和音乐
ComfyUI 深度绑定——不只是调 API，而是能直接操控本地的 ComfyUI 工作流节点图，配合本地 GPU 跑出完整的媒体生产流水线
Prompt Cache 大幅优化——6 个 PR 同一天密集合并，缓存前缀稳定性做到字节级，长期运行 Agent 的 token 成本可能降低 30-50%
新增 Qwen、Fireworks、StepFun 等提供商——模型解耦继续加速，绑死一家提供商已经不是 OpenClaw 的风格了

Dreaming 是什么功能

在 Claude Code 源码中，我们发现了一个被 Feature Flag 锁死的后台进程 autoDream。它的设计思路是：用户空闲时，系统在后台偷偷扫描、合并、提炼记忆。但这个功能是封闭的、不可观测的。

之前 OpenClaw 的记忆管理是"被动"的——你问了它才记，不问就忘。上下文塞满了就压缩，压缩完继续塞。这种方式有个致命问题：短期记忆膨胀，长期记忆缺失。Dreaming 系统改变了这个逻辑。它模拟了人类睡眠的三个阶段：

第一阶段：Light Sleep（浅睡眠） Agent 空闲时自动扫描近期的 JSONL 会话日志。不做什么复杂分析，就是先把垃圾过滤掉——重复指令、格式错误的操作痕迹、毫无价值的临时数据，统统丢掉。只保留可能有长期价值的偏好变化和重要决策信号。说白了就是"睡前先整理桌面"。

第二阶段：Deep Sleep（深睡眠） 系统把相对时间标记（比如"昨天""上周"）转化为绝对时间戳，消除不同时期产生的指令矛盾，然后把新发现的事实安全合并到现有记忆结构里。

一个关键设计是"重放安全"（Replay-safe）——即使发生异常中断，重新执行也会智能对账，不会在 MEMORY.md 里产生重复条目。这个细节说明 OpenClaw 团队在工程上想得很清楚。

第三阶段：REM（快速眼动期） 最有想象力的一步。REM 阶段不只是存储事实，而是试图发现跨度极大的信息之间的隐藏关联，提取"持久性真理"（Lasting Truths）。所有发散性思考被隔离写入独立的 dreams.md 文件，日常默认不召回，但用户可以主动查阅。

和 Claude Code 的 autoDream 对比一下很有意思：

维度	Claude Code autoDream	OpenClaw Dreaming（开源）
可见性	仅内部员工分析看板	`/dreaming` 命令 + Dreams UI，用户随时查看
记忆存储	合并到内部结构	dreams.md 独立文件，与主记忆隔离
容错机制	未公开	Replay-safe，中断后重跑智能对账
配置控制	Feature Flag 硬编码	`recencyHalfLifeDays`、`maxAgeDays` 可调

对长期运行的生产力 Agent 来说，这个变化是根本性的。你的 Agent 不再只是一个"你问它答"的工具——它在你不跟它说话的时候，也在默默消化之前的交互，提取规律，积累经验。

视频和音乐能力集成

v2026.4.5 把 video_generate 和 music_generate 提升为系统级内置工具。

之前做视频和音乐生成靠第三方插件，不稳定、配置复杂、容易断。现在变成了原生能力，系统自动路由到合适的提供商：

视频：xAI 的 grok-imagine-video、阿里巴巴 Model Studio 的万相（Wan）、Runway——三个提供商覆盖了不同风格和需求
音乐：Google Lyria、MiniMax，加上 Comfy 工作流支持——从纯音乐到带参考曲风都能搞
容错设计：部分平台不支持某些参数（比如 durationSeconds），系统不再硬崩溃，而是发出警告继续执行

这不是"加了个视频按钮"那么简单。这是 Agent 从文本交互工具向全栈内容生产平台的定位转变。

ComfyUI 深度集成

这个功能对有本地算力的用户来说是大利好。OpenClaw 引入了针对本地 ComfyUI 的深度媒体插件绑定。不是简单调个 API，而是能直接读取、理解、注入提示词，操控本地的 ComfyUI 节点工作流图。

支持 prompt 注入到工作流节点
支持参考图像自动上传
支持实时测试和进度查看
支持结果文件自动下载整理

你可以把它理解成：OpenClaw 变成了一个能自主操控 ComfyUI 的"美术总监"。 如果你有本地算力资源，OpenClaw 可以用本地算力完成从图片到视频的完整生产链。

Prompt Cache 优化

这次更新有一组不太起眼但极其重要的改动——6 个 prompt cache 相关的 PR 在同一天（4 月 4 日）密集合并。核心问题是：Agent 每次调用模型时，都要把系统提示词、工具定义、历史会话全量发给模型。如果这些"前缀"每轮都在变，缓存就全废了，每次都要重新算。

OpenClaw 做了几个关键修复：

压缩方向从"从前往后"改为"从后往前"——改写最早的消息而不是最新的，保持前缀不变
工具列表按名称排序——MCP listTools() 返回顺序不稳定，排序后工具定义变成确定性序列
历史图片保留窗口扩大——不再每轮都裁剪历史图片，减少对已发送内容的改写
系统提示词拆分静态/动态块——以 transport 为边界，让可缓存部分尽量稳定

这些改动不是什么黑科技，但都是"把正确的事做对"。 对长期运行的 Agent 来说，cache 命中率每提高 10%，token 成本就降一截。如果你的 Agent 是 7x24 小时跑的，这个优化实际省下的钱可能比你想象的要多得多。

新增多个模型适配

v2026.4.5 新增了多个提供商的原生支持：

Qwen（通义千问）：直接用，不用手动配置 OpenAI 兼容接口
Fireworks AI：高性能推理云，适合需要低延迟的场景
StepFun（阶跃星辰）：国内另一个选择
Amazon Bedrock Mantle：自动发现推理配置文件 + IAM 认证，AWS 用户的福音
MiniMax TTS 和 Search：语音合成和搜索也加进来了

同时，配置别名做了一次大清理。旧版的 talk.voiceId、talk.apiKey 等遗留别名被移除，统一的 openclaw doctor --fix 可以自动修复。升级的时候跑一下这个命令，基本不会翻车。

多语言 Control UI

Control UI 新增了简体中文、繁体中文在内的 13 种语言支持。之前全是英文的操作面板，现在对国内用户友好多了。Skills 面板也加了 ClawHub 搜索、详情和安装功能，不用离开 UI 就能发现和装新 Skill。

写在最后

Claude Code 源码中 autoDream 的设计思路，现在 OpenClaw 把这个功能开源实现了。

用户可以理解系统在做什么、为什么这么做，而不是盲猜。
用户可以调节 recencyHalfLifeDays 和 maxAgeDays 控制记忆衰减速度，而不是被硬塞一个无法调节的默认值。
用户可以看到 Agent 记忆如何随时间积累经验。

如果对AI个人提效，以及副业感兴趣，而不只是围观，也推荐加入 IDO 老徐 的知识星球：AI 落地实战 · DeepSeek · OpenClaw。

里面会持续分享 OpenClaw 相关内容、AI 工作流搭建、商业化落地和各种实战避坑经验。

有需要交流AI信息的，AI编程，AI绘画，AI视频等等，都可以可以添加微信

我是寂寞的熊猫，程序员，职场努力升职，业余时间探索副业，寻找第二曲线，聚焦AI绘画、 AI 编程、智能体方向副业探索与变现。