OpenClaw 4.5 真正重要的,不是又多了多少功能,而是 Agent 开始从文本执行系统,往多模态执行系统继续推进。
大家好,我是 One。
OpenClaw 4.5 这次更新很大。
如果你只是扫一眼官方 release notes,你很容易得出一个结论:
视频生成来了。音乐生成来了。ComfyUI 接进来了。Qwen、Fireworks、StepFun、MiniMax、Bedrock Mantle 又补了一轮。多语言 UI、Dreaming、缓存、Claude CLI、安全边界,也都在动。
表面上看,这就是一次典型的大版本更新。
功能继续补。生态继续扩。provider 继续加。
但说实话,这不是我看完 4.5 之后最在意的点。
我真正觉得值得盯住的,是另一件事:
OpenClaw 开始认真补 Agent 的“多模态执行”能力了。
这件事听起来没有“又接了哪个新模型”那么显眼,但如果你真的在看 Agent 往哪里走,就会知道,它比很多表层更新都更关键。

一、很多人现在看 Agent,还是太容易只看到“能力更多了”,看不到“执行边界变了”
过去大家聊 Agent,重点基本都在“它还能干什么”。
能不能搜。能不能写。能不能调工具。能不能拆任务。能不能起子 Agent。能不能接更多模型。
这些当然都重要。
但问题是,当 Agent 真开始往执行层走,真正决定它是不是下一阶段系统能力的,往往不是“它又多会了一件事”。
而是:
它能不能处理越来越不同类型的结果。
以前很多 Agent 系统,核心执行对象其实还是文本:
读文件。写内容。查资料。调接口。发消息。
这套能力再强,本质上也还是一个以文本为中心的执行系统。
但 4.5 这次不一样。
因为它补进来的,不只是“新功能”,而是另一类执行对象:
视频 音乐 工作流型媒体生成 异步结果 完成后回传交付
换句话说:
OpenClaw 开始不满足于只做文本 Agent 了。
它开始往一个真正能处理多模态结果的执行系统走。
二、所以 4.5 里最值得看的,不是视频和音乐本身,而是多模态能力终于开始进入原生工具层了
这次更新里,我最看重的是这一组能力一起出现:
内建 video_generate内建 music_generateComfyUI / Comfy Cloud 工作流接入 异步任务跟踪 生成完成后的结果回传 多 provider 的统一接入
你把它们放在一起看,意思其实非常清楚:
OpenClaw 开始把多模态生成,从“外挂能力”往“系统能力”推了。
这背后其实是一个很关键的分水岭。
没有这套能力的 Agent,更像一个会说、会写、会调文本工具的执行器。有了这套能力的 Agent,才开始接近一个能围绕真实内容生产和媒体结果组织工作的系统。
前者更适合演示。后者才更接近可用。
因为现实世界很多任务,最终要交付的根本不是一段文字。
而是:
一张图。一段音频。一个视频。一个经过工作流加工后的成品。
从这个角度看,4.5 补的就不是“更花哨的能力”。
而是:
Agent 开始能处理更真实的交付对象了。
三、为什么我会说,这比“又接一个模型”更重要?
因为模型接入,补的是能力宽度。多模态执行,补的是系统边界。
宽度决定它看起来够不够强。边界决定它到底能替你交付什么。
今天大家都在卷模型、卷多模态、卷工作流、卷媒体生成。
但如果一个 Agent 系统没有把这些事情补进去:
原生工具入口 异步任务管理 结果完成回传 工作流系统接入 用户可感知的交付闭环
那它即便接了很多模型,也很难真正进入真实工作流。
因为你最怕的不是它不会生成。你最怕的是它生成出来之后,系统根本接不住。
这也是为什么,我会觉得 OpenClaw 4.5 这次最重要的信号,不是“又多了什么炫功能”。
而是:
它开始从文本执行系统,往多模态执行系统走了。
四、这次更新最值钱的,不是单点,而是几块能力开始连起来了
如果拆开看,4.5 每一条都像工程更新。
视频生成进工具层。音乐生成进工具层。Comfy 工作流被纳进来。异步任务可以跟踪。生成完成可以继续交付。
单独看,每一条都不算特别炸。
但真正重要的是,它们开始连成一条主线了:
1)执行对象开始变了
Agent 不再只围绕文本结果工作,而开始围绕媒体结果工作。
2)执行节奏开始变了
任务不再默认同步结束,而开始允许先提交、后完成、再回传。
3)工作流边界开始变了
系统不再只是接单点模型,而开始把 Comfy 这种工作流型媒体系统也纳入进来。
4)交付方式开始变了
结果不再只是“屏幕里多一段字”,而是开始朝真正可交付内容推进。
你把这几件事放一起看,会发现 OpenClaw 4.5 这次真正补的,不是零散功能。
而是 Agent 进入下一阶段之前,最该补的那层执行基础设施。
五、为什么 Comfy 被纳入体系这件事,比很多人想的更重要?
因为 Comfy 代表的,不只是又多了一个 provider。它代表的是:
工作流型媒体能力,开始被 Agent 系统原生吸收。
这件事为什么值钱?
因为只接一个模型,你得到的是一个单点能力。但把 Comfy 这类工作流系统纳进来,你得到的是:
本地工作流可以接 云端工作流可以接 prompt injection 可以接 reference image upload 可以接 输出下载可以接 图像、视频、音乐可以共享一层工作流底座
这就不再只是“OpenClaw 支持了某个新模型”。
而是 OpenClaw 开始具备一种更强的能力:
它能把外部生成工作流生态,收编进自己的执行层。
从系统视角看,这比单独再加几个模型重要得多。
因为模型会不断变。热点会不断换。provider 会不断洗牌。
但只要 OpenClaw 能把它们统一接进工具层和交付链路,它就不是在追热点,而是在占执行入口。
六、回头看 4.5,这些更新其实都在指向同一个方向
video_generate。music_generate。Comfy workflow。异步完成回传。provider 扩展。UI 多语言。ClawHub skills 面板。Dreaming。缓存。Claude CLI 工具桥接与安全边界。
你把这些变化放在一起看,会发现 OpenClaw 现在做的事,已经不只是把一个聊天工具做得更强。
它在补的是一整套更像 Agent 执行系统 / Agent 操作系统 的能力骨架。
也正因为这样,多模态、异步任务、交付闭环、平台可用性这些事情,才会越来越重要。
因为一旦 Agent 真开始接入更复杂的结果类型,系统就不能只追求“更强”,而必须同时追求“更完整”。
七、如果说 4.2 让我看到“可恢复编排”,那 4.5 让我看到的是“多模态执行”
我对 OpenClaw 这两次更新的判断,其实是一条连续线。
4.2 更重要的,是它开始补:
状态化 恢复能力 子任务治理 取消收口 后台检查与恢复
那是在补 Agent 编排的可靠性底座。
而 4.5 更重要的,是它开始补:
多模态工具原生化 视频和音乐进入内建执行层 异步任务跟踪与完成回传 工作流型媒体系统接入 更完整的平台 UI、provider 和技能可用性
那是在补 Agent 的执行边界和交付边界。
前者解决的是:
Agent 能不能稳定跑。
后者解决的是:
Agent 到底能稳定替你交付什么。
这两个问题一旦接起来,OpenClaw 才开始更像一个真正的 Agent OS。
不是只会说。不是只会调用几个文本工具。不是只会演示自动化。而是开始能围绕真实生产结果组织执行。
这才是我觉得 4.5 真正该看的地方。
八、我对 OpenClaw 4.5 的判断是:
这次真正值得关注的,不是“它又更全了”。
而是 OpenClaw 正在把 Agent 从一个以文本为中心的执行系统,继续往一个多模态、平台化、可交付的 Agent OS 推进。
如果你只是从更新列表上看,4.5 会显得很杂。
视频、音乐、Comfy、provider、多语言、dreaming、缓存、审批、Claude CLI……什么都有。
但如果你抓主线去看,就会更清楚:
OpenClaw 不是在乱加功能,它是在继续补 Agent OS 需要的那几层关键骨架。
4.2 补的是“可恢复编排”。4.5 补的是“多模态执行”。
这两步放在一起,你就会发现,OpenClaw 现在想做的,已经越来越不是一个聊天式 AI 工具了。
它更像是在认真做一套:
能编排、能恢复、能接入多模态、能跨 provider、能交付结果、能被更多人长期使用的 Agent 操作系统。
这件事,才是 4.5 比“又多了视频和音乐”更重要的地方。
最后一句
真正的分水岭,从来不是 Agent 会不会再多做一件事。
而是它能不能把越来越多不同类型的事,纳入一套统一、稳定、可交付的系统里。
从这个角度看,OpenClaw 4.5 真正往前走的一步,不是更炫了。
而是 Agent 开始补上“多模态执行”这块了。
以上,
夜雨聆风