乐于分享
好东西不私藏

OpenClaw 最近的变化,不是更炫,而是更像一个能长期工作的系统

OpenClaw 最近的变化,不是更炫,而是更像一个能长期工作的系统

我最近看 OpenClaw 的主干变化,最大的感受不是“又出了一个大功能”。

真正值得注意的是另一件事:它正在从一个能调工具、能跑任务的 Agent 框架,往一个能长期在线、能处理异常、能留下证据、能跨通道协作的执行系统演进。

很多人看 AI 产品,习惯盯模型、盯效果、盯一次性的惊艳演示。但真正把 Agent 放到工作流里的人都知道:演示里的聪明,只是入场券;日常里的稳定,才是生产力。

我的判断很直接:OpenClaw 最近的重点,不是更炫,而是更可靠。

把最近变化拆成四层:执行、交付、证据、边界。

先看一个真实问题

一个人通过微信发指令,让 OpenClaw 去打开浏览器、查本地仓库、整理文章、写入公众号草稿、发送预览。

这个过程看起来像一句话。

但系统里面其实串着一整条链路:消息入口、任务调度、浏览器状态、文件生成、图片插入、公众号保存、预览发送、再回到微信通知。

任何一环不稳,最后都会变成一句很刺耳的话:

“你不是说已经完成了吗?为什么后台还是空的?”

我现在越来越觉得,Agent 真正进入工作流以后,最难的不是让它会做事,而是让它做完以后能被验证。

这也是 OpenClaw 最近这些变化值得写的原因。它们表面上是很多 bugfix,放在一起看,其实是在补四层骨架:执行入口、多通道交付、过程证据、权限边界。

第一层:执行入口更稳

最近主干里有一批和浏览器自动化、命令解析有关的修复:browser act 对嵌套 request 字段的兼容、managed Chrome CDP listener 从陈旧状态恢复、slash skill 多行参数保留等。

这些听上去不像发布会上会讲的东西。

但它们对真实使用非常关键。

因为 Agent 真正进入工作,不是只问一句“帮我总结一下”,而是要打开网页、点击按钮、填写表单、处理登录态、读页面状态、把多行参数传给技能,然后继续下一步。

任何一个字段丢失、连接陈旧、参数被截断,都会让一次自动化任务从“看起来很智能”变成“半路卡死”。

我对这类修复的评价很高:它们不是小修小补,而是在补 Agent 的手和脚。

工具调用不是魔法。它本质上是一个很长的执行链条。

链条越长,越不能只靠模型“聪明”。

第二层:多通道开始讲交付纪律

OpenClaw 最近还在持续修 Telegram、WhatsApp、Slack、Feishu、Discord、Mattermost 这些通道里的细节:Telegram 超时后的 handler 恢复、WhatsApp 已读回执 socket 卡死边界、Slack outbound reply 事件、Feishu 自己发出的 receive event 去重、Discord guildId 解析、Mattermost 线程证据不被覆盖。

这些变化背后是一件事:多通道 Agent 最难的不是接入平台,而是处理平台的脾气。

微信、飞书、Slack、Telegram、Discord,每个通道都有自己的消息顺序、回执、线程、重投、权限和异常。

人类聊天时这些只是“小问题”,但 Agent 一旦成为执行层,这些就是交付事故。

多通道不是接入问题,而是交付纪律问题。

比如重复处理一条消息,可能会重复发通知;线程证据丢了,任务就无法追溯;通道自己回环触发,系统就可能把自己的话当成用户指令。

老板真正担心的不是“这个 Agent 会不会接 Slack”,而是“我交代出去的事,会不会跑错地方、漏掉结果、或者把错误当成完成”。

这就是为什么我更愿意把 OpenClaw 看成一个执行系统,而不是一个聊天机器人。

聊天机器人回答问题就结束了。

执行系统要对交付负责。

第三层:记忆和用量变成证据链

另一条很明显的线,是 memory、usage、history 相关能力在增强。

比如 memory_search 在临时模式下的行为修复,gateway sessions.usage 改为全量聚合,session history repair 清理 partialJson 流式残留,失败的 agent turn 写入聊天历史,prompt 释放后还能保住并发 transcript 更新。

这说明 OpenClaw 对“过程证据”的重视在上升。

一个长期工作的 Agent,不能只给最终答案。它必须能回答:

  • 我刚才为什么这么判断?
  • 我调用了哪个工具?
  • 哪一步失败了?
  • 失败有没有记录?
  • 用量是不是算准了?
  • 历史是不是被半截流式 JSON 污染了?

人可以凭感觉说“我记得我做过”,系统不行。

系统必须能留下证据,能恢复现场,能让下一轮执行接得上。

我踩过的坑是:只要一个自动化系统不能复盘,它迟早会退化成人工盯日志。

表面上是 AI 提效,最后变成“人盯 AI 有没有出错”。

这就失去意义了。

第四层:权限边界重新收紧

最近还有几类变化值得注意:无 key Web Search provider 默认 opt-in 的修正,open DM 工具进入安全审计,插件 CLI backend 的 provider policy 解析修复,ClawHub skill 来源 provenance 信任链修正,proxy capture 与 SQLite rollback journal 的私有/安全路径补齐。

这条线很关键。

Agent 越强,权限就越危险。

它能读消息、能开网页、能跑命令、能发通知、能调用外部 provider、能安装 skill,也就意味着它必须知道什么能做、什么不能做、什么必须显式授权、什么必须留痕。

能力越强,边界越要清楚。

我不太喜欢只讲“AI Agent 能帮你省多少时间”的文章,因为那只讲了一半。

另一半是:如果权限、审计、确认关口、外部搜索策略没有设计好,省下来的时间很可能会变成更大的风险。

过去很多 AI 工具的问题,是先追求能力扩张,再回头补安全边界。

OpenClaw 最近这些动作更像是在提前做一件事:让能力增长时,权限系统和审计系统也一起长。

这才是能放进个人工作台、企业环境、自动化流程里的基础。

可以直接复用的四层检查法

如果你也在把 Agent 接进日常工作流,我建议先别急着问“它能不能更智能”。

先问四个更朴素的问题。

Agent 接进真实工作流前,先补这四层证据。

第一,执行入口是否稳定。

浏览器、命令、文件、剪贴板、表单、登录态,这些看起来不高级,但它们决定任务能不能跑到最后。

第二,交付通道是否可追。

一条消息从哪里来,发给了谁,线程有没有保存,失败有没有回执,这些必须说得清。

第三,过程证据是否完整。

不要只看最终答案。要看工具调用、失败轮次、用量、历史、截图、保存后回读。

第四,权限边界是否收紧。

默认能做什么,必须确认什么,外部搜索是否显式启用,插件来源是否可信,敏感文件是否进入审计范围。

我会用一个很简单的模板判断一个 Agent 系统有没有进入可托付阶段:

能执行,只是第一步。 能交付,是第二步。 能复盘,是第三步。 能守边界,才敢长期运行。 

这篇文章不是说 OpenClaw 已经完美。

恰恰相反,我更看重的是它开始认真处理那些“不性感”的问题:超时、回执、线程、历史、权限、策略、恢复、审计。

这些问题不适合做 demo,却决定系统能不能每天用。

真正的 Agent 竞争,最后不会只看谁的模型更会说话。

会看谁能在真实工作里少出错、能追溯、能恢复、能协作、能被信任。

一句话总结我对 OpenClaw 最近动态的判断:

表面是修 bug,实质是在给 Agent 补工业化骨架。

下一步我会继续看三件事:

1. 多通道交付能不能继续减少串线和重复;

2. memory / wiki / session history 能不能成为更稳定的第二大脑;

3. 浏览器、文件、消息、权限这些执行边界,能不能进一步产品化。

如果这些都继续往前走,OpenClaw 的意义就不只是一个工具。

它会更像一个可以长期驻场的个人执行层。