大家好,我是阿成!
这两天,如果你一直在关注 OpenClaw,大概会有一种很熟悉的感觉:它一边还在飞快迭代,一边也在不断提醒所有人——会做事的 AI,和“能长期稳定地做事的 AI”,其实是两回事。

今天社区里最受关注的问题,就是一个很典型、也很刺眼的 bug:Discord WebSocket 在出现 1006 异常关闭后,OpenClaw 没有按预期自动重连,而是触发未捕获异常,直接把 gateway 打崩了。
如果只是从表面看,这像是一个“Discord 渠道出了故障”的技术问题。但在我看来,这件事真正值得写的,不是“又一个 bug”,而是它再次暴露出 OpenClaw 眼下最现实的门槛:
它现在最大的不确定性,已经不是会不会做事,而是当它真的开始替你做事时,到底稳不稳定。
为什么这么说?因为这次出问题的不是一个边角功能,而是 gateway 这一层。而只要你稍微用过 OpenClaw,就会知道,gateway 本质上就是整个系统的中枢:消息进来要靠它,渠道连接要靠它,很多自动化动作的触发也要靠它。一旦这里不是“短暂异常”,而是直接 crash,影响的就不只是某个 Discord 会话,而可能是整条链路突然断掉。
更值得警惕的是,今天这次问题并不是孤例。在同一批社区反馈里,Discord 相关的另外两类问题也一直被反复提到:一个是附件发送表面正常、实际上被静默丢弃,另一个是长时间处理消息后 WebSocket 被断开,继而引发级联故障。也就是说,眼前暴露出来的不是单点偶发,而更像是“渠道层稳定性”正在被真实使用强度逼到边界。
如果把今天这个 bug 放进更大的背景里看,它的意义就更明显了。OpenClaw 过去一段时间其实一直在补“信任”和“运维”这条线。比如 3.8 版本新增了备份命令,修了 updater、LaunchAgent、gateway restart 这些底层问题,明显是在往“更可恢复、更像基础设施”那个方向靠。可与此同时,社区里又不断冒出内存增长、健康检查异常、升级后配置迁移失败、长时间运行不稳定这类问题。换句话说,OpenClaw 一边在努力变稳,一边也在不断被现实使用场景拽出新的坑。
这也是为什么我会觉得,今天这个 bug 不能只当成一个“工程问题”来看。它其实在提醒所有人一件事:
OpenClaw 现在真正要跨过去的,不再是“我能不能把它装起来”,而是“我敢不敢把真实任务长期交给它”。
这两者看起来只差几个字,实际却完全不是一个难度。“能装起来”意味着教程没问题、模型能接上、渠道能跑通;“敢长期交给它”意味着你相信它遇到异常连接时不会一头栽死,升级之后不会莫名停机,运行久了不会越来越不稳定,出了问题以后还能自愈、能恢复、能兜底。
而今天这个 Discord 1006 触发崩溃的问题,恰恰打在了“自愈能力”最关键的位置上。因为用户真正需要的,不是一个一切顺利时看起来很聪明的 Agent,而是一个在真实世界里出问题时,也尽量别把整套系统带崩的 Agent。
这也是 OpenClaw 当前最微妙的阶段。它已经足够强,强到很多人真的开始把它接进真实的沟通渠道、真实的工作流、真实的自动化场景;但它又还没有稳到让人彻底放心。过去几周,围绕 Discord 渠道的 bug 几乎覆盖了断线、丢消息、丢附件、无限重连、事件丢失、跨渠道影响这些你最不想在生产环境里看到的问题。你可以把它理解成一个很清楚的信号:OpenClaw 的下一阶段竞争,不会只是“谁功能更多”,而是“谁先把不确定性降下来”。
OpenClaw 现在最需要补的,已经不是“再多一点能力”,而是“别在异常面前这么脆”。
因为真正让用户流失的,往往不是它不够强,而是它不够稳。你可以接受一个 Agent 偶尔答得没那么漂亮,但很难接受一个 Agent 因为一次 WebSocket 异常,直接把 gateway 打崩。
从这个角度看,今天这个 bug 反而很有代表性。它提醒我们,Agent 时代最难的,从来不只是“让 AI 会做事”,而是“当它开始在真实世界做事时,能不能像基础设施一样可靠”。
而这,可能才是 OpenClaw 接下来真正要跨过去的门槛。
夜雨聆风