OpenClaw又出大 bug:真正值得担心的,不只是崩溃本身

大家好，我是阿成！

这两天，如果你一直在关注 OpenClaw，大概会有一种很熟悉的感觉：它一边还在飞快迭代，一边也在不断提醒所有人——会做事的 AI，和“能长期稳定地做事的 AI”，其实是两回事。

今天社区里最受关注的问题，就是一个很典型、也很刺眼的 bug：Discord WebSocket 在出现 1006 异常关闭后，OpenClaw 没有按预期自动重连，而是触发未捕获异常，直接把 gateway 打崩了。

如果只是从表面看，这像是一个“Discord 渠道出了故障”的技术问题。但在我看来，这件事真正值得写的，不是“又一个 bug”，而是它再次暴露出 OpenClaw 眼下最现实的门槛：

它现在最大的不确定性，已经不是会不会做事，而是当它真的开始替你做事时，到底稳不稳定。

为什么这么说？因为这次出问题的不是一个边角功能，而是 gateway 这一层。而只要你稍微用过 OpenClaw，就会知道，gateway 本质上就是整个系统的中枢：消息进来要靠它，渠道连接要靠它，很多自动化动作的触发也要靠它。一旦这里不是“短暂异常”，而是直接 crash，影响的就不只是某个 Discord 会话，而可能是整条链路突然断掉。

更值得警惕的是，今天这次问题并不是孤例。在同一批社区反馈里，Discord 相关的另外两类问题也一直被反复提到：一个是附件发送表面正常、实际上被静默丢弃，另一个是长时间处理消息后 WebSocket 被断开，继而引发级联故障。也就是说，眼前暴露出来的不是单点偶发，而更像是“渠道层稳定性”正在被真实使用强度逼到边界。

如果把今天这个 bug 放进更大的背景里看，它的意义就更明显了。OpenClaw 过去一段时间其实一直在补“信任”和“运维”这条线。比如 3.8 版本新增了备份命令，修了 updater、LaunchAgent、gateway restart 这些底层问题，明显是在往“更可恢复、更像基础设施”那个方向靠。可与此同时，社区里又不断冒出内存增长、健康检查异常、升级后配置迁移失败、长时间运行不稳定这类问题。换句话说，OpenClaw 一边在努力变稳，一边也在不断被现实使用场景拽出新的坑。

这也是为什么我会觉得，今天这个 bug 不能只当成一个“工程问题”来看。它其实在提醒所有人一件事：

OpenClaw 现在真正要跨过去的，不再是“我能不能把它装起来”，而是“我敢不敢把真实任务长期交给它”。

这两者看起来只差几个字，实际却完全不是一个难度。“能装起来”意味着教程没问题、模型能接上、渠道能跑通；“敢长期交给它”意味着你相信它遇到异常连接时不会一头栽死，升级之后不会莫名停机，运行久了不会越来越不稳定，出了问题以后还能自愈、能恢复、能兜底。

而今天这个 Discord 1006 触发崩溃的问题，恰恰打在了“自愈能力”最关键的位置上。因为用户真正需要的，不是一个一切顺利时看起来很聪明的 Agent，而是一个在真实世界里出问题时，也尽量别把整套系统带崩的 Agent。

这也是 OpenClaw 当前最微妙的阶段。它已经足够强，强到很多人真的开始把它接进真实的沟通渠道、真实的工作流、真实的自动化场景；但它又还没有稳到让人彻底放心。过去几周，围绕 Discord 渠道的 bug 几乎覆盖了断线、丢消息、丢附件、无限重连、事件丢失、跨渠道影响这些你最不想在生产环境里看到的问题。你可以把它理解成一个很清楚的信号：OpenClaw 的下一阶段竞争，不会只是“谁功能更多”，而是“谁先把不确定性降下来”。

OpenClaw 现在最需要补的，已经不是“再多一点能力”，而是“别在异常面前这么脆”。

因为真正让用户流失的，往往不是它不够强，而是它不够稳。你可以接受一个 Agent 偶尔答得没那么漂亮，但很难接受一个 Agent 因为一次 WebSocket 异常，直接把 gateway 打崩。

从这个角度看，今天这个 bug 反而很有代表性。它提醒我们，Agent 时代最难的，从来不只是“让 AI 会做事”，而是“当它开始在真实世界做事时，能不能像基础设施一样可靠”。

而这，可能才是 OpenClaw 接下来真正要跨过去的门槛。