我用一个AI,修复了另外一个AI-夜雨聆风

我用一个AI,修复了另外一个AI

这几天，我做了一件现在回头想想都觉得挺有意思的事：我用一个 AI，去修另外一个 AI。

听上去有点绕，但事情就是这么发生的。

我本地一直在用 ClawX。它本来是一个很好用的 AI 客户端，可以接多个 Agent，也能接飞书这类频道，理论上很适合我这种喜欢把不同任务拆给不同智能体的人。可前段时间，它突然开始变得特别不稳定。

最开始的现象很烦人，但又不是那种”一看就知道坏了”的烦人。它不是完全打不开，也不是彻底报错，而是那种”看起来好像没问题，但实际上就是不能正常用”的状态。

比如，客户端能打开，页面也在，飞书频道也还挂着，端口看起来也是开的。可一旦我真正去发消息，它就开始不对劲了。有时候页面提示网关没启动，有时候频道一会儿正常一会儿降级，有时候 Agent 列表还在，但就是不回复。最让人抓狂的是，它偶尔还能恢复几分钟，让你以为已经好了，结果过一会儿又掉。

这种问题最折磨人的地方就在于：它不是坏得很彻底，而是坏得很暧昧。

于是我就干脆换了个方式处理：不再自己凭感觉瞎猜，而是直接让另外一个 AI —Codex来帮我一起查。说白了，就是我把这个故障当成一个真实的”排障项目”，让 AI 陪我一步一步把它拆开。

一开始，我也怀疑了很多方向。是不是飞书配置错了？是不是 Agent 太多了？是不是版本问题？是不是网络不稳定？是不是用久了缓存太大、文件太多，把程序拖慢了？这些怀疑都很自然，因为每一个看上去都像真相。

但真正往下查的时候，我慢慢发现，事情没有那么简单。

最先查的是最基础的一层：网关到底活没活着。结果发现一个特别典型、也特别迷惑的现象：有时候本地端口明明是通的，页面也能打开，甚至状态看着像在线，可是真正发起一次会话，它还是会超时。也就是说，这个 AI 不是完全死了，而是进入了一种”表面活着，实际不干活”的状态。

查到这里的时候，我就意识到，问题不只是配置错，而更像是它内部某一层卡住了。

后面我就开始让 AI 帮我做更细的拆分。比如，先把飞书这一层隔离掉，看是不是飞书把它拖垮了；再把多 Agent 的影响隔离掉，看是不是同时跑太多智能体导致不稳；再去看是不是哪个插件、哪个技能扩展在偷偷搞破坏。每排除掉一层，我对这个问题的理解就更清楚一点。

最后有一个发现特别关键：问题并不主要在飞书，也不主要在网络，而是在 ClawX 客户端和它本地网关之间的这条链路。

这个发现很重要，因为之前我一直把它当成”一个整体软件”来看，总觉得哪里坏了就重装一下试试。但真正拆开之后才发现，客户端、网关、频道、Agent，其实是几层东西叠在一起工作的。只要其中一层表面正常，另一层暗地里卡住，你就会看到那种最烦人的状态：页面没完全挂，但功能就是不行。

于是后面的修复思路就变了。

我不再追求”整个一起修”，而是先做一件最朴素的事：先稳住底座。也就是说，先让最底层的网关稳定运行，再让客户端去连接一个已经稳定的网关，而不是每次都让客户端自己去拉起、自己去托管、自己去反复重启。

这一步做完之后，变化很明显。最起码，端口不再是一会儿通一会儿断了，网关存活性好了很多。然后我再把 Agent 和飞书通道一点点接回来，观察每加回来一层，会不会重新出问题。

修到这里的时候，我其实一度挺兴奋的，因为表面上看，很多东西都恢复了：客户端能开，端口也稳定，状态检查也显示网关可达，飞书通道看起来也在线。

但真正让我长记性的是后面这一段。

我发现，一个系统”看起来恢复”，不等于”真的能用”。

为了验证它到底是不是彻底修好，我没有只测几分钟，而是专门做了一套夜间验证：从晚上到第二天早上，让它每隔几分钟自动检查一次网关状态，同时每隔一段时间主动发起一次真实会话，看 Agent 能不能正常回复一句最简单的话。

结果这一测，问题又暴露出来了。

网关整晚几乎都在线，端口也一直通，状态检查也一直显示可达。可是，一旦真正发起会话，让 Agent 回一句简单的话，大多数还是超时。也就是说，我虽然已经把”这个 AI 会不会突然死掉”的问题修掉了一大半，但”这个 AI 能不能真正稳定工作”的问题，还没有彻底解决。

说得再直白一点，就是：

我把这个 AI 从”经常掉线”修到了”基本活着”，但还没有修到”完全可靠”。

这个过程对我来说最大的体会有两个。

第一个体会是：用 AI 修 AI，其实特别像带一个很聪明的搭档排故障。它不会替你承担判断，但它能帮你做大量重复、细碎、容易漏掉的检查。比如翻日志、比配置、持续监测、记录时间线，这些事情如果全靠人自己做，很容易烦躁，也很容易漏细节。但有了 AI 协助，整个过程会更像是”我在指挥，它在帮我验证”。

第二个体会是：复杂问题最怕急。

很多人遇到软件不稳定，第一反应就是重装、重启、删缓存、乱改配置。可真正复杂的故障，最需要的反而不是”快”，而是”慢一点、稳一点、拆清楚一点”。因为你每多排除掉一个假原因，就更接近真正的根因。

所以如果要我给这次经历下一个最真实的总结，我会这么说：

我确实用一个 AI，修复了另外一个 AI。虽然它还没有达到”百分之百彻底修好”的程度，但我已经把它从一团乱麻，修到了一个能够看清问题边界、知道下一步该怎么继续推进的状态。

某种意义上，这件事也让我更相信一件事：以后 AI 不只是拿来写内容、做效率工具，它也会越来越像一个”会陪你排障、会陪你找问题、会陪你把复杂事情一点点做清楚”的搭档。

而这，可能才是我这次最大的收获。