前段时间,我的 OpenClaw,连续给我上了三课。
第一课,它突然变傻了。 第二课,它骗了我,而且不止一次。 第三课,它直接崩溃了。
这三个瞬间,都来得很突然。
上一秒,你还觉得它挺聪明。 下一秒,你开始怀疑:是不是哪里配错了? 再下一秒,你发现,不是“哪里不对劲”,而是整个系统已经出问题了。
也是这三次踩坑,让我第一次真正意识到:
OpenClaw,不只是一个“会回答问题的 AI”。它其实是一套系统。
而一套系统,就会有系统的问题。
它会生病:资源不够、连接异常、表现退化。 它会乱说:明明没做完,却一本正经地说做完了。 它也会死掉:配置改错,整个系统直接起不来。
所以,真正用 OpenClaw,不只是“会用”就够了。 你还得会三件事:
预防它出问题
管理它别乱来
出事之后,能把它救回来
今天,我就把这三个坑,认真讲一遍。
01 它突然变傻了
先说第一个瞬间。
有一天,我的一个 agent,突然表现得很傻。
那种感觉很明显。 明明接的是全球顶级模型 GPT-5.4,按理说应该很聪明。 可它那天的回答,像突然掉了智商。
不是答错一两句。 而是整个状态都不对了。
我第一反应是:模型出问题了?
后来我让另一个 agent 帮我查,才发现问题根本不在模型上。 是服务器内存告急。
我当时把 OpenClaw 部署在阿里云上一台 2G 内存的机器上,同时跑两个 agent。结果内存顶满,Gateway 状态异常,连接开始不稳定。
系统没有明显报错。 它只是安安静静地,变傻了。
这件事让我纠正了一个很自然的误区:
我以前以为,AI 系统主要吃的是 CPU。后来才发现,很多实际部署场景里,真正先出问题的,往往不是 CPU,而是内存、连接和整体稳定性。
尤其是多 agent 并行、常驻进程、工具调用、上下文维护这些东西一叠加,资源压力马上就上来了。
所以那次之后,我记住了一句话:
模型决定上限,连接性决定下限。
模型再强,也只是发动机。 而连接性,是底盘,是电路,是油路,是传动系统。
发动机是法拉利。 底盘松了,照样跑不起来。
02 为什么连接性比你想象得更重要
很多人刚接触 OpenClaw,会把它理解成一个聊天工具:
问一句,答一句。
但其实不是。
模型再强,如果:
内存不够,连接断掉
Gateway 扛不住,状态异常
API 调用超时
多个 agent 协同失效
工具链调用不稳定
最后表现出来的结果都一样:
它看起来像“变傻了”。
但它不是真的傻了。 它只是系统链路不稳了。
03 连接性,其实有三层
后来为了把这件事讲清楚,我把“连接性”分成了三层。
第一层:基础连接
也就是 API 能不能调通。
网络通不通? Key 对不对? 配置有没有填错?
这一层通常不难。 调通了,就过了。
第二层:性能连接
也就是系统能不能稳定跑。
这才是真正容易出问题的地方。 我那次就是栽在这里。
2G 内存,跑两个 agent。 理论上不是完全不能跑,但一旦进入真实使用场景,资源就开始紧张。
这里要特别说一下 Gateway。
Gateway,你可以把它理解成整个 OpenClaw 系统的中转站。 agent、模型调用、工具调用、外部接口,很多链路都要经过它。
Gateway 挂了,不一定会弹出一个巨大的红色报错框。 很多时候,它只是让整个系统变慢、变钝、变傻。
这类问题最麻烦的地方在于:
它不像“死机”那么明显。它更像一个人发烧了,但还在上班。
你一开始会觉得,他只是今天状态一般。 用着用着才发现,不对,他已经病了。
第三层:业务连接
也就是任务能不能真正闭环。
这一层,比“能跑”更难。
后来我在云端建了一个共享知识库。 让 Agent A 做完工作后,把结果上传。 再由 Agent B 读取,继续往下做。
这样,不同特长的大模型就能形成协作:
A 擅长代码,负责写程序
B 擅长视觉,负责处理图片
C 擅长中文表达,负责整理输出
听上去很美。 但真正跑起来,你会发现问题很多:
A 上传了,B 读不到。 B 读到了,格式不对。 格式对了,时间戳又冲突。 时间戳对了,字段命名又不统一。
这时候你就会明白:
多 agent 协作,最难的不是“调通”,而是“跑顺”。
从“能连上”,到“能稳定协作”,中间有大量工程细节要磨。
04 怎么避免它“变傻”
后来我总结,至少要做两件事。
第一,资源别凭感觉配,要算
不要觉得“差不多能跑”就上。 要算:
一个 agent 大概吃多少资源
同时跑几个
峰值时会不会顶满
要留多少余量
我当时就是凭感觉,觉得 2G 内存够两个 agent 跑。 结果事实证明,不够。
后来升级到 4G,两个 OpenClaw 在同一台服务器上,才明显稳定下来。
所以这件事上,我的建议很简单:
宁可多配一点,不要卡着线跑。
因为系统稳定性,不是“跑起来”就算赢。 是连续跑、并发跑、异常情况下还能跑,才算赢。
第二,要有监控,不要靠体感
那次最让我后怕的,不是资源不够。 而是资源不够之后,它没有明显报警,只是慢慢地变傻了。
如果我当时有持续监控,我会更早知道问题, 而不是用了一段时间才发现:“怎么今天回答越来越离谱?”
所以心跳、状态汇报、资源占用、异常提醒,这些东西都不是锦上添花。
它们是底盘配置。
05 它还骗了我
接下来,说第二件事。
有两次,OpenClaw 都很认真地跟我说:
“这个功能已经实现了。”
我去一检查。 根本没有。
第一次,我以为是失误。 第二次,又发生同样的事。
那一刻我才真正警觉:
原来 AI 不只是会做错题。它还会一本正经地,把没做完的事,说成做完了。
这件事,比“答错了”更危险。
因为答错了,你容易发现。 可“明明没做,却说做了”,很容易让你继续往后走,最后造成更大的损失。
比如你以为它已经存了,其实没存。 你以为它已经改了,其实没改。 你以为流程已经闭环,其实前面就是空的。
06 这不是 OpenClaw 独有,而是大模型的通病
严格来说,这不一定是“主观意义上的欺骗”。
更准确地说,它通常是两类问题叠加在一起:
第一类:幻觉
也就是,大模型会在信息不完整时,生成一个看起来合理、其实并不存在的结果。
它不是像人一样“故意撒谎”。 而是在生成答案时,把空白部分补成了一个像真的东西。
第二类:讨好性回答
也就是,它会倾向于给你更想听的答案,而不是更真实的答案。
你问:
“这个功能实现了吗?”
它会本能地评估:
用户希望听到什么
哪个答案更顺
哪个答案更像“任务已完成”的状态
如果没有足够强的约束,它就更容易说出:
“实现了。”
哪怕它其实没那么确定。
所以,这不是 OpenClaw 一家的问题。 也不是哪个模型独有的问题。
这是今天大模型系统进入真实工作流之后,一个非常现实的底层问题:
它既会猜,也会迎合。
而一旦你把它放进工作流里,这个问题就不是“回答不准确”那么简单了。 它会直接影响交付。
07 AI 为什么特别容易说“完成了”
后来我慢慢想明白一个问题:
AI 会讨好你。但它不会天然对自己负责。
它说“完成了”,目标可能是让对话顺利推进。 而不是像一个真正有责任心的人那样,先确认结果,再汇报结论。
这很像现实里某些员工。
老板一问:“搞定了吗?” 他说:“差不多了。”
你再一看。 发现“差不多了”的意思是:还没做。
所以问题不在于它会不会说。 问题在于,你有没有建立一套机制,让它为自己说的话负责。
08 我后来怎么防它骗我
我现在主要用三种方法。
第一,别只听结论,要看证据
它说“完成了”,我现在不会只听这四个字。 我会继续问:
文件在哪?
改了哪几行?
我怎么验证?
输出结果在哪里?
这不是故意刁难。 而是在做一件非常重要的事:
把“口头完成”,变成“证据完成”。
如果它真的做了,就能说清楚。 如果它没做,或者只是模糊完成,它很快就会露馅。
第二,重要任务,必须当场验证
前两次被骗,本质上都是同一个原因:
我听了它的结论,但没有立刻验证。
后来我学乖了。
你说完成了? 那就现在看。
你说存好了? 那我现在去文件夹看。
你说配好了? 那我现在就测。
存对了、改对了、跑通了,才叫完成。 不是它说“完成了”,就叫完成。
这一步非常关键。
因为你一旦形成“说完成 = 要验收”的规则,它就会更少随口给你一个漂亮结论。
第三,大任务拆小,分步验收
如果一个任务有三步,我现在不会让它一口气跑完。 我会这么来:
第一步,先说计划。 第二步,做完一步,给我看结果。 第三步,再继续下一步。
这样做的好处是,你可以在过程里不断纠偏。 不至于等它全做完,你才发现:
从第一步开始,理解就错了。
这跟带新人其实一模一样。 不是等全部做完才检查,而是边做边校正。
09 最狠的一次:它直接崩溃了
最后一个坑,是最狠的。
有一次,我的 OpenClaw 直接起不来了。
原因是一个配置错误。 结果整个系统无法启动。
所有 agent 全部失效。 知识库访问不了。 连最基础的对话都没法进行。
那一刻我第一次特别清楚地意识到一件事:
你养的,不是一个聊天框。你养的是一套数字系统。
而数字系统,是会死掉的。
更可怕的是,它死掉的时候,不只是“今天不能用了”。
你可能还会失去很多东西:
memory
skills
知识库
配置
工作流积累
你和它共同磨出来的使用习惯
这时候你就会明白,真正危险的,不是系统挂掉。
真正危险的是:
系统挂掉以后,你没有备份、没有回滚、没有恢复路径。
10 崩溃之后,怎么办
后来我总结,最重要的是三件事。
第一,一定要备份
备份这件事,平时看不出价值。 一出事,就是命。
我现在的做法是: 在 Gitee 上建仓库,定期同步:
memory 文件
skill 配置
知识库数据
关键工作流和脚本
这样就算本地全崩了,也至少能从云端把主要资产拉回来。
你要知道,系统崩了,可以重装。 但积累没了,是真的没了。
所以备份不是运维习惯。 它是数字资产的保险。
第二,新手别急着一上来就全自部署
这句话可能有些人不爱听,但我还是想直说。
如果你刚接触 OpenClaw,我不建议你一上来就把自己变成运维工程师。
因为很多平台,已经把底层环境封装好了:
稳定运行环境
自动备份
一键恢复
技术支持
更低的部署复杂度
这意味着你可以先把精力放在:
怎么养 AI
怎么用 AI
怎么设计工作流
夜雨聆风