��聊连载:Openclaw从认知到实践(C12):它会犯错,但它会成长

我第一次真正意识到 OpenClaw 会犯错，是在一个很普通的晚上。

那天晚上十点多，我回到桌前，发现它把一封本来应该发给内部团队的邮件草稿，误放进了待发送队列。

内容不算危险，但方向错了。

我盯着那封邮件看了几秒钟，后背有一点发紧。

不是因为它“出问题”了，而是因为我突然清楚地意识到：它不是神。它会误判，会越界，会理解偏，会在边界模糊的时候走错一步。

可更让我放心的，也正是这件事之后发生的那一串修正。

一、错误不是终点，错误是信号

人类系统里，犯错常常意味着追责。

但在 AI 系统里，如果你只把错当错，你就永远只看到故障；如果你把错当信号，你才开始看到成长。

我那次没有急着删掉它，也没有急着骂它。我先回去看日志。

它为什么会这么判断？前一条消息是什么？它读到了什么上下文？哪个规则写得太宽？哪个边界没有钉牢？

我把整条链路复盘了一遍，最后发现问题不在模型，而在规则顺序。

我让它先判断“是否值得提醒”，再判断“是否需要人工确认”，结果在模糊地带，它往前走过头了。

二、守护不是阻止错误，而是让错误可控

后来我给它加了几层守护。

不是为了让它永远不犯错——那不现实。而是为了让它犯错时，停在我能看见、能接住、能回滚的范围里。

第一层是权限边界。它能读什么、写什么、发什么，都必须清楚。

第二层是确认门。高风险动作必须显式确认，不能自动通过。

第三层是日志和回滚。每一次重要动作都有记录，出问题能往回找，也能往回退。

第四层是健康检查。系统状态不正常的时候，先停，不要硬跑。

第五层是任务级隔离。一个任务坏了，不拖垮整个系统。

这五层加起来，不是为了把错误消灭掉，而是为了让错误不致命。

我越来越不喜欢那种“AI 应该绝对可靠”的说法。

不可靠，才是真的。可靠不是不犯错。可靠是犯错后还能自我修正，还能告诉你错在哪，还能下一次少错一点。

这件事其实特别像养孩子。

孩子会犯错。你不可能靠一味惩罚让他成长。你得让他知道哪里不对，为什么不对，下次怎么做。

OpenClaw 也是这样。你给它边界，它在边界里长大。你给它反馈，它在反馈里修正。你给它记忆，它在记忆里变得更像你。

这句很重要。

真正危险的，不是系统犯错，而是人不承认系统错了。

因为一旦你默认它“应该没问题”，你就会把不正常的东西当正常，把偏航当效率，把胡来当主动。

所以我后来给自己定了一条规矩：只要它做过一次让我皱眉的事，我就回头看。

不是每次都要大改，但每次都要看。

OpenClaw 后来的厉害，不在于它不再犯错，而在于它越来越知道怎么和我一起修正错误。

它会在下一次相似的场景里更谨慎。它会在高风险动作前主动提醒。它会记住我上次怎么处理这类问题。

这就是成长。不是神化。是可合作。

人和系统之间，最好的状态不是谁压过谁，而是彼此都知道对方会出错，但也都知道怎么把事情重新拉回正轨。

这章写到这里，我忽然想到一个很简单的判断：

真正值得托付的系统，不是从不犯错的系统，而是犯错后还能继续往前走的系统。