今天,OpenClaw 出了一次很严重的错误。
它在群报里,把明显过时的信息,当成了当下的实时分析。
报告里出现了 iPhone 15,也出现了比特币 30000 美元。
现在是 2026 年 3 月。
看到这两个时间锚点的时候,我立刻意识到:这不是普通偏差,而是整个系统的事实边界出了问题。
追问之后,它自己承认:没有抓到当天新闻,没有调用实时价格,也没有做时间校验。
也就是说,这份看起来「像分析」的内容,本质上是模型在没有足够证据时,依然继续往下补出来的。
真正危险的,不是 AI 不会回答。
而是它在不知道的时候,仍然继续像知道一样回答。
一、问题不在表达,在链路
很多时候,我们会把 AI 的错误理解成:
是模型幻觉,是提示词不够严谨,再补一层规则就好。
但今天这次之后,我越来越确定,不能只这样看。
这次真正暴露出来的,是工作流里的缺口:
没有事实闸门。
如果一个系统在没有拿到证据时,仍然被允许继续生成,它迟早会在某个时刻,把「像真的」当成「真的」。
表面上看,错的是一句话。
本质上看,错的是系统默认允许它在缺乏依据时继续说。
这和人也很像。很多错误,不是因为能力不足,而是因为没有边界,没有把「不知道」说出来的约束。
二、真正该修的,不是让它更聪明,而是让它先停下来
所以今天,我没有把精力放在「怎么让它说得更像」上。
我做的第一件事,是把 4 条硬规则写进了系统提示词最前面:
涉及价格、日期、新闻、发布时间,必须来自工具结果。 工具失败、数据缺失、时间冲突时,必须停止生成。 最终输出前,必须先列出证据块。 禁止把旧闻、历史数据、推测内容写成「当前、今日、最新」。
这四条看起来只是几句规则,但它补的不是表达,补的是宪法。
它在告诉这个系统:你不是因为能说,就有资格说。你必须先有依据,才可以开口。
三、从「能生成」到「可信任」,中间隔着风控
一个 AI 系统,输出流畅、表达完整、结构清晰,并不代表它可信。
甚至很多时候,越流畅、越完整,越容易让人放松警惕。
真正的可信任,不在于它说得多漂亮,而在于:
没有证据时,它会不会停。
数据不全时,它会不会明确说「无法确认」。
工具失败时,它会不会停止,而不是用语言把空洞补满。
这些能力,比「会不会分析」更重要。
因为前者决定的是:它能不能被放进现实世界里持续使用。
给今天留一句话
本地 AI 系统,做到「跑起来」只是第一层。
更难、更关键的是第二层:
让系统知道,什么时候该说,什么时候该停;什么时候该给结论,什么时候只能给证据。
这个层面,已经不是功能问题了,而是系统品行问题。
今天最重要的进展,不是修了一次群报错误,而是开始给 OpenClaw 补上最基础的一道风控能力:
没有证据,就不要说。
会说,不难。
知道什么时候不该说,才难。
夜雨聆风