
比如视觉检测。训练 YOLO 的时候指标很好,到了真实场景,远距离目标只有十几个像素,下雨、烟雾、逆光、遮挡、高速运动、地图没更新、信号不稳定,系统就开始漏检、跳 ID、误判。这个问题不是简单换一个更大的模型就能解决的。
更大的模型可以提高上限,但它不能自动带来恢复能力。
我现在更关心的是另一组问题:
·系统能不能知道自己当前观测不稳?
·能不能在证据不足时降低自主度?
·能不能把失败变成可复用的抗体?
·能不能在下一次同类扰动里恢复得更快?
这就是“失败后可靠性”的问题。

第一层:残差
所谓残差,就是现实和预期之间不对劲的地方。
一个真正可靠的系统,不应该把所有输入都当成正常输入。它要能发现:这个框的置信度虽然高,但轨迹不连续;这个地图看似可用,但和现场不一致;这个目标看似消失,但可能只是被遮挡;这个指令看似明确,但证据链不够。
这一步不是为了炫技,而是为了避免系统硬冲。
第二层:证据门
残差出现以后,系统不应该马上行动,而应该进入证据门。
证据门不是保守,而是行动前的质量控制。它要回答:
·当前观测是否足够稳定?
·是否需要换传感器或换视角?
·是否需要更多帧?
·是否要降低自主级别?
·是否应该把动作改成验证动作?
这比单纯追求第一次正确更接近真实工程。
第三层:恢复
恢复不是重试。
重试只是再来一次,恢复是带着诊断结果改变策略。
例如目标被遮挡,系统不只是重新检测,而是用轨迹预测、外观记忆、多模态证据、地图校验、动作约束来恢复身份。机器人操作失败,也不是继续蛮干,而是回退、重定位、重新确认抓取状态。
第四层:记忆
最关键的是,失败不能只进入日志,它要进入系统的下一次行为。
如果每一次失败都只是一次事故,那系统永远不会变“智慧”。只有当失败被压缩成可检索、可迁移、可验证的经验,系统才会真正进化。
这也是我为什么把 WisdomBench、Cognitive Immunity、Embodied Recovery、Reflexive World Models 放在同一个研究框架里。它们都指向同一件事:AI 不应该只是更聪明,而应该更会从失败中变可靠。

一句话总结
智能,是第一次做对的能力。
智慧,是失败以后恢复、记住,并在下一次变稳的能力。
项目入口:https://mianzhang.org
证据档案:https://zenodo.org/records/20027295
边界:这不是检测器 SOTA 宣称,也不是完整真实机器人部署宣称,而是一个围绕失败后恢复、证据门和纵向学习的研究与工程框架。
夜雨聆风