AI越＂看清＂世界,越不会解决问题

你知道越干净的信息，越容易把AI喂傻吗？

今天读到一篇柏林TU的论文，结论把我看懵了——

他们给GPT o1三个版本的机器人看到的东西：

Raw RGB：跟人用肉眼看一样，有噪声，有像素，有干扰
RGB-D：RGB + 深度信息，更精确的空间数据
Ground Truth：完美符号化状态 —— 关节是开还是关，清清楚楚，没有歧义

按常识来想，应该是 Ground Truth > RGB-D > RGB。

实际结果：

> Raw RGB 成功率最高，Ground Truth 最差。

这个结论太反直觉了。我花了二十分钟才想明白背后的逻辑。

锁盒实验：让GPT o1解机械 puzzle

研究者用了一个叫 Lockbox 的经典装置 —— 就是那种有多个锁扣的谜题箱，要按特定顺序解开才能打开。

实验设置很巧妙：

同一只物理机器人手臂，装着摄像头和力矩传感器，面对同一个Lockbox，但给GPT o1传递信息的"通道"不同：

RGB通道：拍一张照片，传给GPT o1，让它自己对比前后两张图，判断刚才操作有没有效果
RGB-D通道：在RGB基础上加一张深度图，空间位置更精确
Ground Truth：直接把"关节A现在是开状态、关节B是关状态"这种符号描述发给模型

任务完全一样，推理难度完全一样，唯一不同的就是信息保真度。

完美信息为什么反而最差？

这里有个关键发现：

Ground Truth 条件下，GPT o1 的符号幻觉率是 4.9%。

也就是说，即使你直接告诉它"关节A现在开了"，它依然有大约二十分之一的概率，自己在脑子里把状态脑补错了。

这不是感知的问题——Ground Truth 绕过了所有视觉pipeline，直接给结构化描述。

这是推理过程本身的缺陷。LLM 不善于在完全干净的结构化符号上做精确的状态追踪。

为什么？

因为LLM的思维模式是模糊匹配+概率推断，当信息太干净、太结构化，它反而开始"想太多"——它不是在记录状态，而是在猜测下一个状态应该是什么。

最神奇的部分：加点噪声，效果暴涨 2.85 倍

研究者在仿真环境里做了更系统的实验：直接在符号状态上随机翻转 0%~60% 的动作结果，模拟"误判"。

结果是这样的：

0% 翻转（完美信息）：基准线
10% 翻转：略好于基准
40% 翻转：2.85 倍成功率 ⚡
60% 翻转：性能下降

中等噪声，反而是最佳状态。

这不是数据噪声的经典J曲线——这个实验设计得更精确，他们验证了背后的机制：

> 适度噪声打断了 GPT o1 的重复动作循环（repetitive action loops）。

重复动作循环是什么？就是AI卡在某个状态附近，反复尝试同样的动作，明明没效果还是继续。

适度的噪声让AI"意外"发现动作没效果，反而促使它换一个方向——这是一个意外的探索机制。

GPT o1在三种输入模式下的成功率

横坐标是交互次数，纵坐标是成功概率。可以看到：Human-Inspired Strategy（人类启发式策略）一路领先，而GPT o1三条线从高到低分别是 RGB > RGB-D > Ground Truth State。

符合直觉吗？完全相反。

这个研究对我们意味着什么？

第一层：对机器人研究而言

给具身AI提供更多传感器、更精确的视觉，不一定是好事。你需要设计信息通道，让AI有足够的推理线索，但不能干净到触发符号幻觉。

这其实很类似人类做决策的模式——完全明确的信息反而让人过度思考，适度的模糊反而促使行动。

第二层：对LLM评估而言

论文的核心结论：只看任务成功率是不够的。

同一个成功率，可能是AI靠真推理做出来的，也可能是感知误差和推理缺陷"负负得正"碰巧做出来的。

你需要行为探测（behavioral probing）——不是问"你做对了吗"，而是"你是怎么做对的/做错的"。

第三层：对我的启发

我之前总觉得信息越全越好——做内容要收集大量素材，写文章要穷尽所有角度。

但这篇论文提醒我：信息的选择性过滤，可能比信息的完整性更重要。

有时你需要的不是更多数据点，而是恰好能打破思维定式的那个"噪声"。

这就是今天的论文分享。如果你有收获，欢迎转发给做AI的朋友。

论文出处：

> Zenkri & Brock, "Probing Embodied LLMs: When Higher Observation Fidelity Hurts Problem Solving", TU Berlin, 2026