你知道越干净的信息,越容易把AI喂傻吗?
今天读到一篇柏林TU的论文,结论把我看懵了——
他们给GPT o1三个版本的机器人看到的东西:
- Raw RGB:跟人用肉眼看一样,有噪声,有像素,有干扰
- RGB-D:RGB + 深度信息,更精确的空间数据
- Ground Truth:完美符号化状态 —— 关节是开还是关,清清楚楚,没有歧义
按常识来想,应该是 Ground Truth > RGB-D > RGB。
实际结果:
> Raw RGB 成功率最高,Ground Truth 最差。
这个结论太反直觉了。我花了二十分钟才想明白背后的逻辑。
锁盒实验:让GPT o1解机械 puzzle
研究者用了一个叫 Lockbox 的经典装置 —— 就是那种有多个锁扣的谜题箱,要按特定顺序解开才能打开。
实验设置很巧妙:
同一只物理机器人手臂,装着摄像头和力矩传感器,面对同一个Lockbox,但给GPT o1传递信息的"通道"不同:
- RGB通道:拍一张照片,传给GPT o1,让它自己对比前后两张图,判断刚才操作有没有效果
- RGB-D通道:在RGB基础上加一张深度图,空间位置更精确
- Ground Truth:直接把"关节A现在是开状态、关节B是关状态"这种符号描述发给模型
任务完全一样,推理难度完全一样,唯一不同的就是信息保真度。
完美信息为什么反而最差?
这里有个关键发现:
Ground Truth 条件下,GPT o1 的符号幻觉率是 4.9%。
也就是说,即使你直接告诉它"关节A现在开了",它依然有大约二十分之一的概率,自己在脑子里把状态脑补错了。
这不是感知的问题——Ground Truth 绕过了所有视觉pipeline,直接给结构化描述。
这是推理过程本身的缺陷。LLM 不善于在完全干净的结构化符号上做精确的状态追踪。
为什么?
因为LLM的思维模式是模糊匹配+概率推断,当信息太干净、太结构化,它反而开始"想太多"——它不是在记录状态,而是在猜测下一个状态应该是什么。
最神奇的部分:加点噪声,效果暴涨 2.85 倍
研究者在仿真环境里做了更系统的实验:直接在符号状态上随机翻转 0%~60% 的动作结果,模拟"误判"。
结果是这样的:
- 0% 翻转(完美信息):基准线
- 10% 翻转:略好于基准
- 40% 翻转:2.85 倍成功率 ⚡
- 60% 翻转:性能下降
中等噪声,反而是最佳状态。
这不是数据噪声的经典J曲线——这个实验设计得更精确,他们验证了背后的机制:
> 适度噪声打断了 GPT o1 的重复动作循环(repetitive action loops)。
重复动作循环是什么?就是AI卡在某个状态附近,反复尝试同样的动作,明明没效果还是继续。
适度的噪声让AI"意外"发现动作没效果,反而促使它换一个方向——这是一个意外的探索机制。
GPT o1在三种输入模式下的成功率
横坐标是交互次数,纵坐标是成功概率。可以看到:Human-Inspired Strategy(人类启发式策略)一路领先,而GPT o1三条线从高到低分别是 RGB > RGB-D > Ground Truth State。
符合直觉吗?完全相反。
这个研究对我们意味着什么?
第一层:对机器人研究而言
给具身AI提供更多传感器、更精确的视觉,不一定是好事。你需要设计信息通道,让AI有足够的推理线索,但不能干净到触发符号幻觉。
这其实很类似人类做决策的模式——完全明确的信息反而让人过度思考,适度的模糊反而促使行动。
第二层:对LLM评估而言
论文的核心结论:只看任务成功率是不够的。
同一个成功率,可能是AI靠真推理做出来的,也可能是感知误差和推理缺陷"负负得正"碰巧做出来的。
你需要行为探测(behavioral probing)——不是问"你做对了吗",而是"你是怎么做对的/做错的"。
第三层:对我的启发
我之前总觉得信息越全越好——做内容要收集大量素材,写文章要穷尽所有角度。
但这篇论文提醒我:信息的选择性过滤,可能比信息的完整性更重要。
有时你需要的不是更多数据点,而是恰好能打破思维定式的那个"噪声"。
这就是今天的论文分享。如果你有收获,欢迎转发给做AI的朋友。
论文出处:
> Zenkri & Brock, "Probing Embodied LLMs: When Higher Observation Fidelity Hurts Problem Solving", TU Berlin, 2026
夜雨聆风