让AI学会＂边指边想＂:一种更聪明的看图说话方式-夜雨聆风

让AI学会＂边指边想＂:一种更聪明的看图说话方式

当AI”眼高手低”时

想象这样一个场景：你问一个AI助手”这张照片里有多少只吉娃娃？”照片是一个九宫格，里面混着几只长相酷似蓝莓松饼的小狗和真正的蓝莓松饼。AI看了一眼，自信地回答：”有9只！”——它把松饼也当成了狗。

这不是因为AI”视力不好”，而是因为它根本不会”指着看”。

今天的多模态大模型（能同时看懂图片和文字的AI）已经非常强大，但它们在处理复杂视觉推理任务时，常常犯一个根本性的错误：推理过程完全漂浮在文字里，从不真正”触碰”图像上的具体位置。研究人员把这个问题称为”指代鸿沟”（Reference Gap）——就像一个人闭着眼睛描述房间布局，说得头头是道，却随时可能把”沙发左边的台灯”说成”茶几上的花瓶”。

人类是怎么做的？

如果你要数清楚照片里有多少人，你会怎么做？大概率是：用手指逐个指过去，嘴里默念”1、2、3……”遇到不确定的，还会停下来多看两眼。走迷宫时，你会用笔在路径上做标记；给别人指路时，你会在地图上圈出关键地点。

手指、笔尖、圈点——这些视觉标记就是我们思考的”锚点”。它们把抽象的思维牢牢固定在具体的物理空间上，防止大脑在复杂的推理中”迷路”。

DeepSeek团队最新提出的”视觉原语思维”（Thinking with Visual Primitives），正是要让AI学会这种人类本能的”指一指、想一想”的能力。

什么是”视觉原语”？

“原语”（Primitive）这个词听起来很学术，其实就是最基本、不可再分的元素。在视觉世界里，最基础的空间标记只有两种：

方框——像给目标物画个相框，能精确框住一只猫、一辆车、一个人，不仅告诉AI”在这里”，还告诉它”这么大”；

点——像用手指戳一下，适合标记路径上的关键位置，比如迷宫里的岔路口、曲线上的转折点。

论文作者把这两种简单的标记提升到”思维最小单元”的高度。它们不再是可有可无的装饰品，而是推理过程的内在组成部分——AI在”想”的同时必须”指”，在”指”的基础上继续”想”。

让AI”边指边想”有什么用？

1. 数数不再糊涂

AI数东西时最容易” hallucination”（幻觉）——要么多数了，要么漏数了，甚至把不相关的东西混进来。有了视觉原语，AI会先把每个目标用方框标出来，再数方框的数量。

论文展示了一个例子：数一张团队合影里有多少男人。AI没有瞎猜，而是逐行扫描，用方框把前排坐着的、中排站着的、后排立着的、两边穿西装的教练一一标出，最后汇总：”4+9+8+2+2=25人”。整个过程就像人类用手指着数一样，有据可查。

2. 空间推理不再”张冠李戴”

问AI：”有没有一个紫色橡胶物体，和那个灰色金属物体一样大？”纯文字推理的AI可能会在描述中把”左边的蓝色小方块”和”右边的紫色大球”搞混。而使用视觉原语的AI会先框出灰色金属物体，确认它的大小，再逐个检查其他小物体，排除棕色金属、蓝色金属、蓝色橡胶……最后确认没有符合条件的紫色橡胶物体，给出明确答案。

3. 走迷宫不再”凭感觉”

这是最让人惊讶的能力。传统的AI面对迷宫几乎束手无策，因为用纯文字描述”向左转、再向右转、遇到死胡同往回走”很快就会变成一团乱麻。

而学会”视觉原语思维”的AI，会在迷宫图像上留下一串点迹，就像 breadcrumbs（面包屑）一样标记自己的探索路径：

“从起点出发，到达第一个岔路口，向左探索……遇到死胡同，回到上一个岔路口，尝试另一条路……”

这些点坐标不是事后画上去的，而是推理过程本身。AI每”想”一步，就”指”一个点；看到死胡同时，它能准确”指”回之前的关键节点。这种能力让AI在复杂拓扑推理任务上取得了远超GPT、Claude和Gemini的成绩。

不止聪明，还特别”省”

通常我们认为，要让AI看得更准，就得给它更高清的图片、更多的像素。但这篇论文揭示了一个反直觉的事实：有时候，看得更”精”比看得更”多”更重要。

论文中的模型采用了一种高效的视觉压缩技术。一张756×756像素的照片，经过处理后，最终在AI的”记忆”里只占用81个视觉条目——相比其他前沿模型动辄几百甚至上千个条目，压缩了将近10倍。但就是在如此”精简”的视觉预算下，它在多项空间推理和视觉问答任务上，表现与GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash等顶级模型持平甚至更好。

这说明：未来的AI视觉智能，关键不在于”塞更多像素”，而在于建立语言与视觉之间精确、无歧义的指代桥梁。

从”看图说话”到”指图说理”

这项研究的意义远不止让AI数数、走迷宫更准确。它揭示了一个更深刻的趋势：AI的”系统2思维”（慢思考、深度推理）需要与物理世界建立更紧密的耦合。

当AI能够像人类一样，在思考过程中自然地”指指点点”，它就能：

– 减少幻觉——每个推理步骤都有视觉坐标作为证据，胡说八道更容易被识破；

– 增强可解释性——人类可以检查AI画了哪些框、点了哪些点，理解它的推理路径；

– 拓展应用场景——从医学影像分析（圈出病灶区域）到机器人导航（标记路径点），从工业设计（定位缺陷位置）到教育辅导（在图表上逐步标注）。

当然，这项技术目前还有局限。比如，它仍然需要特定的触发词来激活”视觉原语模式”，还不能完全自主判断何时该”指一指”；在超精细的场景下，受限于输入分辨率，标记的位置偶尔会有偏差。但研究团队已经指明了方向：把”指代能力”内化为AI推理的默认配置，而不是一个需要召唤的特殊技能。

—

说到底，让AI学会”边指边想”，是让它从”一个滔滔不绝但可能瞎说的叙述者”，变成一个”每一步都有据可查、每个结论都能追溯到图上具体位置的严谨思考者”。这或许才是通往真正可靠的多模态智能的必经之路。

详情见《Thinking with Visual Primitives》