让AI学会"边指边想":一种更聪明的看图说话方式
当AI”眼高手低”时
想象这样一个场景:你问一个AI助手”这张照片里有多少只吉娃娃?”照片是一个九宫格,里面混着几只长相酷似蓝莓松饼的小狗和真正的蓝莓松饼。AI看了一眼,自信地回答:”有9只!”——它把松饼也当成了狗。
这不是因为AI”视力不好”,而是因为它根本不会”指着看”。
今天的多模态大模型(能同时看懂图片和文字的AI)已经非常强大,但它们在处理复杂视觉推理任务时,常常犯一个根本性的错误:推理过程完全漂浮在文字里,从不真正”触碰”图像上的具体位置。研究人员把这个问题称为”指代鸿沟”(Reference Gap)——就像一个人闭着眼睛描述房间布局,说得头头是道,却随时可能把”沙发左边的台灯”说成”茶几上的花瓶”。
人类是怎么做的?
如果你要数清楚照片里有多少人,你会怎么做?大概率是:用手指逐个指过去,嘴里默念”1、2、3……”遇到不确定的,还会停下来多看两眼。走迷宫时,你会用笔在路径上做标记;给别人指路时,你会在地图上圈出关键地点。
手指、笔尖、圈点——这些视觉标记就是我们思考的”锚点”。它们把抽象的思维牢牢固定在具体的物理空间上,防止大脑在复杂的推理中”迷路”。
DeepSeek团队最新提出的”视觉原语思维”(Thinking with Visual Primitives),正是要让AI学会这种人类本能的”指一指、想一想”的能力。
什么是”视觉原语”?
“原语”(Primitive)这个词听起来很学术,其实就是最基本、不可再分的元素。在视觉世界里,最基础的空间标记只有两种:
方框——像给目标物画个相框,能精确框住一只猫、一辆车、一个人,不仅告诉AI”在这里”,还告诉它”这么大”;
点——像用手指戳一下,适合标记路径上的关键位置,比如迷宫里的岔路口、曲线上的转折点。
论文作者把这两种简单的标记提升到”思维最小单元”的高度。它们不再是可有可无的装饰品,而是推理过程的内在组成部分——AI在”想”的同时必须”指”,在”指”的基础上继续”想”。
让AI”边指边想”有什么用?
1. 数数不再糊涂
AI数东西时最容易” hallucination”(幻觉)——要么多数了,要么漏数了,甚至把不相关的东西混进来。有了视觉原语,AI会先把每个目标用方框标出来,再数方框的数量。
论文展示了一个例子:数一张团队合影里有多少男人。AI没有瞎猜,而是逐行扫描,用方框把前排坐着的、中排站着的、后排立着的、两边穿西装的教练一一标出,最后汇总:”4+9+8+2+2=25人”。整个过程就像人类用手指着数一样,有据可查。
2. 空间推理不再”张冠李戴”
问AI:”有没有一个紫色橡胶物体,和那个灰色金属物体一样大?”纯文字推理的AI可能会在描述中把”左边的蓝色小方块”和”右边的紫色大球”搞混。而使用视觉原语的AI会先框出灰色金属物体,确认它的大小,再逐个检查其他小物体,排除棕色金属、蓝色金属、蓝色橡胶……最后确认没有符合条件的紫色橡胶物体,给出明确答案。
3. 走迷宫不再”凭感觉”
这是最让人惊讶的能力。传统的AI面对迷宫几乎束手无策,因为用纯文字描述”向左转、再向右转、遇到死胡同往回走”很快就会变成一团乱麻。
而学会”视觉原语思维”的AI,会在迷宫图像上留下一串点迹,就像 breadcrumbs(面包屑)一样标记自己的探索路径:
“从起点出发,到达第一个岔路口,向左探索……遇到死胡同,回到上一个岔路口,尝试另一条路……”
这些点坐标不是事后画上去的,而是推理过程本身。AI每”想”一步,就”指”一个点;看到死胡同时,它能准确”指”回之前的关键节点。这种能力让AI在复杂拓扑推理任务上取得了远超GPT、Claude和Gemini的成绩。
不止聪明,还特别”省”
通常我们认为,要让AI看得更准,就得给它更高清的图片、更多的像素。但这篇论文揭示了一个反直觉的事实:有时候,看得更”精”比看得更”多”更重要。
论文中的模型采用了一种高效的视觉压缩技术。一张756×756像素的照片,经过处理后,最终在AI的”记忆”里只占用81个视觉条目——相比其他前沿模型动辄几百甚至上千个条目,压缩了将近10倍。但就是在如此”精简”的视觉预算下,它在多项空间推理和视觉问答任务上,表现与GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash等顶级模型持平甚至更好。
这说明:未来的AI视觉智能,关键不在于”塞更多像素”,而在于建立语言与视觉之间精确、无歧义的指代桥梁。
从”看图说话”到”指图说理”
这项研究的意义远不止让AI数数、走迷宫更准确。它揭示了一个更深刻的趋势:AI的”系统2思维”(慢思考、深度推理)需要与物理世界建立更紧密的耦合。
当AI能够像人类一样,在思考过程中自然地”指指点点”,它就能:
– 减少幻觉——每个推理步骤都有视觉坐标作为证据,胡说八道更容易被识破;
– 增强可解释性——人类可以检查AI画了哪些框、点了哪些点,理解它的推理路径;
– 拓展应用场景——从医学影像分析(圈出病灶区域)到机器人导航(标记路径点),从工业设计(定位缺陷位置)到教育辅导(在图表上逐步标注)。
当然,这项技术目前还有局限。比如,它仍然需要特定的触发词来激活”视觉原语模式”,还不能完全自主判断何时该”指一指”;在超精细的场景下,受限于输入分辨率,标记的位置偶尔会有偏差。但研究团队已经指明了方向:把”指代能力”内化为AI推理的默认配置,而不是一个需要召唤的特殊技能。
—
说到底,让AI学会”边指边想”,是让它从”一个滔滔不绝但可能瞎说的叙述者”,变成一个”每一步都有据可查、每个结论都能追溯到图上具体位置的严谨思考者”。这或许才是通往真正可靠的多模态智能的必经之路。
详情见《Thinking with Visual Primitives》
夜雨聆风