乐于分享
好东西不私藏

DeepSeek教AI"用手指着想":一个让GPT-5.4数不过来的问题,它解决了

DeepSeek教AI"用手指着想":一个让GPT-5.4数不过来的问题,它解决了

2026年五一假期前一天,DeepSeek在GitHub上悄悄放出了一篇技术报告,名字叫”Thinking with Visual Primitives”(以视觉原语思考)。听起来很学术,但解决的是一个人人都能懂的问题:让AI数清楚图片里到底有几只熊。

这不是段子。GPT-5.4在一项图片计数测试中,准确率只有76.6%。Claude Sonnet 4.6更惨,68.7%。而DeepSeek的这个新模型拿到了89.2%。

差距不只是十几个百分点那么简单,背后是一套全新的推理方式。

一个被忽视了几年的问题

过去两年,多模态AI的主攻方向是”让模型看得更清楚”——更高分辨率、更多视觉token、更细的图像分块。确实有效果,但DeepSeek的研究团队发现了一个更根本的问题:模型看清楚了,但不一定”想清楚了”。

打个比方。你给朋友看一张密密麻麻的人群照片,问他”穿蓝色衣服的有几个人”。你朋友当然看得见图里每个人的衣服颜色,但当他在心里默数的时候,数到第7个突然不确定”刚才第4个到底算不算蓝的”,于是从头再数——这就是”指代鸿沟”(Reference Gap)。

AI也一样。它用自然语言构建思维链,但”左边那个大的”、”靠近中央的红色物体”这种描述,在密集场景里根本无法精确定位。注意力在推理过程中逐渐”漂移”,越说越乱,最后数错了。

DeepSeek的解法:给AI一根”手指”

人类数东西的时候会怎么做?用手指逐一点过去。

DeepSeek就是这个思路:把坐标和边界框变成推理的基本单位,像文字一样穿插在思维链里。

传统做法是模型先想清楚,再标注”目标在图片左上角”。DeepSeek不一样,模型在思考过程中每提到一个视觉对象,就同步输出它的精确坐标:

“找到一只熊,坐标[452,23,804,411],正在爬树,排除。再找,另一只熊,坐标[50,447,647,771],站在岩石上,符合条件。”

坐标不再是答案的一部分,而是推理过程中的”锚点”,把逻辑链钉在图片的物理位置上,防止漂移。

这套机制有两种”原语”:边界框用于需要定位和尺寸的对象,点坐标用于更抽象的空间指代,比如迷宫探索的轨迹。

7056倍压缩:看得少,但指得准

另一个让同行侧目的技术细节是视觉压缩。

一张756×756的图片,传统方案需要大量视觉token喂给语言模型。DeepSeek的流程是:图片先经过自研ViT处理,生成2916个图像块token;再经过3×3空间压缩,变成324个;最后通过V4-Flash内置的”压缩稀疏注意力”机制,KV缓存再压缩4倍,最终只剩81个视觉KV条目。

从原始像素到最终缓存,整体压缩比7056倍。

对比一下:一张800×800的图,DeepSeek只需要约90个KV缓存条目,Claude Sonnet 4.6需要约870个,Gemini-3-Flash需要约1100个。

论文的核心论点是:精确的空间指代能力,可以在一定程度上弥补视觉token的不足。模型不需要”看更多”,而需要”指更准”。

实测数据:在”最难的题”上拉开差距

论文在11个基准上做了评测,对手包括GPT-5.4、Gemini-3-Flash、Claude Sonnet 4.6等。

计数任务上,DeepSeek在Pixmo-Count拿到89.2%,超过Gemini-3-Flash的88.2%,大幅领先GPT-5.4的76.6%。细粒度计数88.7%,也是第一。

真正拉开差距的是拓扑推理。迷宫导航测试,DeepSeek得分66.9%,GPT-5.4是50.6%,Claude Sonnet 4.6是48.9%——所有前沿模型都只能答对一半,DeepSeek多答对了17个百分点。路径追踪56.7% vs GPT-5.4的46.5%,差距同样悬殊。

论文自己也承认了局限性:当前模型需要明确的”触发词”才会启用视觉原语机制,还不能自主判断什么时候该”用手指”。另外受输入分辨率限制,在极细粒度场景中坐标偶尔不够精准。

意义?

如果你是AI应用开发者,这套技术意味着多模态模型的推理精度将迎来一波提升。那些”AI总是数不对”的场景——安防监控里的人数统计、工业质检中的缺陷定位、自动驾驶中的障碍物识别——都有可能因此受益。

如果你是普通用户,记住一个判断标准:当你在用AI分析图片、让它数东西、做空间判断的时候,如果它总是答错,问题可能不是它”看不清”,而是它”指不准”。DeepSeek给出了一个方向。

这项技术基于DeepSeek V4-Flash(284B参数,激活13B),技术报告和代码已在GitHub开源。论文由DeepSeek、北京大学、清华大学联合完成。