DeepSeek教AI＂用手指着想＂:一个让GPT-5.4数不过来的问题,它解决了-夜雨聆风

DeepSeek教AI＂用手指着想＂:一个让GPT-5.4数不过来的问题,它解决了

2026年五一假期前一天，DeepSeek在GitHub上悄悄放出了一篇技术报告，名字叫”Thinking with Visual Primitives”（以视觉原语思考）。听起来很学术，但解决的是一个人人都能懂的问题：让AI数清楚图片里到底有几只熊。

这不是段子。GPT-5.4在一项图片计数测试中，准确率只有76.6%。Claude Sonnet 4.6更惨，68.7%。而DeepSeek的这个新模型拿到了89.2%。

差距不只是十几个百分点那么简单，背后是一套全新的推理方式。

一个被忽视了几年的问题

过去两年，多模态AI的主攻方向是”让模型看得更清楚”——更高分辨率、更多视觉token、更细的图像分块。确实有效果，但DeepSeek的研究团队发现了一个更根本的问题：模型看清楚了，但不一定”想清楚了”。

打个比方。你给朋友看一张密密麻麻的人群照片，问他”穿蓝色衣服的有几个人”。你朋友当然看得见图里每个人的衣服颜色，但当他在心里默数的时候，数到第7个突然不确定”刚才第4个到底算不算蓝的”，于是从头再数——这就是”指代鸿沟”（Reference Gap）。

AI也一样。它用自然语言构建思维链，但”左边那个大的”、”靠近中央的红色物体”这种描述，在密集场景里根本无法精确定位。注意力在推理过程中逐渐”漂移”，越说越乱，最后数错了。

人类数东西的时候会怎么做？用手指逐一点过去。

DeepSeek就是这个思路：把坐标和边界框变成推理的基本单位，像文字一样穿插在思维链里。

传统做法是模型先想清楚，再标注”目标在图片左上角”。DeepSeek不一样，模型在思考过程中每提到一个视觉对象，就同步输出它的精确坐标：

“找到一只熊，坐标[452,23,804,411]，正在爬树，排除。再找，另一只熊，坐标[50,447,647,771]，站在岩石上，符合条件。”

坐标不再是答案的一部分，而是推理过程中的”锚点”，把逻辑链钉在图片的物理位置上，防止漂移。

这套机制有两种”原语”：边界框用于需要定位和尺寸的对象，点坐标用于更抽象的空间指代，比如迷宫探索的轨迹。

另一个让同行侧目的技术细节是视觉压缩。

一张756×756的图片，传统方案需要大量视觉token喂给语言模型。DeepSeek的流程是：图片先经过自研ViT处理，生成2916个图像块token；再经过3×3空间压缩，变成324个；最后通过V4-Flash内置的”压缩稀疏注意力”机制，KV缓存再压缩4倍，最终只剩81个视觉KV条目。

从原始像素到最终缓存，整体压缩比7056倍。

对比一下：一张800×800的图，DeepSeek只需要约90个KV缓存条目，Claude Sonnet 4.6需要约870个，Gemini-3-Flash需要约1100个。

论文的核心论点是：精确的空间指代能力，可以在一定程度上弥补视觉token的不足。模型不需要”看更多”，而需要”指更准”。

论文在11个基准上做了评测，对手包括GPT-5.4、Gemini-3-Flash、Claude Sonnet 4.6等。

计数任务上，DeepSeek在Pixmo-Count拿到89.2%，超过Gemini-3-Flash的88.2%，大幅领先GPT-5.4的76.6%。细粒度计数88.7%，也是第一。

真正拉开差距的是拓扑推理。迷宫导航测试，DeepSeek得分66.9%，GPT-5.4是50.6%，Claude Sonnet 4.6是48.9%——所有前沿模型都只能答对一半，DeepSeek多答对了17个百分点。路径追踪56.7% vs GPT-5.4的46.5%，差距同样悬殊。

论文自己也承认了局限性：当前模型需要明确的”触发词”才会启用视觉原语机制，还不能自主判断什么时候该”用手指”。另外受输入分辨率限制，在极细粒度场景中坐标偶尔不够精准。

如果你是AI应用开发者，这套技术意味着多模态模型的推理精度将迎来一波提升。那些”AI总是数不对”的场景——安防监控里的人数统计、工业质检中的缺陷定位、自动驾驶中的障碍物识别——都有可能因此受益。

如果你是普通用户，记住一个判断标准：当你在用AI分析图片、让它数东西、做空间判断的时候，如果它总是答错，问题可能不是它”看不清”，而是它”指不准”。DeepSeek给出了一个方向。

这项技术基于DeepSeek V4-Flash（284B参数，激活13B），技术报告和代码已在GitHub开源。论文由DeepSeek、北京大学、清华大学联合完成。