AI学会＂用手指着想＂了,DeepSeek这波操作把我看愣了-夜雨聆风

AI学会＂用手指着想＂了,DeepSeek这波操作把我看愣了

4月29日，DeepSeek多模态负责人陈小康在X上发了一条动态：

“Now, we see you.”

配图是DeepSeek的鲸鱼logo——一只摘下了眼罩，睁开了眼睛。

就在同一天，部分用户发现DeepSeek悄悄上线了”识图模式”。五天前V4才刚炸完圈，这波直接开了第二枪。

但真正让我愣住的，不是”AI能看图了”这件事——而是DeepSeek公布的那篇技术报告里，藏着一个颠覆性的思路。

先说问题：AI能看，但想不清楚

你有没有这种经历？

给ChatGPT一张密集的人群照片，问”图里有多少人”，它大概率数错。

给Claude一张复杂电路图，问”左边那个红色零件在右边零件的哪一侧”，它的回答要么语焉不详，要么前后矛盾。

这不是看不清的问题。这是想不清楚的问题。

打个比方：你在电话里给一个看不见你屏幕的朋友描述棋盘——”左边那个棋子要吃中间偏右的那个”，对方根本不知道你在说哪两颗。

AI也一样。它在推理时用自然语言说”左边那个大的””靠近中央的红色物体”，在密集场景里，这些描述根本无法精确定位。越说越乱，最后得出错误结论。

DeepSeek给这个问题起了个名字：指代鸿沟（Reference Gap）。

DeepSeek的解法：用手指着想

人类数东西的时候会怎么做？用手指，一个一个点过去。

DeepSeek的核心思路就是这样——让AI在思考的时候，直接输出坐标”指”着图片上的对象。

具体来说，当AI在推理过程中提到一个视觉对象时，它会同步输出这个对象的坐标：

扫描图片寻找熊，找到一只熊[452,23,804,411]，正在爬树，排除。再找到另一只熊[50,447,647,771]，站在岩石边缘，符合条件。

坐标不再是答案，而是推理过程中消除歧义的”锚点”。

模型的逻辑链被钉在图片的物理坐标上，不会漂移。

这就像人类在数东西时用手指逐一点过去——DeepSeek把这种认知行为变成了一种”思考姿势”。

更狠的是：看得少，反而更准

传统思路是让AI”看更多”——更高的分辨率、更多的视觉token、更强的感知能力。

DeepSeek反其道而行：不需要看更多，需要指更准。

一张800×800的图片：

Claude Sonnet 4.6需要约870个KV缓存
Gemini-3-Flash需要约1100个
DeepSeek这个模型只需要约90个

7056倍的视觉压缩。

少看10倍，但想得更清楚——因为每一次”指”都消除了歧义，不需要反复回看确认。

实测结果：专治各种”数不清”

论文在11个基准上做了评测，几个关键数据：

数东西：精确计数89.2%，GPT-5.4是76.6%，Claude Sonnet 4.6只有68.7%。

走迷宫：66.9% vs GPT-5.4的50.6%。所有前沿模型在迷宫这种拓扑推理上只能答对一半，DeepSeek提升了17个百分点。

追踪路径：56.7% vs GPT-5.4的46.5%。

但论文也很诚实——“所有前沿模型在拓扑推理上均表现欠佳”。AI的推理能力还有很长的路要走。

四类训练任务：从数数到走迷宫

为了让模型学会”用手指着想”，团队设计了四类训练任务：

1. 计数：分粗粒度（”图里多少人”）和细粒度（”穿蓝衣服的几个人”）。粗粒度学会一次框出所有候选对象，细粒度学会逐一扫描核对属性。

2. 空间推理：多跳推理，每一步都用边界框锁定涉及的对象，迫使模型”指”着推理。

3. 迷宫导航：46万条训练样本，用三种算法生成矩形、圆形、六边形迷宫，甚至专门设计了”看起来有解但实际无解”的迷宫训练鲁棒性。模型用点坐标记录探索轨迹，回溯时也用坐标标记已排除路径。

4. 路径追踪：12.5万条样本，追踪多条交叉的贝塞尔曲线。关键挑战是”交叉歧义消解”——两条线交叉时，模型必须判断哪条才是目标曲线的延续。专门设计了所有曲线颜色相同的测试版本，防止模型用颜色取巧。

训练策略：先分家再合体

训练分四步走：

先分别训练两个专家——一个专精边界框，一个专精点坐标。两种能力数据量少时不互相干扰。

各自做完强化学习后，用两个专家的rollout数据做统一微调。

最后一步是在线策略蒸馏——让学生模型自己生成轨迹，然后最小化与专家分布的KL散度，弥合统一模型与专家之间的性能差距。

对普通人意味着什么？

说实话，这篇论文的意义不只是”在几个榜单上拿了第一”。

它提出了一种新思路：不是让AI看更多，而是让AI指更准。

这条路线如果走通，意味着：

更省算力：视觉token消耗降一个数量级，同样算力能服务更多用户
更少幻觉：坐标锚点防止推理过程中的注意力漂移，减少AI胡说八道
更可靠的视觉AI：医疗影像分析、工业质检、自动驾驶……凡是需要精确空间推理的场景，都可能受益

DeepSeek V4-Flash本身只有284B总参数、13B激活参数——和动辄万亿参数的前沿模型相比，这算”轻量级选手”。但就是这样一个模型，在特定任务上跑赢了GPT-5.4。

不是更大的模型，而是更聪明的思考方式。

这才是这篇论文真正值得关注的理由。

项目地址：github.com/deepseek-ai/Thinking-with-Visual-Primitives

技术报告：github.com/deepseek-ai/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf