乐于分享
好东西不私藏

AI学会"用手指着想"了,DeepSeek这波操作把我看愣了

AI学会"用手指着想"了,DeepSeek这波操作把我看愣了

4月29日,DeepSeek多模态负责人陈小康在X上发了一条动态:

“Now, we see you.”

配图是DeepSeek的鲸鱼logo——一只摘下了眼罩,睁开了眼睛。

就在同一天,部分用户发现DeepSeek悄悄上线了”识图模式”。五天前V4才刚炸完圈,这波直接开了第二枪。

但真正让我愣住的,不是”AI能看图了”这件事——而是DeepSeek公布的那篇技术报告里,藏着一个颠覆性的思路。

先说问题:AI能看,但想不清楚

你有没有这种经历?

给ChatGPT一张密集的人群照片,问”图里有多少人”,它大概率数错。

给Claude一张复杂电路图,问”左边那个红色零件在右边零件的哪一侧”,它的回答要么语焉不详,要么前后矛盾。

这不是看不清的问题。这是想不清楚的问题。

打个比方:你在电话里给一个看不见你屏幕的朋友描述棋盘——”左边那个棋子要吃中间偏右的那个”,对方根本不知道你在说哪两颗。

AI也一样。它在推理时用自然语言说”左边那个大的””靠近中央的红色物体”,在密集场景里,这些描述根本无法精确定位。越说越乱,最后得出错误结论。

DeepSeek给这个问题起了个名字:指代鸿沟(Reference Gap)

DeepSeek的解法:用手指着想

人类数东西的时候会怎么做?用手指,一个一个点过去。

DeepSeek的核心思路就是这样——让AI在思考的时候,直接输出坐标”指”着图片上的对象。

具体来说,当AI在推理过程中提到一个视觉对象时,它会同步输出这个对象的坐标:

扫描图片寻找熊,找到一只 [452,23,804,411],正在爬树,排除。再找到另一只 [50,447,647,771],站在岩石边缘,符合条件。

坐标不再是答案,而是推理过程中消除歧义的”锚点”。

模型的逻辑链被钉在图片的物理坐标上,不会漂移。

这就像人类在数东西时用手指逐一点过去——DeepSeek把这种认知行为变成了一种”思考姿势”。

更狠的是:看得少,反而更准

传统思路是让AI”看更多”——更高的分辨率、更多的视觉token、更强的感知能力。

DeepSeek反其道而行:不需要看更多,需要指更准。

一张800×800的图片:

  • Claude Sonnet 4.6需要约870个KV缓存
  • Gemini-3-Flash需要约1100个
  • DeepSeek这个模型只需要约90个

7056倍的视觉压缩。

少看10倍,但想得更清楚——因为每一次”指”都消除了歧义,不需要反复回看确认。

实测结果:专治各种”数不清”

论文在11个基准上做了评测,几个关键数据:

数东西:精确计数89.2%,GPT-5.4是76.6%,Claude Sonnet 4.6只有68.7%。

走迷宫:66.9% vs GPT-5.4的50.6%。所有前沿模型在迷宫这种拓扑推理上只能答对一半,DeepSeek提升了17个百分点。

追踪路径:56.7% vs GPT-5.4的46.5%。

但论文也很诚实——“所有前沿模型在拓扑推理上均表现欠佳”。AI的推理能力还有很长的路要走。

四类训练任务:从数数到走迷宫

为了让模型学会”用手指着想”,团队设计了四类训练任务:

1. 计数:分粗粒度(”图里多少人”)和细粒度(”穿蓝衣服的几个人”)。粗粒度学会一次框出所有候选对象,细粒度学会逐一扫描核对属性。

2. 空间推理:多跳推理,每一步都用边界框锁定涉及的对象,迫使模型”指”着推理。

3. 迷宫导航:46万条训练样本,用三种算法生成矩形、圆形、六边形迷宫,甚至专门设计了”看起来有解但实际无解”的迷宫训练鲁棒性。模型用点坐标记录探索轨迹,回溯时也用坐标标记已排除路径。

4. 路径追踪:12.5万条样本,追踪多条交叉的贝塞尔曲线。关键挑战是”交叉歧义消解”——两条线交叉时,模型必须判断哪条才是目标曲线的延续。专门设计了所有曲线颜色相同的测试版本,防止模型用颜色取巧。

训练策略:先分家再合体

训练分四步走:

先分别训练两个专家——一个专精边界框,一个专精点坐标。两种能力数据量少时不互相干扰。

各自做完强化学习后,用两个专家的rollout数据做统一微调。

最后一步是在线策略蒸馏——让学生模型自己生成轨迹,然后最小化与专家分布的KL散度,弥合统一模型与专家之间的性能差距。

对普通人意味着什么?

说实话,这篇论文的意义不只是”在几个榜单上拿了第一”。

它提出了一种新思路:不是让AI看更多,而是让AI指更准。

这条路线如果走通,意味着:

  • 更省算力:视觉token消耗降一个数量级,同样算力能服务更多用户
  • 更少幻觉:坐标锚点防止推理过程中的注意力漂移,减少AI胡说八道
  • 更可靠的视觉AI:医疗影像分析、工业质检、自动驾驶……凡是需要精确空间推理的场景,都可能受益

DeepSeek V4-Flash本身只有284B总参数、13B激活参数——和动辄万亿参数的前沿模型相比,这算”轻量级选手”。但就是这样一个模型,在特定任务上跑赢了GPT-5.4。

不是更大的模型,而是更聪明的思考方式。

这才是这篇论文真正值得关注的理由。


项目地址:github.com/deepseek-ai/Thinking-with-Visual-Primitives

技术报告:github.com/deepseek-ai/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf