乐于分享
好东西不私藏

DeepSeek让AI“指图思考”

DeepSeek让AI“指图思考”

DeepSeek让AI“指图思考”

AI终于学会了“用手指点着思考”。

DeepSeek发布多模态模型,提出“视觉原语”新范式。该模型让AI在推理时能像人类一样用坐标“指”出视觉对象,解决了传统大模型“能看见却想不清楚”的难题。

核心观点

模型将点坐标和边界框作为推理基本单位,消除自然语言指代歧义
DeepSeek模型在拓扑推理任务上超越GPT-5.4,领先约17个百分点
模型通过极致压缩,仅用极少视觉token即可实现高效推理

DeepSeek视觉原语推理

DeepSeek发布“视觉原语思考”框架

框架概述与核心创新

DeepSeek联合北京大学、清华大学发布了《Thinking with Visual Primitives》论文及其开源仓库,提出一种新的多模态推理框架。该框架将坐标点和边界框提升为模型思维链中的“最小思考单元”,使模型在推理时能直接指向图像中的具体位置,解决多模态任务中的“指代鸿沟”问题。

现有模型在处理密集场景下的计数、空间推理等任务时,常因自然语言描述的模糊性导致推理逻辑混乱,无法精确指代视觉对象,出现“逻辑坍塌”或“空间幻觉”。这被称为“指代鸿沟”。

学界此前主要通过高分辨率切图等方式解决“感知鸿沟”,即让模型“看得更清楚”。DeepSeek指出,感知能力强不等于能精确指代,两者是不同的问题。

该框架基于DeepSeek最新发布的V4-Flash作为语言主干,这是一个总参数284B、推理激活参数13B的混合专家模型。视觉编码模块采用DeepSeek自研的ViT,支持任意分辨率图像输入。

DeepSeek通过三步压缩流程,将一张756×756的图片从原始像素到最终KV缓存条目的压缩比高达7056倍。处理一张800×800的图片仅需约90个KV缓存条目,远低于Claude Sonnet 4.6和Gemini-3-Flash。

DeepSeek的核心思路是将点坐标和边界框作为推理的基本单位,像文字一样嵌入思维链中参与思考。模型在推理过程中提及视觉对象时,会同步输出其坐标,作为消除歧义的“锚点”。

团队从近10万个目标检测数据集中筛选出约3.17万个高质量数据源,生成超过4000万条训练样本。专项设计了计数、空间推理、迷宫导航和路径追踪四类任务,并针对性地设计了对抗样本,以锤炼模型的鲁棒性。

DeepSeek采用五阶段训练管线:预训练、专家化监督微调、专家化强化学习、统一强化微调和同策略蒸馏。该管线先训练两个专家模型(用框思考和用点思考),再将其合体并弥合性能差距,确保模型能将视觉原语作为思考媒介。

在7项公开基准和4项自建基准的评测中,DeepSeek模型在计数、空间推理、拓扑推理等维度上达到或超过GPT-5.4、Claude-Sonnet-4.6和Gemini-3-Flash的表现,平均得分77.2%,为所有被测模型中最高。

在迷宫导航和路径追踪两项拓扑推理任务上,DeepSeek模型分别取得66.9%和56.7%的准确率,远超其他前沿模型(均未超过51%),领先约17个百分点。这表明现有模型在拓扑推理方面仍有很大提升空间。

DeepSeek模型目前需要明确的“触发词”才能启用视觉原语机制,无法自主判断何时需要使用坐标进行锚定。

受限于输入分辨率,模型在极细粒度场景中的视觉原语输出偶有偏差,坐标定位的精准度难以保证。团队认为未来可与高分辨率感知方案结合。

以点坐标解决复杂拓扑推理的跨场景泛化能力仍有不足,迷宫和路径追踪类任务的能力尚未完全迁移到更广泛的场景中。

DeepSeek的“视觉原语思考”框架,通过将空间锚点注入推理链,重新定义了视觉AI的竞争维度。它不再是单纯追求更大的模型、更高的分辨率或更多的训练数据,而是强调“指得更准”。

该框架赋予多模态推理一种全新的“思考姿势”,即模仿人类在处理复杂视觉任务时“用手指点着思考”的本能操作,使AI的推理过程更接近人类认知。

DeepSeek已于GitHub发布论文和开源仓库,但模型权重尚未单独开放,计划未来将其能力集成到基础模型中一并发布。

参考链接

1
刚刚,DeepSeek最新成果,节前发布!
http://mp.weixin.qq.com/s?__biz=MzIyNjM2MzQyNg==&mid=2247722411&idx=1&sn=bdec00adace587c9737956cd7554bdb4&scene=4#wechat_redirect
2
DeepSeek多模态技术范式公布,以视觉原语思考
https://www.36kr.com/p/3789208597372165
3
DeepSeek多模态技术范式公布,以视觉原语思考
https://36kr.com/p/3789208597372165?f=rss
4
刚刚!DeepSeek多模态重磅更新,以视觉原语思考
http://mp.weixin.qq.com/s?__biz=MzY4NjA5NTgyMQ==&mid=2247600130&idx=1&sn=af45ca766497325e64db7c8a2fea3b61&scene=4#wechat_redirect
5
DeepSeek发布「视觉原语思考」框架,让多模态模型边推理边“指”  AI
https://www.locdd.com/t/topic/46080#post_1
6
DeepSeek发布视觉基元推理方法,提升多模态复杂推理能力
https://www.panewslab.com/zh/articles/019dde09-823c-70dc-8dba-ff16a8a6f891
7
DeepSeek 要开视觉了吗  AI
https://www.locdd.com/t/topic/46119#post_1
8
刚刚,deepseek开源多模态模型
http://mp.weixin.qq.com/s?__biz=Mzk0MDY2ODM3NQ==&mid=2247489707&idx=1&sn=d94355c7d26bd81aaf2d2087d2f43604&scene=4#wechat_redirect
9
DeepSeek视觉原语论文:当所有人在堆图像分辨率时,它在堆「指代精度」!
http://mp.weixin.qq.com/s?__biz=Mzg2OTA1OTAxNA==&mid=2247489953&idx=1&sn=79fceaadd6b32807392b2829866db298&scene=4#wechat_redirect
10
刚刚,DeepSeek多模态技术范式公布,以视觉原语思考
https://mp.weixin.qq.com/s/2ounFVjR9t6QHSwjKC13ew
11
DeepSeek发布「视觉原语思考」框架,让多模态模型边推理边“指”  AI
https://www.locdd.com/t/topic/46080#post_6
12
DeepSeek多模态技术范式公布,以视觉原语思考
https://www.36kr.com/p/3789208597372165
生成时间: 2026-05-01