DeepSeek让AI“指图思考”-夜雨聆风

DeepSeek让AI“指图思考”

AI终于学会了“用手指点着思考”。

DeepSeek发布多模态模型，提出“视觉原语”新范式。该模型让AI在推理时能像人类一样用坐标“指”出视觉对象，解决了传统大模型“能看见却想不清楚”的难题。

核心观点

●模型将点坐标和边界框作为推理基本单位，消除自然语言指代歧义

●DeepSeek模型在拓扑推理任务上超越GPT-5.4，领先约17个百分点

●模型通过极致压缩，仅用极少视觉token即可实现高效推理

DeepSeek视觉原语推理

DeepSeek发布“视觉原语思考”框架

框架概述与核心创新

DeepSeek联合北京大学、清华大学发布了《Thinking with Visual Primitives》论文及其开源仓库，提出一种新的多模态推理框架。该框架将坐标点和边界框提升为模型思维链中的“最小思考单元”，使模型在推理时能直接指向图像中的具体位置，解决多模态任务中的“指代鸿沟”问题。

现有模型在处理密集场景下的计数、空间推理等任务时，常因自然语言描述的模糊性导致推理逻辑混乱，无法精确指代视觉对象，出现“逻辑坍塌”或“空间幻觉”。这被称为“指代鸿沟”。

学界此前主要通过高分辨率切图等方式解决“感知鸿沟”，即让模型“看得更清楚”。DeepSeek指出，感知能力强不等于能精确指代，两者是不同的问题。

该框架基于DeepSeek最新发布的V4-Flash作为语言主干，这是一个总参数284B、推理激活参数13B的混合专家模型。视觉编码模块采用DeepSeek自研的ViT，支持任意分辨率图像输入。

DeepSeek通过三步压缩流程，将一张756×756的图片从原始像素到最终KV缓存条目的压缩比高达7056倍。处理一张800×800的图片仅需约90个KV缓存条目，远低于Claude Sonnet 4.6和Gemini-3-Flash。

DeepSeek的核心思路是将点坐标和边界框作为推理的基本单位，像文字一样嵌入思维链中参与思考。模型在推理过程中提及视觉对象时，会同步输出其坐标，作为消除歧义的“锚点”。

团队从近10万个目标检测数据集中筛选出约3.17万个高质量数据源，生成超过4000万条训练样本。专项设计了计数、空间推理、迷宫导航和路径追踪四类任务，并针对性地设计了对抗样本，以锤炼模型的鲁棒性。

DeepSeek采用五阶段训练管线：预训练、专家化监督微调、专家化强化学习、统一强化微调和同策略蒸馏。该管线先训练两个专家模型（用框思考和用点思考），再将其合体并弥合性能差距，确保模型能将视觉原语作为思考媒介。

在7项公开基准和4项自建基准的评测中，DeepSeek模型在计数、空间推理、拓扑推理等维度上达到或超过GPT-5.4、Claude-Sonnet-4.6和Gemini-3-Flash的表现，平均得分77.2%，为所有被测模型中最高。

在迷宫导航和路径追踪两项拓扑推理任务上，DeepSeek模型分别取得66.9%和56.7%的准确率，远超其他前沿模型（均未超过51%），领先约17个百分点。这表明现有模型在拓扑推理方面仍有很大提升空间。

DeepSeek模型目前需要明确的“触发词”才能启用视觉原语机制，无法自主判断何时需要使用坐标进行锚定。

受限于输入分辨率，模型在极细粒度场景中的视觉原语输出偶有偏差，坐标定位的精准度难以保证。团队认为未来可与高分辨率感知方案结合。

以点坐标解决复杂拓扑推理的跨场景泛化能力仍有不足，迷宫和路径追踪类任务的能力尚未完全迁移到更广泛的场景中。

DeepSeek的“视觉原语思考”框架，通过将空间锚点注入推理链，重新定义了视觉AI的竞争维度。它不再是单纯追求更大的模型、更高的分辨率或更多的训练数据，而是强调“指得更准”。

该框架赋予多模态推理一种全新的“思考姿势”，即模仿人类在处理复杂视觉任务时“用手指点着思考”的本能操作，使AI的推理过程更接近人类认知。

DeepSeek已于GitHub发布论文和开源仓库，但模型权重尚未单独开放，计划未来将其能力集成到基础模型中一并发布。

参考链接

刚刚，DeepSeek最新成果，节前发布！

http://mp.weixin.qq.com/s?__biz=MzIyNjM2MzQyNg==&mid=2247722411&idx=1&sn=bdec00adace587c9737956cd7554bdb4&scene=4#wechat_redirect

DeepSeek多模态技术范式公布，以视觉原语思考

https://www.36kr.com/p/3789208597372165

DeepSeek多模态技术范式公布，以视觉原语思考

https://36kr.com/p/3789208597372165?f=rss

刚刚！DeepSeek多模态重磅更新，以视觉原语思考

http://mp.weixin.qq.com/s?__biz=MzY4NjA5NTgyMQ==&mid=2247600130&idx=1&sn=af45ca766497325e64db7c8a2fea3b61&scene=4#wechat_redirect

DeepSeek发布「视觉原语思考」框架，让多模态模型边推理边“指” AI

https://www.locdd.com/t/topic/46080#post_1

DeepSeek发布视觉基元推理方法，提升多模态复杂推理能力

https://www.panewslab.com/zh/articles/019dde09-823c-70dc-8dba-ff16a8a6f891

DeepSeek 要开视觉了吗 AI

https://www.locdd.com/t/topic/46119#post_1

刚刚，deepseek开源多模态模型

http://mp.weixin.qq.com/s?__biz=Mzk0MDY2ODM3NQ==&mid=2247489707&idx=1&sn=d94355c7d26bd81aaf2d2087d2f43604&scene=4#wechat_redirect

DeepSeek视觉原语论文：当所有人在堆图像分辨率时，它在堆「指代精度」！

http://mp.weixin.qq.com/s?__biz=Mzg2OTA1OTAxNA==&mid=2247489953&idx=1&sn=79fceaadd6b32807392b2829866db298&scene=4#wechat_redirect

刚刚，DeepSeek多模态技术范式公布，以视觉原语思考

https://mp.weixin.qq.com/s/2ounFVjR9t6QHSwjKC13ew

DeepSeek发布「视觉原语思考」框架，让多模态模型边推理边“指” AI

https://www.locdd.com/t/topic/46080#post_6

DeepSeek多模态技术范式公布，以视觉原语思考

https://www.36kr.com/p/3789208597372165

生成时间: 2026-05-01