DeepSeek让AI“指图思考”
DeepSeek让AI“指图思考”
AI终于学会了“用手指点着思考”。
DeepSeek发布多模态模型,提出“视觉原语”新范式。该模型让AI在推理时能像人类一样用坐标“指”出视觉对象,解决了传统大模型“能看见却想不清楚”的难题。
核心观点
DeepSeek视觉原语推理
DeepSeek发布“视觉原语思考”框架
框架概述与核心创新
DeepSeek联合北京大学、清华大学发布了《Thinking with Visual Primitives》论文及其开源仓库,提出一种新的多模态推理框架。该框架将坐标点和边界框提升为模型思维链中的“最小思考单元”,使模型在推理时能直接指向图像中的具体位置,解决多模态任务中的“指代鸿沟”问题。
现有模型在处理密集场景下的计数、空间推理等任务时,常因自然语言描述的模糊性导致推理逻辑混乱,无法精确指代视觉对象,出现“逻辑坍塌”或“空间幻觉”。这被称为“指代鸿沟”。
学界此前主要通过高分辨率切图等方式解决“感知鸿沟”,即让模型“看得更清楚”。DeepSeek指出,感知能力强不等于能精确指代,两者是不同的问题。
该框架基于DeepSeek最新发布的V4-Flash作为语言主干,这是一个总参数284B、推理激活参数13B的混合专家模型。视觉编码模块采用DeepSeek自研的ViT,支持任意分辨率图像输入。
DeepSeek通过三步压缩流程,将一张756×756的图片从原始像素到最终KV缓存条目的压缩比高达7056倍。处理一张800×800的图片仅需约90个KV缓存条目,远低于Claude Sonnet 4.6和Gemini-3-Flash。
DeepSeek的核心思路是将点坐标和边界框作为推理的基本单位,像文字一样嵌入思维链中参与思考。模型在推理过程中提及视觉对象时,会同步输出其坐标,作为消除歧义的“锚点”。
团队从近10万个目标检测数据集中筛选出约3.17万个高质量数据源,生成超过4000万条训练样本。专项设计了计数、空间推理、迷宫导航和路径追踪四类任务,并针对性地设计了对抗样本,以锤炼模型的鲁棒性。
DeepSeek采用五阶段训练管线:预训练、专家化监督微调、专家化强化学习、统一强化微调和同策略蒸馏。该管线先训练两个专家模型(用框思考和用点思考),再将其合体并弥合性能差距,确保模型能将视觉原语作为思考媒介。
在7项公开基准和4项自建基准的评测中,DeepSeek模型在计数、空间推理、拓扑推理等维度上达到或超过GPT-5.4、Claude-Sonnet-4.6和Gemini-3-Flash的表现,平均得分77.2%,为所有被测模型中最高。
在迷宫导航和路径追踪两项拓扑推理任务上,DeepSeek模型分别取得66.9%和56.7%的准确率,远超其他前沿模型(均未超过51%),领先约17个百分点。这表明现有模型在拓扑推理方面仍有很大提升空间。
DeepSeek模型目前需要明确的“触发词”才能启用视觉原语机制,无法自主判断何时需要使用坐标进行锚定。
受限于输入分辨率,模型在极细粒度场景中的视觉原语输出偶有偏差,坐标定位的精准度难以保证。团队认为未来可与高分辨率感知方案结合。
以点坐标解决复杂拓扑推理的跨场景泛化能力仍有不足,迷宫和路径追踪类任务的能力尚未完全迁移到更广泛的场景中。
DeepSeek的“视觉原语思考”框架,通过将空间锚点注入推理链,重新定义了视觉AI的竞争维度。它不再是单纯追求更大的模型、更高的分辨率或更多的训练数据,而是强调“指得更准”。
该框架赋予多模态推理一种全新的“思考姿势”,即模仿人类在处理复杂视觉任务时“用手指点着思考”的本能操作,使AI的推理过程更接近人类认知。
DeepSeek已于GitHub发布论文和开源仓库,但模型权重尚未单独开放,计划未来将其能力集成到基础模型中一并发布。
夜雨聆风