乐于分享
好东西不私藏

DeepSeek最新发布,AI都开始指指点点了?

DeepSeek最新发布,AI都开始指指点点了?

终于放假了。

DeepSeek 识图模式的灰度没等到,等来了技术报告。

说真的,我看见这论文标题的时候,第一反应是想笑。

《Thinking with Visual Primitives》,视觉基元思考。

听起来像是某个 PPT 大师,在汇报会上憋出来的玄学概念。

配上一张螺旋上升的箭头图,老板看了直点头,员工听完一头雾水。

但当我把全文啃完之后,我大脑宕机了三秒。

并非因为它多复杂,是因为它简单到离谱,简单到让我怀疑过去这些年大家都在干什么。

DeepSeek 这篇新论文,说白了就是教 AI 学会一件事。

想问题的时候,能不能用手指着想?

就这么简单。

但就是这么个事儿,让一个基于 DeepSeek-V4-Flash 开发,总参数 284B,激活只有 13B 的小模型。

在迷宫导航这种任务上,把 GPT-5.4,Claude-Sonnet-4.6,Gemini-3-Flash 全部按在地上摩擦。

所以,即使刚放假,也要先来跟大家第一时间分享。

1

你有没有这种经历。

晚上跟女朋友窝在沙发上,她翻出一张小学毕业照给你看,让你猜猜哪个是她。

你凑近屏幕,五排小孩儿,乌泱泱四五十个人。

你说,第二排中间哪个?

她说,中间哪个?

你说,笑得最甜的。

她说,我那时候不爱笑,你还是指给我看吧。

你手指头一戳,双方对齐了。

但是吧,AI 没有手,思考的时候全靠自己在脑子里默念。

用语言描述“这个”,“那个”,“另外那个”的时候,很快就在自己的推理链里崩溃了。

DeepSeek 的论文给这个现象起了一个名字,叫 Reference Gap,指认鸿沟。

之前的多模态大模型卷的是更高的分辨率,更细的图像切片。

把图像切成几百块,让模型把每根毛都看清楚。

但卷到最后,大家发现一个诡异的现象,模型明明看清楚了每根毛,回答问题还是错。

为啥呢?

因为看见并不等于推理,中间隔着的就是指认鸿沟。

模型不是没看见。

是看见了不会说,说了也说不准,说准了也接不上下一句。

2

之前也有人尝试让 AI 一边看图一边画框,但都是当作事后检查用。

AI 先把答案在脑子里想好,最后再随手画个框。

DeepSeek 这次不一样,它让 AI 在思考答案的时候,就当场推理。

一边想,一边画框,一边打点。

画框本身,就是思考的一部分。

具体来说,你如果问 AI,这张图里有几只狗?

之前的 AI 内心戏是这样的。

我看到一只狗。然后那边还有一只。再过去那边好像也有……等等左边那只我数过没?算了再数一遍……前面好像数错了……

DeepSeek 新模型内心戏是这样的。

找狗 → [box: 120, 340, 200, 420] → 找下一只 → [box: 450, 200, 530, 290] → 还有吗?→ [box: 700, 400, 810, 500] → 1+1+1=3。

每一步思考,都带上了坐标。

语言负责想什么,坐标负责指哪个。

两种基元交织在一起,构成一段推理。

这就是论文最核心的概念,把视觉基元提升成思考的最小单位。

说人话,就是 AI 推理的最小单位除了词元,还可以是坐标。

抽掉坐标,指代就丢了。

DeepSeek 这次,是真的把坐标搬进了推理链里。

3

光说理论还是抽象,我们来看几个论文里实测的案例。

第一个,数球队合影。

一张足球队的合影,二十几个人挤在一起,让模型数有几个人。

DeepSeek 新模型扫描了整张图片,一口气画出了 25 个框,每个框框住一个人。

然后认真的做汇报。

前排地上坐着 4 个,中间一排坐着 9 个,后排站着 8 个,左边教练 2 个,右边教练 2 个,一共 25 个人。

论文里另一张黑白老照片,模型也直接框除了 29 个人,一个不漏。

还有这个把各种动漫手办放在一块,要求数出神奇宝贝数量的,一共 6 个。

甚至还有把吉娃娃和蓝莓松饼放在一块,让模型数有几只吉娃娃。

两者长得离谱的像,别说 AI 了,人不仔细看都容易搞混了。

更狠的是这个,迷宫导航。

给模型一张蜂窝迷宫的图,让它从入口走到出口。

GPT-5.4,Claude-Sonnet-4.6,Gemini-3-Flash,所有顶级模型在这种任务上都卡在了 50% 上下,集体翻车。

为什么?

因为用纯语言的思维链,描述这种不规则的空间路径是反人类的。

DeepSeek 新模型在每个分叉点都标记了坐标,永远不会指代不清。

最后跑出了 66.9% 的准确率,比竞品模型高出 16 个百分点以上。

这说明,不是模型不够大,思考方式错了,再大的模型也救不了。

类似的例子,还有下面这种路径追踪的任务。

更有意思的,是下面这个中文案例。

给它一张咖啡机的照片,问我应该如何制作一杯美味的拿铁?

它一边思考,一边在图片上分别框出咖啡机,蒸汽棒,不锈钢牛奶壶,咖啡豆包装袋,拿铁按钮,陶瓷咖啡杯。

然后一步步告诉你,该如何正确操作。

视觉指认和世界知识,融合的非常自然。

4

关键数据还是要过一下。

下图的 Ours-284B-A13B 就是 DeepSeek 的新模型。

放在今天这堆万亿参数的庞然大物里,它是个小个子。

但它读图片的时候,要比所有大块头都省。

你给它一张正常分辨率的图片,它脑子里要存的草稿纸,大约不到同行的十分之一。

这种效率差距太离谱了,我是同行我看了都要流汗。

更离谱的是,效率省成这样,性能还是基本反超的。

平均下来,DeepSeek 新模型拿到 77.2%,全场最高。

再来看下面这张详情表。

Ours 拿下了 8 项第一,3 项第二。

Gemini-3-Flash 在某几个特别考验看清细节的测试上,稍微略胜一点点。

但在那些考“看清之后能不能想明白”的任务上,比如最下方拓扑推理的两个任务中,DeepSeek 新模型 Ours 直接断层式的遥遥领先。

5

说完爽点,来说说论文中自己提到的几个短板。

第一个,图太挤的时候,它还是会画歪。

因为看不清楚,这个问题要跟现有的,能看得更清楚的技术结合起来解决。

第二个,你得明确叫它指,它才会指。

它现在还不会自己判断,这个问题需不需要边想边画。

理想状态就是让它自己分得清,适合的任务要主动调用指认的能力。

第三个,拓扑推理的任务还是有很大挑战。

在迷宫任务里虽然取得了亮眼的成绩,但还缺乏泛化能力,还不够通用。

后面,还有大把的工作要做。

好戏才刚刚开场。

尾声

写到这里,我突然想起一句话。

维特根斯坦说,我语言的边界,就是我世界的边界。

这句话被引用了无数次,但很少有人提及它的反面。

当你扩展了语言之外的表达手段,你就扩展了你的世界。

DeepSeek 论文里最后一句话是这样说的。

通向系统 2 多模态智能的路,不在于看到更多像素,而在于在语言和视觉之间,搭起一座精确而无歧义的指代桥梁。

我的直觉告诉我,这个方向是对的。

因为,它符合人类认知的过程。

当你穿越复杂迷宫或者要数清密集的物体时,你就是会自然的用手指指向它们。

这样不光能节省大脑的消耗,也会保持逻辑连贯性,防止出错。

婴儿在咿呀学语之前,不也是会伸出小小的指头来指的么?

DeepSeek 的新论文,让 AI 第一次伸出了那根手指。

后来的人们发现,通往 AGI 的那把钥匙。

可能一直就藏在我们的手指头上。

往期文章

百度文心,这次玩大了

DeepSeek V4这次出手,谁不害怕?

既然你看到这里了,如果觉得不错,请帮我一键三连,转发给你的朋友,这真的对我很重要。

另外如果想第一时间收到推送,请将本公众号加个星标🌟

谢谢你看我的文章,祝你有财安康,我们下期见。