AI每日新闻——DeepSeek突然开启识图模式,多模态这一仗,终于打响了
大家好,我是AI视听小学生。
DeepSeek-V4 发布才五天,多模态识图功能的灰度测试就悄悄上线了。
这个速度,说实话,有点超出预期。
打开 DeepSeek 的移动端或者网页版,你会发现输入框旁边多了一个不起眼的小入口,「识图模式」,旁边还标着一行小字,「图片理解功能内测中」。
就这么一个小按钮,意味着 DeepSeek 正式从纯文本和代码的世界,跨进了视觉理解的战场。
这不是一次普通的功能更新。
这是 DeepSeek 补上最后一块拼图的信号。

实测体验,基础视觉理解已经相当能打
我第一时间拿到了灰度测试的权限,花了大半天时间反复测试,先说结论。
基础盘,稳了。
随手拍一张街头照片扔进去,DeepSeek 能把画面里的人物、建筑、光线构图、甚至摄影风格都给你拆得明明白白。不是那种干巴巴的「图中有一个人站在建筑前」,而是会告诉你这张照片的色调偏暖、构图采用了三分法、背景虚化暗示使用了大光圈。
这种细腻程度,已经不是「能看懂图」的水平了,是真的在理解画面。
更让我惊喜的是「思考模式」下的表现。
我扔了一张青铜器的照片进去,没给任何提示词,就问它「这是什么」。
它先识别出器物的形制特征,然后根据纹饰风格推导出大致的朝代区间,最后还分析了这类器物在当时可能的使用场景。整个推理链条清晰完整,不是在背百科词条,是真的在做视觉特征到知识图谱的逻辑推演。
图片里的文字识别也测了。中英文混排的海报、手写笔记、甚至拍歪了的菜单,提取准确率都相当在线。
对于一个灰度测试阶段的功能来说,这个基础表现已经超过了很多人的预期。
短板也很明显,别急着封神
但我不想只说好话。
测下来确实有几个地方,还需要打磨。
第一,抗干扰能力还不够硬。
我故意用了一些经过碎块化处理、反色、加噪点的图片去测试。这类图片人眼看着费劲但还能辨认,DeepSeek 在这种场景下的识别率明显下降。这说明视觉模块在鲁棒性上还有提升空间。
第二,数数这件事,依然是个坑。
给它一张画面里有十几个苹果的图,问它有多少个。它会很认真地推理,甚至能看到它在自我博弈、反复验证,但最终给出的数字经常不太对。
这个问题其实不只是 DeepSeek 的问题,几乎所有多模态大模型在精确计数任务上都还没完全解决。但既然要做视觉理解,这一关迟早得过。
第三,知识库的时效性仍然是瓶颈。
拿一个刚发布不到两周的新产品照片去问它,它大概率答不上来。这不是视觉能力的问题,是底层知识库更新周期的限制。
坦率讲,这些短板在灰度测试阶段完全可以理解。关键不在于现在有多少瑕疵,而在于迭代的速度有多快。
看看 DeepSeek 从 V3 到 V4 再到识图模式上线的节奏,你就知道,这些问题大概率不会停留太久。
技术路径拆解,这不是简单的「加个视觉模块」
很多人可能会觉得,识图嘛,不就是在语言模型旁边挂一个图像编码器?
没那么简单。
从目前的表现来看,DeepSeek 的识图功能更像是一个视觉理解补丁,通过灰度测试来验证多模态链路的完整性。模型需要把视觉信号转化为语义表征,再跟语言模型的推理能力对齐,最后输出连贯的自然语言描述。
这条链路上的每一个环节,都可能成为瓶颈。
而 DeepSeek 选择在 V4 发布后立刻推出识图灰测,传递了一个很清晰的信号。
他们在走「先验证链路、再优化精度」的路线。
先确保从图片输入到文本输出的整条通路跑通,拿真实用户的反馈来定位问题,然后快速迭代。而不是闷头在实验室里把所有指标刷到 SOTA 再发布。
这种策略在工程上是非常务实的。
对比来看,国际上 GPT-4o、Gemini 走的是「原生多模态」的路线,视觉和语言能力从训练阶段就深度融合。而国产大模型中,不少玩家还停留在「语言模型 + 外挂视觉模块」的拼接方案。
DeepSeek 目前的状态更像是介于两者之间,用模块化的方式快速补齐能力,同时为未来的原生多模态架构积累数据和经验。
这一步棋,走得很聪明。
行业格局,多模态赛道的竞争逻辑正在变
把视角拉远一点看,DeepSeek 这次灰测的意义远不止于一个功能上线。
过去两年,国产大模型的竞争焦点一直在参数规模、跑分成绩、上下文长度这些硬指标上。谁的模型更大、谁的 benchmark 分数更高,谁就能拿到更多的关注和融资。
但从 2025 年下半年开始,竞争的重心正在发生根本性的转移。
从「谁更聪明」,转向「谁能感知更多」。
一个只能处理文字的大模型,哪怕推理能力再强,在真实应用场景中也会碰壁。用户不会每次都把需求翻译成纯文本再输入,他们想拍张照片就问问题,想截个图就让 AI 分析,想扫一眼文档就得到摘要。
多模态不是加分项,是入场券。
这也是为什么你会看到,几乎所有头部大模型公司在 2025 年都在疯狂补多模态能力。
不具备视觉理解能力的大模型,在接下来的一到两年内会越来越难以获得用户的持续使用。
DeepSeek 显然看到了这一点。在 V4 刚刚凭借推理能力和性价比打出名声的时候,立刻开始补视觉短板。
这不是锦上添花,这是战略必需。
对普通用户来说,这件事意味着什么
如果你是 DeepSeek 的日常用户,这次灰测值得关注的点其实很实际。
场景一,学习和工作。 以后遇到看不懂的英文论文图表、复杂的流程图、或者老板甩过来一张手绘草图让你理解需求,直接截图扔给 DeepSeek 就行。
场景二,生活日常。 拍一张药品说明书问它这个药怎么吃、拍一张报错截图问它怎么修、拍一张菜谱问它需要哪些食材,这些原本需要你手动打字描述的操作,现在一张图搞定。
场景三,专业领域。 设计师可以拿竞品截图让它分析排版逻辑,程序员可以拿架构图让它梳理模块关系,电商运营可以拿竞品详情页让它提炼卖点。
当然,目前还在灰测阶段,不是所有用户都能用上。但按照 DeepSeek 的迭代速度,全量开放应该不会太远。
建议现在就去看看你的账号有没有入口,有的话赶紧体验,积累跟多模态 AI 协作的手感。
这种手感,会在接下来半年变得越来越值钱。
一个更大的判断
DeepSeek 的识图灰测上线,表面上是一个功能更新,但我觉得它释放了一个更深层的信号。
国产大模型的下半场,不再是比谁跑分更高,而是比谁更快地把能力渗透到用户的真实场景中。
V4 解决了「够聪明」的问题,识图模式解决了「能看到」的问题。接下来如果再补上语音理解和视频理解,DeepSeek 就具备了全模态感知的基础能力。
到那一步,它就不再只是一个聊天助手了。
它会变成一个能看、能听、能想、能说的数字智能体。
这个进程比很多人预想的要快。
而对于我们每一个普通人来说,最重要的不是焦虑「AI 又进化了」,而是问自己一个问题。
当 AI 能看懂这个世界的时候,你打算让它帮你看什么?
这个问题的答案,可能比任何一次模型更新都重要。
以上,觉得有收获的话,点赞、在看、转发三连走一波,也欢迎在评论区聊聊你拿到灰测资格了没,体验怎么样。
Tips:有你们的支持,就是我最大的动力~~~
夜雨聆风