AI每日新闻——DeepSeek突然开启识图模式,多模态这一仗,终于打响了

大家好，我是AI视听小学生。

DeepSeek-V4 发布才五天，多模态识图功能的灰度测试就悄悄上线了。

这个速度，说实话，有点超出预期。

打开 DeepSeek 的移动端或者网页版，你会发现输入框旁边多了一个不起眼的小入口，「识图模式」，旁边还标着一行小字，「图片理解功能内测中」。

就这么一个小按钮，意味着 DeepSeek 正式从纯文本和代码的世界，跨进了视觉理解的战场。

这不是一次普通的功能更新。

这是 DeepSeek 补上最后一块拼图的信号。

实测体验，基础视觉理解已经相当能打

我第一时间拿到了灰度测试的权限，花了大半天时间反复测试，先说结论。

基础盘，稳了。

随手拍一张街头照片扔进去，DeepSeek 能把画面里的人物、建筑、光线构图、甚至摄影风格都给你拆得明明白白。不是那种干巴巴的「图中有一个人站在建筑前」，而是会告诉你这张照片的色调偏暖、构图采用了三分法、背景虚化暗示使用了大光圈。

这种细腻程度，已经不是「能看懂图」的水平了，是真的在理解画面。

更让我惊喜的是「思考模式」下的表现。

我扔了一张青铜器的照片进去，没给任何提示词，就问它「这是什么」。

它先识别出器物的形制特征，然后根据纹饰风格推导出大致的朝代区间，最后还分析了这类器物在当时可能的使用场景。整个推理链条清晰完整，不是在背百科词条，是真的在做视觉特征到知识图谱的逻辑推演。

图片里的文字识别也测了。中英文混排的海报、手写笔记、甚至拍歪了的菜单，提取准确率都相当在线。

对于一个灰度测试阶段的功能来说，这个基础表现已经超过了很多人的预期。

短板也很明显，别急着封神

但我不想只说好话。

测下来确实有几个地方，还需要打磨。

第一，抗干扰能力还不够硬。

我故意用了一些经过碎块化处理、反色、加噪点的图片去测试。这类图片人眼看着费劲但还能辨认，DeepSeek 在这种场景下的识别率明显下降。这说明视觉模块在鲁棒性上还有提升空间。

第二，数数这件事，依然是个坑。

给它一张画面里有十几个苹果的图，问它有多少个。它会很认真地推理，甚至能看到它在自我博弈、反复验证，但最终给出的数字经常不太对。

这个问题其实不只是 DeepSeek 的问题，几乎所有多模态大模型在精确计数任务上都还没完全解决。但既然要做视觉理解，这一关迟早得过。

第三，知识库的时效性仍然是瓶颈。

拿一个刚发布不到两周的新产品照片去问它，它大概率答不上来。这不是视觉能力的问题，是底层知识库更新周期的限制。

坦率讲，这些短板在灰度测试阶段完全可以理解。关键不在于现在有多少瑕疵，而在于迭代的速度有多快。

看看 DeepSeek 从 V3 到 V4 再到识图模式上线的节奏，你就知道，这些问题大概率不会停留太久。

技术路径拆解，这不是简单的「加个视觉模块」

很多人可能会觉得，识图嘛，不就是在语言模型旁边挂一个图像编码器？

没那么简单。

从目前的表现来看，DeepSeek 的识图功能更像是一个视觉理解补丁，通过灰度测试来验证多模态链路的完整性。模型需要把视觉信号转化为语义表征，再跟语言模型的推理能力对齐，最后输出连贯的自然语言描述。

这条链路上的每一个环节，都可能成为瓶颈。

而 DeepSeek 选择在 V4 发布后立刻推出识图灰测，传递了一个很清晰的信号。

他们在走「先验证链路、再优化精度」的路线。

先确保从图片输入到文本输出的整条通路跑通，拿真实用户的反馈来定位问题，然后快速迭代。而不是闷头在实验室里把所有指标刷到 SOTA 再发布。

这种策略在工程上是非常务实的。

对比来看，国际上 GPT-4o、Gemini 走的是「原生多模态」的路线，视觉和语言能力从训练阶段就深度融合。而国产大模型中，不少玩家还停留在「语言模型 + 外挂视觉模块」的拼接方案。

DeepSeek 目前的状态更像是介于两者之间，用模块化的方式快速补齐能力，同时为未来的原生多模态架构积累数据和经验。

这一步棋，走得很聪明。

行业格局，多模态赛道的竞争逻辑正在变

把视角拉远一点看，DeepSeek 这次灰测的意义远不止于一个功能上线。

过去两年，国产大模型的竞争焦点一直在参数规模、跑分成绩、上下文长度这些硬指标上。谁的模型更大、谁的 benchmark 分数更高，谁就能拿到更多的关注和融资。

但从 2025 年下半年开始，竞争的重心正在发生根本性的转移。

从「谁更聪明」，转向「谁能感知更多」。

一个只能处理文字的大模型，哪怕推理能力再强，在真实应用场景中也会碰壁。用户不会每次都把需求翻译成纯文本再输入，他们想拍张照片就问问题，想截个图就让 AI 分析，想扫一眼文档就得到摘要。

多模态不是加分项，是入场券。

这也是为什么你会看到，几乎所有头部大模型公司在 2025 年都在疯狂补多模态能力。

不具备视觉理解能力的大模型，在接下来的一到两年内会越来越难以获得用户的持续使用。

DeepSeek 显然看到了这一点。在 V4 刚刚凭借推理能力和性价比打出名声的时候，立刻开始补视觉短板。

这不是锦上添花，这是战略必需。

对普通用户来说，这件事意味着什么

如果你是 DeepSeek 的日常用户，这次灰测值得关注的点其实很实际。

场景一，学习和工作。 以后遇到看不懂的英文论文图表、复杂的流程图、或者老板甩过来一张手绘草图让你理解需求，直接截图扔给 DeepSeek 就行。

场景二，生活日常。 拍一张药品说明书问它这个药怎么吃、拍一张报错截图问它怎么修、拍一张菜谱问它需要哪些食材，这些原本需要你手动打字描述的操作，现在一张图搞定。

场景三，专业领域。 设计师可以拿竞品截图让它分析排版逻辑，程序员可以拿架构图让它梳理模块关系，电商运营可以拿竞品详情页让它提炼卖点。

当然，目前还在灰测阶段，不是所有用户都能用上。但按照 DeepSeek 的迭代速度，全量开放应该不会太远。

建议现在就去看看你的账号有没有入口，有的话赶紧体验，积累跟多模态 AI 协作的手感。

这种手感，会在接下来半年变得越来越值钱。

一个更大的判断

DeepSeek 的识图灰测上线，表面上是一个功能更新，但我觉得它释放了一个更深层的信号。

国产大模型的下半场，不再是比谁跑分更高，而是比谁更快地把能力渗透到用户的真实场景中。

V4 解决了「够聪明」的问题，识图模式解决了「能看到」的问题。接下来如果再补上语音理解和视频理解，DeepSeek 就具备了全模态感知的基础能力。

到那一步，它就不再只是一个聊天助手了。

它会变成一个能看、能听、能想、能说的数字智能体。

这个进程比很多人预想的要快。

而对于我们每一个普通人来说，最重要的不是焦虑「AI 又进化了」，而是问自己一个问题。

当 AI 能看懂这个世界的时候，你打算让它帮你看什么？

这个问题的答案，可能比任何一次模型更新都重要。

以上，觉得有收获的话，点赞、在看、转发三连走一波，也欢迎在评论区聊聊你拿到灰测资格了没，体验怎么样。

Tips：有你们的支持，就是我最大的动力~~~