DeepSeek终于能看图了!拍照识文档读图表,完全免费,但有个bug让人笑出声-夜雨聆风

DeepSeek终于能看图了!拍照识文档读图表,完全免费,但有个bug让人笑出声

⏳ 等了两年，DeepSeek终于能看图了

两年以来，DeepSeek被无数用户反复提及一个短板：不能看图。

别人家的AI早已支持拍照提问、截图分析，DeepSeek却始终停留在纯文本阶段。直到6月18日，DeepSeek多模态研究员陈小康在社交平台X宣布：识图模式已在网页端和App端正式上线。

这意味着，DeepSeek正式从”文本专家”升级为”看图达人”。

🔍 能看什么？不只是识别文字

DeepSeek的识图功能并非简单的文字提取（OCR），而是依托自研DeepSeek-OCR2视觉因果流机制，搭建了完整的视觉理解闭环。

上传一张图片并搭配文字提问，系统可以同步完成：

– 物体识别：拍一张植物照片，它能告诉你是什么品种、怎么养护

– 场景解析：拍一张建筑照片，它能识别地标并介绍背景信息

– 图表拆解：上传一张数据图表，它能分析趋势、找出关键结论

– 精细文字提取：拍一页文件，它能提取文字并整理成结构化内容

– 细节挖掘：上传一张产品图，它能识别品牌、型号、材质

目前不支持图片生成（画图）和视频生成，它的定位是”看懂”和”分析”图片。

📱 手机拍照就能用，完全免费

识图功能在DeepSeek App端同步上线。用手机打开DeepSeek，选择”识图模式”——这个模式与快速模式、专家模式并列，是一级独立入口——拍照或上传图片，直接用普通话提问即可。

比如：

– 拍一张药品说明书，问”这药一天吃几次，有什么禁忌”

– 拍一张菜单上的英文，问”这几道菜翻译成中文是什么”

– 拍一张合同条款，问”这段话有没有坑”

– 拍一道电路题，问”这题怎么做，步骤写详细点”

DeepSeek依然是完全免费的，没有使用次数限制。这在国产主流大模型中，算得上「免费+无限制+识图」的独一份配置。

😂 但有个bug让人笑出声：认不出自家老板

功能上线后，多家媒体进行了测试，发现了一个令人哭笑不得的问题：

DeepSeek不认识自己的老板。

《上海证券报》记者上传了DeepSeek创始人梁文锋的照片，系统将其识别为寒武纪创始人陈天石。同一张照片上传至豆包、元宝和千问后，均能正确识别。

此外，用智谱创始人唐杰、Kimi创始人杨植麟的照片测试，DeepSeek也全部认错。但对于公众知名度更高的小米创始人雷军，它能够准确识别。

换句话说，它认名人还行，认科技圈大佬——尤其是自家老板——还在”实习期”。

不过，识别常见物品和知名建筑已经比较准确。人物识别属于更高难度的任务，这方面的能力仍有提升空间。

💡 为什么这事值得关注

第一，DeepSeek终于补齐了最大短板。

ChatGPT、Gemini、豆包、腾讯元宝、阿里千问等头部AI产品早已支持图像理解。DeepSeek此前主要凭借V3、R1等模型在推理领域建立优势，产品长期以纯文本交互为主。此次识图功能上线，意味着它的能力边界从文本推理正式延伸到多模态。

第二，DeepSeek的免费策略一如既往。

不少AI平台对图像理解功能设有每日免费额度。而DeepSeek识图完全免费、无限制使用。对于需要频繁识图的用户来说，这是目前成本最低的选择。

第三，技术路线值得关注。

DeepSeek选择了自研OCR2视觉因果流机制，而非直接调用第三方视觉模型。这延续了它一贯的”自研底层+开源开放”路线，后续可能开放更多视觉能力。

今年4月底，DeepSeek启动识图功能灰度测试，5月扩大范围，6月18日正式宣布上线。在这个过程中，DeepSeek还完成了超500亿元人民币的A轮融资，投后估值超过500亿美元。

✅ 怎么用

打开DeepSeek App（iOS/安卓均已上架），在模式切换中选择”识图模式”，拍照或上传图片，直接用中文提问即可。网页端同样支持。

完全免费，无需付费。