乐于分享
好东西不私藏

DeepSeek终于能看图了!拍照识文档读图表,完全免费,但有个bug让人笑出声

DeepSeek终于能看图了!拍照识文档读图表,完全免费,但有个bug让人笑出声

⏳ 等了两年,DeepSeek终于能看图了

两年以来,DeepSeek被无数用户反复提及一个短板:不能看图。

别人家的AI早已支持拍照提问、截图分析,DeepSeek却始终停留在纯文本阶段。直到6月18日,DeepSeek多模态研究员陈小康在社交平台X宣布:识图模式已在网页端和App端正式上线。

这意味着,DeepSeek正式从”文本专家”升级为”看图达人”。

🔍 能看什么?不只是识别文字

DeepSeek的识图功能并非简单的文字提取(OCR),而是依托自研DeepSeek-OCR2视觉因果流机制,搭建了完整的视觉理解闭环。

上传一张图片并搭配文字提问,系统可以同步完成:

– 物体识别:拍一张植物照片,它能告诉你是什么品种、怎么养护

– 场景解析:拍一张建筑照片,它能识别地标并介绍背景信息

– 图表拆解:上传一张数据图表,它能分析趋势、找出关键结论

– 精细文字提取:拍一页文件,它能提取文字并整理成结构化内容

– 细节挖掘:上传一张产品图,它能识别品牌、型号、材质

目前不支持图片生成(画图)和视频生成,它的定位是”看懂”和”分析”图片。

📱 手机拍照就能用,完全免费

识图功能在DeepSeek App端同步上线。用手机打开DeepSeek,选择”识图模式”——这个模式与快速模式、专家模式并列,是一级独立入口——拍照或上传图片,直接用普通话提问即可。

比如:

– 拍一张药品说明书,问”这药一天吃几次,有什么禁忌”

– 拍一张菜单上的英文,问”这几道菜翻译成中文是什么”

– 拍一张合同条款,问”这段话有没有坑”

– 拍一道电路题,问”这题怎么做,步骤写详细点”

DeepSeek依然是完全免费的,没有使用次数限制。这在国产主流大模型中,算得上「免费+无限制+识图」的独一份配置。

😂 但有个bug让人笑出声:认不出自家老板

功能上线后,多家媒体进行了测试,发现了一个令人哭笑不得的问题:

DeepSeek不认识自己的老板。

《上海证券报》记者上传了DeepSeek创始人梁文锋的照片,系统将其识别为寒武纪创始人陈天石。同一张照片上传至豆包、元宝和千问后,均能正确识别。

此外,用智谱创始人唐杰、Kimi创始人杨植麟的照片测试,DeepSeek也全部认错。但对于公众知名度更高的小米创始人雷军,它能够准确识别。

换句话说,它认名人还行,认科技圈大佬——尤其是自家老板——还在”实习期”。

不过,识别常见物品和知名建筑已经比较准确。人物识别属于更高难度的任务,这方面的能力仍有提升空间。

💡 为什么这事值得关注

第一,DeepSeek终于补齐了最大短板。

ChatGPT、Gemini、豆包、腾讯元宝、阿里千问等头部AI产品早已支持图像理解。DeepSeek此前主要凭借V3、R1等模型在推理领域建立优势,产品长期以纯文本交互为主。此次识图功能上线,意味着它的能力边界从文本推理正式延伸到多模态。

第二,DeepSeek的免费策略一如既往。

不少AI平台对图像理解功能设有每日免费额度。而DeepSeek识图完全免费、无限制使用。对于需要频繁识图的用户来说,这是目前成本最低的选择。

第三,技术路线值得关注。

DeepSeek选择了自研OCR2视觉因果流机制,而非直接调用第三方视觉模型。这延续了它一贯的”自研底层+开源开放”路线,后续可能开放更多视觉能力。

今年4月底,DeepSeek启动识图功能灰度测试,5月扩大范围,6月18日正式宣布上线。在这个过程中,DeepSeek还完成了超500亿元人民币的A轮融资,投后估值超过500亿美元。

✅ 怎么用 

打开DeepSeek App(iOS/安卓均已上架),在模式切换中选择”识图模式”,拍照或上传图片,直接用中文提问即可。网页端同样支持。

完全免费,无需付费。

#AI工具 #DeepSeek #多模态 #识图功能 #AI识图