乐于分享
好东西不私藏

Mistral OCR 4把文档识别卷疯了

Mistral OCR 4把文档识别卷疯了

AI 圈今天又被一个“看起来不大但很狠”的更新刷屏了:Mistral AI 发了 OCR 4,说白了就是让机器读 PDF、Word、PPT 的新一代识别模型。但重点不是“能读”,而是“读完之后开始理解结构”。

这波OCR 4不是简单的‘识别升级’,而是把文档理解从‘抄文字’推向‘拆结构’。对做知识库、做agent的人来说,后面数据入口会被重新洗一遍。


  • 不仅能识别文本,还能判断标题、表格、公式、签名等“页面角色”
  • 输出结构化块,而不是一整坨OCR文本
  • 支持 170 种语言,小语种也被覆盖
  • 盲测超过 600 份文档,72% 情况更受偏好
  • 还能输出每个词或页面的置信度
  • 价格:每 1000 页 $4,批处理 $2
  • 已通过 API、Mistral Studio、Microsoft Foundry 提供

这次OCR 4到底在卷什么

它最“阴险”的地方在于,不只是把字识别出来,而是顺手把页面拆成结构块:哪里是标题、哪里是表格、哪里是公式、哪里是签名,全都分得明明白白。这一步对后面的搜索系统、AI agent 处理流程来说,等于直接把“前处理人工活”部分自动化了。

再加上置信度输出,其实已经在往“可控数据输入层”走了——你不再是盲用OCR,而是知道它“哪里不确定”。

如果只看数字,72% 的盲测偏好 + 170 种语言支持 + 每 1000 页 $4 的定价,很容易让人觉得它是“企业级文档入口工具”。但更关键的点其实是它开始做“结构化输出”——标题、表格、公式、签名都被拆开,还带置信度,这对做搜索、RAG、agent 工作流的人影响很直接。以后你喂进去的不再是“一坨文字”,而是带结构的页面块,等于前置清洗能力被模型接管了一部分。不过也别神化,盲测 72% 本质还是特定集合里的偏好胜率,真实业务里脏文档、复杂扫描件才是考验。

看完想聊两句?
你觉得下一步会不会轮到“所有OCR工具都被结构化模型替代”?

— 这些也值得一看 —

  • ·Claude Fable 5 被蒸馏成开源模型:Qwable-v1 引爆争议
  • ·Claude Fable 5开放了,但Anthropic还是踩着刹车
  • ·GPT-5.5月订阅可能降价,OpenAI盯上Anthropic用户

想翻更多?点头像进公众号看历史