乐于分享
好东西不私藏

Mistral OCR 4:把文档解析从"认字"拉进"懂结构"

Mistral OCR 4:把文档解析从"认字"拉进"懂结构"

OCR 这件事,过去十年没怎么变——拍张照、识别出文字、丢给你一段字符串。

Mistral 昨天悄悄上线的 OCR 4,让我重新看了一下这件事:OCR 现在的目标不是”把图变成字”,是”读懂一份文档”。

从 OCR 1 到 OCR 4:升级了哪三件事

用过 Mistral OCR 1 或 3 的人应该有印象:能识别文字,但表格会乱、方程式会糊、签名会被当成噪点。

OCR 4 先解决的是块分类。每一段输出现在都带 block_type 标签——标题、正文、表格、方程式、图片、签名,各有归类。开发者不用再写一堆规则去猜”这一段是 h1 还是 h2″了。

然后是边界框。每个块都带坐标,(x1, y1, x2, y2) 这种。识别结果能直接映射回原图,做高亮、做 hover 提示、做点击跳转,全都自然。

第三件事不太显眼,但对我来说是最关键的——逐页逐词的置信度分数。OCR 3 也给置信度,OCR 4 把它细到”每一个词”都能告诉你模型有多少把握。发票、合同、处方这种”识别错一个数字就出事”的场景,过去要自己加校验规则,现在 OCR 直接告诉你哪几个字不可信。

170 种语言、10 个语系、单容器自托管

Mistral 公告里给了一组数字:170 种语言、10 个语系。

对照一下现实——英、法、德、中、日、韩这些主流语言加一块大约 30 种;剩下大头是东南亚、中东、非洲的小语种。OCR 4 把覆盖拉到 170 种,做跨境业务(多语合同、多语票据、多语表单)的人,过去要拼 Azure + Google + 几内小语种包,现在可以收敛到一个 API。

单容器自托管才是这次更值得说的。Mistral 给的部署形态是:拉一个 container,模型权重 + 推理服务都装在里面,没有外部依赖,可以离线跑。

金融、政府、医疗这些对数据出境有强约束的行业,过去用云端 OCR 都要走漫长的合规审查。自托管 OCR 4 出来之后,一大批原本”做不了”的业务开始能做。

OlmOCRBench 85.20 和 72% 偏好率,怎么读

Mistral 给的成绩单里有两组数据。

第一组是 OlmOCRBench 85.20 分。这个基准由 Allen AI 维护,覆盖手写、印刷、表格、倾斜、低分辨率、噪点背景这些场景。85.20 是当前 SOTA——超过 Google Document AI、Azure Document Intelligence 在公开榜上的成绩。

第二组是 72% 偏好率。这个数来自 Mistral 自己做的盲评:把同一份文档用 OCR 4 和”市面主流方案”分别处理,让独立标注者选哪个更准。72% 胜率意味着 10 份随机文档里大约 7 份 OCR 4 更接近人的判断。

但我想泼一盆冷水。偏好率是 Mistral 自己测的,标的是什么”主流方案”也没说完整。85.20 客观一些,因为它跑的是公开基准。但即使是 85.20,也只是英文文档的得分——中文、日文、阿拉伯文这些语种的实际效果,要等第三方独立测评。

定价:每千页 4 美元

定价才是这次最触动我的点。

每 1000 页 4 美元,Batch API 享 50% 折扣。折下来每页不到 2 分钱人民币。

国内一个中等规模律所每年要 OCR 的合同、判决书、证据材料加起来大概 50 万页。按 4 美元/千页算,一年成本 2 万美元。Batch 模式再砍一半,1 万美元。

过去这类业务要么堆人肉录入(一页 5 毛到 1 块),要么走 Google / Azure(一般 8-15 美元/千页)。Mistral 这次砍价之后,国内做文档数字化的 SaaS 厂商要么跟着降价,要么把模型差异化做出来。

对个人开发者和小团队来说,4 美元/千页意味着可以放心做”OCR 重度”的应用——批量处理扫描书、批量解析 PDF 报告、批量建索引——成本不再是劝退点。

我看到的信号

Mistral 的发布稿里有一句话我反复看了几遍:

“We believe document understanding is a foundational capability, not a feature.”

翻译过来:Mistral 不再把 OCR 当”应用功能”卖,而是把它当基础设施层在铺。

这条策略跟 Mistral 过去一年在大模型上的打法一致——主推 Mistral Large / Codestral / Pixtral 这种底座模型系列,OCR 4 是这套底座下面的垂直能力。

我自己做 SaaS 创业,看到的信号更直接:OCR 正在从”工具”变成”水电煤”。当你的下游用户都默认 OCR 是”应该便宜、应该准、应该能自托管”的时候,单独卖一个 OCR 接口就没什么溢价空间了。

能站住脚的下游应用,要么是垂直场景(医疗病历、法律合同、跨境票据),要么是把 OCR 当水电煤用然后在别处收费(文档搜索、知识库、AI 助手)。做”通用 OCR API”的窗口期大概还有一年,错过就没了。