Mistral OCR 4:把文档解析从＂认字＂拉进＂懂结构＂-夜雨聆风

Mistral OCR 4:把文档解析从＂认字＂拉进＂懂结构＂

OCR 这件事，过去十年没怎么变——拍张照、识别出文字、丢给你一段字符串。

Mistral 昨天悄悄上线的 OCR 4，让我重新看了一下这件事：OCR 现在的目标不是”把图变成字”，是”读懂一份文档”。

从 OCR 1 到 OCR 4：升级了哪三件事

用过 Mistral OCR 1 或 3 的人应该有印象：能识别文字，但表格会乱、方程式会糊、签名会被当成噪点。

OCR 4 先解决的是块分类。每一段输出现在都带 block_type 标签——标题、正文、表格、方程式、图片、签名，各有归类。开发者不用再写一堆规则去猜”这一段是 h1 还是 h2″了。

然后是边界框。每个块都带坐标，(x1, y1, x2, y2) 这种。识别结果能直接映射回原图，做高亮、做 hover 提示、做点击跳转，全都自然。

第三件事不太显眼，但对我来说是最关键的——逐页逐词的置信度分数。OCR 3 也给置信度，OCR 4 把它细到”每一个词”都能告诉你模型有多少把握。发票、合同、处方这种”识别错一个数字就出事”的场景，过去要自己加校验规则，现在 OCR 直接告诉你哪几个字不可信。

Mistral 公告里给了一组数字：170 种语言、10 个语系。

对照一下现实——英、法、德、中、日、韩这些主流语言加一块大约 30 种；剩下大头是东南亚、中东、非洲的小语种。OCR 4 把覆盖拉到 170 种，做跨境业务（多语合同、多语票据、多语表单）的人，过去要拼 Azure + Google + 几内小语种包，现在可以收敛到一个 API。

单容器自托管才是这次更值得说的。Mistral 给的部署形态是：拉一个 container，模型权重 + 推理服务都装在里面，没有外部依赖，可以离线跑。

金融、政府、医疗这些对数据出境有强约束的行业，过去用云端 OCR 都要走漫长的合规审查。自托管 OCR 4 出来之后，一大批原本”做不了”的业务开始能做。

Mistral 给的成绩单里有两组数据。

第一组是 OlmOCRBench 85.20 分。这个基准由 Allen AI 维护，覆盖手写、印刷、表格、倾斜、低分辨率、噪点背景这些场景。85.20 是当前 SOTA——超过 Google Document AI、Azure Document Intelligence 在公开榜上的成绩。

第二组是 72% 偏好率。这个数来自 Mistral 自己做的盲评：把同一份文档用 OCR 4 和”市面主流方案”分别处理，让独立标注者选哪个更准。72% 胜率意味着 10 份随机文档里大约 7 份 OCR 4 更接近人的判断。

但我想泼一盆冷水。偏好率是 Mistral 自己测的，标的是什么”主流方案”也没说完整。85.20 客观一些，因为它跑的是公开基准。但即使是 85.20，也只是英文文档的得分——中文、日文、阿拉伯文这些语种的实际效果，要等第三方独立测评。

定价才是这次最触动我的点。

每 1000 页 4 美元，Batch API 享 50% 折扣。折下来每页不到 2 分钱人民币。

国内一个中等规模律所每年要 OCR 的合同、判决书、证据材料加起来大概 50 万页。按 4 美元/千页算，一年成本 2 万美元。Batch 模式再砍一半，1 万美元。

过去这类业务要么堆人肉录入（一页 5 毛到 1 块），要么走 Google / Azure（一般 8-15 美元/千页）。Mistral 这次砍价之后，国内做文档数字化的 SaaS 厂商要么跟着降价，要么把模型差异化做出来。

对个人开发者和小团队来说，4 美元/千页意味着可以放心做”OCR 重度”的应用——批量处理扫描书、批量解析 PDF 报告、批量建索引——成本不再是劝退点。

Mistral 的发布稿里有一句话我反复看了几遍：

“We believe document understanding is a foundational capability, not a feature.”

翻译过来：Mistral 不再把 OCR 当”应用功能”卖，而是把它当基础设施层在铺。

这条策略跟 Mistral 过去一年在大模型上的打法一致——主推 Mistral Large / Codestral / Pixtral 这种底座模型系列，OCR 4 是这套底座下面的垂直能力。

我自己做 SaaS 创业，看到的信号更直接：OCR 正在从”工具”变成”水电煤”。当你的下游用户都默认 OCR 是”应该便宜、应该准、应该能自托管”的时候，单独卖一个 OCR 接口就没什么溢价空间了。

能站住脚的下游应用，要么是垂直场景（医疗病历、法律合同、跨境票据），要么是把 OCR 当水电煤用然后在别处收费（文档搜索、知识库、AI 助手）。做”通用 OCR API”的窗口期大概还有一年，错过就没了。