Mistral OCR 4来了,文档Agent有眼睛了-夜雨聆风

Mistral OCR 4来了,文档Agent有眼睛了

OCR 4 的重点不是识字，而是让文档 Agent 看懂版面和置信度。

Mistral OCR 4 发布，我怀疑很多人会把它看小了。

“哦，又一个 OCR 。”

不对。至少不只是 OCR 。

这次它新增边界框、块分类、逐页逐词置信度分数，支持 170 种语言、 10 个语系，可单容器自托管。在 OlmOCRBench 上得分 85.20 ，独立标注者偏好率平均 72%。价格是每 1000 页 4 美元， Batch API 半价。

这些数字看起来像产品参数，但背后其实是一件事：文档 Agent 终于开始有“眼睛”了。

识字只是第一层，看懂结构才值钱

老式 OCR 像一个只会抄字的小学生。它能把 PDF 里的字抠出来，但不知道标题、表格、脚注、签名、公式之间是什么关系。

企业知识库最怕这个。

你把合同、财报、手册、扫描件全丢进 RAG ，模型回答时一本正经地引用错表格、漏掉页脚限制、把签名栏当正文。那种感觉像吃面吃到订书钉，嘴上没事，心里已经骂人了。

Mistral OCR 4 的块分类和边界框就解决一部分问题。它不只是说“这里有字”，而是告诉你“这里是一张表”“这里是标题”“这里可能是签名”。逐词置信度也很关键：模型终于能承认自己哪里看不清。

文档智能的分水岭，不是能不能提取文字，而是能不能知道自己哪里不确定。

我见过太多文档 Agent demo ：上传 PDF ，秒答问题，界面很漂亮。

然后一到真实业务就翻车。

为什么？真实文档不干净。扫描歪了，章盖住字了，表格跨页了，老合同里还有手写批注。 Agent 如果把低置信度内容当铁证，后面推理再聪明也白搭。地基歪了，楼越高越危险。

OCR 4 给逐页逐词置信度，这个设计很工程。你可以设规则：低于某个阈值不进知识库；关键金额、日期、条款如果置信度低，必须人工复核；回答用户时标注“该段识别可信度较低”。

这不性感。

但靠谱。

自托管也有意义。很多企业文档不能出域，尤其合同、医疗、金融、政府材料。单容器部署意味着它更容易塞进企业内网，而不是每份 PDF 都出门旅行一圈。

如果你要做文档 Agent ，我建议流程别偷懒。

第一步，先分类再入库。把标题、正文、表格、图片说明、签名块拆开，不要整页糊成一坨 markdown 。第二步，置信度分层。高置信度自动入库，中置信度标记，低置信度进入人工队列。第三步，表格单独处理。表格是 RAG 的事故高发区，别让它和正文混在一起做向量。

如果预算紧， Batch API 半价适合离线批处理；如果隐私敏感，自托管优先。别什么都 API ，别什么都本地，按场景选。

我对 OCR 4 的期待不是“识别更准”。准当然好，但行业真正缺的是可控、可审计、可回滚。

文档 Agent 以后会很强。

前提是，它先学会像人一样低头看清楚纸上到底写了什么。

备选标题：
1. Mistral OCR 4 来了，文档 Agent 有眼睛了
2. 别把 Mistral OCR 4 看轻了，真正变化在后面
3. Mistral OCR 4 背后， AI 行业正在换规则

摘要： OCR 4 的重点不是识字，而是让文档 Agent 看懂版面和置信度。

标签：人工智能、 Document AI 、 Mistral OCR 、 OCR 、知识库

素材来源： AIHOT ： Mistral AI 发布 OCR 4 ，支持边界框、块分类、逐页逐词置信度， 170 种语言， OlmOCRBench 85.20 。