史上最强OCR模型GLM-OCR,文档解析新卷王!-夜雨聆风

史上最强OCR模型GLM-OCR,文档解析新卷王!

最近 OCR 模型神仙打架，更新频次非常高。先是 DeepSeek 推出了 DeepSeek-OCR 2，紧接着百度飞桨推出 PaddleOCR-VL-1.5，现在智谱的 GLM-OCR 能力也跟上了。

这圈子真的卷，每个新模型出来都是刷新 SOTA。几天前还在王座，转眼就得退居二线。说实话，现在大模型竞争这么激烈，没有深厚算力储备和数据资源的公司，真的不适合再去卷这种底层模型了。

今天咱重点聊聊 GLM-OCR。相比市面上其他模型，它到底强在哪？

第一，文档解析能力确实是目前最牛的。在专业的文档解析数据集 OmniDocBench V1.5 上，以94.62分登顶，打败了 PaddleOCR-VL-1.5等竞品。这意味着，pdf文档解析效果更上一层楼。

第二，处理速度非常快。GLM-OCR 在处理 PDF 文档时的吞吐量达到 1.86页/秒，图像处理速度也能达到 0.67幅/秒 左右，这个效率比很多同类竞争对手都要强。

第三，模块化程度高。GLM-OCR 的各个模块是可以组合的。你可以基于它已有的模块（如版面分析）进行轻松定制，创建自己的流水线。

来，我给大家展示一下对于表格的识别效果。

识别前：

识别后：

可以看到，即使是这种带有复杂合并单元格的表格，它的识别效果依然非常不错。

最后说说参数和部署。

这个模型非常轻量，参数量只有0.9B，而且是完全开源的。

END

我是文如刀，从天坑专业土木成功上岸AI产品经理，现任 AI产品线负责人 | 面试官。专注分享AI产品实战干货。

– 推荐阅读 –

我挂 AI 产品经理简历的原因

史上最强OCR模型GLM-OCR,文档解析新卷王!