把PDF和图片变成结构化数据,这个国产OCR项目支持111种语言

OCR这事儿听起来很成熟了——Tesseract、EasyOCR、各种云服务。但真用起来都有点别扭：要么识别率一般、要么对中文/手写体/竖排支持差、要么对扫描件/表格/公式处理不好、要么多语言得自己切模型、要么部署起来要装一堆依赖。

PaddleOCR是百度PaddlePaddle团队维护的开源OCR项目，从2020年到现在迭代到3.6版本，算是把"生产环境能用"这事儿做得比较彻底。

最新3.6版（2026-05-28发布）有几个值得说的能力：

PP-OCRv5是主力的轻量识别模型，5M参数，CPU也能跑。识别精度比v4在多语言混合上提升13个百分点。英文Norm-ED降到0.058，中文0.076，混合0.103。旋转文字处理也强了，90度旋转的文字Edit Distance能到0.012。手写体、艺术字体、竖排日文这些之前容易翻车的场景都改善明显。

PaddleOCR-VL是新的视觉-语言模型，0.9B参数，NaViT动态分辨率视觉编码器 + ERNIE-4.5-0.3B语言模型。3090上推理只要~2GB显存。能力比纯OCR更宽——能识别表格、公式、图表、印章这些"非纯文字"元素。在OmniDocBench v1.5上94.5%、v1.6上96.3%。低幻觉率，因为是按原图分辨率处理的。

PP-StructureV3是版面分析和结构化提取pipeline，针对长文档做了"跨页表格合并"和"多级标题重建"——以前需要后处理的事现在模型自己搞定。可以细粒度控制：用不用印章识别、用不用图表识别、表格识别要不要、block content要不要format。

支持111种语言。中英日韩、俄语乌克兰语、阿拉伯波斯乌尔都、印度天城文泰米尔泰卢固等十几种南亚语言、东南亚泰老缅越、藏文、格鲁吉亚文、亚美尼亚文、切罗基文这些冷门也都包含。

Hugging Face深度集成——3.6新版把20个主力模型以Transformers形式暴露到HF上，pip install transformers就能直接用，对HF用户很友好。

浏览器端推理——PaddleOCR.js让PP-OCRv5能完全在浏览器里跑，零服务端。对一些隐私敏感场景有用（发票扫描、合同识别等不希望数据上传）。

Office转Markdown——Word/Excel/PPT直接转Markdown，解析结果能写回DOCX。配合RAG、知识库搭建很方便。

上手其实不复杂。建虚拟环境：

python -m venv .venvsource .venv/bin/activate

装PaddlePaddle（CUDA 12 GPU版本）：

python -m pip install paddlepaddle-gpu==3.2.1

CPU-only：

python -m pip install paddlepaddle==3.2.0

然后装PaddleOCR本体：

python -m pip install paddleocr==3.6.0

想用全功能就装扩展包：

python -m pip install "paddleocr[all]"# 或者只装文档解析python -m pip install "paddleocr[doc-parser]"

最常用的CLI——纯OCR：

paddleocr ocr -i path/to/image.png --lang ch

想用VL模型解析PDF：

paddleocr doc_parser -i path/to/document.pdf --pipeline_version v1 --lang zh

带版面分析：

paddleocr pp_structurev3 -i path/to/form.png --useTableRecognition True --useSealRecognition True

输出支持JSON、Markdown、DOCX几种格式，命令行加--output_dir ./results就行。

生产部署也有现成方案——Docker镜像、HTTP服务化SDK（任何语言都能调用）、CUDA 12/ONNX Runtime加速、CUDA graph优化、TensorRT集成都有。性能调优可以加--show_log True看每步耗时。

如果做的是企业级文档数字化、RAG知识库构建、扫描件结构化、多语言识别，PaddleOCR 3.6是目前开源里最完整的方案之一。比云服务便宜、比Tesseract准确、比传统pipeline省心。

GitHub仓库活跃度不错，issue和PR响应快，工业界（金融、医疗、政务、教育）用户多。Apache-2.0协议，可以商用。对于做发票识别、证件OCR、扫描件PDF结构化、表格抽取、合同要素提取这类需求，PaddleOCR 3.6基本能直接拿来即用，省去自己训练和调参的时间。文档里有完整的推理benchmark、不同部署方式的对比、模型选型建议，新手按着文档走不容易踩坑。

项目地址：https://github.com/PaddlePaddle/PaddleOCR

- 本文采用「人言兑.md」自动排版 -