OCR这事儿听起来很成熟了——Tesseract、EasyOCR、各种云服务。但真用起来都有点别扭:要么识别率一般、要么对中文/手写体/竖排支持差、要么对扫描件/表格/公式处理不好、要么多语言得自己切模型、要么部署起来要装一堆依赖。
PaddleOCR是百度PaddlePaddle团队维护的开源OCR项目,从2020年到现在迭代到3.6版本,算是把"生产环境能用"这事儿做得比较彻底。
最新3.6版(2026-05-28发布)有几个值得说的能力:
PP-OCRv5是主力的轻量识别模型,5M参数,CPU也能跑。识别精度比v4在多语言混合上提升13个百分点。英文Norm-ED降到0.058,中文0.076,混合0.103。旋转文字处理也强了,90度旋转的文字Edit Distance能到0.012。手写体、艺术字体、竖排日文这些之前容易翻车的场景都改善明显。
PaddleOCR-VL是新的视觉-语言模型,0.9B参数,NaViT动态分辨率视觉编码器 + ERNIE-4.5-0.3B语言模型。3090上推理只要~2GB显存。能力比纯OCR更宽——能识别表格、公式、图表、印章这些"非纯文字"元素。在OmniDocBench v1.5上94.5%、v1.6上96.3%。低幻觉率,因为是按原图分辨率处理的。
PP-StructureV3是版面分析和结构化提取pipeline,针对长文档做了"跨页表格合并"和"多级标题重建"——以前需要后处理的事现在模型自己搞定。可以细粒度控制:用不用印章识别、用不用图表识别、表格识别要不要、block content要不要format。
支持111种语言。中英日韩、俄语乌克兰语、阿拉伯波斯乌尔都、印度天城文泰米尔泰卢固等十几种南亚语言、东南亚泰老缅越、藏文、格鲁吉亚文、亚美尼亚文、切罗基文这些冷门也都包含。
Hugging Face深度集成——3.6新版把20个主力模型以Transformers形式暴露到HF上,pip install transformers就能直接用,对HF用户很友好。
浏览器端推理——PaddleOCR.js让PP-OCRv5能完全在浏览器里跑,零服务端。对一些隐私敏感场景有用(发票扫描、合同识别等不希望数据上传)。
Office转Markdown——Word/Excel/PPT直接转Markdown,解析结果能写回DOCX。配合RAG、知识库搭建很方便。
上手其实不复杂。建虚拟环境:
python -m venv .venvsource .venv/bin/activate
装PaddlePaddle(CUDA 12 GPU版本):
python -m pip install paddlepaddle-gpu==3.2.1CPU-only:
python -m pip install paddlepaddle==3.2.0然后装PaddleOCR本体:
python -m pip install paddleocr==3.6.0想用全功能就装扩展包:
python -m pip install "paddleocr[all]"# 或者只装文档解析python -m pip install "paddleocr[doc-parser]"
最常用的CLI——纯OCR:
paddleocr ocr -i path/to/image.png --lang ch想用VL模型解析PDF:
paddleocr doc_parser -i path/to/document.pdf --pipeline_version v1 --lang zh带版面分析:
paddleocr pp_structurev3 -i path/to/form.png --useTableRecognition True --useSealRecognition True输出支持JSON、Markdown、DOCX几种格式,命令行加--output_dir ./results就行。
生产部署也有现成方案——Docker镜像、HTTP服务化SDK(任何语言都能调用)、CUDA 12/ONNX Runtime加速、CUDA graph优化、TensorRT集成都有。性能调优可以加--show_log True看每步耗时。
如果做的是企业级文档数字化、RAG知识库构建、扫描件结构化、多语言识别,PaddleOCR 3.6是目前开源里最完整的方案之一。比云服务便宜、比Tesseract准确、比传统pipeline省心。
GitHub仓库活跃度不错,issue和PR响应快,工业界(金融、医疗、政务、教育)用户多。Apache-2.0协议,可以商用。对于做发票识别、证件OCR、扫描件PDF结构化、表格抽取、合同要素提取这类需求,PaddleOCR 3.6基本能直接拿来即用,省去自己训练和调参的时间。文档里有完整的推理benchmark、不同部署方式的对比、模型选型建议,新手按着文档走不容易踩坑。
项目地址:https://github.com/PaddlePaddle/PaddleOCR
- 本文采用「人言兑.md」自动排版 -
夜雨聆风