✨ 全文约2200字,阅读约5分钟
说实话,你有没有遇到过这种情况 😅
老板给你一堆扫描的PDF合同,让你整理成表格。你盯着模糊的图片,手敲半天,眼睛都快瞎了。
或者你做RAG项目,想把PDF文档喂给大模型,但格式乱得像一锅粥——表格裂开、公式丢失、图片不知所踪。
直到PaddleOCR——百度开源的文档AI引擎,78k+ Stars,把PDF和图片一键转成LLM能读懂的Markdown和JSON。
🔍 它能做什么?
• 智能文档解析 — PDF/图片转Markdown、JSON,表格、公式、图表都不丢
• 多语言OCR — 支持100+语言,中文、英文、日文混合也能识别
• 复杂场景搞定 — 扭曲、扫描、手机拍照、光照不均、倾斜文档
• 轻量高效 — 0.9B模型,94.5%准确率,跑在边缘设备也不吃力
• LLM生态集成 — Dify、RAGFlow、Cherry Studio都在用它
• Office文档转换 — Word、Excel、PPT也能一键转Markdown
📦 准备工作
| 项目 | 说明 |
|---|---|
| Python版本 | 3.8 ~ 3.12 |
| 操作系统 | Linux / Windows / macOS |
| 硬件 | CPU / GPU / NPU 都支持 |
| 协议 | Apache 2.0(商用没问题) |
🚀 安装步骤
方法一:pip安装(推荐)⚡
🔴🟡🟢
pip install paddleocr
基础OCR只需这个命令,文档解析需要额外依赖:
🔴🟡🟢
pip install paddleocr[doc]
方法二:浏览器直接用
官方推出了 PaddleOCR.js,可以在浏览器里直接跑PP-OCRv5,不用装Python:
🔴🟡🟢
npm install paddleocr-js
💡 使用方法
场景1:图片转文字
你拍了一张名片照片,想提取联系方式:
🔴🟡🟢
from paddleocr import PaddleOCR
ocr = PaddleOCR(use_angle_cls=True, lang='ch')
result = ocr.ocr('名片.jpg')
for line in result:
print(line[1][0]) # 输出识别的文字
场景2:PDF转Markdown
老板给你一份扫描的合同PDF,要整理成文档:
🔴🟡🟢
from paddleocr import PPStructure
table_engine = PPStructure(show_log=True)
result = table_engine('合同.pdf')
# 输出Markdown格式
for item in result:
print(item['res']['markdown'])
场景3:多语言文档
一份中英日混合的技术文档,也能识别:
🔴🟡🟢
ocr = PaddleOCR(lang='ch') # 中文模型自动支持英文、日文混合
📊 对比分析
| 工具 | 开源 | 多语言 | 表格识别 | LLM集成 |
|---|---|---|---|---|
| PaddleOCR | ✅ Apache 2.0 | 100+ 语言 | ✅ 表格→Markdown | Dify/RAGFlow/Cherry |
| Tesseract | ✅ Apache | 100+ 语言 | ❌ 仅文字 | 需自己集成 |
| EasyOCR | ✅ Apache | 80+ 语言 | ❌ 仅文字 | 需自己集成 |
| ABBYY | ❌ 商业付费 | 200+ 语言 | ✅ 表格识别 | API调用 |
简单说:Tesseract和EasyOCR只做文字识别,表格、公式、结构都丢了。ABBYY功能全但贵。PaddleOCR免费开源,还能直接喂给LLM用。
❓ FAQ
Q1:需要GPU吗?
不需要。CPU就能跑,模型只有几兆,边缘设备也没问题。有GPU会更快。
Q2:准确率怎么样?
PaddleOCR-VL-1.5在OmniDocBench上94.5%准确率,超过了很多闭源方案。PP-OCRv5比上一代提升13%。
Q3:扫描的PDF能识别吗?
能。PaddleOCR专门做了5种复杂场景:扭曲、扫描、屏幕拍照、光照不均、倾斜。这些是真实世界最容易遇到的问题。
Q4:能导出Word文档吗?
能。PaddleOCR-VL和PP-StructureV3都支持导出DOCX,解析结果直接在Word里编辑。
Q5:商用要付费吗?
不用。Apache 2.0协议,商业用途没问题。百度开源的,稳。
📝 总结
PaddleOCR不只是OCR工具,是文档AI引擎。它把PDF、图片、扫描件转成LLM能读懂的结构化数据,表格不丢、公式不丢、排版不乱。Dify、RAGFlow、Cherry Studio都在用它——RAG项目的必备基础设施。
GitHub: https://github.com/PaddlePaddle/PaddleOCR
官网: https://www.paddleocr.com
如果对您有启发,点个关注吧 ❤️
夜雨聆风