推荐文档处理领域的顶级神器,第一弹:PaddleOCR-VL-1.6

今天给大家安利一个文档处理领域真正的 “霸者”，PaddleOCR-VL-1.6。没错，就是昨天（5 月 28 日）刚刚新鲜出炉的最新版本。

先给不了解的朋友简单介绍下：这是百度飞桨（PaddlePaddle）OCR 团队打造的面向文档解析的 SOTA 轻量级视觉 – 语言模型，核心功能就是把各种非结构化文档，一键转换成大语言模型能直接 “读懂” 的结构化数据。

简单来说，它能批量处理扫描件、图片类文档，在完整保留原始排版格式的同时，实现行业最低的识别错误率。很多人平时用扫描全能王这类工具处理少量文件没问题，但一旦遇到成百上千份的批量处理需求，PaddleOCR-VL-1.6 的优势就会被无限放大。

多说一句，虽然百度的不少产品确实槽点满满，一言难尽，但在 OCR 和文档处理这个垂直领域，PaddleOCR 的技术实力和行业口碑就是全球第一。从去年发布的 1.0 版本到如今的 1.6，它一直牢牢占据着文档解析领域的世界领先地位。

典型应用场景：

财务报销：发票、打车票、行程单自动识别。

医疗行业：药品包装识别、手写病历数字化、医疗费用结算单处理

工业质检：产品标签、铭牌、生产批号识别

通用办公：扫描版 PDF 转可编辑文档、合同关键信息提取、财务报表归档

当然如果要企业文档数字化，这个更是妥妥的神器。

项目信息和使用方式：

开源地址：https://github.com/PaddlePaddle/PaddleOCR

现在已经快7.9万star了

官方网站：https://aistudio.baidu.com/paddleocr

使用方式有三种：

1.本地部署

他是0.9B的模型，4090显卡+32G内存就流畅运行了。github上有详细的部署方式。就不多说了。

2.线上直接用

进它的官方直接上传文档就可以，有页数和图片的限制，但一般场景足够使用了。

3.配合agent使用API

咱们主要说第三种

我主要通过claude code+官方的skills来实现

第一步：申请Key

还是官网，注册后，点API

点获取令牌

然后就给你生成令牌了，复制备用

第二步：安装官方的skills

直接让你的agent给你装就行了

帮我安装这个skills:https://github.com/PaddlePaddle/PaddleOCR/blob/main/skills/paddleocr-doc-parsing/SKILL.md

然后把你的地址和key给他就行了

这里要注意这个url，他1.6版本就没有提供，用1.5版本的就行。我测过了，他默认调用的就是1.6版本。

这个url每个人的都不一样，具体在这（这是个坑，群友 @航提醒我才发现。大家要注意，不要用异步模式，找到同步解析）：

测试一下

咱们用他自带的截图报纸测试。速度很快，基本没有错的。

他是个链接，当然本地的文档更没问题。

结果

部分截图：

当然你们可以直接扔给他一本扫描的书或资料。很能很快的解析好，什么财务发票更不在话下，批量给扔给他就行。

这里就不多测试了。

最后

如果你的企业正在推进文档数字化转型，那这款工具绝对是你绕不开的首选神器。

毫不夸张地说，PaddleOCR-VL-1.6 就是当前 OCR 与文档处理领域毫无争议的绝对王者，尤其在海量线下纸质文档、扫描件的批量数字化场景中，它的表现堪称碾压级。更难得的是，它目前提供的免费额度非常nice，每日可免费处理 2 万页文档，有更大需求的团队还能直接申请更高额度，个人开发者和中小企业完全可以零成本上手体验。

强烈推荐大家去试试。明天我们再来拆解目前行业排名第二的 MinerU，它的技术背景同样不容小觑，我们明天细聊。

欢迎大家在评论区分享你的使用体验和问题，一起交流探讨。