将地表最强文档OCR大模型应用搬回本地?这个开源项目,小白也能双击跑起来!

旺丁旺财杂货铺

生活/旅行/效率/电器/装修

🎯 前记 Intro

铺主上个月订阅了Kimi code，每天下班都在折腾项目，仓库由原先的4个项目，增加到11个。之前已经预告过使用PaddleOCR VL量化模型制作双层PDF的项目。然而，基于技术原因那个项目是个缝合怪，Python做CLI,.NET做UI,都仅仅是C端，S端还要下载llama.cpp。实在太麻烦，就先不写了，还是把后来根据PaddleOCR-VL官网试用Demo本地化的项目PDF to Markdown.NET先写着吧。

🔥 1 PaddleOCR VL 1.6 到底有多逆天？

在聊这个开源项目之前，有必要先介绍一下它背后那个"怪物级"的视觉语言模型——PaddleOCR-VL-1.6。

2026 年 5 月 28 日，百度飞桨团队发布了 PaddleOCR-VL-1.6，在权威基准测试 OmniDocBench v1.6 上拿下了 96.33% 的综合准确率，一举超越 GPT-5.2、Gemini-3-Pro 等一众海外头部大模型，登顶全球文档解析 SOTA。

但真正让人震惊的不是这个数字，而是——这个模型只有 0.9B（9 亿）参数。作为对比，GPT 级别的模型动辄几百亿到上千亿参数。0.9B 干翻百亿级模型，相当于一个 50 公斤的拳手 KO 了重量级冠军。

而且 VL 1.6 不是只在"标准试卷"上高分。在专门针对老旧扫描件、纸张弯折、手机反光拍摄等真实场景的 Real5-OmniDocBench 测试中，它同样拿下 93.19%，领先第二名近 4 个百分点。

⭐ 冷门生僻字、手写体、古籍——全面暴涨

这一版最让人惊喜的是对小众场景的补强。官方披露，VL 1.6 改用文心大模型自动生成训练样本，由 AI 批量制造古籍异体字、生僻汉字、不规则表格、异形印章等稀缺样本，再清洗后汇入训练集。

结果非常硬核：冷门生僻汉字识别准确率提升超 7%。手写中文得分 0.895，手写英文 0.916——虽然不敢说 100% 完美，但已经远远甩开传统 OCR 方案（Tesseract 对手写基本废了一半）。古籍、竖排古文、带红章的扫描件，统统拿下。

一句话总结： VL 1.6 是目前开源界能拿到的、性价比最高的文档解析模型——精度天花板，体积地板砖。

但问题来了：这么好的东西，怎么用？

百度官方提供了免费的在线试用，每天有一定的免费额度。但如果你文档量比较大、或者涉及敏感数据不想上传云端，就会遇到三个痛点：①有页数限制，超了要付费；②矢量 PDF 也被强行 OCR，又慢又没必要；③数据要经过云端，隐私不放心。

于是就有了今天的主角。

📥 2 PDF to Markdown.NET：把云端 AI 请回本地

PDF to Markdown.NET 是一个基于 PP-DocLayoutV3 + PaddleOCR-VL 1.6 的 PDF 转 Markdown 工具，由铺主开源在 Gitee 上。

它做的事情很简单：你丢一个 PDF 进去，它吐出一个 Markdown 文件出来。整个过程全在本地运行，无需联网、不限页数、数据不出电脑。

项目目前提供了命令行工具（CLI）的源代码，基于 Avalonia UI 开发的图形界面版本随CLI一起发布，支持拖拽 PDF、批量转换、进度条显示——双击就能跑，真正的小白友好。

3 四个碾压级亮点

亮点 1 把云端 AI 搬回本地，不限页数

PaddleOCR 官网的免费文档解析 API，每天只有200页的额度，大一点的PDF文件便处理不了。而 PDF to Markdown.NET 把 VL 1.6 的 Q4_K_M 量化模型直接嵌入本地，你爱处理多少页就处理多少页，没有任何限制。

量化是什么意思？简单说就是把模型的"记忆"压缩，让它在精度几乎不掉的前提下，体积变得更小、跑得更快。

数据说话： 原始 FP16 模型约 1.8 GB（1843 MB）。经过 Q4_K_M 量化后，模型总大小仅 725 MB，压缩到原来的约 40%，体积缩减超过一半。省下来的空间，换来了更低的显存占用和更快的推理速度。

PaddleOCR-VL 模型量化前后体积对比（单位：MB）

而且你要知道，0.9B 的参数量本身就是对"大模型"这三个字的嘲讽——同样是做文档 OCR，Qwen2.5-VL-72B 需要 48 GB+ 显存。

亮点 2 「智能分流」——比官网试用还聪明

百度官网的在线试用，不管你丢进去的是矢量 PDF（文字本来就是可选的）还是扫描件（图片），统一走 OCR 流程。矢量 PDF 强行 OCR，不仅慢，还可能引入识别错误。

PDF to Markdown.NET 做了一个聪明的设计：先检测页面类型，再选择处理方式。

矢量页面（文字可以直接提取）→ 直接从 PDF 取文字，速度秒级完成
扫描页面（纯图片）→ 才走 OCR 流程，动用 VL 1.6 精准识别
混合 PDF（一本书里既有文字页又有图片页）→ 自动分流，矢量页不 OCR

结果就是：该快的时候快（矢量页秒出），该准的时候准（扫描页上 VL 1.6）。既不会用 OCR 去"暴力解码"本来就能读的文字，也不会放过大模型精准识别的机会。

亮点 3 不绑 CUDA！Vulkan 通吃全系显卡

用过 AI 工具的人都知道，配 CUDA 环境是入门第一道拦路虎。NVIDIA 显卡要装 CUDA Toolkit、要配 cuDNN、要折腾驱动版本……AMD 用户更是直接被劝退。

PDF to Markdown.NET 底层采用 LM-Kit.NET 推理引擎，固定使用 Vulkan 作为 GPU 加速后端[5]。Vulkan 是一个跨平台、跨厂商的 GPU 加速标准——NVIDIA 能用、AMD 能用、Intel Arc 也能用。不需要额外安装 CUDA，一张普通显卡就能直接调用。

这意味着什么？你手上有一张 GTX 1650（4GB 显存），没有装 CUDA，照样能跑；你用的是 AMD 显卡，也没问题。门槛直接从"技术宅专属"降到了"普通用户也能玩"的程度。

毕竟大部分人的电脑都不是专门配来跑 AI 的。

亮点 4 不额外依赖模型，算法硬刚「地狱级」表格

PP-StructureV3 本身提供了 SLANet / SLANeXt 系列表格结构识别模型作为可选子产线——SLANet 仅 9M 参数，SLANeXt_wired 约 351 MB，推理一遍也需要额外的显存和时间。

而 PDF to Markdown.NET 走的是另一条路——完全不依赖专用的表格识别模型，纯靠算法来解析表格结构。

听起来很抽象，我拆开来说：

有线表格（有边框线的）：通过矢量线条检测或 OCR 识别，自动分析 rowspan（跨行合并）和 colspan（跨列合并）
无线表格（没有框线的）：根据文本位置和间距推断表格结构
嵌套合并单元格：比如一个格子跨两行两列，里面还有小表格——这种"地狱级"的复杂表格，也能还原

优势很明显：少加载一个模型，省一次推理，不吃额外显存。VL 1.6 本身就能把版面元素识别清楚，表格结构交由算法去推，两件事各司其职。

4 硬件要求？比你想象的低

我们直接上对比，看看官方"标准配置"和 PDF to Markdown.NET 实际能跑起来的最低配置差距有多大：

对比项	官方 PaddleOCR-VL 环境要求	PDF to Markdown.NET 实测可运行
GPU	建议 RTX 30 及以上，需 CUDA	GTX 1650（4GB）即可，Vulkan 通用
显存	推荐 8GB+	量化后 2G +
内存	16GB+	8GB 够用
模型体积	FP16 权重约 1.8 GB + 框架依赖	Q4_K_M 量化仅 725 MB，随下随用
框架环境	需装 PaddlePaddle / CUDA / cuDNN	LM-Kit.NET 开箱即用，无需 CUDA
操作系统	Linux / Windows（需配置）	Windows 10/11 x64，双击即开

一句话： 官方方案适合有 GPU 能部署服务器的人，PDF to Markdown.NET 适合「我只有一台普通电脑」的绝大多数人。

5 怎么用？三步上手

项目使用非常简单，这里只说小白路线（GUI 图形界面版）：

下载发布包：在 Gitee 的 Releases 页面下载最新的压缩包，解压到任意目录
下载模型文件：把 PP-DocLayoutV3.onnx（约 130 MB）和 paddle-ocr-vl-1.6-Q4\_K\_M.lmk（725 MB）放到 models 目录下
双击运行：打开 GUI 程序，拖拽 PDF 进去，点击转换，等待输出 Markdown 文件

整个过程不需要配任何环境变量，不需要装 Python，不需要装 CUDA——双击就是全部的操作。

命令行版本也支持更细粒度的控制，比如指定 DPI、强制 OCR 模式、调整并发度等，适合有经验的用户批量处理。

6 适合谁用？

学生党：毕业论文 PDF 转 Markdown，喂给 ChatGPT 做总结、润色，不用手动复制粘贴
打工人：合同、报表、产品手册批量转 Markdown，丢进 RAG 知识库或者做本地 AI 搜索
开发者：最轻量的本地 PDF→Markdown 管道工具，可以直接集成到自己的 workflow 中
隐私敏感用户：涉密文档、商业合同、个人资料——数据不需要上传任何云端，全程本地处理

···

✏️WQ:后记

PaddleOCR-VL-1.6 代表了当下开源 OCR 的最高水准——96.33% 的精度、极低的硬件门槛、全面的语种和场景覆盖。而 PDF to Markdown.NET 则把这个能力以最亲民的方式交到了每个普通用户手中。

没有云 API 的依赖，没有 CUDA 的折磨，没有页数限制——一个双击，把价值几个亿的文档 AI 请回你的电脑。

如果你也想试试，留意文末的地址，模型要另外自行下载，发行版页面有简单的指引，动动鼠标就能搞定。觉得有用的话，欢迎转发、点赞、在看，让更多人知道这个好东西

🌍项目地址: https://gitee.com/ginkdu/pdf-to-markdown.net/releases/