
旺丁旺财杂货铺
🎯 前记 Intro
铺主上个月订阅了Kimi code,每天下班都在折腾项目,仓库由原先的4个项目,增加到11个。 之前已经预告过使用PaddleOCR VL量化模型制作双层PDF的项目。然而,基于技术原因那个项目是个缝合怪,Python做CLI,.NET做UI,都仅仅是C端,S端还要下载llama.cpp。实在太麻烦,就先不写了,还是把后来根据PaddleOCR-VL官网试用Demo本地化的项目PDF to Markdown.NET先写着吧
。

🔥 1 PaddleOCR VL 1.6 到底有多逆天?
在聊这个开源项目之前,有必要先介绍一下它背后那个"怪物级"的视觉语言模型——PaddleOCR-VL-1.6。
2026 年 5 月 28 日,百度飞桨团队发布了 PaddleOCR-VL-1.6,在权威基准测试 OmniDocBench v1.6 上拿下了 96.33% 的综合准确率,一举超越 GPT-5.2、Gemini-3-Pro 等一众海外头部大模型,登顶全球文档解析 SOTA。
但真正让人震惊的不是这个数字,而是——这个模型只有 0.9B(9 亿)参数。作为对比,GPT 级别的模型动辄几百亿到上千亿参数。0.9B 干翻百亿级模型,相当于一个 50 公斤的拳手 KO 了重量级冠军。
而且 VL 1.6 不是只在"标准试卷"上高分。在专门针对老旧扫描件、纸张弯折、手机反光拍摄等真实场景的 Real5-OmniDocBench 测试中,它同样拿下 93.19%,领先第二名近 4 个百分点。
⭐ 冷门生僻字、手写体、古籍——全面暴涨
这一版最让人惊喜的是对小众场景的补强。官方披露,VL 1.6 改用文心大模型自动生成训练样本,由 AI 批量制造古籍异体字、生僻汉字、不规则表格、异形印章等稀缺样本,再清洗后汇入训练集。
结果非常硬核:冷门生僻汉字识别准确率提升超 7%。手写中文得分 0.895,手写英文 0.916——虽然不敢说 100% 完美,但已经远远甩开传统 OCR 方案(Tesseract 对手写基本废了一半)。古籍、竖排古文、带红章的扫描件,统统拿下。
一句话总结: VL 1.6 是目前开源界能拿到的、性价比最高的文档解析模型——精度天花板,体积地板砖。
但问题来了:这么好的东西,怎么用?
百度官方提供了免费的在线试用,每天有一定的免费额度。但如果你文档量比较大、或者涉及敏感数据不想上传云端,就会遇到三个痛点:①有页数限制,超了要付费;②矢量 PDF 也被强行 OCR,又慢又没必要;③数据要经过云端,隐私不放心。
于是就有了今天的主角。
📥 2 PDF to Markdown.NET:把云端 AI 请回本地
PDF to Markdown.NET 是一个基于 PP-DocLayoutV3 + PaddleOCR-VL 1.6 的 PDF 转 Markdown 工具,由铺主开源在 Gitee 上。
它做的事情很简单:你丢一个 PDF 进去,它吐出一个 Markdown 文件出来。整个过程全在本地运行,无需联网、不限页数、数据不出电脑。
项目目前提供了命令行工具(CLI)的源代码,基于 Avalonia UI 开发的图形界面版本随CLI一起发布,支持拖拽 PDF、批量转换、进度条显示——双击就能跑,真正的小白友好。
3 四个碾压级亮点
亮点 1 把云端 AI 搬回本地,不限页数
PaddleOCR 官网的免费文档解析 API,每天只有200页的额度,大一点的PDF文件便处理不了。而 PDF to Markdown.NET 把 VL 1.6 的 Q4_K_M 量化模型直接嵌入本地,你爱处理多少页就处理多少页,没有任何限制。
量化是什么意思?简单说就是把模型的"记忆"压缩,让它在精度几乎不掉的前提下,体积变得更小、跑得更快。
数据说话: 原始 FP16 模型约 1.8 GB(1843 MB)。经过 Q4_K_M 量化后,模型总大小仅 725 MB,压缩到原来的约 40%,体积缩减超过一半。省下来的空间,换来了更低的显存占用和更快的推理速度。

PaddleOCR-VL 模型量化前后体积对比(单位:MB)
而且你要知道,0.9B 的参数量本身就是对"大模型"这三个字的嘲讽——同样是做文档 OCR,Qwen2.5-VL-72B 需要 48 GB+ 显存。
亮点 2 「智能分流」——比官网试用还聪明
百度官网的在线试用,不管你丢进去的是矢量 PDF(文字本来就是可选的)还是扫描件(图片),统一走 OCR 流程。矢量 PDF 强行 OCR,不仅慢,还可能引入识别错误。
PDF to Markdown.NET 做了一个聪明的设计:先检测页面类型,再选择处理方式。
矢量页面(文字可以直接提取)→ 直接从 PDF 取文字,速度 秒级完成 扫描页面(纯图片)→ 才走 OCR 流程,动用 VL 1.6 精准识别 混合 PDF(一本书里既有文字页又有图片页)→ 自动分流,矢量页不 OCR
结果就是:该快的时候快(矢量页秒出),该准的时候准(扫描页上 VL 1.6)。既不会用 OCR 去"暴力解码"本来就能读的文字,也不会放过大模型精准识别的机会。
亮点 3 不绑 CUDA!Vulkan 通吃全系显卡
用过 AI 工具的人都知道,配 CUDA 环境是入门第一道拦路虎。NVIDIA 显卡要装 CUDA Toolkit、要配 cuDNN、要折腾驱动版本……AMD 用户更是直接被劝退。
PDF to Markdown.NET 底层采用 LM-Kit.NET 推理引擎,固定使用 Vulkan 作为 GPU 加速后端[5]。Vulkan 是一个跨平台、跨厂商的 GPU 加速标准——NVIDIA 能用、AMD 能用、Intel Arc 也能用。不需要额外安装 CUDA,一张普通显卡就能直接调用。
这意味着什么?你手上有一张 GTX 1650(4GB 显存),没有装 CUDA,照样能跑;你用的是 AMD 显卡,也没问题。门槛直接从"技术宅专属"降到了"普通用户也能玩"的程度。
毕竟大部分人的电脑都不是专门配来跑 AI 的。
亮点 4 不额外依赖模型,算法硬刚「地狱级」表格
PP-StructureV3 本身提供了 SLANet / SLANeXt 系列表格结构识别模型作为可选子产线——SLANet 仅 9M 参数,SLANeXt_wired 约 351 MB,推理一遍也需要额外的显存和时间。
而 PDF to Markdown.NET 走的是另一条路——完全不依赖专用的表格识别模型,纯靠算法来解析表格结构。
听起来很抽象,我拆开来说:
有线表格(有边框线的):通过矢量线条检测或 OCR 识别,自动分析 rowspan(跨行合并)和 colspan(跨列合并) 无线表格(没有框线的):根据文本位置和间距推断表格结构 嵌套合并单元格:比如一个格子跨两行两列,里面还有小表格——这种"地狱级"的复杂表格,也能还原
优势很明显:少加载一个模型,省一次推理,不吃额外显存。VL 1.6 本身就能把版面元素识别清楚,表格结构交由算法去推,两件事各司其职。
4 硬件要求?比你想象的低
我们直接上对比,看看官方"标准配置"和 PDF to Markdown.NET 实际能跑起来的最低配置差距有多大:
一句话: 官方方案适合有 GPU 能部署服务器的人,PDF to Markdown.NET 适合「我只有一台普通电脑」的绝大多数人。
5 怎么用?三步上手
项目使用非常简单,这里只说小白路线(GUI 图形界面版):

下载发布包:在 Gitee 的 Releases 页面下载最新的压缩包,解压到任意目录 下载模型文件:把 PP-DocLayoutV3.onnx(约 130 MB)和 paddle-ocr-vl-1.6-Q4\_K\_M.lmk(725 MB)放到 models 目录下 双击运行:打开 GUI 程序,拖拽 PDF 进去,点击转换,等待输出 Markdown 文件
整个过程不需要配任何环境变量,不需要装 Python,不需要装 CUDA——双击就是全部的操作。
命令行版本也支持更细粒度的控制,比如指定 DPI、强制 OCR 模式、调整并发度等,适合有经验的用户批量处理。
6 适合谁用?
学生党: 毕业论文 PDF 转 Markdown,喂给 ChatGPT 做总结、润色,不用手动复制粘贴 打工人: 合同、报表、产品手册批量转 Markdown,丢进 RAG 知识库或者做本地 AI 搜索 开发者: 最轻量的本地 PDF→Markdown 管道工具,可以直接集成到自己的 workflow 中 隐私敏感用户: 涉密文档、商业合同、个人资料——数据不需要上传任何云端,全程本地处理
···
✏️WQ:后记
PaddleOCR-VL-1.6 代表了当下开源 OCR 的最高水准——96.33% 的精度、极低的硬件门槛、全面的语种和场景覆盖。而 PDF to Markdown.NET 则把这个能力以最亲民的方式交到了每个普通用户手中。
没有云 API 的依赖,没有 CUDA 的折磨,没有页数限制——一个双击,把价值几个亿的文档 AI 请回你的电脑。
如果你也想试试,留意文末的地址,模型要另外自行下载,发行版页面有简单的指引,动动鼠标就能搞定。觉得有用的话,欢迎转发、点赞、在看,让更多人知道这个好东西 

夜雨聆风