上周同事发来一份80页的PDF合同,让我改几处数字再发回去。
打开在线转换网站,上传,等待,下载,打开——格式全乱了。表格变成了一堆散字,页眉页脚消失,中文字体替换成了方块。重新来一遍,换个网站,结果提示"免费版每天限转3页"。
花了40分钟,什么都没干成。
如果你也遇到过这种情况,下面这个工具值得收藏。
01它叫 Marker,GitHub 上悄悄涨到了 2 万星
Marker 是一个开源的文档转换工具,核心能力是把 PDF、图片、Office 文档转换成结构完整的 Markdown 或 Word 文件。
它不是在线服务,代码跑在你自己的电脑上,文件不经过任何服务器。
项目地址:https://github.com/VikParuchuri/marker
转换一份 PDF,只需要一行命令:
marker_single 合同文件.pdf 输出目录/ --output_format docx
输出的是标准 .docx 文件,直接用 Word 或 WPS 打开,表格、标题层级、段落缩进基本都在。
02为什么它比在线工具强?
大多数在线 PDF 转换工具,本质上是在做"图片识别"——把 PDF 每页截图,然后 OCR 识别文字,再重新排版。这个流程天然会丢失结构信息。
Marker 的路子不一样。
它使用了基于深度学习的版面分析模型,先识别页面里哪块是标题、哪块是正文、哪块是表格、哪块是页眉,再分别处理,最后按逻辑结构重新组装。
它处理的不是"图片里的字",而是"文档里的结构"。
这个差异在处理复杂文档时非常明显。一份带有多级标题和嵌套表格的技术报告,用在线工具转出来基本是废的,用 Marker 转出来,标题层级和表格都能对上。
03安装只需要两步
环境要求:Python 3.10 及以上版本。
第一步,安装:
pip install marker-pdf
第二步,转换:
marker_single 你的文件.pdf 输出目录/
默认输出 Markdown 格式。如果需要 Word 文件,加上参数:
marker_single 你的文件.pdf 输出目录/ --output_format docx
如果有一批 PDF 需要批量处理,用 marker 命令替换 marker_single:
marker PDF文件夹/ 输出目录/ --workers 4
--workers 4 表示同时处理 4 个文件,有 GPU 的机器可以调高这个数字,速度会快很多。
04扫描版 PDF 也能转?
这是很多人没想到的地方。
普通 PDF 里的文字是可以直接提取的,但扫描版 PDF 本质上是一张图片,文字需要 OCR 才能识别。
Marker 内置了 OCR 支持,处理扫描版文档时会自动调用,不需要额外配置。
marker_single 扫描版合同.pdf 输出目录/ --output_format docx
命令完全一样,它自己判断要不要走 OCR 流程。
对比一下市面上常见的方案:Adobe Acrobat 的 OCR 转换功能准确率不错,但订阅费用每年要几百块;Smallpdf、ILovePDF 这类在线工具免费版有页数和次数限制,而且文件要上传到对方服务器。
Marker 本地运行,无限制,文件不离开你的电脑。
05处理中文文档效果怎么样?
这是很多人最关心的问题。
实测结论:中文正文段落识别准确率很高,常见宋体、黑体、微软雅黑都没有问题。表格内的中文同样能正确识别。
需要注意的是,如果 PDF 里嵌入了特殊字体或者使用了非标准编码,偶尔会出现个别字符识别错误的情况。这不是 Marker 独有的问题,所有 OCR 工具都有这个边界。
转换完成后建议快速过一遍关键段落,确认没有明显错字,这个习惯在用任何转换工具时都值得保留。
06一个更实用的用法:批量提取 PDF 里的表格
很多人用 PDF 转 Word,真正的目的是拿到里面的表格数据,然后粘贴到 Excel 里做进一步处理。
Marker 转出来的 Markdown 文件里,表格是标准的 Markdown 表格语法,可以直接复制到任何支持 Markdown 的工具里,或者用脚本批量解析成 CSV。
marker_single 财务报告.pdf 输出目录/ --output_format markdown
输出的 .md 文件用文本编辑器打开,找到表格部分,格式非常干净,比从 Word 里复制表格再清理格式要省事得多。
07现在就可以试
如果你电脑上装了 Python,现在打开终端,三分钟之内就能跑起来。
pip install marker-pdf
marker_single 任意一个PDF文件.pdf ./输出/
第一次运行会下载模型文件,大约 1-2GB,之后就不需要联网了。
遇到问题可以去项目的 GitHub Issues 页面搜一下,大部分常见报错都有人解决过,文档也比较完整。
把这篇文章发给还在用在线转换工具的同事,能帮他们省不少时间。
夜雨聆风