Obsidian必备:把PDF等文档批量转Markdown

Obsidian必备：把PDF等文档批量转Markdown

👇关注公众号，回复“模板”，获取知识体系搭建sop模板

今天给你介绍四款文档转 Markdown 工具，覆盖不同场景，从命令行一键批量到零代码图形界面，总有一款适合你。

01 MarkItDown：微软开源的全能转换器

MarkItDown 是微软开源的文档转换工具，一个命令就能把几乎所有常见格式转成 Markdown。

安装只需一行命令：pip install ‘markitdown[all]’

它的优势很明显：格式覆盖面极广，什么文件丢进去都能出来 Markdown。而且微软维护，持续更新。

但也有短板：对复杂 PDF（含公式、图表）的转换精度一般，表格还原度不如专用工具。如果你要处理学术论文或技术文档，继续往下看。

02 Marker：学术 PDF 转换专家

如果你处理的是学术论文、技术手册这类排版复杂、公式密集的 PDF，Marker 是更好的选择。

它原本就是为学术场景设计的——精准处理复杂布局、数学公式、代码块，效果远优于通用工具。

一句话定位：如果 MarkItDown 是瑞士军刀，Marker 就是手术刀——支持的格式少，但在 PDF 这一个点上做得极深。

它的不足也明确：不支持 DOCX 和 XLSX，中文 PDF 的处理效果可能不如英文。

03 RapidOCR：轻量级图片文字提取

扫描件、截图里的文字怎么办？前面的工具处理不了纯图片中的文字——这时候你需要 OCR。

RapidOCR 是目前最优的轻量级选择。

传统的 PaddleOCR 需要安装 PaddlePaddle，依赖庞大、部署复杂。RapidOCR 彻底去掉了这个依赖，改用 ONNX Runtime 做推理——轻量、快速、开箱即用。

适用场景：你有扫描版 PDF 或手机拍的文件照片，需要先 OCR 提取文字，再转 Markdown。它专注于图片文字识别这一件事，做得干净利落。

注意：RapidOCR 只做 OCR，不直接处理 PDF。你需要先把 PDF 拆成图片，再用它识别。

04 核烁工具：零代码批量处理

前面三个都是命令行工具。如果你不写代码，或者需要让同事也能用——
核烁文档批量处理工具是国产生图形界面方案，PDF、DOCX、XLSX 批量转 Markdown，点几下鼠标就完成。

官网下载安装即可使用，操作逻辑和普通软件一样，这里不展开。

05 四款工具怎么选？

一句话总结：

◆ 文件格式杂、什么都有 → MarkItDown ，一个工具全搞定

◆ 学术论文、技术 PDF → Marker ，精准还原公式和表格

◆ 扫描件、截图里的文字 → RapidOCR ，先把文字提出来

◆ 不想碰命令行 → 核烁工具，图形界面直接操作

广东,4分钟前,