【工具】微软 MarkItDown 把 PDF/Word/PPT 一键转成 Markdown

🧑‍🍳

各位好~ 最近微软开源的小工具 MarkItDown 在 GitHub 上已经获得了 11 万以上 star，这在工具类项目里相当少见。它做的事情其实很朴素：把各种文件，如 PDF、Word、PPT、Excel、图片、音频、网页，甚至 YouTube 视频，都可以转换成 Markdown 文本。本文就来聊聊它是什么、为什么值得装一个，以及它能为我们做研究、写论文、用大模型省下多少功夫（项目地址见文末）。

一、先说一个常见的痛点

我们做研究时，手头的材料多半不是纯文本。比如导师发来的是 PDF 论文，政策报告是扫描版，会议纪要躺在 Word 里，访谈录音是 mp3，授课讲义是 PPT，统计数据藏在 Excel。每次想拿这些材料做点什么，比如丢给 ChatGPT、Claude梳理观点、做主题归纳，或进一步用 Python 跑词频统计和关键词共现，第一步永远是先把内容捞出来，变成纯文本。

但这一步往往最折腾。直接复制粘贴 PDF，排版会散架，表格变乱码，图注和正文糊在一起。用 pdfplumber 自己写脚本，能解决一部分问题，却要针对不同来源反复调参。Word、PPT、Excel 的提取又各有一套库。一通折腾下来，研究还没开始，已经在文件格式上耗掉了半天。

MarkItDown 想解决的，就是这个“第一公里”的问题。

二、MarkItDown 到底是什么

简单说，MarkItDown 是微软开源的一个 Python 小工具，专门负责把各种文件转换成 Markdown。

💡

Markdown 是一种轻量的标记语言，看起来几乎和纯文本无异，但可以用 # 表示标题、用 - 表示列表、用 | 表示表格。它既保留了文档结构，又不会像 HTML 那样满屏标签。比如你正在读的这一段文字，原始形态就是一段 Markdown，只是被 Notion / 微信渲染成了你看到的样子。

它支持的输入格式覆盖非常广，包含但不限于：

•

PDF（文字版 PDF 可直接解析；扫描版 PDF 通常需要 OCR、Azure Document Intelligence 或相关插件配合）

•

Word（.docx）、PowerPoint（.pptx）、Excel（.xlsx / .xls）

•

图片（提取 EXIF 元数据，并可进行 OCR 文字识别；识别效果取决于图片清晰度和所用 OCR / 模型能力）

•

音频（在安装相应可选依赖后，可提取元数据并转写 wav / mp3）

•

HTML 网页

•

CSV、JSON、XML 等结构化文本

•

ZIP 压缩包（自动遍历内部文件）

•

YouTube 链接（抓取字幕）

•

EPUB 电子书

•

Outlook 邮件

•

……

三、为什么是 Markdown，不是纯文本或者 JSON

MarkItDown 的官方说明里也专门解释了这一点：主流大模型（如 GPT-4o）天然“懂” Markdown。因为它们的训练语料中包含大量 Markdown 文本，模型在回答问题时也常常会自发采用 Markdown 格式。

举个例子。假设我们把同一份政策报告分别以三种形式喂给 ChatGPT：

纯文本：标题、正文、脚注全部混在一起，模型只能靠语感判断哪部分是章节标题

HTML：结构清晰，但充斥着 <div><p><span> 这类标签，既浪费 token 又容易干扰理解

Markdown：### 表示章节层级，表格用管道符表达，列表用短横线，结构与内容一目了然

第三种显然最省心：模型理解更准确，token 也更省。这就是 MarkItDown 押宝 Markdown 的原因。

四、对人文社科研究者意味着什么

场景一，搭语料库的第一步

我们之前聊构式分析、聊情感分析时，有一个隐含前提是“你已经有了一份干净的纯文本语料”。但在实际研究中，语料的原始形态往往是 PDF 论文、报刊扫描件、政府报告，或访谈录音等。MarkItDown 可以把这些异构来源尽量转换为统一的 Markdown，再交给后续的分词、清洗、标注流程。对于扫描件或版式复杂的材料，则通常需要配合 OCR、Azure Document Intelligence 或相关插件使用。换句话说，它解决了语料构建中最不学术、却最耗时间的一环。

场景二，把文献喂给大模型做综述

写文献综述时，把几十篇 PDF 逐篇上传到 ChatGPT 不仅慢，还很容易超出长度限制。若先用 MarkItDown 批量将 PDF 转成 Markdown 文件，再统一交给大模型（或用本地 RAG 流程做检索增强），效率会高很多。同时，Markdown 能保留章节结构，模型也能更准确地区分摘要、方法、结论等部分，总结起来更可靠。

场景三，访谈与课堂录音的快速转写

在定性研究中，访谈录音是常见素材。MarkItDown 集成语音转写功能，可直接将 wav / mp3 转为文本。再配合关键词检索，研究者就能快速定位"受访者在什么段落提到了什么"，进而进行编码与归类。

场景四，Excel 数据表的语义化处理

很多社科数据存放在 Excel 里，列名也是自然语言（"受访者编号""年龄""政治倾向"）。用传统的 pandas 读取往往需要写脚本；而 MarkItDown 可以先把 Excel 转成 Markdown 表格，再交给大模型或 Python 进一步分析，例如用自然语言询问"统计政治倾向分布"。对不熟悉编程的研究者来说门槛低很多。

场景五，PPT 课件的批量整理

我们手头研究生课程的 PPT 累积下来数量不小。MarkItDown 可以将 PPT 里的文字一键转换成 Markdown 笔记，便于后续检索、复习和二次创作。如果再接入大模型 API，连 PPT 里的图片内容也能被翻译为文字描述（下面会讲到）。

五、上手用法

其实在 GitHub 项目中已经有很详细的使用教程，但都是英文版的。我在这里重新梳理一遍，方便大家理解。

1. 最简单的命令行用法

第一步是装上它。打开终端（Windows 用户可以打开 PowerShell 或 CMD），输入下面这一行：

pip install 'markitdown[all]'

这里的 pip 是 Python 自带的包管理工具，可以理解成应用商店；这一行命令的意思是"从 Python 官方仓库下载并安装 markitdown 这个包，并且把所有可选功能（[all]）一起装上"，省得后面缺这缺那。如果你只关心 PDF 和 Word，也可以单装：

pip install 'markitdown[pdf,docx]'

装好之后就可以转换文件了。最简单的用法是：

markitdown 我的论文.pdf > 我的论文.md

这一行的含义是：让 markitdown 这个命令去处理"我的论文.pdf"，再用 > 这个符号把转换出来的内容"重定向"到一个叫"我的论文.md"的新文件里。如果觉得这种写法不直观，也可以用 -o 参数明确指定输出文件名，效果是一样的：

markitdown 我的论文.pdf -o 我的论文.md

2. 在 Python 脚本里调用

如果想在 Python 脚本里调用 MarkItDown（比如配合后续的分析流程），代码也非常简洁：

from markitdown import MarkItDown

md = MarkItDown(enable_plugins=False)
result = md.convert("访谈录.docx")
print(result.text_content)

这四行代码我们逐句拆开看：

•

第一行 from markitdown import MarkItDown：从 markitdown 这个库里借出 MarkItDown 这个工具

•

第二行 md = MarkItDown(enable_plugins=False)：创建一个转换器实例，可以理解为"启动一台转换器"，并存到变量 md 里；enable_plugins=False 表示默认不启用第三方插件，如果后续安装了 OCR 等插件，也可以改为 True

•

第三行 result = md.convert("访谈录.docx")：让这台转换器处理"访谈录.docx"，并把转换结果存进 result

•

第四行 print(result.text_content)：把转换出来的 Markdown 文本打印出来

如果要批量处理某个文件夹下的所有 PDF，只要在第三行外面套一层循环即可。下面会给出一个完整的小例子。

进阶一，让大模型给图片配文字

如果文件里包含图片（比如 PPT 课件里的示意图、PDF 里的折线图），MarkItDown 可以接入 OpenAI 接口，让大模型自动为图片生成文字描述：

from markitdown import MarkItDown
from openai import OpenAI

client = OpenAI()
md = MarkItDown(llm_client=client, llm_model="gpt-4o")
result = md.convert("课件.pptx")
print(result.text_content)

和上面四行代码相比，这里主要多了两步：先用 client = OpenAI() 创建 OpenAI 客户端（前提是已配置好 API key），再在创建转换器时把它传进去（llm_client=client），并指定使用多模态模型（如官方示例中的 gpt-4o）。这样一来，在处理 PPT 或图片文件时，MarkItDown 可以调用大模型为图片生成文字描述，并将描述写入最终的 Markdown。对于多模态研究，或需要对含图 PPT 做全文检索的场景，这个能力会很实用。

进阶二，用 Azure 处理复杂版式扫描件

对于版式特别复杂的扫描件 PDF（比如老期刊、政府公文），普通的 PDF 解析器往往难以胜任。MarkItDown 支持调用微软 Azure 的 Document Intelligence 服务，识别效果通常更好。使用前需要先在 Azure 上创建 Document Intelligence 资源，并拿到对应的 endpoint。当然这是付费服务，研究经费允许的话可以考虑。

进阶三，作为 MCP 服务器接入 AI 客户端

值得一提的是，MarkItDown 已经提供了 MCP（Model Context Protocol）服务器，可以接入 Claude Desktop 等支持 MCP 的 AI 客户端；在其他客户端中使用时，则需要看其是否支持 MCP 以及具体配置方式。简单来说，你在 AI 客户端里发送一个 PDF，它可以自动调用 MarkItDown 完成转换并读取内容，整个过程对你是透明的。

六、动手做一个批量转换的小脚本

下面给一段最常见的实操脚本：把“论文集”文件夹下的所有 PDF 论文批量转成 Markdown，并写入“转换后”文件夹。

from pathlib import Path
from markitdown import MarkItDown

# 指定输入和输出文件夹
input_dir = Path("论文集")
output_dir = Path("转换后")
output_dir.mkdir(exist_ok=True)

md = MarkItDown()

# 遍历输入文件夹下所有 PDF
for pdf_file in input_dir.glob("*.pdf"):
    result = md.convert(str(pdf_file))
    # 用同名 .md 文件保存转换结果
    output_path = output_dir / (pdf_file.stem + ".md")
    output_path.write_text(result.text_content, encoding="utf-8")
    print(f"完成：{pdf_file.name}")

逐段说明如下：

•

from pathlib import Path：从 Python 标准库引入“路径处理工具”，比手动拼接字符串更不容易出错

•

Path("论文集") 和 Path("转换后")：分别为输入、输出文件夹创建路径对象，便于后续引用

•

output_dir.mkdir(exist_ok=True)：如果“转换后”文件夹不存在就自动创建；exist_ok=True 表示已存在也不报错

•

input_dir.glob("*.pdf")：列出“论文集”文件夹里所有 PDF 文件。*.pdf 是通配符，表示“任意文件名 + .pdf 后缀”

•

循环体中每处理一个 PDF：先调用 md.convert(...) 转为 Markdown，再用 pdf_file.stem（不含后缀的文件名）拼出输出路径，最后以 UTF-8 编码写入文件

•

print(f"完成：{pdf_file.name}")：每处理完一个文件就打印进度提示，避免长时间无输出让人误以为程序卡住

把这段代码保存为 convert.py，放在与“论文集”文件夹同一目录下，然后在终端运行：

python convert.py

运行结束后，“转换后”文件夹里会生成一份份干净的 Markdown 论文。它们可以直接喂给大模型、接入 NLP 分析流程，或导入 Obsidian / Notion 作为笔记。

七、结语

项目地址：https://github.com/microsoft/markitdown