14.8万star,一行命令把PDF和Word变成LLM最顺口的格式

你的文件，AI为什么看不懂

我特别喜欢把PDF扔给ChatGPT，让它帮我抽取重点。你也应该干过这事。结果呢？输出有时没问题，但更多时候是缺行、乱码、格式混乱，答案里冒出一堆不知所云的字符。

关键问题在于文件格式本身就不好吃。PDF里的文字是绘制出来的，根本没有线性的文本流。一个字在PDF里可能是一段路径，在AI眼里就是一堆坐标。Word和PPT的.docx/.pptx是压缩包，里面套着XML树，一层又一层。说实在的，让大语言模型直接去解析这些东西，就像让一个人用吹气的方式打开一个键盘。

LLM吃什么最顺？Markdown。原因很简单，LLM的训练数据里有大量Markdown，比如GitHub的README、Stack Overflow的回答、技术文档，几乎全是Markdown。模型对这种纯文本格式运行得很好，标题就是#，列表就是-，代码就是```。Token效率也高，一个#就是一个token，比HTML的一堆标签节省大半。可现实世界的文件都是Office、PDF，这就是个很大的键盘和吹气的问题。

MarkItDown：一个意外的答案

微软在2024年11月发布了一个开源工具叫MarkItDown，目前GitHub上14.8万star。它做的事情很单纯：把各种格式的文件统统转成Markdown，专门服务LLM的文档处理场景。这话有点绕，但意思很直接——你不用再担心文件格式问题了，把东西扔给MarkItDown，它转好Markdown，再给AI。

它支持的格式比我想象的多得多：PDF、Word(.docx)、Excel(.xlsx)、PPT、图片（读EXIF信息加OCR识别）、音频（语音转写）、HTML、CSV/JSON/XML、ZIP（遍历包内容）、YouTube链接（提取字幕）、EPub。几乎你工作中碰到的所有文档类型，它都能处理。

用法简直到了过分的地步。安装只需一行：

pip install 'markitdown[all]'

转换也是一行命令：

markitdown 文件.pdf > 文档.md

如果你写Python脚本，也可以用API一步一步调用。我自己在RAG工作流里接了一个，把客户发来的Word报告和PDF合同统统转一遍，再做向量储存，效率比以前直接扔给模型好了一大截。

想想为什么MarkItDown能火？它的定位太精准了。现在是RAG和Agent的时代，每个做AI应用的人都需要把真实文档喂给模型。但真实世界的文档都是.docx、.pdf、.xlsx，这些格式大模型吃不动。没人想在这个问题上花时间，但每个人都要解决。MarkItDown用一行命令就把这个点解决了。再加上微软的背书，让人对它的维护和长期发展很放心。

我觉得MarkItDown说明了一件事：有时候最好的解决方案反而是最简单的。用更强的解析引擎也好，让AI去勉强理解复杂格式也罢，都没有先把东西转成AI最熟悉的语言再给它来得实用。这就是“翻译官”的好思路。

如果你也在做AI应用，多少都碰过文件解析的痛点。去GitHub找一下MarkItDown，下载一个试试，你会发现原来这个问题可以轻松解决。

⭐点赞、转发、关注和推荐一键三连⭐