微软开源神器,一键把任意文件转成AI能读懂的Markdown
一、它是什么?
MarkItDown 是微软开源的 Python 工具,专门将各种文件转为 Markdown 格式。目前在 GitHub 已斩获 11.5万+ Stars,是 2026 年最火的 AI 文档预处理工具。
核心定位:为 LLM "喂料"——把 PDF、Word、PPT 转成结构清晰的 Markdown,让 RAG 检索、知识库构建变得丝般顺滑。

二、支持哪些格式?
三、为什么选它?
✅ 结构保留,AI 更"懂"你
保留标题、表格、列表、链接等语义结构,LLM 理解上下文更精准。
✅ Token 优化,省钱高效
输出经过专门优化,减少冗余空白,降低 Token 消耗,直接省钱。
✅ MCP 集成,即插即用
内置 MCP Server,可直接接入 Claude Desktop 等 AI 应用,LLM 实时调用。

四、安装 & 使用
🔧 安装
pip install'markitdown[all]'需要 Python 3.10+
🖥️ 命令行markitdown report.pdf -o report.mdcat doc.html | markitdown
🐍 Python API
from markitdown import MarkItDownmd = MarkItDown()result = md.convert("report.pdf")print(result.text_content)
五、典型场景
六、总结
在 AI 时代,文档预处理 直接决定 LLM 能发挥几成功力。MarkItDown 一行命令解决痛点,让开发者专注更有价值的事。

📌 GitHub:https://github.com/microsoft/markitdown⭐ Stars:115,926+ | 🍴 Forks:7,577+
💡 不想装 Python?试试在线版 RawMark,浏览器直接拖文件转换。
夜雨聆风