161K Star,微软出的这个工具把文档跟大模型打通了—

161K Star,微软出的这个工具把文档跟大模型打通了——PDF/一键喂给AI

6 月 GitHub 飙星榜第一名的项目叫 microsoft/markitdown，单月新增 3.4 万 Star，总 Star 161K。

它做的事说穿了就一句话：把 PDF、Word、PPT、Excel、音视频字幕、YouTube 链接，一键转成干净的 Markdown，直接喂给大模型。

如果你做过 RAG、搞过知识库、或者日常需要给 AI 看文档，你立刻知道这个工具解决了什么痛点。

痛点：文档是 LLM 消化不了的石块

LLM 吃的是文本。你给它一个 PDF，它需要先解析——但 PDF 的格式千奇百怪：扫描件、双层文本、表格混排、公式、图表。每一种都需要不同的处理方案。

以前的流程是这样的：PDF → 转 Word → 手工对齐 → 复制粘贴 → 删掉乱码 → 调格式 → 喂给 LLM。一篇文章折腾 10 分钟，一个文档库折腾一整天。

markitdown 把这个流程压缩成一行命令：

markitdown document.pdf

输出一个干净的 Markdown 文件。表格变成 Markdown 表格，列表变成 Markdown 列表，代码块保留语法高亮标记，图片变成链接引用。不仅仅是文本提取，是语义结构保留。

它支持什么格式

格式	处理方式
PDF	文字提取 + 表格识别 + 结构保留
Word (.docx)	完整保留标题层级、列表、表格
PPT	每页转成 Markdown 段落
Excel (.xlsx)	每个 sheet 转 Markdown 表格
图片	OCR 文字识别
音频	语音转文字字幕
YouTube 链接	自动提取字幕并转换

v0.1.6 版本新增了 Azure Document Intelligence 集成，云端高质量转换又加了一个选项。本地处理和云端处理两条路径都通了。

为什么 161K 人 Star 了这个项目

三个原因，按重要性排序：

第一，它是 LLM 应用的基础设施。 所有 RAG 应用、知识库问答、文档摘要系统，第一步都是「把文档转成 LLM 能吃的格式」。markitdown 把这第一步做到了零摩擦。不需要装七种工具、不需要配五个 API、不需要手工调试每种格式的参数——一行命令搞定。

第二，微软出品，打磨到位。 161K Star 不是靠着微软的品牌刷出来的。这个项目对中文 PDF 的支持非常好——很多开源 PDF 转 Markdown 工具对中文文字提取的准确率惨不忍睹，markitdown 的准确率明显更高。表格混排的 Word 文档转换后格式不乱，这是竞品做不到的。

第三，生态位置精准。 它不做一个大而全的产品，只专注做一件事：文档 → Markdown。这件事是 LLM 应用管道的第一个环节，也是效率损耗最大的环节。markitdown 把这个环节磨到了最薄。

三个程序员最常用的场景

场景一：技术文档喂给 AI 做代码生成。 你有一个 50 页的 API 文档 PDF，想让 AI 基于文档生成对接代码。以前你得手动把文档内容一段段复制给 AI。现在一行 markitdown api-doc.pdf，出来的 Markdown 直接复制到 Claude 里：「基于这份 API 文档生成 Python 对接代码。」整个过程从半小时压缩到一分钟。

场景二：搭建本地知识库 RAG。 你的团队有几百份 Word 文档和 PDF，想做一个内部知识库问答系统。第一步就是把所有文档转成 Markdown。markitdown 支持批量处理，一个目录扔进去全转。

场景三：音视频会议记录转文档。 录音文件 → 语音转文字 → Markdown 会议纪要。一段 YouTube 技术分享视频 → 提取字幕 → Markdown 文字稿。

markitdown 不是最 fancy 的 AI 项目，但它是你用 AI 做任何文档相关工作之前的第一步。把它装到你的工具链里，今天就省掉你 20 分钟手工排版的时间。

你平时怎么给 AI 喂文档？

👇 评论区聊聊：

A. 复制粘贴 + 手工排版，很痛苦
B. 已经在用 markitdown 之类的工具
C. 用 LangChain 之类框架的文档加载器
D. 没喂过文档，只聊天