微软开源工具:把PDF、Word、Excel、PPT、图片、音频全扔进去,一键变干净Markdown!
兄弟们,早啊!
你们有没有过这种崩溃时刻:
手头一堆PDF报告、Word合同、Excel表格、PPT演示稿,还有老板随手拍的截图、会议录音……想喂给大模型做总结、RAG知识库、或者直接做数据分析,结果呢?
复制粘贴、格式乱飞、表格直接崩、图片压根看不懂,折腾半天还是一堆垃圾数据。

我以前也这样,恨不得把电脑砸了。
最近搞自己的知识库,十分需要一个转Markdown的工具,这不就找到了微软的开源工具—MarkItDown

这玩意儿就是个轻量级Python工具,专干一件事
把各种文件和Office文档,统统转成结构清晰、LLM喜欢的Markdown
不是那种生硬的纯文本,它会尽量保留标题、列表、表格、链接这些结构,读起来还挺像人写的。
和老牌 textract 比,它不只是抽纯文本,而是死死保住文档结构:标题、列表、表格、链接一个不落,输出的 Markdown 大模型秒读懂,还超级省 token!

虽说转完人也能看,但它的本命战场是AI 文档预处理,不是给人做精美排版的~
先说它到底能干啥?支持格式超全!
MarkItDown目前支持的格式(基本覆盖日常99%场景):
一句话总结:只要是文档、表格、演示、图片、录音,扔进去基本都能出干净Markdown
再也不用担心“这个格式大模型看不懂”了。
安装和使用,简单到离谱(5分钟上手)
1. 安装(推荐全功能版)
一键装全依赖,所有格式都能转:
pip install 'markitdown[all]'
([all]会把PDF、Office、图片OCR、音频转录等依赖全装上,第一次装可能慢点,后面就飞快了)
pip install ‘markitdown[pdf,docx,pptx]’
pip install 'markitdown[pdf,docx,pptx]'
2. 命令行一键转(最推荐小白玩法)
markitdown 文档.pdf -o 输出.md
就这么简单!打开终端,敲一行命令,Markdown文件就出来了。
3. Python代码调用(程序员最爱)
from markitdown import MarkItDownmd = MarkItDown()result = md.convert("测试.xlsx")print(result.text_content)
如果喜欢,点赞、转发、评论三连走起,谢谢大家~
夜雨聆风