乐于分享
好东西不私藏

微软开源工具:把PDF、Word、Excel、PPT、图片、音频全扔进去,一键变干净Markdown!

微软开源工具:把PDF、Word、Excel、PPT、图片、音频全扔进去,一键变干净Markdown!

兄弟们,早啊!

你们有没有过这种崩溃时刻:

手头一堆PDF报告、Word合同、Excel表格、PPT演示稿,还有老板随手拍的截图、会议录音……想喂给大模型做总结、RAG知识库、或者直接做数据分析,结果呢?

复制粘贴、格式乱飞、表格直接崩、图片压根看不懂,折腾半天还是一堆垃圾数据。

我以前也这样,恨不得把电脑砸了。

最近搞自己的知识库,十分需要一个转Markdown的工具,这不就找到了微软的开源工具—MarkItDown

这玩意儿就是个轻量级Python工具,专干一件事

把各种文件和Office文档,统统转成结构清晰、LLM喜欢的Markdown

不是那种生硬的纯文本,它会尽量保留标题、列表、表格、链接这些结构,读起来还挺像人写的。

和老牌 textract 比,它不只是抽纯文本,而是死死保住文档结构:标题、列表、表格、链接一个不落,输出的 Markdown 大模型秒读懂,还超级省 token!

虽说转完人也能看,但它的本命战场是AI 文档预处理,不是给人做精美排版的~

先说它到底能干啥?支持格式超全!

MarkItDown目前支持的格式(基本覆盖日常99%场景):

Office全家桶:.docx(Word)、.pptx(PowerPoint)、.xlsx/.xls(Excel)
PDF:表格、文字、布局都能尽量保留
图片:JPG、PNG等,支持OCR文字提取 + EXIF元数据
音频:MP3、WAV等,支持语音转文字 + 元数据
网页和数据文件:HTML、CSV、JSON、XML
其他:EPUB电子书、Jupyter Notebook(.ipynb)、甚至ZIP压缩包(它会递归把里面支持的文件全转一遍!)
黑科技:直接扔YouTube链接也能转(应该是自动抓字幕+转录)

一句话总结:只要是文档、表格、演示、图片、录音,扔进去基本都能出干净Markdown

再也不用担心“这个格式大模型看不懂”了。

安装和使用,简单到离谱(5分钟上手)

1. 安装(推荐全功能版)

一键装全依赖,所有格式都能转:

pip install 'markitdown[all]'

([all]会把PDF、Office、图片OCR、音频转录等依赖全装上,第一次装可能慢点,后面就飞快了)

pip install ‘markitdown[pdf,docx,pptx]’

pip install 'markitdown[pdf,docx,pptx]'

2. 命令行一键转(最推荐小白玩法)

markitdown 文档.pdf -o 输出.md

就这么简单!打开终端,敲一行命令,Markdown文件就出来了。

3. Python代码调用(程序员最爱)

from markitdown import MarkItDownmd = MarkItDown()result = md.convert("测试.xlsx")print(result.text_content)

如果喜欢,点赞、转发、评论三连走起,谢谢大家~