免责声明

往期回顾
PREVIOUS REVIEW


hello,大家好呀!微软开源了一个工具MarkItDown,刚开始我以为它只是一个普通的格式转换工具,测试了一遍之后才发现它真正的价值并不是把PDF转成Markdown,而是把各种办公文档转换成更适合AI理解的文本,这一点对于做知识库的人来说比格式转换本身更重要。
因为现在很多知识库,无论是Cherry Studio、Dify、AnythingLLM、OpenWebUI,最终处理的都是文本。Markdown几乎成了事实上的通用格式,而MarkItDown刚好把这件事情做了,我最开始还担心微软出的工具,是不是只能在Windows上使用,后来在统信UOS V25上测试了一遍,整个安装过程比想象中顺利。
系统环境如下:统信UOS V25(专业版)Linux 6.6 x86_64内核Python 3.12环境。
为了避免污染系统Python环境,我先创建了一个独立的Python虚拟环境,再安装MarkItDown,这也是我平时比较推荐的做法。安装完成后,MarkItDown版本为0.1.6,可以正常运行。
真正让我惊喜的是它不仅支持PDF、Word、Excel、PowerPoint这些办公文档。还可以直接把转换后的Markdown输出到终端,方便快速查看内容,或者直接接入后续的AI处理流程。
以前做知识库我总觉得模型最重要,后来越来越发现,真正决定回答质量的其实是文档预处理,如果原始文档质量不好,切片再漂亮、Embedding模型再先进,回答依然不会太理想。所以现在我的流程基本变成了:原始文档-->MarkItDown-->Markdown-->AI知识库-->向量数据库-->大模型,整个流程清晰了很多。
如果你也正在搭建本地AI知识库、使用Cherry Studio、使用AnythingLLM、使用Dify、希望让AI更好地理解企业文档,我建议可以试试MarkItDown,至少目前来看。它已经成为我处理文档时最常用的工具之一。
01
查看系统信息

pdsyw@pdsyw1024:~/Desktop$ cat /etc/os-version[Version]SystemName=UOS DesktopSystemName[zh_CN]=统信桌面操作系统ProductType=DesktopProductType[zh_CN]=桌面EditionName=ProfessionalEditionName[zh_CN]=专业版MajorVersion=25MinorVersion=2500OsBuild=21018.101.100pdsyw@pdsyw1024:~/Desktop$ uname -aLinux pdsyw1024 6.6.0-amd64-desktop #25.00.2501.023 SMP PREEMPT_DYNAMIC Wed May 20 18:36:57 CST 2026 x86_64 GNU/Linux

02
检查Python版本

pdsyw@pdsyw1024:~/Desktop$ python --versionPython 3.12.13

03
安装虚拟环境依赖

pdsyw@pdsyw1024:~/Desktop$ sudo apt install -y python3-pip python3-venv
04
创建虚拟环境

pdsyw@pdsyw1024:~/Desktop$ mkdir -p ~/markitdown-testpdsyw@pdsyw1024:~/Desktop$ cd ~/markitdown-testpdsyw@pdsyw1024:~/markitdown-test$ python3 -m venv .venvpdsyw@pdsyw1024:~/markitdown-test$ source .venv/bin/activate((.venv) ) pdsyw@pdsyw1024:~/markitdown-test$

05
安装MarkItDown

((.venv) ) pdsyw@pdsyw1024:~/markitdown-test$ pip install 'markitdown[all]'
06
查看版本

((.venv) ) pdsyw@pdsyw1024:~/markitdown-test$ markitdown -vmarkitdown 0.1.6

07
把PDF转成Markdown

((.venv) ) pdsyw@pdsyw1024:~/markitdown-test$ markitdown /home/pdsyw/Desktop/pdsyw.pdf -o pdsyw.md((.venv) ) pdsyw@pdsyw1024:~/markitdown-test$ lspdsyw.md


08
把Word转成Markdown

((.venv) ) pdsyw@pdsyw1024:~/markitdown-test$ markitdown /home/pdsyw/Desktop/pdsyw.docx -o pdsywdocx.md((.venv) ) pdsyw@pdsyw1024:~/markitdown-test$ lspdsywdocx.md pdsyw.md


09
把Excel转成Markdown

((.venv) ) pdsyw@pdsyw1024:~/markitdown-test$ markitdown /home/pdsyw/Desktop/pdsyw.xlsx -o pdsywxlsx.md((.venv) ) pdsyw@pdsyw1024:~/markitdown-test$ lspdsywdocx.md pdsyw.md pdsywxlsx.md


10
把PPT转成Markdown

((.venv) ) pdsyw@pdsyw1024:~/markitdown-test$ markitdown /home/pdsyw/Desktop/pdsyw.pptx -o pdsywpptx.md((.venv) ) pdsyw@pdsyw1024:~/markitdown-test$ lspdsywdocx.md pdsyw.md pdsywpptx.md pdsywxlsx.md


11
直接输出到终端

((.venv) ) pdsyw@pdsyw1024:~/markitdown-test$ markitdown /home/pdsyw/Desktop/pdsyw.pdf
夜雨聆风