乐于分享
好东西不私藏

微软这工具把我文档救了

微软这工具把我文档救了

微软这工具把我文档救了

今天刷 GitHub 看到这个项目直接瞳孔地震——2353 个新星,一天爆了快四分之一!我点进去一看,好家伙,微软官方出的,就一个名字:markitdown。干啥的?把各种文件和办公文档一键转成 Markdown。我第一反应是:“这玩意能真用?”结果翻了两眼,评论区全是“救命”“求开源”“我再也不想手动复制粘贴了”,瞬间给我整破防了。

最离谱的是,它不是那种花里胡哨的 Web 工具,纯纯的 Python 脚本,连依赖都少得可怜。我试了下,连安装都不到十秒。说实话,以前每次要整理会议纪要、合同、报告,我都像在拆炸弹——Word 里格式乱套,复制出来全是鬼画符,表格对不上,图片全没了,最后还得手动调,谁懂啊!

我的文档地狱日常

  • 每次开会完,领导说“把内容整理成 Markdown 发群里”,我看着那个 60 页的 PPT,直接心态崩了。
  • 把 .docx 里的表格拷进 Markdown,结果排版全乱,一列变成三行,人眼看吐。
  • 有次要发给海外同事,对方说“能不能用 Markdown 格式”,我只能硬着头皮手搓,改了半小时。
  • 项目文档里夹着五张截图,每张都得手动重命名、插入,然后还要加 ![](xxx),烦到想砸键盘。
  • 最惨一次,客户要求提供“可编辑的文本版本”,我吭哧吭哧导出,结果发现字体被改成“宋体”,根本没法用。

这些破事,谁没经历过?我早就想骂街了。

它到底是个啥?

简单说,就是你把一堆文件扔进去,它自动给你变干净的 Markdown。PPT、Word、Excel、PDF,通通吃。你不用管格式、不用管排版、不用管图片路径,它自己搞掂。就像有个程序员小弟,蹲你桌前帮你把所有杂七杂八的东西理清楚,还顺手给你写成标准的 Markdown 语法。

关键是,它不靠网页,不靠 API,不靠云服务。你本地跑个脚本,几秒钟搞定,全程无网络,数据全在自己电脑上。比那些动不动就要登录、要授权的工具清爽一百倍。

真·香亮点(不吹牛)

  • ✅ 支持全格式:PPTX、DOCX、XLSX、PDF,全都能转
  • ✅ 表格自动识别,不会丢列,也不会错位
  • ✅ 图片自动提取 + 本地存储,链接直接生成
  • ✅ 输出结构清晰,标题层级完整,支持 TOC
  • ✅ 0 配置,装完直接用,连 config 都不需要
  • ✅ 完全本地运行,数据不出电脑,安全感拉满
  • ✅ 支持命令行批量处理,一个命令转十个文件
  • ✅ 文档质量高,保留原始语义,不像某些工具瞎翻译

这哪是工具?这是解放生产力的外挂。

真实使用场景(都是我试过的)

  • 我昨晚试了把一份 47 页的年终总结 .docx 转成 Markdown,三秒搞定,目录自动生成,还顺手把图表都存好了。
  • 群里老哥说他拿它把公司三年的会议记录全部自动化归档,现在知识库全是结构化文档。
  • 朋友做技术分享,用它把幻灯片一键转成 Markdown 博客,直接发公众号,省了两个工时。
  • 我爸让我帮忙整理他写的论文草稿,全是手打的 .docx,转完后我直接用 Typora 打开,排版完美。
  • 有同事拿来处理竞品分析报告,原来要两天的工作量,现在二十分钟搞定。
  • 我自己写周报,现在直接从会议文档拖进来,删掉废话,改改语气,直接能发。

爽到飞起。

三分钟上手,直接抄

git clone https://github.com/microsoft/markitdowncd markitdownpip install -r requirements.txtpython markitdown.py --input./report.docx --output./report.md

复制粘贴就行,一行命令,文件转完。支持 -i-o 简写,还能批量指定多个文件,懒人福音。

项目地址:https://github.com/microsoft/markitdown
今日新增星:2353
总星:99574
语言:Python