「论文从 PDF 拉出来格式全乱,发票是 OFD 没人能转,Keynote 还得先导 PDF 再 OCR,整理资料一半时间在格式之间打转。」
如果你也常被「格式不对」卡住,这篇文章是为你准备的——把 42md 当下支持的 42+ 种文件类型按场景整理一遍。每个类目都有真实样本可点开看效果。
办公文档:OFD / DOCX / XLSX / PPTX / TXT
国内场景里,OFD(开放版式文档)几乎绕不过:电子发票、合同、政府文件全是 OFD 在跑。Office 三件套之外再加个 OFD,才算「办公格式齐了」。
下面这份增值税电子发票就是真实的 OFD 文件——直接转 Markdown,章节、字段、金额都还原:

二、PDF:数字 PDF + 扫描件 PDF
PDF 是基本盘。普通带文字层的 PDF 走结构化抽取,几秒一篇。下面这份 Attention Is All You Need论文转完仍带完整作者邮箱、章节、公式:

扫描件 PDF / 拍照件没有文字层,走 AI 识别。把同一篇论文渲染成图像后再转 Markdown 也能完整还原:

苹果 iWork:Keynote / Pages / Numbers
Mac 用户的演讲稿、长文档、表格都在 iWork 里。42md 直接吃 .key / .pages / .numbers 三件套——不用先「文件 → 导出 PDF」走二次转换的弯路。
电子书与学术:EPUB / MOBI / AZW3 / FB2 / Typst / BibTeX / IPYNB
读完一本 EPUB 想做笔记?42md 把整本书按章节抽出来:

学术写作圈常用的 Typst、BibTeX 引用清单、Jupyter Notebook也都齐了。
AI 视听:扫描件 / 图片 OCR + 音频转录 + 字幕
凡是没文字层的内容——纸质扫描件、手机拍的合同、老资料的照片、讲座录音——都走 AI 通道。一份 4 小时的讲课录音,输入十几个学科 AI 热词,专业名词识别准确率会肉眼提升一截。
字幕文件(.srt / .vtt)转完就是带时间戳的对话:

网页与整站:URL / 整站抓取 / 资源下载
把一个 URL 扔给 42md,它会剥离导航、广告、推荐栏,只留正文:

研究、学习、备份场景里,常需要批量抓一个博客或站点。整站抓取与资源下载详见网站专题。
其他:CSV / HTML / 代码笔记
CSV 表格转成漂亮的 Markdown 表,HTML 网页转成正文,Jupyter Notebook 把代码 + 输出一起编排——日常杂项格式都打通了。
怎么开始
网页拖拽:打开 42md.cc,登录后拖文件进来即可 CLI 一行: 42md 你的文件.ofd就出 Markdown想看更多真实例子:直接逛演示中心,42+ 个 demo 点开即看
文件类型多不可怕,可怕的是为每种格式装一套工具。一处搞定,剩下的时间留给真正要做的事。

加入福利群,紧跟开智动态!
加入福利群,紧跟开智动态!
加入福利群,紧跟开智动态!


夜雨聆风