文档先洗干净再喂AI,最高省下6倍token
📡 华哥谈AI · 全球AI情报官
不做二手搬运,只发一手情报
不吹不黑,只看真实用户反馈与行业数据
只给你国内99%的人还不知道的AI信息
📢 本期全球AI工具情报速递:MDFlux,先洗文档再喂AI,扫描件示例从10731降到1893 tokens
法务把整包扫描合同直接喂给模型,常见下场不是更聪明,而是更慢、更贵、表格更乱。MDFlux 不先卷模型,而是先把脏文档在本地洗成 Markdown,再把 token 和返工一起压下去。
先说结果:别急着换模型,先把文档洗干净
很多人的第一反应还是一样:文档难读,就换更强模型;扫描件太脏,就继续堆 OCR 和提示词。问题是,这条路往往越走越贵。
MDFlux 想砍掉的,正是这段最容易被忽视的前处理脏活。官方给出的扫描件示例里,普通提取器直接返回 0 字符;如果走视觉模型读取,要吃掉 10731 tokens;先转成 Markdown 后,只剩 1893 tokens,约 5.7× 更轻。这个数字的杀伤力很直接:你不是只省一次,而是后面每一轮摘要、问答、检索、入库都跟着一起省。
它适合的现场也很明确。法务或研究员在下班前,把一整个扫描合同包、招股书包拖进工具里,先拿到结构尽量完整的 Markdown,再喂给模型做提炼和问答,而不是继续复制粘贴、切换 OCR、手修标题和表格。

旧方式到底亏在哪:你亏的不是一次调用,而是整条链路
直接把扫描 PDF 丢给模型,看起来省事,其实最容易同时踩四个坑:时间成本、token 成本、隐私风险、还有返工。
第一坑是贵。扫描件如果靠视觉读图,token 天生就高;而先清洗成 Markdown,公开说法大约能做到 2 到 6× 更省,这次示例更是打到了 5.7×。
第二坑是空。很多研究员最怕的不是识别错几个字,而是提取器直接给你 0 字符,或者段落有了、层级没了、表格散了。你以为已经“导出来了”,实际上还是得在 PDF、OCR 工具和聊天窗口之间来回切。
第三坑是乱。文档一旦脏,后面每一步都会放大问题:问答更容易跑偏,RAG 切块更难看,知识库入库也得返工。真正费时间的,不是发送那一秒,而是后面一轮轮补救。

MDFlux 真正补的,不是格式转换,而是 AI 工作流断点
如果只把它理解成“PDF 转 Markdown”,这工具就被看小了。MDFlux 真正补上的,是 MarkItDown 这类思路之外,文档进入 AI 流程之前那几个最烦的断点:扫描件 OCR、批量处理、单文件诊断、本地清洗,以及默认离线运行带来的隐私边界。
公开信息里,它支持把 PDF、DOCX、PPTX、XLSX、EPUB、HTML、CSV、JSON、XML、图片、音频转成 Markdown;还能整文件夹批量转换,带进度、取消和单文件诊断。现实里的素材包从来不是一种格式,而是一整个混合文件夹。
更重要的是,它给了 Off、规则清洗、本地 AI 清洗几种模式。重点不是“会转”,而是“转出来更可能直接喂模型”。也就是说,它不是把文件导出来就算完,而是把后续读取、提炼、问答、入库的摩擦一起压低。
另外一个点,是默认不上传文件。首启会一次性联网拉起私有 Python 环境,但之后主打本地处理。对合同包、研报包、招股书包这类敏感文档来说,这个边界本身就是价值。
项目 2026-06-22 才公开 v0.1.0。GitHub 仓库近一周拿到 126⭐,首个便携包下载 140 次。这个量不算爆,但足够说明它不只是“有人点星”,而是真有人开始上手试。
项目和下载信息目前主要都在 GitHub 仓库:https://github.com/ibrahimqureshae/mdflux
适合谁,谁其实没必要现在折腾
适合谁:
- • 每天要处理扫描 PDF、合同包、课件包、研报包、招股书包的人
- • 后续还要把文档继续喂给大模型、RAG 或知识库的法务、研究员、分析师、内容处理人员
- • 更在意本地处理、不想把敏感文档直接上传到外部服务的知识工作者
- • 已经被复制粘贴、换 OCR、手修层级这套旧流程反复折磨的人
不适合谁:
- • 纯 macOS 用户,当前版本不能直接装
- • 只偶尔转一两份干净 DOCX 的轻度用户
- • 已经有稳定企业级 OCR 和文档处理管道的团队
- • 需要跨平台协作、成熟售后支持、开箱即稳的组织
边界也得说清楚。它当前公开版本是 Windows 10/11 便携版,首启需要联网,而且未签名会触发 SmartScreen。再加上现在还是 v0.1.0,负面公开反馈样本也不多,所以它更像值得尽早试水的前处理工具,还不是成熟到能替代整套企业工作流的平台。

华哥判断
MDFlux 最值得看的,不是“又多一个转 Markdown 的工具”,而是它把文档进模型前的脏活说透了:先洗干净,能同时压掉 token、隐私和 OCR 空白三个坑。它当然还有早期产品的毛边,Windows-only、首启联网、SmartScreen 劝退都是真的。但如果你本来就高频处理扫描件,今天拿一个文件夹试水,收益大概率比再追一轮新模型更直接。
华哥锐评:别总怪模型笨,很多时候是你喂进去的文档太脏。
夜雨聆风