文档先洗干净再喂AI,最高省下6倍token-夜雨聆风

文档先洗干净再喂AI,最高省下6倍token

📡 华哥谈AI · 全球AI情报官

不做二手搬运，只发一手情报

不吹不黑，只看真实用户反馈与行业数据

只给你国内99%的人还不知道的AI信息

📢 本期全球AI工具情报速递：MDFlux，先洗文档再喂AI，扫描件示例从10731降到1893 tokens

法务把整包扫描合同直接喂给模型，常见下场不是更聪明，而是更慢、更贵、表格更乱。MDFlux 不先卷模型，而是先把脏文档在本地洗成 Markdown，再把 token 和返工一起压下去。

先说结果：别急着换模型，先把文档洗干净

很多人的第一反应还是一样：文档难读，就换更强模型；扫描件太脏，就继续堆 OCR 和提示词。问题是，这条路往往越走越贵。

MDFlux 想砍掉的，正是这段最容易被忽视的前处理脏活。官方给出的扫描件示例里，普通提取器直接返回 0 字符；如果走视觉模型读取，要吃掉 10731 tokens；先转成 Markdown 后，只剩 1893 tokens，约 5.7× 更轻。这个数字的杀伤力很直接：你不是只省一次，而是后面每一轮摘要、问答、检索、入库都跟着一起省。

它适合的现场也很明确。法务或研究员在下班前，把一整个扫描合同包、招股书包拖进工具里，先拿到结构尽量完整的 Markdown，再喂给模型做提炼和问答，而不是继续复制粘贴、切换 OCR、手修标题和表格。

旧方式到底亏在哪：你亏的不是一次调用，而是整条链路

直接把扫描 PDF 丢给模型，看起来省事，其实最容易同时踩四个坑：时间成本、token 成本、隐私风险、还有返工。

第一坑是贵。扫描件如果靠视觉读图，token 天生就高；而先清洗成 Markdown，公开说法大约能做到 2 到 6× 更省，这次示例更是打到了 5.7×。

第二坑是空。很多研究员最怕的不是识别错几个字，而是提取器直接给你 0 字符，或者段落有了、层级没了、表格散了。你以为已经“导出来了”，实际上还是得在 PDF、OCR 工具和聊天窗口之间来回切。

第三坑是乱。文档一旦脏，后面每一步都会放大问题：问答更容易跑偏，RAG 切块更难看，知识库入库也得返工。真正费时间的，不是发送那一秒，而是后面一轮轮补救。

MDFlux 真正补的，不是格式转换，而是 AI 工作流断点

如果只把它理解成“PDF 转 Markdown”，这工具就被看小了。MDFlux 真正补上的，是 MarkItDown 这类思路之外，文档进入 AI 流程之前那几个最烦的断点：扫描件 OCR、批量处理、单文件诊断、本地清洗，以及默认离线运行带来的隐私边界。

公开信息里，它支持把 PDF、DOCX、PPTX、XLSX、EPUB、HTML、CSV、JSON、XML、图片、音频转成 Markdown；还能整文件夹批量转换，带进度、取消和单文件诊断。现实里的素材包从来不是一种格式，而是一整个混合文件夹。

更重要的是，它给了 Off、规则清洗、本地 AI 清洗几种模式。重点不是“会转”，而是“转出来更可能直接喂模型”。也就是说，它不是把文件导出来就算完，而是把后续读取、提炼、问答、入库的摩擦一起压低。

另外一个点，是默认不上传文件。首启会一次性联网拉起私有 Python 环境，但之后主打本地处理。对合同包、研报包、招股书包这类敏感文档来说，这个边界本身就是价值。

项目 2026-06-22 才公开 v0.1.0。GitHub 仓库近一周拿到 126⭐，首个便携包下载 140 次。这个量不算爆，但足够说明它不只是“有人点星”，而是真有人开始上手试。

项目和下载信息目前主要都在 GitHub 仓库：https://github.com/ibrahimqureshae/mdflux

适合谁，谁其实没必要现在折腾

适合谁：

• 每天要处理扫描 PDF、合同包、课件包、研报包、招股书包的人
• 后续还要把文档继续喂给大模型、RAG 或知识库的法务、研究员、分析师、内容处理人员
• 更在意本地处理、不想把敏感文档直接上传到外部服务的知识工作者
• 已经被复制粘贴、换 OCR、手修层级这套旧流程反复折磨的人

不适合谁：

• 纯 macOS 用户，当前版本不能直接装
• 只偶尔转一两份干净 DOCX 的轻度用户
• 已经有稳定企业级 OCR 和文档处理管道的团队
• 需要跨平台协作、成熟售后支持、开箱即稳的组织

边界也得说清楚。它当前公开版本是 Windows 10/11 便携版，首启需要联网，而且未签名会触发 SmartScreen。再加上现在还是 v0.1.0，负面公开反馈样本也不多，所以它更像值得尽早试水的前处理工具，还不是成熟到能替代整套企业工作流的平台。

华哥判断

MDFlux 最值得看的，不是“又多一个转 Markdown 的工具”，而是它把文档进模型前的脏活说透了：先洗干净，能同时压掉 token、隐私和 OCR 空白三个坑。它当然还有早期产品的毛边，Windows-only、首启联网、SmartScreen 劝退都是真的。但如果你本来就高频处理扫描件，今天拿一个文件夹试水，收益大概率比再追一轮新模型更直接。

华哥锐评：别总怪模型笨，很多时候是你喂进去的文档太脏。