乐于分享
好东西不私藏

搞了个小玩意儿,专治"给AI喂文档它就犯傻"这个毛病

搞了个小玩意儿,专治"给AI喂文档它就犯傻"这个毛病

说个事啊。

上个月我们组搭Dify知识库,老板丢过来两百多份Word加PDF,让我想办法喂进去。我寻思这能有多难?结果搞了整整一个周末,差点没把我气死。

PDF直接丢给大模型,双栏的内容它给你横着读,读出来的东西狗屁不通。Word里带个表格吧,进去以后格式全碎了。最离谱的是Excel,几十列的数据灌进去,DeepSeek直接开始编故事,一本正经地胡说八道。

我当时就想,问题出在哪?后来翻了好多资料才搞明白——大模型这玩意儿,它压根就不是为了读Office文档设计的。人家从出生那天起,吃的就是纯文本,最对胃口的格式就是Markdown。你非要塞个PDF给它,就跟拿文言文考一个只学过白话文的小学生一样,能答对才见鬼了。

想通了这个道理以后,我就开始到处找转换工具。网上那些在线的,一个比一个能整活——上传文件先给你弹个广告,转完了告诉你免费版只能转三页,想要完整版?28块一个月,年费198打骨折价。我倒不是心疼这点钱,关键是你把公司内部的技术文档、客户合同往人家服务器上传?回头出了事谁负责?我们信息安全那帮人知道了能把我活剥了。

命令行的开源工具倒是有,什么pandoc啊markitdown啊,功能确实强。但我总不能让运营的同事也去学命令行吧?人家一看那个黑窗口就脸色都变了。

所以我就自己糊了一个带界面的。

嗯,就是今天要说的这个东西——**文件转换**

## 这玩意儿长啥样、能干啥

说白了就是个Windows桌面程序,一个exe文件,92M左右,双击就能跑,啥也不用装。

界面是个暗色调的,不是我故意要搞得花里胡哨,主要是白底的界面我自己盯久了眼睛疼。左边一栏放你要转的文件列表,右边是转换日志,中间一个大按钮,点了就开始干活。

**支持的格式**:Word、Excel、PPT、PDF、HTML、纯文本,基本上日常能遇到的办公文档都覆盖了。

**核心能力我觉得有两个比较值得说的**

第一个是图片处理。很多转换工具要么把图片直接扔掉,要么给你转成base64塞在markdown里——我不知道你们见没见过那种几千行的base64字符串混在正文里的样子,简直辣眼睛,而且文件直接胖了好几倍。我这个做法是把图片单独抽出来,按文档名建个子文件夹存好,markdown里就写个相对路径引用,干干净净的。

第二个是表格。Excel那种复杂表格,多行多列带合并单元格的那种,转出来是标准的markdown表格语法。拿去喂大模型,它能老老实实地按行按列读数据,不会再给你瞎编了。我之前用这个把一份财务季报转完扔给DeepSeek做分析,出来的结论居然挺靠谱的,当时真的小激动了一下。

## 关于安全这件事

我知道很多人最担心的就是这个。所以我把话说在前面:**这个程序不联网**

不是那种”我们承诺不收集数据”的联网软件。是真的,物理层面上的不联网。它就是个本地程序,所有的解析、转换、文件读写全在你自己电脑上完成。你把网线拔了它也照样跑。我觉得对于企业用户来说,这一点可能比什么功能都重要。

## 怎么用

讲真没啥好教的,下载下来双击 `文件转换.exe` 就完事了。

文件可以一个个加,也可以把整个文件夹拖进去,它自己会把里面支持的格式全扫出来。选个输出目录,点开始,泡杯茶的功夫就好了。两百多份文档我实测大概三四分钟搞定,看文件大小。

对了有个小细节,你多次双击这个exe不会弹出一堆窗口,它做了单实例限制,第二次点击会自动把之前那个窗口拉到最前面。这个功能没啥技术含量但是我觉得挺贴心的,不然一不小心开了七八个进程是真的烦。

## 免费的,别被割韭菜

这个工具**不要钱**

我看到有人在闲鱼上卖类似的工具标价十几二十块,我不确定是不是就是我这个换了个皮,但如果是的话,你去找他退钱就行。

我做这个纯粹是因为自己需要,顺手整理了一下就放出来了。软件里有个”关于”页面,里面放了个赞赏码,你觉得好用想请我喝瓶可乐,那我肯定开心。不想给也完全没关系。

## 获取方式

关注这个公众号,后台发 **「文件转换」** 4个字,我把下载链接发你。

就一个exe文件,下载完双击就能用,没有安装包,没有注册流程,没有弹窗广告。就这么简单。

*觉得有用的话帮忙点个在看或者转发一下,让更多搞AI的朋友看到。折腾大模型的路上,少踩一个坑就是赚到。*