一个开发者 + 一个 AI,替财务同事干掉了最烦的手动整理报销单
故事从同事的一句抱怨开始
某天我们财务同事又在对着一堆 PDF 发票发愁——
她负责整理公司报销单,每个月都要手动打开一张张 PDF,把金额、税率、开票单位、发票号码这些信息一个个抄下来,再汇总进表格。
发票多的时候,一个下午就这么没了。
她一边整理一边叹气: “能不能批量识别,自动存档,以后想查直接搜?”
作为开发者,我第一反应是:理论上当然可以。
但第二反应也很真实:这事真做起来,应该挺碎。
我原本以为得自己从头搭一套:
本地 Web 页面 发票解析逻辑 字段提取规则 表格导出 Windows 运行方式
如果再往复杂一点想,还会联想到 OCR、二维码识别、模型选型、本地部署……
但那天我刚好用上了 Codex,心想:不如让 AI 试试?
于是我对 Codex 说:
“帮我做一个本地发票识别工具,上传 PDF,自动提取关键信息,直接导出 CSV 或 Excel。”
接下来发生的事,让我这个写了多年代码的人也吃了一惊。
从想法到第一版,比我想象的快太多
我一开始以为,做发票识别就等于“上 OCR”。
但 Codex 先帮我把问题拆对了:
我手上的很多发票,其实不是扫描图片,而是可直接抽文本的电子发票 PDF。
这意味着,第一版根本不需要先上重型 OCR,也不需要先搞模型。最简单、最稳的路径反而是:
pdfplumber:直接读取 PDF 文本和页面版面信息 - 正则提取:
先抽发票号码、日期、买卖双方、合计金额这些稳定字段 - 表头列位置抽取:
按票面“项目名称 / 单价 / 数量 / 金额 / 税率 / 税额”的列位置取明细 openpyxl/csv:直接导出 Excel 或 CSV Flask:再包一层本地网页,上传 PDF 就能用
整个工具现在的核心逻辑,已经变成了这样:
上传 PDF ↓pdfplumber 读取文本和页面坐标 ↓正则提取发票号码、开票日期、买卖双方、价税合计、备注 ↓按表头列位置提取 项目名称 / 单价 / 数量 / 金额 / 税率 / 税额 ↓导出 CSV / Excel ↓再用 Flask 包成一个本地网页工具这条路径如果画出来,大概就是这样:

这一步特别关键。
因为它不是“技术更炫”,而是路径更对。
如果一上来就先堆 OCR、二维码识别、模型调优,当然也能做,但会把第一版做得又重又慢。
而现在这条路,先把我手头最常见的电子发票跑通,马上就能出结果。
如果让我自己先想、先试、先排除,至少要花一两天;而在 AI 的协助下,第一版命令行脚本很快就跑起来了,后面再逐步加网页和 Windows 运行方式。
同事试用后,真正的挑战才开始
第一版工具能跑之后,我马上让同事试。
结果也很符合真实项目的规律:能跑不等于能用,能用不等于好用。
最早暴露的问题,不是什么高深算法,而是一些“只有真实票据才会打脸”的细节。
第一个问题是:购买方名称多了一个“售”。
在一张饮用水发票里,程序把购买方名称识别成了:
“上海市黄浦某某某中心 售”
根因不是 OCR,而是文本截断边界不够严,取值时把旁边字段的一部分一起带进来了。
我把错误现象直接丢给 Codex,它很快把边界规则收紧,问题就消掉了。
第二个问题更典型:项目名称有时候是空的。
比如一张固话费发票,票面原文其实非常清楚:
项目名称 规格型号 单位 数量 单价 金额 税率/征收率 税额*电信服务*通信服务费 无 个 1 51 51.00 * *但程序第一次没有取到 项目名称。
当时我用的是一套偏“字符串启发式”的规则,比如猜单位、猜数字位置。这种方式写起来快,但很容易漏票型。
Codex 后来帮我把这部分改成了更稳的思路:
不再猜“单位是不是个、次、份”,而是直接看 PDF 票面上的表头列位置。
也就是先找到:
项目名称数量单价金额税率/征收率税额
这些表头在页面上的横向坐标,再去对应列里取值。
这一步改完后,固话费这张票就正常了,项目名称、单价、数量、金额、税率、税额 都能对上票面原文。
第三个问题,是另一张 T3 出行电子发票。
那张票第一次跑出来时,项目名称还是空的。
但一旦切到“按表头列位置抽取”的逻辑后,这张票就能稳定取到:
*运输服务*客运服务费
这一类问题如果我自己单独调,肯定也能搞定,但节奏会慢很多:
读 PDF 原文 打印中间结果 猜是哪条规则错了 改一版再跑
而我这次和 AI 的协作更像是:
给它真实票据 + 给它错误现象 → 它定位问题 → 我立刻验证
整个迭代速度会明显快很多。

实际提取出来的字段长这样
现在工具导出的字段,已经不是“演示级”了,而是对着真实票据一点点磨出来的。
比如其中一张 T3 出行电子发票,最终导出的结果是:
{"导入的文件名":"【T3出行-16.49元-1个行程】高德打车电子发票.pdf","标题":"电子发票(普通发票)","发票号码":"2631700000","开票日期":"2026年04月09日","购买方名称":"上海市黄浦某某某中心","购买方统一社会信用代码/纳税人识别号":"523101080L","销售方名称":"上海行其智科技有限公司","销售方统一社会信用代码/纳税人识别号":"91310112MADT6AQ029","项目名称":"*运输服务*客运服务费","单价":"16.01","数量":"1","金额":"16.01","税率/征收率":"3%","税额":"0.48","合计金额":"16.01","合计税额":"0.48","价税合计(大写)":"壹拾陆圆肆角玖分","价税合计(小写)":"16.49","备注":""}最重要的是,这些字段不是“模型瞎猜”的,而是尽量按票面原文、按票面列位置 去取的。
这意味着它更适合做报销整理、留档、汇总,而不是一个“看起来很聪明,但细节总不稳”的 Demo。
同事试用后的反馈也很直接:
“现在至少不用一张一张抄了,导出来再检查一下就行。”
对这种重复劳动来说,这已经是非常明显的效率提升。
最终交付:一个傻瓜式 Windows 工具包
这位同事平时主要用 Windows,所以我没有满足于“命令行能跑”。
后面我继续让 Codex 帮我把工具往“普通人真的能用”的方向推。
现在这个项目的 src 目录已经变成这样:
src/├── app.py # 本地网页入口,上传 PDF 后导出表格├── pdf_to_excel.py # 发票解析核心逻辑├── requirements.txt # Python 依赖├── 一键安装启动.bat # 自动装依赖并启动本地服务└── 打包成exe.bat # 在 Windows 上打包成 exe也就是说,这个工具已经不只是“给开发者自己玩”的脚本了,而是在往真正可交付的方向走:
开发阶段可以直接跑 Python 给 Windows 用户时可以做成 .exe双击启动后自动打开浏览器 上传发票 PDF,直接下载 CSV 或 Excel
这一步很重要,因为它决定了:
这到底是一个“我会用”,还是一个“她也能用”的工具。
作为一个开发者,我从中重新理解了 AI
这次做发票工具,让我对“开发者怎么和 AI 一起工作”这件事,有了几个很具体的体会。
1. AI 最大的价值,不是替你炫技,而是帮你先走对第一步
我最开始的直觉是 OCR、二维码、模型。
但 Codex 帮我先看清楚了一个事实:
电子发票 PDF 最该先走的,不是 OCR,而是直接读文本。
这个判断本身,就替我省掉了很多无效折腾。
很多时候,AI 最值钱的不是“写了一百行代码”,而是帮你避免走错方向。
2. 真实样本,比抽象需求更有用
这次最好用的协作方式,不是我给 AI 讲一大堆抽象规则,而是直接把真实文件名、真实票面、真实错误结果丢给它。
比如:
购买方名称多了一个“售” 某张固话费发票项目名称为空 某张 T3 发票项目列没取出来
这种具体反馈,比“请优化一下识别逻辑”有用太多。
给 AI 真实样本,远比给 AI 空泛要求更高效。
3. 最好的迭代方式,是“先跑通 80%,再用真实反馈打磨最后 20%”
如果我一开始就想做一个“支持所有发票、支持 OCR、支持查询、支持数据库”的大而全系统,这个项目现在可能还停留在想法阶段。
但这次我们做对的一点是:
先做最简单的本地版 先支持最常见的电子发票 PDF 先把导出 CSV / Excel 跑通 再根据真实票据,一张张修问题
这个节奏很朴素,但很有效。
AI 很适合参与这种节奏,因为它特别擅长:
快速给出第一版 快速响应具体问题 快速改规则再验证
写在最后
我是个开发者,写代码当然还是我的本职。
但这次做发票工具,我最深的感受不是“AI 把我替代了”,而是:
AI 把我从很多低价值的试错里解放了出来。
我不需要再先花大量时间搭壳子、铺框架、试一堆方向; 我可以更快进入真正重要的环节:
看清真实需求 判断应该先做什么、不该先做什么 用真实样本驱动迭代 把工具往“别人真的能用”的方向交付
这也是我现在越来越认同的一种工作方式:
不是让 AI 替你思考,而是让 AI 替你加速。
如果你身边也有人正被重复、低效、机械的手工录入折磨,不妨试试:先别想着做一个大系统,先让 AI 帮你把最核心的一步跑通。
很多时候,事情并没有想象中那么复杂。
真正困难的,往往不是“不会写”,而是“迟迟没有开始”。
📎 如果你也在用 AI 做一些能真正落地的小工具,欢迎交流。很多看起来不起眼的重复劳动,其实都值得被自动化。
关于本文提到的工具技术栈:Python · pdfplumber · Flask · openpyxl · PyInstaller当前适用场景:电子发票 PDF 批量抽取、导出 CSV / Excel、本地浏览器上传部署方式:本地运行,可在 Windows 上打包成 exe下一步:补扫描件 OCR 兜底,让图片型发票也能接进来
夜雨聆风