PDF 发票解析,终于不用再折腾了
每个月财务都要拿一堆发票 PDF 过来让帮忙提取数据。
以前试过各种方案:pymupdf 提取出来排版全乱,marker-pdf 装完几个 G 的模型跑不动。后来发现一个叫 pdf-mineru 的 skill,接的是 MinerU 云 API(上海 AI 实验室 66k⭐ 的项目,中文文档解析杠杠的)。
测了一张增值税发票,结果超出预期:表格转 HTML 多级表头保留,金额大小写全部正确。
除了发票提取,合同审查、财报分析、简历筛选都支持。PDF/DOCX/PPTX/XLSX/图片通吃。
Git网址:https://github.com/xing006/pdf-mineru
其它金额
赞赏金额
¥
最低赞赏 ¥0
1
2
3
4
5
6
7
8
9
0
.
北京,41分钟前,
夜雨聆风