PDF翻译工具升级,OCR识别+复杂表格识别
大龄开发外企毕业家里蹲,之前做了一个开源PDF翻译工具 pdfTrans,好久没更新了。
这次应读者朋友需求进行一波「全维度优化」!
从 OCR 识别到文本处理逻辑,从表格还原效果到翻译细节把控,都做了进一步优化,翻译更精准、格式更完美!
✨【PaddleOCR 功能】
本次主要增加了传统 PaddleOCR(PP-StructureV3)识别功能,可以识别扫描/图片版 PDF,并根据设备内存选择不同Size的PaddleOCR模型进行文本识别、公式识别(LaTeX 格式还原)和表格结构化提取。
如果大家有需求的话,可以考虑增加大模型OCR功能。
📊【加强表格还原度】
这次还重点优化了表格整体的识别能力,支持含有合并单元格的复杂表格识别与翻译。
💡【小提醒】
扫描版 PDF 记得勾选 “启用 OCR” 解锁精准识别并安装PaddleOCR
📝【具体使用方法请看代码库说明】
Gitee仓库地址:https://gitee.com/chunju/pdfTrans
GitHub仓库地址:https://github.com/chunju-zhong/pdfTrans
如果在使用中有任何问题,欢迎在公众号【智践行】留言交流,我会持续打磨,让 PDF 翻译更贴合你的实际需求!
#pdfTrans #PDF翻译 #PDF工具 #OCR识别 #文档翻译 #表格翻译 #扫描件翻译 #格式还原 #办公工具 #职场办公 #文献翻译 #实用工具 #效率神器 #翻译工具 #办公技巧 #OCR工具
其它金额
赞赏金额
¥
最低赞赏 ¥0
1
2
3
4
5
6
7
8
9
0
.
北京,2分钟前,
夜雨聆风