一款实用的OCR识别软件:MinerU
今日工具推荐
今天给大家分享一个OCR软件——MinerU
进入官网(https://mineru.net/),即可选择「在线使用」或「下载客户端」。

图1
MinerU能够自动识别并删除页眉、页脚、脚注、页码等元素。从图2-3可见,MinerU能够智能划分并标注各部分信息,将页眉及脚注等信息自动隐藏为浅灰色。

图2

图3
导出后(图4),页眉、脚注等内容已被自动清除,页面整体更加简洁清晰。

图4
英文语料的处理效果也同样出色,见图5。

图5
点击右上角下载按钮,即可轻松导出多种格式的文件。

图6
最后建议大家在设置中更换一下文件导出后的位置,以便查找~

图7
(本文原载于语料哆哆公众号)
注:本平台所载文章,仅供学术交流使用,作者(版权所有人)如不希望被转载,请联系后台删除。
夜雨聆风