PDF内容提取器
主要特征:
去除页眉、页脚、脚注、页码等,以确保语义一致。
输出文本按人类可读顺序呈现,适用于单栏、多栏及复杂布局。
保留原始文档的结构,包括标题、段落、列表等。
提取图片、图片描述、表格、表格标题和脚注。
自动识别并转换文档中的公式为LaTeX格式。
自动识别并转换文档中的表格为HTML格式。
自动检测扫描的PDF和杂乱的PDF,并启用OCR功能。
OCR支持检测和识别109种语言。
支持多种输出格式,如多模态和自然语言处理标记(NLP Markdown)、按阅读顺序排序的JSON,以及丰富的中间格式。
支持多种可视化结果,包括布局可视化和跨度可视化,以高效确认输出质量。
支持纯CPU环境运行,同时支持GPU(CUDA)/NPU(CANN)/MPS 加速
兼容Windows、Linux和Mac平台。

链接: https://pan.baidu.com/s/1mcQsWjz2LJiGfe1rnmsKCQ?pwd=47i2
我用夸克网盘给你分享了「MinerU_v2.7.6.exe」,
链接:https://pan.quark.cn/s/4287f43b7c4b?pwd=uB2Z
夜雨聆风