乐于分享
好东西不私藏

PDF内容提取器

PDF内容提取器

MinerU 是一款将 PDF 转换为机器可读格式(如 markdown、JSON)的工具,方便提取为任何格式。
主要特征:
去除页眉、页脚、脚注、页码等,以确保语义一致。
输出文本按人类可读顺序呈现,适用于单栏、多栏及复杂布局。
保留原始文档的结构,包括标题、段落、列表等。
提取图片、图片描述、表格、表格标题和脚注。
自动识别并转换文档中的公式为LaTeX格式。
自动识别并转换文档中的表格为HTML格式。
自动检测扫描的PDF和杂乱的PDF,并启用OCR功能。
OCR支持检测和识别109种语言。
支持多种输出格式,如多模态和自然语言处理标记(NLP Markdown)、按阅读顺序排序的JSON,以及丰富的中间格式。
支持多种可视化结果,包括布局可视化和跨度可视化,以高效确认输出质量。
支持纯CPU环境运行,同时支持GPU(CUDA)/NPU(CANN)/MPS 加速
兼容Windows、Linux和Mac平台。
通过网盘分享的文件:MinerU_v2.7.6.exe
链接: https://pan.baidu.com/s/1mcQsWjz2LJiGfe1rnmsKCQ?pwd=47i2

我用夸克网盘给你分享了「MinerU_v2.7.6.exe」,
链接:https://pan.quark.cn/s/4287f43b7c4b?pwd=uB2Z

本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » PDF内容提取器

猜你喜欢

  • 暂无文章