PDF内容提取器-夜雨聆风

PDF内容提取器

MinerU 是一款将 PDF 转换为机器可读格式（如 markdown、JSON）的工具，方便提取为任何格式。
主要特征：
去除页眉、页脚、脚注、页码等，以确保语义一致。
输出文本按人类可读顺序呈现，适用于单栏、多栏及复杂布局。
保留原始文档的结构，包括标题、段落、列表等。
提取图片、图片描述、表格、表格标题和脚注。
自动识别并转换文档中的公式为LaTeX格式。
自动识别并转换文档中的表格为HTML格式。
自动检测扫描的PDF和杂乱的PDF，并启用OCR功能。
OCR支持检测和识别109种语言。
支持多种输出格式，如多模态和自然语言处理标记（NLP Markdown）、按阅读顺序排序的JSON，以及丰富的中间格式。
支持多种可视化结果，包括布局可视化和跨度可视化，以高效确认输出质量。
支持纯CPU环境运行，同时支持GPU（CUDA）/NPU（CANN）/MPS 加速
兼容Windows、Linux和Mac平台。

通过网盘分享的文件：MinerU_v2.7.6.exe
链接: https://pan.baidu.com/s/1mcQsWjz2LJiGfe1rnmsKCQ?pwd=47i2

我用夸克网盘给你分享了「MinerU_v2.7.6.exe」，
链接：https://pan.quark.cn/s/4287f43b7c4b?pwd=uB2Z

PDF内容提取器

wang

猜你喜欢