PDF 喂给 AI 总是缺胳膊少腿?我打包了一个本地 GPU 转 Markdown 的工具,免费拿走

PDF 喂给 AI 总是缺胳膊少腿？我打包了一个本地 GPU 转 Markdown 的工具，免费拿走

把 50 篇论文 PDF 在自己电脑上一晚转完，不联网、不上传、不充值。

一、你大概率遇到过这几个时刻

场景 1：学术综述卡在第一步

导师让你两周内整理出 50 篇 SCI 的研究方法、数据集、关键结论。打开 GPT，一篇 PDF 上传——

"抱歉，您本月免费额度已用完，升级 Plus 仅需 $20/月"

50 篇 = 50 次上传 = 50 次"恭喜达到上限"。你扛不住，下了 ChatGPT 桌面版，发现还是同样的额度。

场景 2：扫描版的旧文献，AI 直接罢工

90 年代某篇关键文献只有扫描 PDF。复制粘贴全是乱码图片，丢给 AI 它说："抱歉，无法识别图像中的文字。"

场景 3：350 页技术手册，建私域知识库

GFE 用户手册 350 页，想让团队的内部 AI 助手能回答任何相关问题。直接喂 PDF 给 RAG 系统？切分不当导致检索丢失。先转 Markdown 才是正道——但市面上的转换工具要么贵、要么差、要么把表格搞得稀碎。

场景 4：财报抽取，但内容敏感

季度财报 + 内部白皮书，分析师想用 AI 提取关键风险点。但合规要求"数据不能出境"——任何在线 PDF 工具都不能用。

场景 5：法律合同，结构化解析

律师要从 100 份合同 PDF 里抽取"违约金条款"、"管辖法院"等字段。一份份手翻肯定不行，OCR 工具又把表格弄丢。

场景 6：教师备课，PDF 教材改讲义

把人教版高中数学某章 PDF 转 Markdown 后，丢进 Notion 改写成讲义，配合 LLM 出题，半小时一节课的素材搞定。

场景 7：个人知识库，Obsidian + AI 检索

买的 Kindle 电子书、人邮异步社区的技术 PDF——想全部丢进 Obsidian 做双向链接 + AI 检索，但 PDF 直接拖进去只能当附件，搜不到内容。

二、我的方案：一个完全离线的本地 PDF→Markdown 工具

把开源项目 MinerU 3.2.1 打包成了一个 绿色版 Windows 工具：

✅ 本地 NVIDIA GPU 加速——VLM 大模型本地推理，10 秒一页
✅ 完全离线——模型权重、Python 运行时、CUDA、连 NVIDIA Driver 安装包都打进去了，断网也能装能用
✅ 一键解压即跑——双击 MinerU.exe，拖 PDF，点开始，不需要装 Python、CUDA、conda 任何东西
✅ 自适应路径——解压到任意盘任意目录（含括号、空格、中文路径）都能跑
✅ 批量处理 + 进度条——文档级 + 页面级两条进度，350 页手册看得见跑到哪
✅ 内嵌 LLM Agent 自救文档——遇到问题把包里的 AGENT-NOTES.md 喂给 ChatGPT 自己诊断

包大小约 3.5 GB（zip），解压后 14 GB（大头是 4.4 GB 的 VLM 模型 + 5 GB 的 Python 环境）。一次下载，永久离线可用。

三、效果展示：单页 PDF 转换

以一份学术声明 PDF 为例：

输入：英文论文 declaration of interests 一页

33 秒后输出：

# Declaration of Interests

Manuscript title: Backstay degradation and asymmetric base-induced
torsion of a tall superstructure-integrated underground structure
under three-dimensional nonlinear soil–structure interaction

☒ The authors declare that they have no known competing financial
interests or personal relationships that could have appeared to
influence the work reported in this paper.

Corresponding author: Lianjin Tao

Date: 9 June 2026

标题、长摘要、☒ checkbox、作者、日期——全部精准识别。

另外 7 个产物文件（含布局可视化 PDF、JSON 结构数据、图片提取目录）都齐全，方便后续自动化处理。

四、下载

📦 百度网盘

链接：https://pan.baidu.com/s/1RGQhd8t7wYLSnDksGETQgA?pwd=6666

提取码：6666

文件：MinerU-Portable.zip（约 3.5 GB）

💻 系统要求

Windows 10 (build 19041+) 或 Windows 11
NVIDIA 显卡（RTX 20 系及以上，显存 ≥ 8 GB）
RAM ≥ 16 GB
磁盘 ≥ 20 GB

⚠️ 不支持 GTX 16/9xx 老卡和 Tesla/A100 数据中心卡。

五、使用方法（一共 4 步）

Step 1: 解压

下载后解压到任意目录，避开C:\Program Files 和 C:\Windows。

推荐：D:\MinerU-Portable\ 或 E:\Tools\MinerU-Portable\。

Step 2: 环境自检

双击包内 precheck.bat，自动检查 8 项：操作系统、NVIDIA GPU、驱动版本、算力、显存、内存、VC++ Runtime、磁盘空间。

全 PASS：直接跳到 Step 4。

有 FAIL/WARN：进 Step 3。

Step 3: 一键补装环境（必要时）

双击包内 install_missing.bat，屏幕列出缺什么，自动弹出 offline_installers\ 文件夹。

按提示双击对应 .exe 安装（包里自带 NVIDIA driver 596.49/596.59、VC++ Redist），不需要联网。

装完 driver 重启电脑，回 Step 2 复查。

Step 4: 开转！

双击 MinerU.exe，进入主界面：

┌─────────────────────────────────────────┐
│ [Logo]  MinerU Portable                 │
│         PDF → Markdown · GPU 加速       │
├─────────────────────────────────────────┤
│ [选 PDF 文件] [选目录] [清空]           │
│                                         │
│  待转换列表：                           │
│  - C:\paper\article1.pdf                │
│  - C:\paper\article2.pdf                │
│                                         │
│  输出目录: D:\MinerU-Output             │
│                                         │
│ [▶ 开始] [■ 停止]                       │
│  文档: ████████░░ 2 / 50                │
│  页面: ██████░░░░ 128 / 200             │
│                                         │
│ 日志：                                  │
│  [10:23:15] 转换中: article1.pdf        │
│  [10:23:48] ✓ OK: article1.pdf          │
└─────────────────────────────────────────┘

选 PDF 文件（支持多选）或选目录（递归扫描子目录），点「▶ 开始」，等进度条跑完。

输出在 D:\MinerU-Output\run_时间戳\ 下，每个 PDF 一个子目录，含主 .md 文件、JSON 结构数据、图片目录、布局可视化 PDF 等。

六、出问题了？包里有"AI 自救包"

我在包内放了两份给 LLM 看的文档：

AGENT-NOTES.md（11 KB）—— 给 ChatGPT/Claude 等 AI agent 看的全景说明书，含包结构、已知 5 个陷阱及修复、4 个调试入口
gui_launcher.py（20 KB）—— GUI 完整源码，可直接读

自救流程

看日志：logs\mineru-runs\时间戳.log 含完整 Python traceback
打包诊断 zip：双击 _extras\collect_logs.bat，桌面自动出 diag_时间戳.zip
把这 3 样发给任意 AI：AGENT-NOTES.md + gui_launcher.py + 报错日志

Prompt 模板（复制即用）

我用的是 MinerU Portable（PDF→Markdown 离线工具）。
解压在 [你的路径]
报错了：[贴报错截图]

附件 1：AGENT-NOTES.md（包结构 + 已知陷阱）
附件 2：gui_launcher.py（GUI 源码）
附件 3：日志文件

请定位根因并给出修复方案。

90% 的问题都能在这一步搞定。

七、为什么这事得自己打包

业界 PDF→Markdown 工具不少，但能同时满足"离线 + 本地 GPU + 现代 VLM 准确度 + 一键即用 + 中文路径友好"的几乎没有：

工具	联网	准确度	离线	一键安装
Adobe Acrobat	❌ 需联网（订阅）	中	❌	✅
各种在线 PDF 转 MD 站	❌ 全联网	中	❌	✅
PaddleOCR/Tesseract	✅ 离线	低	✅	❌ 自己装环境
mineru 官方 pip 装	✅ 可离线	★★★★★	⚠️ 需联网拉模型	❌ pip install 一堆环境问题
MinerU Portable	✅ 完全离线	★★★★★	✅ 模型也打包	✅ 解压双击

mineru 本身是 OpenDataLab 开源的顶尖项目，但官方文档是给开发者看的——pip install 完一堆 CUDA 错误、ModelScope 拉模型超时、Python 版本冲突……

我把这些坑全踩了一遍，然后冻结成一个绿色包。

八、收尾

这工具没花我多少钱（mineru 是开源的，nvidia driver 是免费的）但帮我（也希望帮你）省下：

50 篇论文 × 每篇 $0.x 上传费 = 一杯咖啡
等 OpenAI 配额恢复 = 几小时
数据上传到云的合规风险 = 无价

下载链接放在这里，自取：

链接: [百度网盘前缀]/s/1RGQhd8t7wYLSnDksGETQgA?pwd=6666 提取码: 6666

转给可能用得上的同学。

本工具基于 opendatalab/MinerU (Apache 2.0) 二次打包，所有第三方组件按其原 license 分发。仅供个人学习研究使用。

如果遇到问题，先把包里的 AGENT-NOTES.md + logs\ 喂给 ChatGPT，多数能自救——这是写在包里的"使用 LLM 自我修复"哲学。