PDF 喂给 AI 总是缺胳膊少腿?我打包了一个本地 GPU 转 Markdown 的工具,免费拿走
把 50 篇论文 PDF 在自己电脑上一晚转完,不联网、不上传、不充值。
一、你大概率遇到过这几个时刻
场景 1:学术综述卡在第一步
导师让你两周内整理出 50 篇 SCI 的研究方法、数据集、关键结论。打开 GPT,一篇 PDF 上传——
"抱歉,您本月免费额度已用完,升级 Plus 仅需 $20/月"
50 篇 = 50 次上传 = 50 次"恭喜达到上限"。你扛不住,下了 ChatGPT 桌面版,发现还是同样的额度。
场景 2:扫描版的旧文献,AI 直接罢工
90 年代某篇关键文献只有扫描 PDF。复制粘贴全是乱码图片,丢给 AI 它说:"抱歉,无法识别图像中的文字。"
场景 3:350 页技术手册,建私域知识库
GFE 用户手册 350 页,想让团队的内部 AI 助手能回答任何相关问题。直接喂 PDF 给 RAG 系统?切分不当导致检索丢失。先转 Markdown 才是正道——但市面上的转换工具要么贵、要么差、要么把表格搞得稀碎。
场景 4:财报抽取,但内容敏感
季度财报 + 内部白皮书,分析师想用 AI 提取关键风险点。但合规要求"数据不能出境"——任何在线 PDF 工具都不能用。
场景 5:法律合同,结构化解析
律师要从 100 份合同 PDF 里抽取"违约金条款"、"管辖法院"等字段。一份份手翻肯定不行,OCR 工具又把表格弄丢。
场景 6:教师备课,PDF 教材改讲义
把人教版高中数学某章 PDF 转 Markdown 后,丢进 Notion 改写成讲义,配合 LLM 出题,半小时一节课的素材搞定。
场景 7:个人知识库,Obsidian + AI 检索
买的 Kindle 电子书、人邮异步社区的技术 PDF——想全部丢进 Obsidian 做双向链接 + AI 检索,但 PDF 直接拖进去只能当附件,搜不到内容。
二、我的方案:一个完全离线的本地 PDF→Markdown 工具
把开源项目 MinerU 3.2.1 打包成了一个 绿色版 Windows 工具:
✅ 本地 NVIDIA GPU 加速——VLM 大模型本地推理,10 秒一页 ✅ 完全离线——模型权重、Python 运行时、CUDA、连 NVIDIA Driver 安装包都打进去了,断网也能装能用 ✅ 一键解压即跑——双击 MinerU.exe,拖 PDF,点开始,不需要装 Python、CUDA、conda 任何东西 ✅ 自适应路径——解压到任意盘任意目录(含括号、空格、中文路径)都能跑 ✅ 批量处理 + 进度条——文档级 + 页面级两条进度,350 页手册看得见跑到哪 ✅ 内嵌 LLM Agent 自救文档——遇到问题把包里的 AGENT-NOTES.md 喂给 ChatGPT 自己诊断
包大小约 3.5 GB(zip),解压后 14 GB(大头是 4.4 GB 的 VLM 模型 + 5 GB 的 Python 环境)。一次下载,永久离线可用。
三、效果展示:单页 PDF 转换
以一份学术声明 PDF 为例:
输入:英文论文 declaration of interests 一页
33 秒后输出:
# Declaration of Interests
Manuscript title: Backstay degradation and asymmetric base-induced
torsion of a tall superstructure-integrated underground structure
under three-dimensional nonlinear soil–structure interaction
☒ The authors declare that they have no known competing financial
interests or personal relationships that could have appeared to
influence the work reported in this paper.
Corresponding author: Lianjin Tao
Date: 9 June 2026
标题、长摘要、☒ checkbox、作者、日期——全部精准识别。
另外 7 个产物文件(含布局可视化 PDF、JSON 结构数据、图片提取目录)都齐全,方便后续自动化处理。
四、下载
📦 百度网盘
链接:https://pan.baidu.com/s/1RGQhd8t7wYLSnDksGETQgA?pwd=6666
提取码:6666
文件:MinerU-Portable.zip(约 3.5 GB)
💻 系统要求
Windows 10 (build 19041+) 或 Windows 11 NVIDIA 显卡(RTX 20 系及以上,显存 ≥ 8 GB) RAM ≥ 16 GB 磁盘 ≥ 20 GB
⚠️ 不支持 GTX 16/9xx 老卡和 Tesla/A100 数据中心卡。
五、使用方法(一共 4 步)
Step 1: 解压
下载后解压到任意目录,避开C:\Program Files 和 C:\Windows。
推荐:D:\MinerU-Portable\ 或 E:\Tools\MinerU-Portable\。
Step 2: 环境自检
双击包内 precheck.bat,自动检查 8 项:操作系统、NVIDIA GPU、驱动版本、算力、显存、内存、VC++ Runtime、磁盘空间。
全 PASS:直接跳到 Step 4。
有 FAIL/WARN:进 Step 3。
Step 3: 一键补装环境(必要时)
双击包内 install_missing.bat,屏幕列出缺什么,自动弹出 offline_installers\ 文件夹。
按提示双击对应 .exe 安装(包里自带 NVIDIA driver 596.49/596.59、VC++ Redist),不需要联网。
装完 driver 重启电脑,回 Step 2 复查。
Step 4: 开转!
双击 MinerU.exe,进入主界面:
┌─────────────────────────────────────────┐
│ [Logo] MinerU Portable │
│ PDF → Markdown · GPU 加速 │
├─────────────────────────────────────────┤
│ [选 PDF 文件] [选目录] [清空] │
│ │
│ 待转换列表: │
│ - C:\paper\article1.pdf │
│ - C:\paper\article2.pdf │
│ │
│ 输出目录: D:\MinerU-Output │
│ │
│ [▶ 开始] [■ 停止] │
│ 文档: ████████░░ 2 / 50 │
│ 页面: ██████░░░░ 128 / 200 │
│ │
│ 日志: │
│ [10:23:15] 转换中: article1.pdf │
│ [10:23:48] ✓ OK: article1.pdf │
└─────────────────────────────────────────┘
选 PDF 文件(支持多选)或选目录(递归扫描子目录),点「▶ 开始」,等进度条跑完。
输出在 D:\MinerU-Output\run_时间戳\ 下,每个 PDF 一个子目录,含主 .md 文件、JSON 结构数据、图片目录、布局可视化 PDF 等。
六、出问题了?包里有"AI 自救包"
我在包内放了两份给 LLM 看的文档:
AGENT-NOTES.md(11 KB)—— 给 ChatGPT/Claude 等 AI agent 看的全景说明书,含包结构、已知 5 个陷阱及修复、4 个调试入口 gui_launcher.py(20 KB)—— GUI 完整源码,可直接读
自救流程
看日志: logs\mineru-runs\时间戳.log含完整 Python traceback打包诊断 zip:双击 _extras\collect_logs.bat,桌面自动出diag_时间戳.zip把这 3 样发给任意 AI:AGENT-NOTES.md + gui_launcher.py + 报错日志
Prompt 模板(复制即用)
我用的是 MinerU Portable(PDF→Markdown 离线工具)。
解压在 [你的路径]
报错了:[贴报错截图]
附件 1:AGENT-NOTES.md(包结构 + 已知陷阱)
附件 2:gui_launcher.py(GUI 源码)
附件 3:日志文件
请定位根因并给出修复方案。
90% 的问题都能在这一步搞定。
七、为什么这事得自己打包
业界 PDF→Markdown 工具不少,但能同时满足"离线 + 本地 GPU + 现代 VLM 准确度 + 一键即用 + 中文路径友好"的几乎没有:
| MinerU Portable | ★★★★★ |
mineru 本身是 OpenDataLab 开源的顶尖项目,但官方文档是给开发者看的——pip install 完一堆 CUDA 错误、ModelScope 拉模型超时、Python 版本冲突……
我把这些坑全踩了一遍,然后冻结成一个绿色包。
八、收尾
这工具没花我多少钱(mineru 是开源的,nvidia driver 是免费的)但帮我(也希望帮你)省下:
50 篇论文 × 每篇 $0.x 上传费 = 一杯咖啡 等 OpenAI 配额恢复 = 几小时 数据上传到云的合规风险 = 无价
下载链接放在这里,自取:
链接: [百度网盘前缀]/s/1RGQhd8t7wYLSnDksGETQgA?pwd=6666 提取码: 6666
转给可能用得上的同学。
本工具基于 opendatalab/MinerU (Apache 2.0) 二次打包,所有第三方组件按其原 license 分发。仅供个人学习研究使用。
如果遇到问题,先把包里的
AGENT-NOTES.md+logs\喂给 ChatGPT,多数能自救——这是写在包里的"使用 LLM 自我修复"哲学。
夜雨聆风