近7k Star!解析PDF提速100倍,这个Rust重写的文档解析器让风扇终于不转了

大家好，我是何三，独立开发者

一个 100 页的 PDF，以前你要等 2 分钟才能提取完文字，现在 1 秒。不是换了电脑，是换了工具。

LiteParse v2，LlamaIndex 团队刚发布的开源文档解析器。用 Rust 把之前的老版本从头重写了一遍，解析速度直接飙了 100 倍。而且完全本地运行，不上传任何数据到云端。

说实话第一眼看到这个数据我是怀疑的。100 倍？你确定？我去翻了一下 GitHub —— v2.0.0 是 5 月 25 号发布的，到现在不到一周，已经冲到 6,800 多 Star 了。Issues 里有个哥们说"我拿 300 页的标书试了一下，以前等 3 分钟的解析，现在 3 秒出结果，我人都傻了"。

这就是那种典型的"换了个底层的思维方式"。

v1 到底慢在哪？

v1 版本是用 JavaScript/TypeScript 写的，走 Node.js 那一套，PDF 解析依赖 PDF.js 做前端渲染。说白了就是一个浏览器里的 PDF 阅读器，强行改造成了文档解析器。

这种做法的问题在哪儿？

一个字——重。你得先加载整个 PDF.js 引擎，然后在 JS 环境里模拟渲染，每个页面都要走一遍"渲染→截图→提取"的流程。遇到大文件，CPU 直接拉满，风扇就开始表演了。

v2 的做法彻底不一样了。

Rust 原生操作 PDFium（就是 Chrome 底层的那个 PDF 渲染引擎），直接调用 C 接口做文本提取，不走浏览器那一套。该用 OCR 的时候用内置的 Tesseract，不需要额外装任何东西。

说到 PDFium，突然想到一个有意思的事儿。Chrome 能这么快地渲染 PDF，靠的就是这个库。但这么多年了，绝大多数本地 PDF 工具还在用 poppler 或者 mupdf，很少有人直接拿 PDFium 做二次开发。LlamaIndex 团队算是把这个"藏在浏览器里的神器"挖出来，用在了对的地方。事实证明这条路是对的——同样的 PDFium，在浏览器里跑和用 Rust 直接调，差距就是 两个数量级。不是 PDFium 不行，是它外面包的那层 JS 壳太重了。

怎么用？简单到离谱

支持四种安装方式，选你顺手的：

# Node.jsnpm i @llamaindex/liteparse# Pythonpip install liteparse# Rustcargo install liteparse# 浏览器（WASM）npm i @llamaindex/liteparse-wasm

装好之后，一句话解析：

lit parse 年度报告.pdf -o output.json

还支持 DOCX、XLSX、PPTX，甚至图片。你丢一个 .docx 进去，它自动用 LibreOffice 转成 PDF 再解析，全程无感。

想看纯文本？

lit parse 合同.pdf --format text

批量处理也没问题：

lit batch-parse ./文档文件夹 ./输出文件夹

还有一个很实用的功能——截图。PDF 里的图表、手写签名，纯文本提取不出来，你可以这样截图喂给多模态模型：

lit screenshot 报告.pdf --target-pages "1,3,5" -o ./截图

同类工具怎么选？

工具	语言	速度	数据隐私	多格式支持
LiteParse v2	Rust ✅	快 100 倍 ✅	本地运行 ✅	PDF/DOCX/XLSX/PPTX/图片 ✅
pyMuPDF (fitz)	Python	快	本地 ✅	仅 PDF
Unstructured.io	Python	中等	走云端 ❌	多格式 ✅
LlamaParse	云端	高精度	云端 ❌	复杂文档 ✅

pyMuPDF 是老牌选手，Python 生态用得很广，但你只能用它写 Python 脚本。Unstructured.io 支持格式更多但默认走云端 API，数据隐私是个问题。如果你只是本地解析 PDF，LiteParse 的 100 倍速度和零云端依赖，优势很明显。

对经常处理论文、合同、标书的开发者和 RAG 应用来说，这个工具装一个不亏。项目完全开源：

GitHub: https://github.com/run-llama/liteparse

反正就一行命令的事儿，装了又不会少块肉。

本文使用 MGO 编辑并发布

关注"何三笔记"，回复"mgo" 免费下载使用