大家好,我是何三,独立开发者
一个 100 页的 PDF,以前你要等 2 分钟才能提取完文字,现在 1 秒。不是换了电脑,是换了工具。
LiteParse v2,LlamaIndex 团队刚发布的开源文档解析器。用 Rust 把之前的老版本从头重写了一遍,解析速度直接飙了 100 倍。而且完全本地运行,不上传任何数据到云端。
说实话第一眼看到这个数据我是怀疑的。100 倍?你确定?我去翻了一下 GitHub —— v2.0.0 是 5 月 25 号发布的,到现在不到一周,已经冲到 6,800 多 Star 了。Issues 里有个哥们说"我拿 300 页的标书试了一下,以前等 3 分钟的解析,现在 3 秒出结果,我人都傻了"。
这就是那种典型的"换了个底层的思维方式"。

v1 到底慢在哪?
v1 版本是用 JavaScript/TypeScript 写的,走 Node.js 那一套,PDF 解析依赖 PDF.js 做前端渲染。说白了就是一个浏览器里的 PDF 阅读器,强行改造成了文档解析器。
这种做法的问题在哪儿?
一个字——重。你得先加载整个 PDF.js 引擎,然后在 JS 环境里模拟渲染,每个页面都要走一遍"渲染→截图→提取"的流程。遇到大文件,CPU 直接拉满,风扇就开始表演了。
v2 的做法彻底不一样了。
Rust 原生操作 PDFium(就是 Chrome 底层的那个 PDF 渲染引擎),直接调用 C 接口做文本提取,不走浏览器那一套。该用 OCR 的时候用内置的 Tesseract,不需要额外装任何东西。
说到 PDFium,突然想到一个有意思的事儿。Chrome 能这么快地渲染 PDF,靠的就是这个库。但这么多年了,绝大多数本地 PDF 工具还在用 poppler 或者 mupdf,很少有人直接拿 PDFium 做二次开发。LlamaIndex 团队算是把这个"藏在浏览器里的神器"挖出来,用在了对的地方。事实证明这条路是对的——同样的 PDFium,在浏览器里跑和用 Rust 直接调,差距就是 两个数量级。不是 PDFium 不行,是它外面包的那层 JS 壳太重了。

怎么用?简单到离谱
支持四种安装方式,选你顺手的:
# Node.jsnpm i @llamaindex/liteparse# Pythonpip install liteparse# Rustcargo install liteparse# 浏览器(WASM)npm i @llamaindex/liteparse-wasm装好之后,一句话解析:
lit parse 年度报告.pdf -o output.json还支持 DOCX、XLSX、PPTX,甚至图片。你丢一个 .docx 进去,它自动用 LibreOffice 转成 PDF 再解析,全程无感。
想看纯文本?
lit parse 合同.pdf --format text批量处理也没问题:
lit batch-parse ./文档文件夹 ./输出文件夹还有一个很实用的功能——截图。PDF 里的图表、手写签名,纯文本提取不出来,你可以这样截图喂给多模态模型:
lit screenshot 报告.pdf --target-pages "1,3,5" -o ./截图同类工具怎么选?
| LiteParse v2 | 快 100 倍 | |||
pyMuPDF 是老牌选手,Python 生态用得很广,但你只能用它写 Python 脚本。Unstructured.io 支持格式更多但默认走云端 API,数据隐私是个问题。如果你只是本地解析 PDF,LiteParse 的 100 倍速度和零云端依赖,优势很明显。
对经常处理论文、合同、标书的开发者和 RAG 应用来说,这个工具装一个不亏。项目完全开源:
GitHub: https://github.com/run-llama/liteparse
反正就一行命令的事儿,装了又不会少块肉。
本文使用 MGO 编辑并发布
关注"何三笔记",回复"mgo" 免费下载使用
夜雨聆风