开源的本地文档解析神器,实测,快如闪电,400 页 PDF 仅需 1 秒
大家好,我是 Ai 学习的老章
LlamaIndex 搞了个开源文档解析工具叫 LiteParse,Rust 写的,主打一个本地、轻量、飞快
拿 400 多页PDF试了一下,离谱的是,它仅需1秒钟
但我完整看过,感觉这也是它的唯一优点了,适用范围十分有限
我能想到的一个场景是:文字识别部分交给它,只让强大模型解决表格、图片等等,这样速度快、准确率、低成本可以兼得
简介
LiteParse 是 LlamaIndex 团队出品的开源 PDF 解析库,定位是纯本地、无云依赖、无 LLM、无 API Key 的文档解析方案。核心用 Rust 写,通过 PDFium 做文本提取,内置 Tesseract OCR,解析速度快得离谱
-
LlamaParse 是 LlamaIndex 的云端文档解析服务,适合处理复杂表格、多栏排版、手写体这种硬骨头。 -
LiteParse 是轻量本地版,适合快速批量处理、离线环境、隐私敏感场景。两者互补,不冲突
下面这张图展示了 LiteParse 的完整工作流程:

核心特性:
-
Rust 性能底座:核心逻辑全部 Rust 实现,解析一个 3 页 PDF 不到 1 秒 -
多语言绑定:Node.js、Python、Rust、浏览器 WASM 四种用法任选,CLI 命令完全一致 -
灵活 OCR 系统:内置 Tesseract 零配置可用,还支持 HTTP OCR Server(EasyOCR、PaddleOCR 随便接) -
多格式输入:PDF、DOCX、XLSX、PPTX、各种图片格式,Office 文档走 LibreOffice 自动转换 -
Bounding Box:每个文本块都带精确坐标,做后续 AI 流水线直接拿去用 -
Agent Skill 支持:一行命令装到编码 Agent 里,Claude Code、Cursor、Qoder 都能直接调用
安装
三行命令选一个,全部装完都有统一的 lit CLI:
# Node.js(推荐,我实测走的这条)npm i -g @llamaindex/liteparse# Pythonpip install liteparse# Rustcargo install liteparse
实测安装后验证:
$ lit --version2.0.0
小插曲:npm registry 显示包版本是 2.0.4,但装出来 lit --version 显示 2.0.0,可能是版本号没同步到 binary 里,不影响使用
实测
我拿了一份真实的 MiniMax IPO 辅导备案报告(3 页中文 PDF)来测试
文本解析(关闭 OCR):
$ lit parse minimax-ipo-counseling.pdf --no-ocr -o output.txt[liteparse] extract: 949.4ms (3 pages)[liteparse] ocr: 0.0ms[liteparse] project: 3.6ms[liteparse] total: 953.1ms
不到 1 秒搞定 3 页,抽取出了 113 行文本、5120 字节。正文标题、表格内容、公司基本情况全都有:
关于 MiniMax Group Inc.首次公开发行股票并上市辅导备案报告成立日期 2021 年 6 月 30 日注册资本 50,000 美元辅导协议签署时间 2026 年 5 月 29 日
JSON 格式输出(带 Bounding Box):
$ lit parse minimax-ipo-counseling.pdf --format json --no-ocr -o output.json[liteparse] extract: 5.6ms (3 pages)[liteparse] total: 6.0ms
第二次跑因为有缓存,6 毫秒就完事了。JSON 里每个文本块都带坐标信息,47KB 的结构化数据
默认 OCR 模式:
$ lit parse minimax-ipo-counseling.pdf --target-pages "1"[liteparse] extract: 29.9ms (1 pages)[liteparse] ocr render: 2.3ms (0 pages)[liteparse] ocr: 0.0ms[liteparse] total: 37.8ms
智能判断:这个 PDF 本身有可抽取文本,所以 OCR 模块直接跳过了(0 pages),没有做无用功
截图生成:
$ lit screenshot minimax-ipo-counseling.pdf --target-pages "1-3" --dpi 150 -o ./screenshots
生成 3 张 PNG,每张 1240×1754 分辨率,8-bit RGBA。这个功能对需要多模态 LLM 处理文档的场景非常有用
批量解析:
$ lit batch-parse ./inputs ./outputs --format text --no-ocr --extension .pdf[liteparse] found 1 files to process[liteparse] batch complete: 1 succeeded, 0 failed
一个命令递归扫描目录,批量出结果
Agent Skill
LiteParse 可以直接装成编码 Agent 的 Skill,这是它的一个杀手级特性:
npx skills add run-llama/llamaparse-agent-skills --skill liteparse
装完之后你的编码 Agent 就能直接解析 PDF、生成截图、提取文本了。Claude Code、Cursor、Qoder 这些 Agent 工具都支持。实测安装后 npx skills list 能看到 liteparse 已经注册成功
使用场景举例:
-
让 Agent 直接解析合同 PDF 抽取关键条款 -
批量截图文档页面给多模态 LLM 做理解 -
在 Agent 工作流里直接嵌入文档解析环节
OCR 配置
内置 Tesseract 零配置就能用,指定语言即可:
# 中文lit parse document.pdf --ocr-language chi_sim# 法语lit parse document.pdf --ocr-language fra# 关闭 OCR(纯文本 PDF)lit parse document.pdf --no-ocr
需要更高精度?接个 HTTP OCR Server:
# 启动 PaddleOCR Servercd liteparse/ocr/paddleocr && python server.py# 指定 OCR Server 解析lit parse document.pdf --ocr-server-url http://localhost:8828/ocr
OCR API 规范很简单:一个 POST /ocr 端点,接收图片返回 { results: [{ text, bbox, confidence }] },自己写一个也不难
优缺点
优点:
-
速度是真的快,Rust 底子在那里,3 页 PDF 不到 1 秒 -
安装简单,npm/pip/cargo 三选一,开箱即用 -
OCR 系统设计得很灵活,内置 Tesseract + 可插拔外部服务 -
Agent Skill 支持让它在 AI 工作流里如虎添翼 -
纯本地运行,数据不出门,合规无忧
局限:
-
表格抽取只是空间文本重建,不做结构化表格识别(需要严肃表格场景得配合 LlamaParse 云端版) -
多栏排版、复杂版式的还原能力有限 -
当前 Skill 文档和 CLI 实际参数有些不一致(比如截图命令 --pagesvs--target-pages),新项目迭代快可以理解
总结
LiteParse 的定位很清晰:轻量、本地、快速的文档解析底座。适合需要批量处理 PDF、对延迟敏感、注重数据隐私的场景。它不试图解决所有文档解析难题,但在它擅长的领域做得足够好
推荐给做 RAG 管线预处理、Agent 工具链搭建、离线文档处理的同学试试
夜雨聆风