开源的本地文档解析神器,实测,快如闪电,400 页 PDF 仅需 1 秒-夜雨聆风

开源的本地文档解析神器,实测,快如闪电,400 页 PDF 仅需 1 秒

大家好，我是 Ai 学习的老章

LlamaIndex 搞了个开源文档解析工具叫 LiteParse，Rust 写的，主打一个本地、轻量、飞快

拿 400 多页PDF试了一下，离谱的是，它仅需1秒钟

已关注

关注

重播分享赞

视频详情

但我完整看过，感觉这也是它的唯一优点了，适用范围十分有限

我能想到的一个场景是：文字识别部分交给它，只让强大模型解决表格、图片等等，这样速度快、准确率、低成本可以兼得

简介

LiteParse 是 LlamaIndex 团队出品的开源 PDF 解析库，定位是纯本地、无云依赖、无 LLM、无 API Key 的文档解析方案。核心用 Rust 写，通过 PDFium 做文本提取，内置 Tesseract OCR，解析速度快得离谱

LlamaParse 是 LlamaIndex 的云端文档解析服务，适合处理复杂表格、多栏排版、手写体这种硬骨头。
LiteParse 是轻量本地版，适合快速批量处理、离线环境、隐私敏感场景。两者互补，不冲突

下面这张图展示了 LiteParse 的完整工作流程：

核心特性：

Rust 性能底座：核心逻辑全部 Rust 实现，解析一个 3 页 PDF 不到 1 秒
多语言绑定：Node.js、Python、Rust、浏览器 WASM 四种用法任选，CLI 命令完全一致
灵活 OCR 系统：内置 Tesseract 零配置可用，还支持 HTTP OCR Server（EasyOCR、PaddleOCR 随便接）
多格式输入：PDF、DOCX、XLSX、PPTX、各种图片格式，Office 文档走 LibreOffice 自动转换
Bounding Box：每个文本块都带精确坐标，做后续 AI 流水线直接拿去用
Agent Skill 支持：一行命令装到编码 Agent 里，Claude Code、Cursor、Qoder 都能直接调用

安装

三行命令选一个，全部装完都有统一的 lit CLI：

# Node.js（推荐，我实测走的这条）npm i -g @llamaindex/liteparse# Pythonpip install liteparse# Rustcargo install liteparse

实测安装后验证：

$ lit --version2.0.0

小插曲：npm registry 显示包版本是 2.0.4，但装出来 lit --version 显示 2.0.0，可能是版本号没同步到 binary 里，不影响使用

实测

我拿了一份真实的 MiniMax IPO 辅导备案报告（3 页中文 PDF）来测试

文本解析（关闭 OCR）：

$ lit parse minimax-ipo-counseling.pdf --no-ocr -o output.txt[liteparse] extract: 949.4ms (3 pages)[liteparse] ocr: 0.0ms[liteparse] project: 3.6ms[liteparse] total: 953.1ms

不到 1 秒搞定 3 页，抽取出了 113 行文本、5120 字节。正文标题、表格内容、公司基本情况全都有：

关于 MiniMax Group Inc.首次公开发行股票并上市辅导备案报告成立日期 2021 年 6 月 30 日注册资本 50,000 美元辅导协议签署时间 2026 年 5 月 29 日

JSON 格式输出（带 Bounding Box）：

$ lit parse minimax-ipo-counseling.pdf --format json --no-ocr -o output.json[liteparse] extract: 5.6ms (3 pages)[liteparse] total: 6.0ms

第二次跑因为有缓存，6 毫秒就完事了。JSON 里每个文本块都带坐标信息，47KB 的结构化数据

默认 OCR 模式：

$ lit parse minimax-ipo-counseling.pdf --target-pages "1"[liteparse] extract: 29.9ms (1 pages)[liteparse] ocr render: 2.3ms (0 pages)[liteparse] ocr: 0.0ms[liteparse] total: 37.8ms

智能判断：这个 PDF 本身有可抽取文本，所以 OCR 模块直接跳过了（0 pages），没有做无用功

截图生成：

$ lit screenshot minimax-ipo-counseling.pdf --target-pages "1-3" --dpi 150 -o ./screenshots

生成 3 张 PNG，每张 1240×1754 分辨率，8-bit RGBA。这个功能对需要多模态 LLM 处理文档的场景非常有用

批量解析：

$ lit batch-parse ./inputs ./outputs --format text --no-ocr --extension .pdf[liteparse] found 1 files to process[liteparse] batch complete: 1 succeeded, 0 failed

一个命令递归扫描目录，批量出结果

Agent Skill

LiteParse 可以直接装成编码 Agent 的 Skill，这是它的一个杀手级特性：

npx skills add run-llama/llamaparse-agent-skills --skill liteparse

装完之后你的编码 Agent 就能直接解析 PDF、生成截图、提取文本了。Claude Code、Cursor、Qoder 这些 Agent 工具都支持。实测安装后 npx skills list 能看到 liteparse 已经注册成功

使用场景举例：

让 Agent 直接解析合同 PDF 抽取关键条款
批量截图文档页面给多模态 LLM 做理解
在 Agent 工作流里直接嵌入文档解析环节

OCR 配置

内置 Tesseract 零配置就能用，指定语言即可：

# 中文lit parse document.pdf --ocr-language chi_sim# 法语lit parse document.pdf --ocr-language fra# 关闭 OCR（纯文本 PDF）lit parse document.pdf --no-ocr

需要更高精度？接个 HTTP OCR Server：

# 启动 PaddleOCR Servercd liteparse/ocr/paddleocr && python server.py# 指定 OCR Server 解析lit parse document.pdf --ocr-server-url http://localhost:8828/ocr

OCR API 规范很简单：一个 POST /ocr 端点，接收图片返回 { results: [{ text, bbox, confidence }] }，自己写一个也不难

优缺点

优点：

速度是真的快，Rust 底子在那里，3 页 PDF 不到 1 秒
安装简单，npm/pip/cargo 三选一，开箱即用
OCR 系统设计得很灵活，内置 Tesseract + 可插拔外部服务
Agent Skill 支持让它在 AI 工作流里如虎添翼
纯本地运行，数据不出门，合规无忧

局限：

表格抽取只是空间文本重建，不做结构化表格识别（需要严肃表格场景得配合 LlamaParse 云端版）
多栏排版、复杂版式的还原能力有限
当前 Skill 文档和 CLI 实际参数有些不一致（比如截图命令 --pages vs --target-pages），新项目迭代快可以理解

总结

LiteParse 的定位很清晰：轻量、本地、快速的文档解析底座。适合需要批量处理 PDF、对延迟敏感、注重数据隐私的场景。它不试图解决所有文档解析难题，但在它擅长的领域做得足够好

推荐给做 RAG 管线预处理、Agent 工具链搭建、离线文档处理的同学试试