LlamaIndex 把自家的文档解析器用 Rust 重写了,457 页 100MB 的 PDF 解析只要 0.777 秒,Python、Node、Rust、浏览器四个环境都能跑,开源免费
LiteParse v1 是 Node.js 写的,解析速度受限于 Node 的启动开销和运行时性能。v2 整个用 Rust 重写,小文档快了 5 到 100 倍,大文档也有 3 倍提升
Rust 重写带来的另一个好处是多平台原生支持。同一套核心代码通过不同的绑定层,直接输出 Python 包(PyO3)、Node 包(napi-rs)、Rust crate 和 WASM 包。不管你的技术栈是什么,都能直接用

支持哪些文档格式
输入端覆盖了日常能遇到的主流格式:PDF、DOCX、XLSX、PPTX、图片。PDF 直接用 PDFium 提取文本,其他格式通过 LibreOffice 和 ImageMagick 转换后处理
输出有三种选择。结构化 JSON 带完整的文本定位信息和 bounding box,适合需要精确坐标的场景。纯文本保留原始版面布局。还能直接生成页面截图 PNG,给 LLM Agent 做视觉理解用

OCR 怎么做的
内置 Tesseract,装完就能用,零配置。如果 Tesseract 的识别精度不够,可以挂一个 HTTP OCR 服务器,EasyOCR、PaddleOCR 或者自己搭的都行,接口规范是标准化的
解析流程是先用 PDFium 提取原生文本,然后对扫描页或图片页做选择性 OCR,最后把两种结果合并,通过网格投影还原空间布局。这套流程保证了速度和精度的平衡

四个平台怎么装
Python 用户一行命令:pip install liteparse
Node/TypeScript 用户:npm i @llamaindex/liteparse
Rust 用户:cargo add liteparse(库)或 cargo install liteparse(CLI)
浏览器端:npm i @llamaindex/liteparse-wasm,可以在浏览器里直接跑文档解析,数据不出本地
四个平台装完都自带一个统一的 CLI 工具 lit,命令行解析文档只需要 lit parse document.pdf

性能到底有多快
官方给的基准测试数据:457 页、100MB 的 PDF 文档,解析耗时 0.777 秒
小文档的提升更夸张,比 v1 快 5 到 100 倍。这个差距主要来自两个地方:消除了 Node.js 的进程启动开销,以及 Rust 原生的内存管理和并发能力
对于 RAG 管道或者需要批量处理文档的场景,这个速度意味着你可以在本地跑完解析,不需要依赖云端服务

还能当 Agent Skill 用
LiteParse 提供了现成的 Agent Skill 文件,一行命令就能加到你的 Agent 工具链里:npx skills add run-llama/llamaparse-agent-skills --skill liteparse
这意味着你的 AI Agent 可以直接调用本地文档解析能力,PDF 进去、结构化文本出来,不需要网络请求,不需要 API key
项目完全开源,Apache 2.0 协议,GitHub 上 5.5k Star
项目地址:https://github.com/run-llama/liteparse

夜雨聆风