457页PDF解析只要0.7秒,LlamaIndex用Rust重写了文档解析器,开源免费

LlamaIndex 把自家的文档解析器用 Rust 重写了，457 页 100MB 的 PDF 解析只要 0.777 秒，Python、Node、Rust、浏览器四个环境都能跑，开源免费

LiteParse v1 是 Node.js 写的，解析速度受限于 Node 的启动开销和运行时性能。v2 整个用 Rust 重写，小文档快了 5 到 100 倍，大文档也有 3 倍提升

Rust 重写带来的另一个好处是多平台原生支持。同一套核心代码通过不同的绑定层，直接输出 Python 包（PyO3）、Node 包（napi-rs）、Rust crate 和 WASM 包。不管你的技术栈是什么，都能直接用

支持哪些文档格式

输入端覆盖了日常能遇到的主流格式：PDF、DOCX、XLSX、PPTX、图片。PDF 直接用 PDFium 提取文本，其他格式通过 LibreOffice 和 ImageMagick 转换后处理

输出有三种选择。结构化 JSON 带完整的文本定位信息和 bounding box，适合需要精确坐标的场景。纯文本保留原始版面布局。还能直接生成页面截图 PNG，给 LLM Agent 做视觉理解用

内置 Tesseract，装完就能用，零配置。如果 Tesseract 的识别精度不够，可以挂一个 HTTP OCR 服务器，EasyOCR、PaddleOCR 或者自己搭的都行，接口规范是标准化的

解析流程是先用 PDFium 提取原生文本，然后对扫描页或图片页做选择性 OCR，最后把两种结果合并，通过网格投影还原空间布局。这套流程保证了速度和精度的平衡

Python 用户一行命令：pip install liteparse

Node/TypeScript 用户：npm i @llamaindex/liteparse

Rust 用户：cargo add liteparse（库）或 cargo install liteparse（CLI）

浏览器端：npm i @llamaindex/liteparse-wasm，可以在浏览器里直接跑文档解析，数据不出本地

四个平台装完都自带一个统一的 CLI 工具 lit，命令行解析文档只需要 lit parse document.pdf

官方给的基准测试数据：457 页、100MB 的 PDF 文档，解析耗时 0.777 秒

小文档的提升更夸张，比 v1 快 5 到 100 倍。这个差距主要来自两个地方：消除了 Node.js 的进程启动开销，以及 Rust 原生的内存管理和并发能力

对于 RAG 管道或者需要批量处理文档的场景，这个速度意味着你可以在本地跑完解析，不需要依赖云端服务

LiteParse 提供了现成的 Agent Skill 文件，一行命令就能加到你的 Agent 工具链里：npx skills add run-llama/llamaparse-agent-skills --skill liteparse

这意味着你的 AI Agent 可以直接调用本地文档解析能力，PDF 进去、结构化文本出来，不需要网络请求，不需要 API key

项目完全开源，Apache 2.0 协议，GitHub 上 5.5k Star

项目地址：https://github.com/run-llama/liteparse