2026年5月 · AI基础设施 · GitHub开源 LlamaIndex开源 · Rust核心 · 本地运行 · 多格式支持 🦀 Rust重写⚡ 100倍提速🔒 本地隐私🌐 WASM边缘端 |
📖 阅读时长约 6 分钟 |
💡 太长不看版(TL;DR) LiteParse v2.0 是 LlamaIndex 于 2026 年 5 月发布的开源文档解析库,核心完全用 Rust 重写。小文档解析速度提升 100 倍,大文档也有近 3 倍 提速。支持 PDF、DOCX、XLSX、PPTX 等格式,输出保留版面布局的结构化文本,专为 RAG(检索增强生成)和 AI Agent 管道设计。提供 Python(pip)、JavaScript(npm)、Rust(cargo)三端原生包,还可编译为 WebAssembly 在浏览器和边缘节点本地运行。 |
😤 做 RAG 最头疼的是什么? 不是没有大模型,也不是向量数据库不够快——而是文档解析这一步卡住了整个管道。 PDF 一多,解析速度慢得像乌龟;复杂排版一上来,文字顺序乱成一团;想上云又担心数据隐私。解析质量差 → 检索不准 → 大模型答非所问,整个 RAG 链路功亏一篑。 2026 年 5 月 28 日,LlamaIndex 宣布将 LiteParse 彻底用 Rust 重写并发布 v2.0。小文档解析速度提升 100 倍,大文档也有近 3 倍 提速。更重要的是:完全本地运行,数据不出本机。 |
100x 小文档提速 3x 大文档提速 4 种格式支持 3 端原生包 |
| 🎯 一、LiteParse v2 是什么? |
LiteParse 是 LlamaIndex 推出的开源文档解析库,专为 RAG 管道和 AI Agent 设计。v2.0 版本的核心变化只有一句话:彻底用 Rust 重写了。
为什么要用 Rust 重写?原因很直接:
| ① 速度:Python 解析器再怎么优化,也打不过 Rust |
LiteParse v1 基于 Python,解析大批量 PDF 时 CPU 占用高、速度慢。v2 用 Rust 重写核心解析器后,小文档提速 100 倍,大文档(100+ 页)也有近 3 倍提升。100 页的 PDF,1 秒完成文本提取。
| ② 布局感知:不只提取文字,还保留版面结构 |
Parser 将文本按文档布局进行二维空间投影,输出保留位置信息与版面相对关系的结构化文本。对于 RAG 来说,这意味着:检索时不仅能匹配关键词,还能理解"这段文字在表格里"、"这段是页眉"——检索精度显著提升。
| ③ 本地优先:不依赖云服务,数据隐私有保障 |
所有解析在本地完成,无需上传文档到第三方服务器。对于企业内网、医疗、金融等数据合规要求高的场景,这一点至关重要。
| ⚡ 二、核心功能亮点 |
| 功能 | 说明 |
|---|---|
| 📦 三、本地部署指南(3种方式) |
LiteParse v2 提供 Python / JavaScript / Rust 三端原生包,选择你熟悉的语言接入即可。下面逐一说明。
| 方式 1:Python(pip 安装,推荐 RAG 开发者) |
# 安装 LiteParse v2 pip install liteparse # 基础用法示例 from liteparse import LiteParse parser = LiteParse() result = parser.parse("document.pdf") print(result.structured_text) |
Python 包最适合已在使用 LlamaIndex 构建 RAG 管道的开发者,直接 pip install 即可接入现有项目,无需改动架构。
| 方式 2:JavaScript / TypeScript(npm 安装) |
# 安装 npm install liteparse // TypeScript 用法示例 import { LiteParse } from 'liteparse'; const parser = new LiteParse(); const result = await parser.parse('document.pdf'); console.log(result.structuredText); |
前端项目和 Node.js 服务直接用 npm 安装,支持 TypeScript 类型提示,适合 Web 应用和边缘函数场景。
| 方式 3:Rust(cargo 安装,追求极致性能) |
// Cargo.toml 添加依赖 [dependencies] liteparse = "2.0" // main.rs 用法示例 use liteparse::LiteParse; fn main() { let parser = LiteParse::new(); let result = parser.parse("document.pdf").unwrap(); println!("{}", result.structured_text()); } |
Rust 原生调用没有 FFI 开销,是性能要求极高的生产环境(如批量处理百万级文档)的首选方案。
| 方式 4:WebAssembly(浏览器 / 边缘端运行) |
LiteParse v2 可编译为 WebAssembly 格式,直接在浏览器端或边缘计算节点(如 Cloudflare Workers)本地运行,无需后端服务器。注意:WASM 环境下的 OCR 功能需通过外部回调注入实现(因 WASM 沙箱限制无法直接调用系统 OCR 引擎)。
| 🔍 四、LiteParse vs LlamaParse,该怎么选? |
LlamaIndex 旗下其实有两个解析工具,容易搞混,这里帮你理清:
| 对比项 | LiteParse v2 | LlamaParse |
|---|---|---|
| 运行方式 | ✅ 完全本地 | |
| 数据隐私 | ✅ 文档不出本机 | |
| 解析速度 | ⚡ Rust 极致性能 | |
| 使用成本 | 🆓 开源免费 | |
| 适合场景 | ||
| 复杂表格/图表 | ✅ 云端 AI 增强,效果更好 |
简单总结:合规和批量场景用 LiteParse v2(本地、免费、快),复杂文档解析效果要求极高用 LlamaParse(云端 AI 增强)。两者可以叠加使用,不冲突。
| 👥 五、它适合谁? |
| 人群 | 痛点 | 能做什么 |
|---|---|---|
📦 项目信息 GitHub:github.com/run-llama/liteparse · 开源 MIT 协议发布时间:2026 年 5 月 28 日 · Rust 核心重写 v2.0支持语言:Python · JavaScript/TypeScript · Rust · WebAssembly支持格式:PDF · DOCX · XLSX · PPTX |
| 💭 六、我的观点 |
| 1 |
| 2 |
| 3 |
| 4 |
🚀 试试 LiteParse v2,让你的 RAG 管道飞起来Rust 核心 · 本地运行 · 三端原生包 · WASM 浏览器端小文档提速 100 倍 · 大文档提速 3 倍 📦 pip install liteparse🌐 GitHub 开源地址📖 LlamaIndex 文档 |
LiteParse v2 · Rust-Powered Document Parser LlamaIndex · github.com/run-llama/liteparse · Released 2026-05-28 — 本文由 AI博主/科技观察员 撰写 · 2026-06-02 — |
夜雨聆风