一篇讲清企业文档解析怎么选型?MinerU、Docling、liteparse 到底选哪个?

前两天在一个做企业 AI 落地的群里，有人甩出一个问题，底下一串"+1"：

"我们想把公司这些年攒的合同、报告、扫描件都喂给 AI 做个问答系统。结果卡在第一步——光是把 PDF 变成 AI 能读的文字，就冒出来 MinerU、Docling、Marker、liteparse 一大堆工具，到底该用哪个？"

问得特别实在。这其实是现在每一个想用 AI 处理文档的团队，绕不开的第一道坎。

我把 2026 上半年最火的几个开源文档解析工具，连同它们的公开实测数据、官方设计思路、企业落地反馈，全扒了一遍。先把结论抛给你：这里没有"哪个最好"，只有"哪个适合你的场景"。而很多人第一步就选错，根本原因是——把"给知识库入库"的需求，和"给 AI agent 迭代扫"的需求，当成了同一件事。

这篇大概 3000 字，帮你把 5 个主流工具按企业真实场景分好类，附一张选型对照表和一个决策树。看完你大概率不会再装错。

先说清楚：这不是我逐个在生产环境跑了一个月的横评——那得花好几周。这是我把它们的实测、文档、落地案例吃透后，按选型逻辑给你理清楚。真要上生产，文末我给了怎么自己花半天快速验证。

一、为什么"文档解析"是喂 AI 的第一道坎

你可能会想：不就是把 PDF 转成文字吗，有那么复杂？

有。而且这一步直接决定了你后面所有 AI 效果的天花板。

道理很简单：垃圾进，垃圾出。一份排版复杂的财报，如果解析时把三栏排版串成了一锅粥、把表格拆得七零八落、把公式变成乱码，那不管你后面用多强的大模型,它读到的都是一堆烂数据，问什么都答不准。

而真实世界的企业文档，恰恰全是"难啃"的：合同有盖章和手写批注，财报有大量跨页表格，论文有公式，扫描件还是图片不是文字……把这些准确、有结构地变成 AI 能消化的内容，就是文档解析工具在干的活。

理解了这层，再看工具就清楚了。这些工具其实分成两个流派，搞混它们，就是大多数人选错的根源。

两种范式：精度派 vs 速度派

精度派（MinerU、Docling、Marker）：用重型模型，追求把文档"原样还原"——版式、表格、公式、阅读顺序，能多准就多准。

速度派（liteparse 是代表）：故意不追求最高精度，主打一个"够用且快"。

打个比方你就懂了：

精度派像请了个专业速记员，逐字逐句一丝不苟地誊抄整本书——慢，但你拿到的是完整准确的副本。
速度派像你自己先快速翻一遍，抓住重点和关键页，需要细节时再回头精读那几页——糙，但快得多。

到底该请速记员，还是自己快速翻？取决于你拿这些文字干嘛。 这就引出了下面的选型逻辑。

先上一张总览，6 个维度看清这几个工具的本质差异（这张表也是你后面对照的兜底）：

二、按企业场景，对号入座

下面四个场景，对应企业里最常见的四类需求。看你的活儿落在哪个，直接选对应的主角。

场景 A：大量中文文档、扫描件、带公式表格 → MinerU

如果你要处理的是中文合同、财报、研报、学术论文、扫描件这类"又中文又复杂"的文档，MinerU 基本是目前的第一选择。

它是上海 AI Lab（opendatalab）开源的，GitHub 星标在这几个里最多，不是没道理：

在权威的 OmniDocBench 评测里，它综合排第一，中文文本识别的错误率（0.215）和英文（0.061）都是最低的一档；
公式能直接转成 LaTeX，跨页大表格、页眉页脚清理、旋转版式这些"中文文档老大难"，它处理得最好；
支持 109 种语言；
还有一个企业最关心的点：它在 3.1 版本把许可证从有"传染性"的 AGPLv3，换成了基于 Apache 2.0 的宽松协议，明确允许商用。这一步直接扫清了很多公司不敢用的顾虑。

一句话：中文为主、版式复杂、还要商用——闭眼选它。

场景 B：要接进 LangChain / LlamaIndex 搭生产级 RAG → Docling

如果你的目标是搭一套正经的、要长期跑在生产环境的企业知识库问答系统，而且技术栈已经在用 LangChain 或 LlamaIndex，那 Docling 更顺手。

它是 IBM Research 出品、现在挂在 LF AI & Data 基金会下，定位就是"为生产 RAG 而生"：

它不只是吐出一堆文字，而是输出一个保留了语义层级的结构化文档——标题、章节、表格的从属关系都在，这对后面做精准检索特别关键；
支持 PDF、Word、PPT、Excel、HTML 甚至音频；
和主流 AI 框架是一等公民级的集成，接起来不折腾；
适合气隙（断网）环境，数据不出内网，合规友好。

一句话：要搭企业级、长期维护的 RAG 系统，且重视结构和合规——选它。

场景 C：给 AI agent 用、要快要轻、数据不能外传 → liteparse

这个是今天的新秀，也是最容易被"精度派"思维带偏的一个。它是 LlamaIndex 刚推出的，这两周在 GitHub 爆涨。

它的特别之处，全在设计哲学上——也是我觉得这篇里最值得你记住的一个判断：

不是每份文档都需要被最高精度地解析。AI agent 本身是迭代的：它先拿到粗糙但飞快的文本，扫一遍、判断哪几页相关，再回头对那几页做深度解析。真正的瓶颈往往不是解析质量，而是解析速度。

一个能在 100 毫秒内拿到"糙但够用"文本的 agent，可以快速扫几十份文档、锁定关键页，再选择性深挖——整体效率反而碾压"每份都死磕精度"的方案。

落到工程上，liteparse 也很对企业胃口：

零 Python 依赖
，CLI + TypeScript 原生，完全本地运行，一个字节都不传云端；
用"空间文本解析"保留原始排版（靠缩进和空白还原布局），还带位置坐标；
隐私敏感、断网环境、想省掉按页计费的云 API 成本——它都很合适。

一句话：给 agent 当"快速侦察兵"、看重速度和隐私——选它。别拿评测精度去苛求它，那不是它的赛道。

场景 D：多种格式一把梭、想一个工具全搞定 → Marker（附老牌 Unstructured）

如果你的文档格式很杂，又不想为不同格式配不同工具，想要"一个工具通吃"，Marker 是个均衡选择。它结构还原和图表处理都不错，还有个 --use_llm 开关，能临时挂上大模型把精度拉到很高。

但有个坑必须提醒：Marker 的许可证限制比别家多，商用前一定先把授权条款看清楚，别等系统跑起来了才发现踩了红线。

另外，老牌的 Unstructured（14.6k 星）也值得知道：它把文档转成带语义标签的元素，和 LangChain 集成早、生态成熟，是不少老项目的默认选择。

三、一张表 + 一个反共识，帮你避开最大的坑

把上面的浓缩成一张速查表：

然后是这篇最想让你记住的一句反共识判断：

解析精度不是越高越好，要看下游是谁在用。 给知识库入库、要长期反复检索的，精度值得死磕；给 agent 临时扫一遍找线索的，精度够用就行，硬上重型工具只会白白慢 10 倍。把这两件事分清楚，你就赢过了一半的团队。

还有一个企业最容易栽的坑："开源"不等于"能免费商用"。 像早期 MinerU 用的 AGPLv3、以及 Marker 的某些限制，都可能让你的商业产品踩雷。选型时，许可证要和功能放在一起看，这是工程师容易忽略、但老板一定会问的事。

四、给你一个决策树和我的建议

如果还是懒得纠结，照这个走：

三个最常见的选型误区，对照着避开：

只看 GitHub 星数选
——星多代表受欢迎，不代表适合你的格式。MinerU 星最多，但你全是英文规整 PDF，未必比轻量工具划算。
忽略许可证
——这是隐形地雷，商用前必查。
盲目追精度
——给 agent 扫的场景，高精度用不上，还拖慢整条链路。

我自己会怎么选？ 坦白说我没在生产环境把这 5 个全压测过。但从实测数据和设计取向看，如果让我现在起一个新项目：中文文档为主就 MinerU，搭正经知识库就 Docling，做 agent 工作流就 liteparse——而且我会先拿自己最典型的 3 份文档，用候选工具各跑一遍，半天就能看出差距，这比看任何评测都靠谱。

如果你只能记一句话带走：

给知识库入库 → 选精度派（MinerU / Docling）；给 agent 迭代扫 → 选速度派（liteparse）。两类都干，就别纠结，按文档类型分着用。

五、写在最后：这件事对职场人意味着什么

你可能会说，我又不写代码，了解这些工具干嘛？

恰恰相反。"文档解析怎么选型"这种以前躺在工程师后台的事，正在变成所有想用 AI 干活的人，必须有判断力的地方。

因为今天你想用 AI 搭一个能问答的知识库、做一个能读合同的助手、搭一条自动处理文档的工作流——第一步就撞上它。你不需要会自己写解析代码，但你得能判断：我的场景该要精度还是要速度？这个工具能不能商用？数据要不要出内网？

这种判断力，本质上是 AI 时代的一种新基础能力——不是"会不会用某个工具"，而是"能不能在一堆工具里，按自己的真实需求做出正确取舍"。 工具每个月都在变，但这套"看场景、看约束、做取舍"的选型思维，是会一直增值的。

下次再有人在群里问"这俩选哪个"，希望你能像今天这样，先反问一句："你拿它来干嘛？" ——这一问，你就已经超过大多数人了。

数据与资料来源：OmniDocBench / DocLayNet 公开评测、各项目官方文档与 LlamaIndex 博客、2026 年多篇开源文档解析横评。

【相关阅读】

RAG、Agent、LLMwiki，一文讲透知识库5代架构演进（附选型指南）

Agent项目该怎么建？OpenAI和Anthropic 官方指南（附判断清单4个标准+5个场景+5个坑）

企业落地Agent项目手册，范围、成本、计划都要变（含场景选型和实施的坑）