DocLang:AI时代文档标记语言,在单一格式中同时保留语义、结构、几何布局、治理元数据-夜雨聆风

DocLang:AI时代文档标记语言,在单一格式中同时保留语义、结构、几何布局、治理元数据

2026年6月，LF AI & Data基金会成立DocLang规范工作组，IBM、NVIDIA、Red Hat、ABBYY、HumanSignal联合推动。这不是又一个文档转换工具——它试图重新定义”文档”这个概念本身。

一个被忽视了35年的技术债

PDF诞生于1991年，DOCX的前身可以追溯到1983年的Rich Text Format，HTML的表格标签在1997年就基本定型。

这些格式有一个共同的底层假设：读者是人。

PDF的核心是”渲染指令”——告诉显示设备在每个坐标放什么字形；DOCX的核心是”排版规则”——字号、段距、页边距；HTML的核心是”超文本呈现”——内容如何在浏览器窗口中布局。它们关心的都是”看起来像什么”，而不是”是什么意思”。

这导致了一个在企业AI团队中广泛存在但很少被正式讨论的问题：我们每天喂给大模型的企业知识，本质上是在让AI做”逆向工程”。

一份IBM年报PDF包含层级标题、交叉引用、财务表格、脚注、图表注释。人类读者可以瞬间理解”表3-2中的Q4营收数字对应的是亚太区合并口径”，但AI系统需要经历OCR→布局分析→表格提取→语义映射的多重转换，每一步都可能丢失信息或引入错误。

2026年6月9日，LF AI & Data基金会正式宣布成立DocLang Specification Working Group^[1]，试图从根上解决这个问题。

这不是一次渐进式改进，而是一次格式范式的切换——从”人类可读”到”AI原生”。

DocLang到底做了什么？

先看一句话定义：DocLang是一种面向AI系统的文档标记语言，目标是在单一格式中同时保留语义、结构、几何布局、治理元数据，并与LLM分词器实现1:1映射。

这句话里有四个关键词值得拆开看：

语义层（Semantic Layer）

传统文档格式中，”营收”这两个字和它在财务表中的位置关系是隐含的。你需要理解上下文才能判断这是”总营收”还是”分区域营收”，是”合并口径”还是”母公司口径”。

DocLang在格式层面就要求显式标注语义角色——一个数值不仅仅是文本节点，它是<tabular>元素中某个<cell>的内容，关联着特定的行标题、列标题和上下文语义体（semantic body）。

这意味着AI系统不再需要”猜测”一个数字的含义——含义已经编码在格式结构中。

几何层（Geometric Layer）

文档中的空间位置承载信息。页眉和正文的区别、脚注与正文的关联、表格中合并单元格的语义范围——这些都依赖几何信息。

DocLang同时保留了语义结构和几何坐标，让AI系统既能理解”这是一个三级标题”，也能知道”它出现在第3页左上角，下面是两个并排的表格”。

分词器对齐（Tokenizer Alignment）

这是DocLang与之前所有”文档→结构化数据”方案最本质的区别。

传统的Markdown、HTML、LaTeX转换方案，都是先把文档转成人类可读的文本格式，再由LLM的分词器（tokenizer）去”理解”这个文本。问题在于，这些格式中充斥着对AI无用的标记符号——HTML的<div class="section-header">、LaTeX的\begin{table}[htbp]——它们消耗token却不贡献语义，有些甚至误导模型。

DocLang的XML词汇表是专门针对LLM分词器设计的。规范中的每个标签都与分词器的token边界对齐，实现了”格式标记”与”模型输入”之间的1:1映射。没有冗余标记，没有歧义解析，同一个文档无论经过哪个工具处理，产出的token序列都是一致的。

治理元数据（Governance Metadata）

这是企业场景中最容易被忽视、但上线后最致命的问题。

DocLang允许在文档内部嵌入隐私标记、提取范围限制、模型训练权限等治理策略。这些信息不再散落在外部权限系统或合规文档中，而是与内容本身绑定。

当一份包含客户PII信息的合同被转换为DocLang格式时，”这部分内容不得用于模型训练”的约束是文档自身的属性，而不是外挂的策略规则。

基准测试说了什么？

ABBYY创建了DocLang Interactive Benchmark^[2]，用IBM 2025年年报作为测试文档，对比PDF和DocLang在输入大模型时的差异。结果如下：

指标	PDF输入	DocLang输入	变化
输入token数	8,421	5,310	-37%
输出token数	512	498	-2.7%
响应延迟	4.2s	2.7s	-36%
内容完整性	缺失1个子章节，表格合并错误	完整保留	显著提升

数据来源：The Register报道^[3]，引用ABBYY基准测试

37%的token节省听起来不错，但更大的意义在于确定性的提升。PDF→LLM的转换链路中，不同OCR引擎、不同解析器对同一份文档的解读可能完全不同。一份合同今天用Adobe Acrobat解析和明天用开源工具解析，产出可能不一致。

DocLang要解决的是”文档理解的可复现性”问题——同一份文档，无论经过哪个合规的DocLang转换工具，产出的AI输入都是相同的。

ABBYY AI战略副总裁Maxime Vermeir对此的表述是：”DocLang为现代AI系统创造了一个更具确定性的基础。”

而成本维度上，ABBYY AI价值与赋能负责人Jon Knisley给出了更大的数字：”根据模型不同，客户可以预期4倍到30倍以上的成本降低。”

为什么是现在？

这个问题值得想清楚。

PDF不是不能用，企业用PDF跑了这么多年也没出大事。为什么2026年突然需要一个新标准？

三个力量的汇聚：

第一，Agent工作流的规模化。 当AI应用还停留在”问一个问题、得一个答案”的阶段时，文档解析的小误差可以通过后续prompt来弥补。但当企业开始部署自主Agent——一个Agent读取合同、提取条款、比对合规要求、生成审批意见——任何一个环节的文档理解错误都会在链条中放大。Agent对文档质量的敏感度远高于单次问答。

第二，多模型、多工具生态的碎片化。 企业不可能只用一个模型。GPT做文本生成、Claude做复杂推理、开源模型做敏感数据处理——每个模型的tokenizer不同，对同一份Markdown或HTML的解析方式也不同。没有统一格式，就没有跨模型的一致性。

第三，合规压力的升级。 欧盟AI法案已经生效，企业需要追踪”哪些文档内容被用于训练哪个模型”。当治理策略散落在外部系统中时，这种追踪几乎不可能做到精确。DocLang的内嵌治理元数据直接回应了这个需求。

DocLang + Docling：完整的文档AI技术栈

理解DocLang不能脱离Docling。

Docling^[4]是IBM苏黎世研究团队在2024年开源的文档处理工具包，目前也在LF AI & Data基金会下。它解决的是”文档摄取”问题——把PDF、Word、PPT、HTML、图片等各种格式转换成结构化表示。

如果说Docling是”从多种格式到结构化数据”的转换引擎，那DocLang就是”结构化数据应该长什么样”的标准规范。

两者的关系类似于：

• Docling ≈ 浏览器（负责解析和渲染）
• DocLang ≈ HTML（定义内容应该用什么格式表达）

这种组合创建了一个完整的开源文档AI技术栈：

原始文档（PDF/Word/PPT/图片）
    ↓  [Docling 摄取与解析]
DocLang格式（语义+结构+布局+治理）
    ↓  [标准化表示层]
LLM / VLM / Agent（消费结构化文档）

这意味着企业不再需要为每个文档类型编写定制解析器，不再需要为每个模型调整预处理流程。Docling负责”读懂”，DocLang负责”表达”，模型负责”理解”——三层解耦，各司其职。

企业数据团队的行动框架

对于企业数据团队来说，DocLang目前处于v0.6阶段（Apache 2.0协议），已经可以通过pip install doclang安装参考验证器。但距离生产级部署还有一些现实问题需要考虑。

以下是一个分阶段的行动框架：

第一阶段：评估与试点（1-2个月）

做什么：

• 选取3-5个高频文档处理场景（如合同审查、财报分析、合规报告提取）
• 用Docling将现有文档转换为DocLang格式
• 对比现有Pipeline和DocLang Pipeline在token消耗、响应延迟、输出质量上的差异
• 重点评估：对你们特有的文档类型（行业报表、内部模板、扫描件等），DocLang的语义标注是否足够

关键判断点： 如果你们的文档主要是结构化的（表格多、层级清晰），收益会非常明显。如果主要是非结构化的长文本（法律条文、技术手册），收益相对有限但确定性提升仍有价值。

第二阶段：Pipeline集成（2-4个月）

做什么：

• 将DocLang集成到现有文档处理Pipeline中，作为Docling和下游模型之间的标准中间层
• 建立文档→DocLang→模型的标准化流程，替代原有的”每个文档类型一个定制解析器”模式
• 在DocLang格式中嵌入治理元数据，建立文档使用策略与内容本身的绑定关系
• 对接A/B测试框架，持续对比新旧Pipeline的效果

架构建议： 不要把DocLang当作”替代现有格式”的方案，而是作为”AI消费层的标准中间表示”。原始文档仍然以PDF/Word形式存储（满足人类阅读和归档需求），DocLang格式作为AI Pipeline的输入层独立维护。

第三阶段：标准化与规模化（4-6个月）

做什么：

• 将DocLang纳入企业数据治理框架，作为文档AI就绪度（AI-readiness）的评估标准之一
• 建立跨团队的DocLang格式规范使用指南
• 关注工作组后续版本更新（v0.6→v1.0），参与标准制定以影响规范演进方向
• 评估DocLang在多Agent系统中的互操作性价值——当多个Agent需要共享同一份文档理解时，统一格式的价值倍增

冷思考：DocLang的挑战与边界

任何新标准在早期都需要冷静看待几个问题：

1. 生态成熟度。 目前原生支持DocLang的工具只有Docling和ABBYY FineReader Engine。微软的MarkItDown、开源社区的Marker等项目尚未宣布支持。在生态足够丰富之前，企业可能需要自建转换层。

2. 规范稳定性。 v0.6意味着规范仍在快速迭代中。GitHub仓库显示248次提交、最新的提交就在今天（6月16日），说明开发非常活跃，但也意味着API和格式细节可能变化。生产环境使用需要做好版本锁定和兼容性测试。

3. 迁移成本。 对于已经建立成熟文档处理Pipeline的企业，切换到DocLang意味着重新验证整个链路的输出质量。这不是”换个格式”那么简单，而是需要重新测试下游所有依赖文档理解结果的系统和模型。

4. 与既有标准的竞争。 DocLang不是唯一试图解决”文档→AI”问题的方案。LLaMA-Parse、Unstructured.io、LlamaIndex的文档连接器等都在提供类似能力。DocLang的差异化在于它是开放标准而非商业产品，但在实际采用中，”开放标准”的优势往往需要时间才能兑现。

5. “AI原生”的边界在哪？ DocLang解决的是”文档格式如何更好地服务AI”，但它不解决”AI如何更好地理解非结构化知识”的更深层问题。对于高度专业化、领域特定的文档（如医疗影像报告、工程图纸），DocLang的通用语义标注可能仍需要领域扩展。

写在最后

回到开头那个问题：为什么我们需要一个AI原生的文档格式？

因为格式不是中性的。格式决定了什么信息被保留、什么信息被丢弃、什么信息需要推断。PDF为人类阅读优化了35年，它在”看起来怎么样”这件事上做到了极致，但在”意味着什么”这件事上几乎是空白的。

DocLang的真正价值不在于又做了一个文档转换工具——市场上从来不缺这类工具。它的价值在于试图建立一个开放标准，让”文档的AI就绪表示”有一个统一的、厂商中立的、可互操作的定义。

就像HTML之于Web、Kubernetes之于云原生——真正的变革不来自更好的工具，而来自统一的标准。

对企业数据团队来说，现在不需要All-in DocLang，但需要开始关注这个方向。因为一旦标准确立，生态加速，先行者的Pipeline架构优势会变成显著的竞争壁垒。

文档格式的下一次范式转换，可能已经开始。

参考来源：

1. LF AI & Data Foundation官方公告^[5]
2. DocLang GitHub仓库^[6]
3. Unite.AI: DocLang Aims to Become the Universal Language for AI-Ready Documents^[7]
4. It’s FOSS: DOCX, PDFs Were Not Built for AI^[8]
5. The Register: A modest proposal: Reformat everything to make documents more palatable to AI^[3]

引用链接

[1] DocLang Specification Working Group: https://lfaidata.foundation/press-release/2026/06/09/lf-ai-data-foundation-launches-doclang-specification-working-group-to-advance-an-open-standard-for-ai-native-documents/
[2] DocLang Interactive Benchmark: https://doclang-benchmark.abbyy.tech/
[3] The Register报道: https://worldnl.com/a-modest-proposal-reformat-everything-to-make-documents-more-palatable-to-ai-407316.html
[4] Docling: https://github.com/docling-project/docling
[5] LF AI & Data Foundation官方公告: https://www.kmworld.com/Articles/News/News/LF-AI–Data-Foundation-create-DocLang-Specification-Working-Group-to-formulate-an-open-standard-for-AI-native-documents-175215.aspx
[6] DocLang GitHub仓库: https://github.com/doclang-project/doclang
[7] Unite.AI: DocLang Aims to Become the Universal Language for AI-Ready Documents: https://www.unite.ai/doclang-aims-to-become-the-universal-language-for-ai-ready-documents/
[8] It’s FOSS: DOCX, PDFs Were Not Built for AI: https://itsfoss.com/news/doclang-new-open-document-standard-for-ai/