BookRAG:面向复杂文档的层次结构感知索引检索增强生成方法

文章摘要
本文介绍BookRAG,一种针对具有层次结构的复杂文档设计的创新RAG方法,通过构建文档原生索引和智能体检索显著提升问答准确性。
阅读原文或https://t.zsxq.com/hA3tg获取原文PDF
一、研究背景:复杂文档问答的新挑战
随着大型语言模型(LLMs)如Qwen 3和Gemini 2.5的快速发展,问答系统(QA)已经在多个行业场景中得到广泛应用,包括金融审计、法律合规和科学发现等领域。 然而,直接依赖LLMs可能导致领域知识缺失和生成过时或不受支持的信息。为解决这些问题,检索增强生成(RAG)技术应运而生,通过从外部来源检索相关领域知识来指导LLM生成响应。
在真实的企业场景中,领域知识通常存储在长篇文档中,如技术手册、API参考手册和操作指南等。这些文档的一个显著特征是遵循书籍的结构,具有复杂的布局和严谨的逻辑层次,例如明确的目录、嵌套章节和多级小节。 研究团队来自香港中文大学(深圳),致力于为这类长篇且高度结构化的文档设计有效的RAG系统。
二、现有方法的局限性分析
现有的文档级问答RAG方法主要分为两种范式,如图1所示。
2.1 基于文本的方法
第一种范式依赖OCR(光学字符识别)将文档转换为纯文本,然后可以直接应用任何基于文本的RAG方法。在基于文本的RAG方法中,最先进的方法越来越多地采用基于图的RAG,其中图数据作为外部知识源,因为它能够捕获丰富的语义信息和实体之间的关系结构。
两种代表性方法是GraphRAG和RAPTOR。具体而言,GraphRAG首先从文本语料库构建知识图谱(KG),然后应用Leiden社区检测算法获得层次聚类,为每个社区生成摘要,提供整个语料库的全面、全局概览。RAPTOR通过迭代聚类文档块并在每个级别进行摘要来构建递归树结构,使模型能够捕获整个语料库中的细粒度和高级语义信息。
2.2 布局感知分割方法
相比之下,第二种范式——布局感知分割——首先将文档解析为保留文档原始布局和信息的结构化块,如段落、表格、图形或方程式。这样做不仅避免了第一种范式中使用的固定块大小(通常导致信息碎片化),而且保留了文档原生的结构信息。 这些块通常表现出多模态特征,一种典型的方法是应用多模态检索来获取相关内容以回答查询。最近,这一类别中的最先进方法DocETL提供了一个声明式接口,允许用户手动定义基于LLM的处理管道来分析检索到的块。
2.3 核心局限
然而,这些方法存在两个根本性局限(L):
L1:未能捕获文档结构与语义的深层联系。基于文本的方法无法捕获文档的结构布局,导致存储在层次块中的重要关系丢失,例如嵌套在特定章节中的表格。虽然布局分割方法保留了文档结构,但它们无法捕获文档中不同块之间的关系,这限制了它们跨这些块进行多跳推理的能力,最终影响整体性能。
L2:查询工作流的静态性。在真实的问答场景中,用户查询高度异构,从简单的关键词查找到需要综合散布在文档不同部分的证据的复杂多跳问题。对多样化需求应用统一策略(如静态或手动预定义工作流)效率低下;例如,复杂查询通常需要问题分解,而简单查询则不需要。
三、BookRAG的创新架构
为弥补这一差距,研究团队引入了BookRAG,这是第一个建立在文档原生BookIndex之上的检索增强生成方法,专门为文档问答任务设计。
3.1 BookIndex:双重结构索引
具体而言,为了捕获文档中关系的深层联系,BookIndex通过两个互补的结构来组织信息。
层次树结构:为了保留文档的原生逻辑层次,系统将解析的内容块组织成层次树结构,充当其目录的角色。
知识图谱(KG):为了捕获这些块中的复杂关系,系统构建了一个包含细粒度实体的知识图谱。
统一映射:最后,通过将知识图谱实体映射到其相应的树节点,统一这两个结构。
3.2 基于梯度的实体解析
有效的图上多跳推理依赖于高质量的知识图谱,但这通常因实体歧义而受到影响(例如,名称为”LLM”和”Large Language Model”的不同实体)。为解决这个问题,研究团队提出了一种新颖的基于梯度的实体解析方法,该方法分析候选实体的相似度分布。 通过识别相似度分数的急剧下降,系统可以有效地区分和合并共指实体,从而确保图的连通性并增强推理能力。
3.3 基于智能体的检索机制
在BookIndex的基础上,研究团队通过实现基于智能体的检索来解决查询工作流的静态性问题(L2)。具体而言,智能体首先根据用户查询的意图和复杂性对其进行分类,然后动态生成定制的检索工作流。
该检索过程以信息觅食理论(Information Foraging Theory)为基础,模拟觅食行为:使用选择器(Selector)通过信息气味(information scents)缩小搜索空间,使用推理器(Reasoner)定位高度相关的证据。


四、核心技术创新
研究团队总结了以下核心贡献:
创新一:文档原生BookIndex
BookRAG构建了一个文档原生的BookIndex,通过将文档布局块的层次树与存储细粒度实体关系的知识图谱集成在一起。
创新二:智能体检索方法
提出了一种受信息觅食理论启发的基于智能体的检索方法,该方法动态分类查询并配置最优检索工作流,以在文档中定位高度相关的证据。

五、实验验证与性能表现
5.1 实验设计
研究团队在三个广泛采用的数据集上进行了大量实验,以验证BookRAG的有效性和效率,并将其与几个最先进的基线方法进行比较。
5.2 性能优势
实验结果表明,BookRAG在所有数据集上的检索召回率和问答准确性方面始终保持卓越性能。此外,详细分析验证了关键特性的重要贡献,如高质量知识图谱和基于智能体的检索机制。
具体而言:
-
在检索召回率方面显著优于基线方法 -
在问答准确性方面取得最佳表现 -
保持了具有竞争力的效率水平 -
关键模块的消融实验验证了各组件的有效性

六、方法对比分析
表1展示了代表性方法与BookRAG的全面对比:
基于图的方法:
-
RAPTOR:递归摘要,静态工作流 -
GraphRAG:全局社区检测,静态工作流
布局分割方法:
-
MM-Vanilla:多模态检索,静态工作流 -
DocETL:基于LLM的文档处理管道,手动配置
文档原生方法:
-
BookRAG(本研究):结构感知索引 + 基于智能体的检索,动态工作流
从对比中可以看出,BookRAG是唯一同时具备多跳推理能力、文档解析能力和动态查询工作流的方法。
七、应用场景与产业价值
7.1 典型应用场景
BookRAG特别适用于以下场景:
企业技术文档问答:技术手册、API参考文档、操作指南等的智能问答系统。
法律合规检索:法律文书、合规手册等复杂文档的精准检索和分析。
科研文献理解:学术论文、研究报告等科研文档的深度理解和知识提取。
金融审计支持:财务报告、审计文档等结构化金融文档的智能分析。
7.2 产业意义
提升问答准确性:通过结构感知索引和动态检索,显著提高复杂文档问答的准确率。
增强可解释性:基于层次结构和知识图谱的检索路径,为答案提供清晰的溯源依据。
提高处理效率:智能体根据查询复杂度动态调整工作流,避免不必要的计算开销。
降低应用门槛:自动化的文档解析和索引构建,减少人工配置和维护成本。

八、技术展望与未来方向
8.1 当前优势
BookRAG代表了面向复杂文档的RAG技术的重要进展,其创新性体现在:
-
首次提出文档原生索引结构,同时保留逻辑层次和实体关系 -
创新性地应用信息觅食理论设计动态检索机制 -
通过基于梯度的实体解析提升知识图谱质量
8.2 发展方向
未来研究可以从以下方向进一步拓展:
扩展文档类型:支持更多样化的文档格式和结构,如演示文稿、网页等。
增强多模态能力:深化对图表、图像等非文本内容的理解和推理能力。
优化大规模部署:提升系统在超大规模文档库上的索引构建和检索效率。
强化可解释性:提供更直观的检索路径可视化和证据溯源机制。
结语
BookRAG为复杂文档的智能问答提供了全新的解决方案,通过创新的文档原生索引和智能体检索机制,显著提升了检索准确性和问答质量。对于需要处理大量结构化文档的企业、研究机构和投资者而言,BookRAG代表了文档智能化的重要技术方向。
随着技术的不断成熟和应用场景的拓展,基于BookRAG的智能文档问答系统将在知识管理、决策支持、合规审查等领域发挥越来越重要的作用,为数字化转型提供坚实的技术支撑。
欢迎加入「知识图谱增强大模型产学研」知识星球,获取最新产学研相关”知识图谱+大模型”相关论文、政府企业落地案例、避坑指南、电子书、文章等,行业重点是医疗护理、医药大健康、工业能源制造领域,也会跟踪AI4S科学研究相关内容,以及Palantir、OpenAI、微软、Writer、Glean、OpenEvidence等相关公司进展。

往期推荐
夜雨聆风
