RAG前置能力——文档智能标准化服务
一、项目背景与目标
在构建企业级RAG(检索增强生成)系统和AI落地的过程中,我们发现高质量的文档解析是决定检索与生成质量的关键基石。同时,企业内部存在大量仅需“文档理解”而无须检索的场景(如合同审核、票据处理、工单归档)。
平台旨在构建“文档标准化服务” ,作为RAG系统的前置核心能力。目标是将文档解析与结构化提取从传统RAG流程中前置并强化,通过顶尖的多模态大模型(VLM)与策略引擎,将格式各异、版式复杂的原始文档(PDF、DOCX、图像等),转化为高度规整、人机皆宜的标准化Markdown 与高置信度结构化数据 ,实现“一源多用”,不仅是RAG系统的“优质饲料”预处理中心,更是直接赋能合同、票据、工单等垂直场景的标准化文档数据基座 。
二、核心应用场景
RAG知识库高质量供给 :为RAG系统提供经过清洗、格式统一、上下文完整的Markdown文档,显著提升检索精度与回答质量。
垂直 场景文档直接处 理 :在无需向量检索的场景下,直接对单份标准化处理后的文档进行操作。
企业文档数字资产化 :建立统一、干净、可追溯的文档结构化数据仓库,为下游各类AI应用与数据分析提供标准化输入。
三、平台核心能力
极致文档解析能力 :采用“视觉驱动”的解析范式。先将文档统一转换为高保真页面图像,再输入至目前最强的视觉-语言大模型(如GPT-4V, Gemini Pro Vision, Claude 3等),直接生成格式清晰、保留原始逻辑结构(标题、列表、表格)的纯净Markdown。此方法对复杂排版、扫描件、图文混排文档具有最强鲁棒性。
高可靠结构化提取 :针对关键字段提取,采用多模型协同验证 机制。同一任务并行分发至多个大语言模型,对各自的输出结果进行交叉比对、投票与逻辑校验,最终输出置信度最高的结构化结果(JSON格式),确保数据准确性。
为每个文档生成全局唯一ID,建立Markdown产物、结构化数据、以及后续RAG生成的向量片段之间的双向关联图谱。
四、总体架构
与RAG解析解耦 ,允许为本平台独立选用和迭代最强的文档解析与多模型技术栈,避免受RAG系统技术选型束缚。可专注于提供更强大、更稳定的文档预处理能力,并服务于更广泛的业务场景。
4.1 文档解析引擎(核心能力)
实现思路 :主要采用“文件转图像 + 视觉大模型(VLM)”的技术路线,平台设计了一个核心的智能路由,可根据文档类型、内容格式选择最合适的解析模型和方案。
4.2结构化提取引擎
实现思路 :采用“多模型博弈 + 交叉验证”机制。
4.3 数据存储与管理
设计双模存储策略,满足不同场景需求:
对象存储 :原始文件(PDF/Img)、解析后的Markdown文件。
结构化数据库 :文档元数据(创建时间、状态)、提取的结构化字段(JSON)、文件索引地址:
4.4 RAG平台关联
实现“原文引用”的关键路径:
切片策略调整 :RAG系统不再读取原始PDF,而是直接读取标准化服务生成的Markdown文件。
元数据注入 :在切片时,将 doc_id和 page_number注入向量数据的元数据中。
溯源流程 :用户提问 -> RAG检索到切片 -> 读取元数据中的 markdown_url或 doc_id-> 前端渲染引用块,实现精准定位。
五、场景应用举例
5.1 标准化处理流程(适用于文档审核、票据归档等)
API调用 :业务系统调用 /api/v1/standardize接口上传文件。
异步处理 :服务端接收文件,返回 task_id,后台异步队列处理。
解析与提取 :执行“文档解析”与“结构化提取”流程。如果需要结构化数据提取,则支持可视化界面操作(确认,修正等)。
结果落库 :将Markdown存入OSS,结构化数据存入DB。
回调/查询 :业务系统通过回调或轮询获取处理结果,直接进行业务流转。
5.2 RAG入库流程(适用于知识库问答)
触发方式 :配置“标准化导入”定时服务“,将Markdown文档定时或直接导入rag文档库。
切片入库 :对Markdown进行切片,注入 doc_id等元数据,写入向量库。