乐于分享
好东西不私藏

一个框架处理所有文档格式:RAG-Anything 是什么?

一个框架处理所有文档格式:RAG-Anything 是什么?

 一个框架处理所有文档格式:RAG-Anything 是什么?

 

当传统 RAG 还在挣扎着处理纯文本,有人已经实现了图文表格公式的统一检索。


 一、它解决什么问题

 传统 RAG 的流程:文档转纯文本 → 分块 → 向量化 → 检索。

 问题在哪?

 当你的问题是”这个图表展示的趋势是什么”,传统 RAG 只能找到一些文字描述,无法理解图表本身。

 RAG-Anything 的思路:不是把文档转成纯文本,而是保留原始模态,让每种内容都走自己的处理通道。

 二、核心架构:多模态流水线

 文档解析 → 内容分析 → 知识图谱 → 智能检索

 1. 文档解析

 支持:PDF、Office 文档、图片、TXT、Markdown。

 核心技术是 MinerU 集成——高保真文档结构提取,保留原始布局和语义关系。

 2. 内容分析

 自动分类内容类型,走不同处理通道:

 • 视觉内容分析器:VLM 分析图片,生成描述 caption

 • 结构化数据解释器:处理表格,识别数据趋势

 • 数学表达式解析器:解析 LaTeX,建立公式知识关联

 • 可扩展模态处理器:支持自定义内容类型的插件框架

 3. 知识图谱

 建立多模态知识图谱,不是只建文本向量:

 • 提取多模态实体

 • 建立跨模态关系(文字↔图片↔表格↔公式)

 • 保留层次结构(belongs_to 关系链)

 • 加权关系评分

 4. 混合检索

 • Vector-Graph Fusion:语义嵌入 + 结构关系双重检索

 • Modality-Aware Ranking:根据查询类型调整内容排名

 • Relational Coherence:保证检索结果的关联一致性

 三、和传统 RAG 的区别

特性 RAG-Anything 传统 Text RAG
表格处理 ✅ 结构化解析 ❌ 纯文本
图表理解 ✅ VLM 分析 ❌ 无
公式处理 ✅ LaTeX 原生 ❌ 乱码
知识图谱 ✅ 跨模态关系 ❌ 仅文本向量
多模态查询

 四、基于 LightRAG

 RAG-Anything 基于 LightRAG 构建——HKUDS 的另一个开源项目,冲过 10k stars 的项目。

 LightRAG 的特点:轻量、快速、支持图结构检索。RAG-Anything 在此基础上扩展了多模态能力。

 五、适合谁用?

 适合:

 • 处理复杂文档的开发者(论文、财报、技术文档)

 • 需要理解图表/表格/公式的 RAG 应用

 • 学术研究(处理 LaTeX 论文)

 • 企业知识管理(处理混合内容文档)

 不太适合:

 • 纯文本文档(用传统 RAG 即可,overkill)

 六、安装使用

  # pip 安装
pip install raganything
pip install 'raganything[all]'  # 完整版

# 代码使用
from raganything import RAGAnything, RAGAnythingConfig

config = RAGAnythingConfig(
    parser="mineru",
    enable_image_processing=True,
    enable_table_processing=True,
    enable_equation_processing=True,
)

rag = RAGAnything(config=config, ...)

# 处理文档
await rag.process_document_complete("document.pdf")

# 多模态查询
result = await rag.aquery_with_multimodal("解释这个公式", image_data=...)

 📋 文章信息
 • 字数:约 1300 字
 • 阅读时间:3 分钟
 • 参考资料:GitHub / HKUDS/RAG-Anything