乐于分享
好东西不私藏

这个开源框架,让AI真正"看懂"你的文档

这个开源框架,让AI真正"看懂"你的文档

你的文档,AI真的看懂了吗?

你有没有试过让AI读一份含图表的PDF?

结果往往是——文字读懂了,图片说”无法识别”,表格说”格式不支持”,数学公式直接变成乱码。

这是传统RAG的通病:只能处理纯文本,一遇到图片、表格、公式就傻眼。

今天介绍的这个框架,叫RAG-Anything。16,600颗星,香港大学团队开发,GitHub趋势榜常客。它的核心目标就一个——让AI能真正读懂你的多模态文档。

一个痛点催生的框架

现代文档早就不是纯文本了。

一份年报,有文字、有折线图、有数据表格、有公式。一份技术文档,有流程图、有截图、有代码块。传统RAG遇到这些,只能”选择性失明”——把所有非文本内容全部忽略。

要么,就得接七八种不同的处理工具,拼一套复杂 pipeline。用三四个框架,才能勉强cover一种文档类型。

RAG-Anything解决的就是这个问题。它是一个All-in-One的多模态RAG框架——不管你的文档是PDF、Word、图片还是混在一起的,一个框架全部搞定。

它是怎么工作的?

简单说,四步走:

第一步:文档解析。 统一处理文本、图片、表格、公式,提取每种内容的关键信息。

第二步:内容分析。 对图片做视觉理解,对表格做结构化,对公式做语义解析。

第三步:知识图谱构建。 把所有内容关联起来,不是单纯切块存进去,而是建立跨模态的关联关系。

第四步:智能检索。 你问一个问题,它从文本、图表、公式多个维度同时召回答案。

核心基于 LightRAG(同一个团队的另一个项目,11k+ stars),加入了完整的多模态处理能力。

三个亮点

1. 全格式通吃

PDF、Office文档、图片,统一进一个管道处理。不需要你写七八个解析器。

2. VLM增强查询

文档里有图片?系统自动调用VLM(视觉语言模型)做分析,把图片里的信息一并作为上下文召回。不是简单OCR,是真正理解图片内容

3. 知识图谱辅助检索

不是把文档切成碎片扔进向量库就完事。RAG-Anything会从文档里提取实体和关系,构建知识图谱。这样当你问”这份报告里提到了哪几家竞争对手”——它能准确定位,而不是把相关段落乱召回一通。

谁适合用?

学术研究人员——论文里满是图表和公式,传统RAG根本没法处理。

金融分析师——年报、研报,表格和图是核心,信息密度高。

企业知识库——产品手册、技术文档,图文混排是常态。

技术文档团队——API文档里代码块、流程图混合,检索一直是个痛点。

一句话:只要你的文档里不只有文字,RAG-Anything就值得试试。

怎么用?

安装:

pip install raganything 

或者用uv:

uv add raganything 

基础用法:

from raganything import RAGAnyhow rag = RAGAnyhow() rag.load("your_document.pdf") answer = rag.query("这份文档的核心结论是什么?") print(answer) 

支持 text / image / table / equation 混合文档的直接查询。

RAG-Anything背后的趋势很明显:AI的竞争,已经从”能回答”进化到”能理解”了。

纯文本理解,是上一代的事。现在真正的门槛,是多模态——让AI真正看懂图表、读懂公式、理解图片里的信息。

香港大学这个团队(HKUDS)踩得很准。LightRAG + RAG-Anything,打的是一套组合拳。先建文本检索底座,再补多模态能力,思路清晰。

这类工具的真正价值,不是给开发者炫技,是让企业知识库的可用性提升一个档次。以前要用3个工具处理的文档,现在一个框架搞定。

这是RAG领域的”大一统”思路。值得持续关注。

今天GitHub开源项目 > HKUDS/RAG-Anything · 16.6k⭐   > All-in-One多模态RAG框架,一套处理文字、图表、公式、表格   > https://github.com/HKUDS/RAG-Anything