这个开源框架,让AI真正＂看懂＂你的文档-夜雨聆风

这个开源框架,让AI真正＂看懂＂你的文档

你的文档，AI真的看懂了吗？

你有没有试过让AI读一份含图表的PDF？

结果往往是——文字读懂了，图片说”无法识别”，表格说”格式不支持”，数学公式直接变成乱码。

这是传统RAG的通病：只能处理纯文本，一遇到图片、表格、公式就傻眼。

今天介绍的这个框架，叫RAG-Anything。16,600颗星，香港大学团队开发，GitHub趋势榜常客。它的核心目标就一个——让AI能真正读懂你的多模态文档。

现代文档早就不是纯文本了。

一份年报，有文字、有折线图、有数据表格、有公式。一份技术文档，有流程图、有截图、有代码块。传统RAG遇到这些，只能”选择性失明”——把所有非文本内容全部忽略。

要么，就得接七八种不同的处理工具，拼一套复杂 pipeline。用三四个框架，才能勉强cover一种文档类型。

RAG-Anything解决的就是这个问题。它是一个All-in-One的多模态RAG框架——不管你的文档是PDF、Word、图片还是混在一起的，一个框架全部搞定。

简单说，四步走：

第一步：文档解析。 统一处理文本、图片、表格、公式，提取每种内容的关键信息。

第二步：内容分析。 对图片做视觉理解，对表格做结构化，对公式做语义解析。

第三步：知识图谱构建。 把所有内容关联起来，不是单纯切块存进去，而是建立跨模态的关联关系。

第四步：智能检索。 你问一个问题，它从文本、图表、公式多个维度同时召回答案。

核心基于 LightRAG（同一个团队的另一个项目，11k+ stars），加入了完整的多模态处理能力。

PDF、Office文档、图片，统一进一个管道处理。不需要你写七八个解析器。

文档里有图片？系统自动调用VLM（视觉语言模型）做分析，把图片里的信息一并作为上下文召回。不是简单OCR，是真正理解图片内容。

不是把文档切成碎片扔进向量库就完事。RAG-Anything会从文档里提取实体和关系，构建知识图谱。这样当你问”这份报告里提到了哪几家竞争对手”——它能准确定位，而不是把相关段落乱召回一通。

学术研究人员——论文里满是图表和公式，传统RAG根本没法处理。

金融分析师——年报、研报，表格和图是核心，信息密度高。

企业知识库——产品手册、技术文档，图文混排是常态。

技术文档团队——API文档里代码块、流程图混合，检索一直是个痛点。

一句话：只要你的文档里不只有文字，RAG-Anything就值得试试。

安装：

pip install raganything

或者用uv：

uv add raganything

基础用法：

from raganything import RAGAnyhow rag = RAGAnyhow() rag.load("your_document.pdf") answer = rag.query("这份文档的核心结论是什么？") print(answer)

支持 text / image / table / equation 混合文档的直接查询。

RAG-Anything背后的趋势很明显：AI的竞争，已经从”能回答”进化到”能理解”了。

纯文本理解，是上一代的事。现在真正的门槛，是多模态——让AI真正看懂图表、读懂公式、理解图片里的信息。

香港大学这个团队（HKUDS）踩得很准。LightRAG + RAG-Anything，打的是一套组合拳。先建文本检索底座，再补多模态能力，思路清晰。

这类工具的真正价值，不是给开发者炫技，是让企业知识库的可用性提升一个档次。以前要用3个工具处理的文档，现在一个框架搞定。

这是RAG领域的”大一统”思路。值得持续关注。

今天GitHub开源项目 > HKUDS/RAG-Anything · 16.6k⭐ > All-in-One多模态RAG框架，一套处理文字、图表、公式、表格 > https://github.com/HKUDS/RAG-Anything