不用向量库,PageIndex 把 PDF 检索讲清楚了

秋明札记|公众号文章秋明

记录 AI 和新工具，如何重写普通人的工作与学习方式

本篇不用向量库，PageIndex 把 PDF 检索讲清楚了

不用向量库，PageIndex 把 PDF 检索讲清楚了

很多人做 RAG，第一步就是切块、向量化、塞进向量库。

这套流程太熟了，熟到我们有时候忘了问一句：如果文档本来就有目录、章节、表格和脚注，为什么非要先把它切碎？

这也是我这次看 PageIndex 最有意思的地方。

它不是又做了一个更会“搜相似段落”的工具，而是换了一个起手式：先把长 PDF 还原成一棵树，再让模型顺着这棵树去找答案。

对长篇专业文档来说，最重要的可能不是搜得快，而是别把结构先弄丢。

PageIndex 到底改了哪一步

PageIndex 是 VectifyAI 开源的一个文档索引工具。官方给它的定位很直接：vectorless、reasoning-based RAG。

说成人话，就是不用 embedding，不先依赖向量数据库，也不把文档切成一堆孤立 chunk。

它会先把 PDF 变成一个类似目录的层级树。每个节点对应一段自然结构，比如章节、子章节、页码范围和摘要。然后模型不是一次性去全库里捞 Top-K，而是像人读年报一样，先看目录，再判断该进哪一层，再继续往下找。

这件事听起来不复杂，但它戳中了传统 RAG 在长文档里的一个老问题。

很多检索失败，不是模型不会回答，而是它一开始拿到的材料就不对。

比如你问一份 10-K 财报里的某个收入变化，向量检索可能找到一堆“收入”“增长”“业务分部”相似的段落。但真正的答案也许藏在某个表格、脚注，或者一个小节下面。词很像，不等于证据真的对。

98.7% 这个数字要怎么看

这次 PageIndex 被很多人注意到，是因为 VectifyAI 的 Mafin 2.5。

按照官方博客和评测仓库的说法，Mafin 2.5 基于 PageIndex，在 FinanceBench 上取得了 98.7% 的准确率。FinanceBench 是一个金融问答基准，问题来自上市公司公开材料，很多任务都要从 SEC 备案文件里找到答案和证据。

这个数字确实亮眼。

但我会稍微加一个括号：98.7% 是 Mafin 2.5 这个金融 RAG 系统在 FinanceBench 上的结果，不应该简单理解成“只要装了 PageIndex，所有 PDF 问答都能 98.7%”。

官方首页还给过一个对比：传统向量 RAG 的两种设置大约在 30% 和 50%，PageIndex 方案是 98.7%。这个对比很有冲击力，但它更适合作为方向提示，而不是万能结论。

真正值得记住的是后面那层原因。

金融报告这种文档，天生就是层级化的。章节、表格、附注、页码、披露口径，很多答案依赖结构。你把它粗暴切碎以后，再用相似度去找，就很容易把“看起来相关”和“真正回答问题”混在一起。

PageIndex 的价值，是让 AI 先学会按结构找材料。

它适合什么，不适合什么

我觉得 PageIndex 最适合三类东西。

第一类是财报、招股书、SEC 文件。它们长，而且结构稳定。

第二类是合同、政策、规范、技术手册。你经常不是要泛泛总结，而是要找到某个条款、某个定义、某个例外。

第三类是教材、论文合集、研究报告。问题往往不是“有没有这个词”，而是“这个概念在哪一章被定义，后面又如何展开”。

这些场景里，目录不是装饰。目录本身就是检索路径。

但它也不是没有代价。

PageIndex 需要先生成树状索引，检索时还要让模型多次判断该走哪一层。这意味着更多 LLM 调用，也就是更高成本和更长延迟。对便宜、快速、模糊的资料搜索来说，向量库依然很实用。

另外，如果资料本身很乱，比如聊天记录、网页碎片、扫描质量差的材料、没有明显层级的杂项知识库，PageIndex 也未必占便宜。你得先把结构清出来，它才有东西可走。

不是所有知识库都需要一棵树，但长文档一旦有结构，就不该只当一袋词来搜。

对普通人有什么用

普通人未必马上要部署 PageIndex。

但它给了我们一个很实用的提醒：以后让 AI 读长 PDF，不要一上来就问答案。

可以先让它做三件事。

先生成目录和章节摘要。

再让它说明为了回答这个问题，应该进入哪几个章节。

最后再要求它给出页码、章节名和原文证据。

这其实就是 PageIndex 背后的工作习惯。

你不一定要先搭一套复杂系统，也可以先改变提问方式。尤其是处理合同、年报、说明书、论文的时候，不要把 AI 当成全文搜索框，而要把它当成一个会翻目录的助理。

如果它连自己从哪里找到答案都说不清，那答案写得再顺，也只能先打个问号。

我更在意的是这件事

过去两年，RAG 的很多讨论都围着向量库、chunk size、rerank、embedding 模型打转。

这些当然重要。

但 PageIndex 把另一个问题推到了台前：文档本来是什么形状，AI 有没有尊重这个形状？

对于短文本和泛检索，向量相似度很好用。可一旦进入专业长文档，尤其是财务、法律、医学、工程这些领域，很多错误都不是因为模型不聪明，而是因为系统一开始就把上下文拆坏了。

PageIndex 不一定会替代传统 RAG。

但它很清楚地提醒了一件事：以后做文档 AI，不能只问怎么搜得更快，也要问怎么读得更像一个靠谱的人。

参考资料

VectifyAI/PageIndex，
https://github.com/VectifyAI/PageIndex

PageIndex Leads Financial QA Benchmark，
https://pageindex.ai/blog/Mafin2.5

VectifyAI/Mafin2.5-FinanceBench，
https://github.com/VectifyAI/Mafin2.5-FinanceBench

FinanceBench: A New Benchmark for Financial Question Answering，
https://arxiv.org/abs/2311.11944

留言区

如果让 AI 帮你读一份很长的 PDF，你最担心它漏掉哪类信息？

秋明札记记录，是为了更好地理解；理解，是为了更从容地前行。秋明札记