PageIndex源码实测:所谓Vectorless RAG,核心不是“去向量”,而是“先结构后检索”

PageIndex源码实测：所谓Vectorless RAG，核心不是“去向量”，而是“先结构后检索”

先说结论：PageIndex 不是“无成本RAG捷径”。
它做的是把传统“切块+向量召回”的前置步骤，换成“目录树抽取+页码对齐+推理式定位”。

关键词就八个字：结构优先，推理检索。

……

一、从源码看，它不是一句口号

我按主链路看了 page_index.py / page_index_md.py / utils.py，流程大致是：

文档解析（PDF/MD）
目录检测（有TOC和无TOC两条路径）
结构树生成（章节节点、范围、摘要）
页码与 physical index 对齐
verify_toc 做抽样校验
发现偏差后进入重试修复（例如 fix_incorrect_toc_with_retries）

这不是“绕过工程”，恰恰是另一套更重的工程。

二、它为什么在长文档上有优势

传统向量召回在专业长文档里常见痛点是：

• 语义相似但问题不相关
• 溯源解释弱（为什么召回这段）
• 多章节推理容易断链

PageIndex 的打法是先建立章节树，再在树上做定位。

好处是：

• 引用更可追踪（章节/页码）
• 检索路径更可解释
• 对财报、制度、技术手册这类“结构化长文档”更友好

三、代价同样很真实

别被“no vector DB”误导成“更便宜更快”。

它的成本转移到了：

• 结构抽取和纠错的 token 消耗
• 多轮校验带来的时延
• 对模型稳定性的依赖

所以更准确的说法是：
去掉了向量库运维成本，但增加了结构推理成本。

四、到底什么时候该用

适合：

• 报告/白皮书/法务文本/审计文档
• 对可解释检索和可追溯引用有硬要求

不适合：

• 噪声极高、结构很烂的碎片语料
• 对毫秒级延迟极敏感的在线接口

一句话：如果你的痛点是“召回不准且没法解释”，PageIndex 这路子值得上；如果你只追求最低时延，它不一定是答案。

快问快答

Q：这是不是向量RAG的替代者？
A：更像补充路线，不是一刀切替代。

Q：会不会成为主流？
A：在高价值长文档场景，概率很高；在通用低成本场景，未必。

Q：落地第一步做什么？
A：先拿你们最痛的3份长文档做AB测试：准确率、可解释性、时延、成本四项一起看。

PageIndex源码实测:所谓Vectorless RAG,核心不是“去向量”,而是“先结构后检索”

PageIndex源码实测：所谓Vectorless RAG，核心不是“去向量”，而是“先结构后检索”

一、从源码看，它不是一句口号

二、它为什么在长文档上有优势

三、代价同样很真实

四、到底什么时候该用

快问快答

wang

猜你喜欢

评论抢沙发

PageIndex源码实测：所谓Vectorless RAG，核心不是“去向量”，而是“先结构后检索”

一、从源码看，它不是一句口号

二、它为什么在长文档上有优势

三、代价同样很真实

四、到底什么时候该用

快问快答

wang

猜你喜欢

评论 抢沙发

评论抢沙发