RAG 检索设计:如何从海量文档中找到真正有用的那几段-夜雨聆风

RAG 检索设计:如何从海量文档中找到真正有用的那几段

在很多企业落地 RAG时，一个常见误区是：大家把注意力都放在“选哪个大模型”，却忽略了一个更关键的问题——你给模型喂的上下文，是否真的“对”。

本质上，RAG 检索系统要解决的不是“找更多信息”，而是找到最可能包含答案的证据片段（chunks）。

一个工程上相对成熟的检索流程，通常包括以下几个关键层：

1. Query 理解层用户问题先被 embedding 成向量，这是语义检索的基础。往往需要 Query Rewrite 或分类增强提升召回率。

2. Metadata 过滤通过 chunk 的metadata结构化信息（如文档类型、时间、业务线），可以先过滤掉明显不相关的数据。举个例子：用户问“理赔规则”，你完全没必要让“营销文档”参与检索。

3 & 4. 双路召回：语义 + 关键词

两者本质是互补关系。只用向量，会漏掉精确术语；只用关键词，会听不懂“人话”。

通过这2种检索拿到top N chunks，比如top 50。

5. 多路融合（Fusion）把两路结果合并、去重。这一步的关键不是“拼起来”，而是如何平衡两种信号（比如加权、排序融合）。

6. Reranker 排序这是“从top 50条到top 5条”的关键一刀。Reranker 通常是一个更精细的模型（甚至是小型 cross-encoder），负责判断“这段内容和问题到底有多相关”。

7. LLM 生成最终只把 Top-K（比如5条）拼接进 Prompt，交给大模型生成答案。

RAG 的核心不是“接入大模型”，而是构建一套高质量的信息筛选机制。从 Query 到 Top-K，每一步都是在不断逼近“最有用的那几段内容”。

换句话说：LLM 决定你能说多好，检索系统决定你有没有东西可说。