AI 怎么才能不瞎编?——RAG 检索增强生成全解析

本文是「AI 基础设施科普」系列第 6 篇。上一篇我们聊了 AI Agent——AI 从"只会说话"变成"会自己干活"。但 Agent 再能干，如果脑子里装的是过时的知识、或者干脆就是编的，那干出来的活也不靠谱。今天我们就来聊一个让 AI "有据可依"的关键技术——RAG。

一、AI 最大的问题：会编

你可能遇到过这种情况——问 AI 一个专业问题，它回答得头头是道，但你一查，全是编的。

这不是个别现象。大语言模型有三个"先天缺陷"：

缺陷	说明	例子
知识截止	训练数据有截止日期，之后的事它不知道	2026 年 5 月的新政策，GPT-5.4 的训练数据可能到 2025 年底
幻觉	不确定的也会自信回答，一本正经胡说八道	编造不存在的论文、虚构法律条文
没有私有知识	企业内部文档、个人笔记，它一概不知	问它"我们公司的差旅报销标准"，它只能猜

RAG 就是解决这些问题的核心技术。

RAG 全称 Retrieval-Augmented Generation（检索增强生成），听起来复杂，核心思想四个字：先搜再答。

举个生活类比：

你去医院看病，医生不会凭记忆给你开药——他会先翻你的病历、看检查报告，再根据这些信息做判断。
普通的大模型就像一个不看病历就开药的医生，全凭脑子里的记忆；RAG 就像先翻病历再看检查报告的医生，有据可依。

二、RAG 怎么工作？三个步骤

RAG 的工作流程可以拆成三步：

第一步：检索（Retrieve）

把你的问题丢进知识库，搜出最相关的内容。就像在图书馆用关键词查书——只不过 RAG 用的是"语义搜索"，不要求关键词完全匹配，而是理解你问题的意思来找。

第二步：增强（Augment）

把搜到的内容和你的问题拼在一起，组成一个"增强版提示词"。相当于给 AI 递了一份参考资料——“这是相关的背景信息，请基于这些来回答”。

第三步：生成（Generate）

大模型基于增强后的提示词生成回答。这时候 AI 就不是凭空编了，而是基于你给它的资料来组织答案。

一个真实例子：

你问：“我们公司 2026 年 Q1 的销售额是多少？”

• 没有 RAG：AI 说"根据公开信息，2026 年 Q1 该公司销售额约为……"（编的）
• 有 RAG：

1. 检索：从公司内部知识库中搜到"2026 年 Q1 财报摘要"
2. 增强：把财报摘要拼进提示词
3. 生成：AI 基于财报数据回答——“根据公司财报，2026 年 Q1 销售额为 1.23 亿元，同比增长 15%”

关键区别：AI 从"凭记忆猜"变成了"照资料答"。

三、RAG 不只是"搜一下"——从朴素到智能的进化

最基础的 RAG（学术界叫 Naive RAG）就是把文档切块、向量化、检索、拼 Prompt、生成，一条线走完。简单，但问题也多——搜不准、搜不全、搜到垃圾也照用。

2024-2026 年，RAG 经历了快速进化，目前已经发展出十几种变体。按解决的问题分类，最重要的几代：

第一代：Naive RAG（朴素 RAG）

最基础的实现。文档切块 → 向量化入库 → 向量检索 → 拼接生成。

问题：切块可能截断语义（把一段完整论述切成两半），检索依赖向量质量，搜到不相关的内容也照用不误。

第二代：Advanced RAG（高级 RAG）

针对 Naive RAG 的每个环节做了优化：

优化点	做法	效果
语义分块	不按固定字数切，而是按语义段落切	完整保留上下文
混合检索	向量检索（理解意思） + 关键词检索（精确匹配），两路结果融合排序	兼顾语义理解和精确召回
精排（Reranking）	检索完再用 Cross-Encoder 重新打分，把最相关的排到前面	过滤掉不相关的噪声

生产级 RAG 的基本配置三板斧：语义分块 + 混合检索 + 精排。 几乎所有生产环境都建议这么做。

第三代：反思型 RAG

前两代都是"搜完就用"，不管搜到的内容质量如何。反思型 RAG 加了"质检员"：

• CRAG（Corrective RAG）：搜完先判断相关性。相关的用，不相关的自动转 Web 搜索兜底，模糊的合并两边结果
• Self-RAG：全流程四个检查点——需要检索吗？文档相关吗？回答有依据吗？答案有用吗？每个环节都自我审查

第四代：Agentic RAG（智能体 RAG）

这是 2026 年的生产主流范式。

前面几代都是固定流水线——检索 → 增强 → 生成，走完就结束。Agentic RAG 让 Agent 自主决策：需要查哪些数据源？检索结果够不够？不够就换个方式再搜，或者同时查多个来源，直到信息充足再回答。

你可能已经用过了——Cursor 在编程时自动检索代码库，就是 Agentic RAG 的典型应用。

还有两个重要方向

GraphRAG：微软 2024 年提出。先用 AI 从文档中抽取实体和关系，构建知识图谱，查询时沿图谱推理。擅长"跨文档多跳推理"——比如"A 公司的子公司 B 持有 C 公司的股份，C 公司的 CEO 是谁？"这种需要串联多篇文档的问题。但构建成本高、查询延迟大。

多模态 RAG：把图片、表格、文本统一编码，检索时跨模态匹配。企业文档里那些流程图、架构图，终于也能被搜到了。

四、一个关键问题：上下文窗口那么大，还需要 RAG 吗？

2026 年，GPT-5.5 Pro 和 Claude Opus 4.7 的上下文窗口已经到了 1M Token（约 75 万字），Gemini 3.1 Pro 甚至到了 2M。把文档全塞进去不就行了？

不能。 三个原因：

1. 太贵

1M Token 的输入，用 GPT-5.5 Pro API 一次就要几十美元。如果有 10 万份文档，总字数远超 1M——你不可能把所有文档都塞进去。

2. 太慢

上下文越长，模型处理越慢。1M Token 的推理延迟比 10K Token 高一个数量级。

3. Lost in the Middle

我们在上一篇文章聊过——大模型对超长上下文的中间部分注意力会下降。你塞了 100 页资料进去，它可能只认真看了开头和结尾，中间 80 页都"忽略"了。

所以最佳实践是 RAG + 长上下文互补：先用 RAG 精准检索出最相关的几段内容（可能就几千 Token），再用长上下文模型对这些内容做深度推理。不是二选一，而是搭档。

五、普通人怎么用上 RAG？

不需要自己搭系统，很多产品已经内置了 RAG：

对话式产品

• ChatGPT Deep Research：自动搜索互联网资料，基于检索结果写深度报告
• Perplexity：每次回答都附带引用来源，你可以点击验证
• Kimi / 秘塔 AI 搜索：国内支持长文档上传 + 联网搜索的 RAG 产品

编程场景

• Cursor：自动检索你的代码库，基于项目上下文写代码
• GitHub Copilot：基于当前项目文件和上下文补全代码

知识管理

• Notion AI：基于你的 Notion 工作区内容回答问题
• Obsidian + 插件：基于本地笔记库检索回答
• 各种企业知识库产品：钉钉 AI、飞书智能助手、腾讯文档 AI

想自己搭？入门路径：

1. 先用 LangChain 或 LlamaIndex 跑通 Naive RAG（半天搞定）
2. 加上混合检索 + 精排（1-2 天）
3. 发现哪个环节有瓶颈再针对性优化
4. 切勿一上来就搞 GraphRAG + Multi-Agent 全家桶——先让基础跑起来

六、RAG 的局限

RAG 很有用，但不是银弹：

1. 检索质量是天花板

RAG 的回答质量上限取决于检索质量。如果知识库里没有相关内容，或者搜不到，RAG 也救不了。所谓"垃圾进，垃圾出"。

2. 向量化会丢信息

把一段文字压缩成一个高维向量，必然有信息损失。微妙的法律措辞、技术细节的精确匹配，向量检索可能抓不准。这也是为什么混合检索（向量 + 关键词）很重要。

3. 知识库维护成本

文档更新了、结构变了、新知识产生了——知识库需要持续维护。很多企业 RAG 项目上线后效果衰退，就是因为知识库没人更新。

4. 多跳推理仍然困难

"A 的创始人投资了哪些公司？那些公司的最新估值是多少？"这种需要串联多步推理的问题，Naive RAG 做不好，GraphRAG 能做但成本高。

5. 隐私和安全

RAG 让 AI 能读取企业私有数据，那谁有权限查什么？敏感信息会不会通过 RAG 被越权访问？企业部署 RAG 时，权限管控是必答题。

七、一句话总结

RAG 让 AI 从"凭记忆答题"变成"开卷考试"——先搜资料再回答，有据可依，减少瞎编。 从最基础的"切块检索"到 2026 年主流的"智能体自主检索"，RAG 已经经历了四代进化。如果你想让 AI 基于你自己的数据回答问题，RAG 是目前最成熟的方案。

下一篇我们聊 RAG 背后的搭档：工具调用（Tool Use）——AI 怎么从"只会说话"变成"会动手干活"。

系列传送门

• 第1期：AI 时代的「插件革命」—— Skills 全解析
• 第2期：AI 的「记忆」是怎么工作的？——Memory 机制全解析
• 第3期：同一个问题，为什么 AI 每次回答都不一样？——Prompt 工程入门
• 第4期：AI 聊着聊着就"变笨"了？——上下文窗口深度解析
• 第5期：不只是"聊天机器人"——AI Agent 到底是什么？