AI 概念日志 · 第 006 讲|RAG:让 LLM 先翻书再答
episode:006
title:AI 概念日志 · 第 006 讲
#RAG
>让 AI 不再瞎编的关键技术.
每隔几个月,AI 圈就会冒出一波「RAG 已死」的论调。理由听起来很有道理:长上下文窗口都到 100 万 token 了,把整本书塞进去问就行,何必折腾向量检索。
但同一时段的另一组数据是:2025 年企业 RAG 部署增长 280%;LinkedIn 用 RAG + 知识图谱把客服解决时间砍了 28.6%;Perplexity 靠 RAG 做到 4500 万月活、4.5 亿美元年化收入、估值 200 亿。
「RAG 已死」和「RAG 在创历史新高」同时为真——这本身就是个值得搞清楚的反常识。
前 5 讲讲 AI 怎么动手(Agent 四部曲)。这一讲讲 AI 怎么知道。
##一句话理解
RAG 是在 LLM 回答问题前,先从外部资料里找出几段相关内容,连同问题一起塞进 prompt 的一种方法。
如果只能记一句话:让 LLM 不要凭记忆回答,先翻书再答。
##它解决了什么问题
LLM 的三个原生缺陷,一个 RAG 全解
– Before RAG
LLM 单干有三个跨不过去的坎:知识有截止日期(训练完就冻结)、不知道你的私有数据(公司 Wiki / 客户合同它没见过)、容易瞎编(即使在它知识范围内)。
这三件事,靠把模型训练得更大解决不了。前两件本质上做不到,第三件只能缓解。
+ After RAG
RAG 用同一个机制同时解决三件:用户提问 → 系统先去外部知识库里搜相关段落 → 把段落 + 问题一起塞给 LLM → LLM 基于这些段落生成回答,并标注来源。
知识库实时更新解决知识截止;知识库放你公司内部文档解决私有数据;LLM 看着原文回答 + 给引用解决瞎编。一个机制三个收益。
RAG 是 2020 年 Patrick Lewis 等人在 NeurIPS 论文里提出的(Facebook AI Research,现 Meta AI)。Lewis 后来在 NVIDIA 采访里公开「为这个不雅缩写道歉」——他说当年起名时没想到会火成这样,现在他在 Cohere 领衔 RAG 团队。
##怎么工作的
两个阶段,五个步骤
RAG 分两段:离线建索引(一次性做好),在线查询(每次提问做)。
// STAGE 01 · 离线 · INDEXING
▸切块 + 向量化 + 入库
把所有文档(PDF / 网页 / Wiki / 工单)切成小段(chunking),用 embedding 模型转成向量,存进向量数据库(Pinecone / Weaviate / Qdrant 等)。这一步是离线的,做一次就行。
// STAGE 02 · 在线 · QUERYING
▸检索 → 增强 → 生成
用户问题来了,三步:
1. RETRIEVE 问题向量化 → 在库里找最相似的 K 段 2. AUGMENT 把 K 段拼到 prompt 里:「以下是相关资料: ...」 3. GENERATE LLM 基于这些资料生成回答 + 引用来源
关键观察:RAG 真正难的不是向量搜索
大众以为「RAG = 向量搜索」,错。向量搜索只是五步里的一步。RAG 真正难的是切块(切得不对,相关段落根本搜不出来)和重排(reranking)(搜出来还得二次排序,否则 LLM 拿到的是噪声)。
还有 2023 年 Stanford 的「Lost in the Middle」论文:LLM 在长上下文中呈 U 型性能曲线——开头和结尾的信息记得住,中间的容易丢。GPT-4 / Claude / Gemini 都躲不过。所以 RAG 的真价值是:不是给 LLM 更多资料,而是把对的资料放在对的位置。
##真实产品案例
从经典 RAG 到 Agentic RAG · 三个跨光谱案例
CASE_01.md · 经典 RAG / C 端
Perplexity · 把 RAG 做成独立搜索产品
Perplexity 是 RAG 最成功的 C 端案例:你问问题,它实时搜网页 → 检索相关段落 → LLM 回答 + 标引用。2026 年 3 月数据:4500 万月活、10 亿月查询量、4.5 亿美元年化收入、估值 200 亿。后端用 Vespa.ai 把向量、关键词、排序统一在一个栈里。
// 用户感知:把 RAG 做到极致,本身就能挑战 Google 搜索
CASE_02.md · GraphRAG / B 端
LinkedIn 客服 · 把工单变成知识图谱
LinkedIn 客服团队发现,传统 RAG 把 Jira 工单当纯文本切块时,相同问题的描述和解决方案常被切散。他们的做法:把工单转成知识图谱(保留 issue 内部结构 + issue 之间的关系),再做检索。SIGIR 2024 论文公开数据:检索准确率 MRR 提升 77.6%,客服中位解决时间下降 28.6%,已生产部署 6 个月。
// 用户感知:当数据有强关系结构,GraphRAG 拿向量 RAG 拿不到的精度
CASE_03.md · Agentic RAG / 2026 前沿
Agentic RAG · 把 RAG 接进 ReAct 循环
2026 年企业 RAG 的主流形态。框架:LangGraph / Claude Agent SDK / LlamaIndex AgentQueryEngine。模式:Agent 规划 → 多轮检索 → 反思 → 再检索 → 答。Morgan Stanley 跑内部金融研究 Agent,PwC 用在税务合规,ServiceNow 嵌进 IT 工作流。市场预测:3.8 亿(2024)→ 1650 亿(2034)。
// 用户感知:用 EP_004 的 ReAct 决策算法去驱动 RAG,知识层 + 决策层合流
##你会在哪里遇到它
六个现实锚点
[01] Perplexity / Felo / You.com — C 端答案引擎,本质都是经典 RAG 包装。
[02] Notion AI Q&A、GitHub Copilot Chat — 在你的工作区/代码库里做 RAG。
[03] ChatGPT Enterprise / Claude for Enterprise — 连企业知识库做 RAG。
[04] Pinecone / Weaviate / Qdrant / Vespa — 向量数据库,RAG 的存储层。
[05] arXiv 2005.11401 — Lewis et al. 2020 RAG 原始论文(NeurIPS)。
[06] arXiv 2307.03172 — Lost in the Middle,解释为什么长上下文也救不了 RAG 该解决的问题。
##一个反常识观察
「RAG 已死」是错的,但「经典 RAG 已死」是对的。
每次有新模型发 100 万 token 上下文窗口,就会有一波「RAG 不再需要」的舆论。但这个论调有两个事实硬伤。
第一,长上下文 ≠ 长理解。Lost in the Middle 已经证明:把 90 万 token 资料一股脑塞进 prompt,LLM 倾向于只用开头和结尾的内容,中间会丢。U 型曲线在 GPT-4 / Claude / Gemini 上都重复出现。第二,成本扛不住——把整本书塞进 prompt,每次提问都跑 100 万 token 推理,按 API 计费可能是 RAG 方案的 50-100 倍。
但反过来说,2023 年那种「向量搜索 + 拼 prompt」的经典 RAG 流水线,确实正在被取代——不是被长上下文,是被两个新形态:
经典 RAG (2020-2023) 单轮: 检索 → 生成 GraphRAG (2024-) 知识图谱 + 向量混合,擅长多跳推理 Agentic RAG (2025-2026) ReAct 循环 + 多轮检索,Agent 自己决定查什么
所以这一讲最值得记住的话:RAG 不是给 LLM 找资料,是替 LLM 限制资料范围。瓶颈从来不是 LLM 不够大,是怎么把对的资料放在对的位置。
// FURTHER_READING
如果你已经懂本讲,下一讲推荐:
→第 007 讲|Embedding(向量嵌入):为什么向量搜索能找到「语义相似」,RAG 检索的底层
→第 008 讲|向量数据库:Pinecone / Weaviate / Qdrant 各自的定位与差异
→第 009 讲|Reranking(重排序):为什么搜出来还要再排一次,RAG 提质的关键一步
▸ 下一讲预告:第 007 讲|Embedding(为什么向量搜索能找到「语义相似」)
// AI 概念日志 · 永续栏目
每讲一个概念,看懂 AI 行业
@AI 产品日志
夜雨聆风