从 0 开始实现高效 AI 写作助手 – Day 4:硬核拆解 RAG,让 AI 拥有“过目不忘”的记忆力

导语：在上一篇文章，

Day3

公众号：徒手搓AI从 0 开始实现高效 AI 写作助手 – Day 3：拒绝一键生成，网文 AI 的三大终极形态

我们达成了共识：拒绝粗暴的一键生成，而是打造“全态护航”的 AI 助手。

可能很多懂行的朋友会立刻在心中抛出了一个极其尖锐的问题：就算我在「织梦引擎」里把世界观、人物性格设定得再详细，大模型的“上下文窗口”是有极限的。几百万字的小说，它怎么可能全都记住？每次推演剧情，难道要把几十万字的设定集全发给 AI 吗？那样不仅费用扛不住，AI 的回复速度也会慢如蜗牛，甚至会“读了后面忘了前面”。

为了让「织梦引擎 (DWE)」真正拥有“过目不忘”且极速响应的记忆力，我们必须在底层引入一项当今 AI 领域最核心的黑科技：RAG（检索增强生成）。

今天，我们就来硬核拆解 RAG 的工作机制，看看它是如何根治网文 AI“吃设定”这个绝症的。

什么是 RAG？给 AI 的“开卷考试”

RAG 的全称是 Retrieval-Augmented Generation。听起来吓人，说白了就两步：先检索（查资料），再生成（写答案）。

如果大模型是一个闭卷考试的文科生，RAG 就是允许它带着你亲手写的《设定设定集》进考场。当你要它推演剧情时，它不会全凭自己预训练的“常识”去胡编乱造，而是先翻开你的设定集，找到相关段落，再结合这些精准的前提来回答。

织梦引擎 RAG 运行全链路拆解

在 DWE 中，当你向侧边栏的“灵感副驾”提问：“基于前文，主角遇到这个反派该怎么脱身？”时，后台其实经历了两个极其精密的阶段：

第一阶段：数据准备（发生在码字之前）

当你把设定录入 DWE 的【众生相】和【森罗界】模块时，系统在后台悄悄做了这些事：

分片 (Chunking)：AI 无法一口吞下整部小说。系统会把你的长篇设定切分成一个个几百字的小片段（比如把主角的背景切一段，功法切一段）。

向量化 (Embedding) 与索引：这是最神奇的一步！系统通过特定的 Embedding 模型，把这一段段纯文本，变成了数学坐标系里的“向量”（一串长长的数字），并存入向量数据库中。在 AI 的视角里：含义越相近的文本，它们在数学坐标系里的“距离”就越近。（比如“铜戒指”和“神秘法宝”的向量距离会非常贴近）。

第二阶段：智能生成（发生在你卡文提问时）

当你在编辑器里发出指令，真正的魔法开始了：

极速召回 (Retrieval)：系统先把你的“问题”也变成向量，然后去数据库里算距离。从几十万字的设定中，瞬间“海选”出最相关的 10 个片段（比如主角当前的功法、反派的弱点）。这种向理量相似度计算速度极快，但稍微有些“粗糙”。
精准重排 (Reranking)： 10 个片段可能还有干扰项。为了精益求精，系统会使用更精密的 Cross-encoder 模型进行二次筛选。如果说“召回”是 HR 看简历海选，“重排”就是部门主管的严苛终面。它会把最最核心的 3 个设定片段死死咬住。
增强生成 (Generation)：最后，DWE 会把这 3 个绝对准确的设定片段，连同你的问题一起，打包发给本地的大模型。大模型基于这些铁证，立刻为你推演出一段逻辑严密、绝不 OOC（角色崩坏）的剧情走向！