检索→约束→验证→拒答,四个步骤把幻觉率压到2%

如果你玩过RAG(检索增强生成),一定有过这种体验:文档库越大,AI越容易“编”。从几百份文档扩展到几百万、上千万,幻觉问题像滚雪球一样膨胀——因为生成模型的天性就是“猜”,当检索回来的证据不够时,它就用自己的知识补全,补着补着就补出了谎言。
我们解决这个问题,不是换更大的模型,而是给普通模型装一套“安检系统”。这套系统的核心只有一个:拿不到证据,就老老实实说“不知道”。
整个方案分成四层防火墙:
检索:混合检索(稠密向量+BM25)+重排序,把最相关的证据捞上来;
约束生成:只允许从上下文里回答,每句话必须带引用,否则拒答;
验证:把答案拆成原子事实,逐条核对引文是否真的支持;
拒答:当证据支撑不足或检索置信度太低时,直接放弃回答。
我们的目标是两个:信任——在愿意回答的问题上几乎不编造;规模——索引能撑住1000万+向量,响应速度还在毫秒级。下面就从零开始,完整搭建这套流程。

动手之前先做两件小事:固定随机种子和锁定所有参数。RAG评测最怕不重现——今天跑一个结果,明天跑另一个,等于白测。
def set_terminism(seed: int):random.seed(seed)np.random.seed(seed)os.environ["PYTHONHASHSEED"] = str(seed)torch.manual_seed(seed)torch.cuda.manual_seed_all(seed)
我们用的硬件是一张H100(80GB显存),生成模型是Qwen3-32B,嵌入和重排序用Qwen3-4B。生成器单独跑在一个vLLM服务里,笔记本只发请求,这样反复跑不用重载模型。
关键配置拍在这里:
分块大小:256 tokens,重叠32
初检索150条,重排序后保留20条
最多允许3次“修正检索”循环
验证阈值和拒答阈值都设为0.3(后面会调)
所有模型都是本地开源权重,数据不出机器——这是私有化部署的前提。

选HotpotQA的distractor版本,原因很实在:每个问题都带句子级的黄金支持事实,方便评测检索召回率;而且它附带的Wikipedia段落直接构成真实语料。另外从SQuAD v2里抽了“不可回答问题”,再手写几条“假前提”问题——唯一能测幻觉的办法,就是问那些语料里根本不存在答案的问题,看系统会不会闭嘴。
数据长这样:2万多段文本,平均每段89个词,短小精悍。随便看一条:
问:Scott Derrickson和Ed Wood是同一国籍吗?答:是(比较型问题)黄金证据:两人都是美国人。
这条问题我们会贯穿全文,因为它能让每个环节都看得清清楚楚。

索引之前必须洗数据。两步最划算:
归一化:用NFKC把奇怪字符转成标准形式,BM25分词时不会把“fi”拆成“fi”导致漏召回。
去重:用MinHash LSH近似去重,比两两比对快得多。19份完全重复的段落被剔除,从20006条降到19986条。去重不止省空间,还能防止同一信息霸占前排结果,误导模型过度信任单一来源。

固定长度切分是坑——它会把一个完整的句子从上下文里撕出来,多跳问题就废了。所以我们按句子边界打包,不超过256 tokens,带32 tokens重叠。
更关键的一步:给每个分块加一句“情境说明”。比如原始块是“Ed Wood是一部1994年的美国传记喜剧电影……”,检索时光靠这句话搜不准。我们让本地模型给每块生成一句≤25词的介绍:“这段介绍的是Tim Burton执导的电影《艾德·伍德》,讲述了其主角和演员阵容。”然后把这句话拼在原文前面一起索引。
这招成本极低(每块一次短生成),但召回率提升明显。因为召回是整个防幻觉体系的地基——验证器只能基于检索到的证据做判断。

三套模型挤在同一张H100上:嵌入、重排序、验证(复用生成器)。每一步都盯紧显存:
加载重排序器后:占用54.3GB(剩25.7GB余量)
加载在线嵌入器后:峰值约62GB,还在安全区
重排序用的是交叉编码器,不是双编码器——它会把问题和文档拼在一起做联合打分,精度远高于单纯向量相似度。虽然慢,但我们只对前150个候选做,成本固定,不随语料库大小增长。
验证器直接用32B大模型做事实核查,因为小NLI模型在长文本多段落场景下容易漏判。这个判断器是整个“近零幻觉”的心脏。

单一检索方式不够用:
稠密向量(Qwen3-Embedding)擅长语义相似,但会把专有名词、ID、数字模糊掉;
BM25(稀疏索引)擅长精确匹配人名、编号,但抓不住同义改写。
所以我们两个都建,存成LanceDB格式,直接在NVMe上读,不走内存。2万多个分块,索引只有11MB,但重点是同样的代码可以扩展到千万级而不用改一行——因为LanceDB是磁盘存储,内存放不下也没关系。

融合用RRF(倒数排名融合)——不看分数,只看排名。每条结果权重=1/(k+排名),两个列表的权重相加。这样两个检索器都认可的结果会自然上浮。
比如稠密排[a,b,c],稀疏排[b,c,a],融合后b排第一,因为它两边都靠前。这就是“共识优先”的逻辑。
融合取150条,然后重排序打分,取前20条进入生成。在我们的例子里,两个黄金段落分别拿到0.999和0.996的高分,排在Top2,不相关的电影介绍只有0.796。全量评测中上下文召回率达到0.97——检索这关过了。

不是所有问题都需要全套流程。问候语、观点类问题直接打上“无需检索”,简单事实查一个段落就行,多跳问题才需要拆分子问题。
我们的路由器把问题分成三类,并会检测“假前提”——比如“牛顿在1700年发明了哪种编程语言?”这种荒谬问题,路由器先标记,但不会硬性拒答,而是交给后续的证据链去判断。
拆解器会把多跳问题拆成自包含的小问题,比如“Scott Derrickson的国籍是什么?Ed Wood的国籍是什么?”——这样后续检索更精准。

生成时的系统提示词写死三条:
只能用上下文中的事实,严禁外部知识;
如果上下文没有答案,就回复
INSUFFICIENT_EVIDENCE;每句话末尾必须标注引用段落ID。
生成后我们会解析引用标记,只保留那些确实存在于本次检索结果中的ID——模型如果瞎编一个引用,直接删掉,连用户都看不见。
我们的例子生成回答:“是的,两人都是美国人 [id1][id2]。”引用全合法,通过初步筛选。
但注意:有引用不代表事实正确——模型可能引了真实段落却读错了内容。所以下一道门才是真正的杀手锏。

这是整条管线最关键的一步。我们把答案拆成“原子事实”——独立可验证的最小陈述。然后对每个事实,用验证器对着引用的原文打分(0~1)。
我们的例子答案拆成三条:
“Scott Derrickson是美国人”→ 1.00
“Ed Wood是美国人”→ 1.00
“两人国籍相同”→ 1.00
全部超过阈值0.3,通过。
但如果是假问题,比如“玛丽·居里登月了”,拆成“居里是物理学家”(0.95)和“居里登上月球”(0.20)。第二个事实低于阈值,整个答案被判不合格,直接转为拒答。这就是“取最低分”原则——一条链的强度取决于最弱的一环。
如果答案只是轻微不准确,我们给它一次修正机会(CoVe循环),重写不支持的句子,重新验证。

拒答不是失败,而是系统的正常输出。我们把所有信号综合起来做决策:
路由判定“无需检索”→ 拒答
模型主动发出
INSUFFICIENT_EVIDENCE→ 拒答验证门任一事实不通过 → 拒答
假前提标记只是参考,不硬性拦,让证据自己说话
最终返回给用户的是一条平淡但诚实的:“我没有足够的证据来自信地回答这个问题。”——而不是一本正经的胡诌。

我们用LangGraph把流程编成带循环的图,而不是一条直线。状态包括:问题、路由、证据、评分、草稿、验证结果、尝试次数。
节点如下:
路由:决定是否走检索
检索:获取证据
评分:判断当前证据是否足以回答(打分0~1)
修正:如果证据偏弱(0.4~0.7),拆解问题、扩展查询,重新检索,最多3次
生成:证据充足(≥0.7)才生成
验证:通过验证门
最终:输出回答或拒答
在我们的例子里,首次评分就是1.0,直接生成,整个过程总耗时4.6秒。而假问题“牛顿发明了哪种编程语言?”检索评分只有0.15,直接走拒答,耗时3.3秒,因为省掉了生成和验证。

我们构建了200条测试题:100条可回答(来自HotpotQA),100条不可回答(来自SQuAD v2+手写荒谬题)。结果如下:
| 2 | 98 |
不可回答问题中,系统只答了2条,拒答98条——幻觉率仅2%。 这个“不可回答&回答”的单元格就是幻觉的藏身之地,而我们的系统把它压到了极低。
当然,代价是覆盖度——可回答问题只回答了46%,其余也拒了。这是一个明确的权衡:宁可沉默,也不胡说。 阈值可以调,如果业务允许5%的幻觉,覆盖度可以更高。下图是风险-覆盖曲线,你可以根据场景选择平衡点。

验证器是整个门禁的命门,所以必须单独评测。我们用HaluBench(人工标注的忠实/幻觉答案集)测试验证器的判别能力,得到AUROC=0.702——显著好于随机,但远非完美。这意味着验证器还有很大提升空间,而整个架构已经设计成可以随时替换更强的验证器,其他部分不用改。

前面的质量测试是在2万片段上做的,但标题说了“1000万+文档”,必须实测规模。
我们用合成1024维向量,分别建10万、100万、1000万的LanceDB索引,并用IVF_PQ近似索引。结果:
| 19.5 ms |
数据量增长100倍,延迟只增加了不到一倍。原因是近似索引只扫描少数分区,查询复杂度与分区数相关,而非向量总数。磁盘占用线性增长,但39GB对于单机NVMe完全不是问题。
外推到1亿向量,预测延迟约78ms,磁盘约388GB——仍然在一台机器可承受范围内。 注意这个评测用的是随机向量,召回率很低(没什么可找的),但延迟数据是可信的;真实语料下召回率会保持高位,而延迟基本不变。

对整个智能体按阶段拆分耗时,中位数总耗时约4秒,P95慢尾约17.7秒。其中检索占据大头(平均4.17秒),因为要跑两次检索+重排序,在困难问题上还可能循环多次。而向量搜索本身贡献很小——所以优化方向应该是减少模型调用、批处理重排序、缓存评分,而不是换向量引擎。

最后必须坦诚地说几点:
幻觉率2%,不是0——生成模型做不到绝对零,我们只能力求近零。
覆盖度46%,这是为了安全付出的代价,阈值可以调。
规模测试基于合成向量,证明的是索引能力,真实召回还需验证。
验证器AUROC=0.702,是当前最值得攻坚的环节。
后续可以做的方向:
换更强的验证器,所有指标都会受益;
在真实文档向量上重做规模测试,确认召回保持;
单机不够时做分片和量化,逻辑不变;
不同领域调不同阈值,高风险场景更保守,低风险更开放。

我们不是试图让模型永远正确——那是不可能的。我们做的是:让系统只回答能证明的东西,否则就沉默。
索引能撑到千万级、毫秒响应,答案忠实度0.908,不可回答的问题老老实实说“证据不足”。这就是从“生成”到“证明”的范式转变。
如果你也对RAG、AI可信度感兴趣,欢迎留言交流。
夜雨聆风