AI总在瞎编答案?我用一套“安检系统”,让它乖乖承认“不知道”

检索→约束→验证→拒答，四个步骤把幻觉率压到2%

01 开头先说：不是“零”，是“近零”

如果你玩过RAG（检索增强生成），一定有过这种体验：文档库越大，AI越容易“编”。从几百份文档扩展到几百万、上千万，幻觉问题像滚雪球一样膨胀——因为生成模型的天性就是“猜”，当检索回来的证据不够时，它就用自己的知识补全，补着补着就补出了谎言。

我们解决这个问题，不是换更大的模型，而是给普通模型装一套“安检系统”。这套系统的核心只有一个：拿不到证据，就老老实实说“不知道”。

整个方案分成四层防火墙：

检索：混合检索（稠密向量+BM25）+重排序，把最相关的证据捞上来；
约束生成：只允许从上下文里回答，每句话必须带引用，否则拒答；
验证：把答案拆成原子事实，逐条核对引文是否真的支持；
拒答：当证据支撑不足或检索置信度太低时，直接放弃回答。

我们的目标是两个：信任——在愿意回答的问题上几乎不编造；规模——索引能撑住1000万+向量，响应速度还在毫秒级。下面就从零开始，完整搭建这套流程。

准备工作：固定种子，统一配置

动手之前先做两件小事：固定随机种子和锁定所有参数。RAG评测最怕不重现——今天跑一个结果，明天跑另一个，等于白测。

def set_terminism(seed: int):    random.seed(seed)    np.random.seed(seed)    os.environ["PYTHONHASHSEED"] = str(seed)    torch.manual_seed(seed)    torch.cuda.manual_seed_all(seed)

我们用的硬件是一张H100（80GB显存），生成模型是Qwen3-32B，嵌入和重排序用Qwen3-4B。生成器单独跑在一个vLLM服务里，笔记本只发请求，这样反复跑不用重载模型。

关键配置拍在这里：

分块大小：256 tokens，重叠32
初检索150条，重排序后保留20条
最多允许3次“修正检索”循环
验证阈值和拒答阈值都设为0.3（后面会调）

所有模型都是本地开源权重，数据不出机器——这是私有化部署的前提。

数据从哪里来

选HotpotQA的distractor版本，原因很实在：每个问题都带句子级的黄金支持事实，方便评测检索召回率；而且它附带的Wikipedia段落直接构成真实语料。另外从SQuAD v2里抽了“不可回答问题”，再手写几条“假前提”问题——唯一能测幻觉的办法，就是问那些语料里根本不存在答案的问题，看系统会不会闭嘴。

数据长这样：2万多段文本，平均每段89个词，短小精悍。随便看一条：

问：Scott Derrickson和Ed Wood是同一国籍吗？答：是（比较型问题）黄金证据：两人都是美国人。

这条问题我们会贯穿全文，因为它能让每个环节都看得清清楚楚。

清洗语料：垃圾进，垃圾出

索引之前必须洗数据。两步最划算：

归一化：用NFKC把奇怪字符转成标准形式，BM25分词时不会把“ﬁ”拆成“fi”导致漏召回。
去重：用MinHash LSH近似去重，比两两比对快得多。19份完全重复的段落被剔除，从20006条降到19986条。去重不止省空间，还能防止同一信息霸占前排结果，误导模型过度信任单一来源。

1分块要带“上下文前缀”

固定长度切分是坑——它会把一个完整的句子从上下文里撕出来，多跳问题就废了。所以我们按句子边界打包，不超过256 tokens，带32 tokens重叠。

更关键的一步：给每个分块加一句“情境说明”。比如原始块是“Ed Wood是一部1994年的美国传记喜剧电影……”，检索时光靠这句话搜不准。我们让本地模型给每块生成一句≤25词的介绍：“这段介绍的是Tim Burton执导的电影《艾德·伍德》，讲述了其主角和演员阵容。”然后把这句话拼在原文前面一起索引。

这招成本极低（每块一次短生成），但召回率提升明显。因为召回是整个防幻觉体系的地基——验证器只能基于检索到的证据做判断。

加载检索模型：显存精打细算

三套模型挤在同一张H100上：嵌入、重排序、验证（复用生成器）。每一步都盯紧显存：

加载重排序器后：占用54.3GB（剩25.7GB余量）
加载在线嵌入器后：峰值约62GB，还在安全区

重排序用的是交叉编码器，不是双编码器——它会把问题和文档拼在一起做联合打分，精度远高于单纯向量相似度。虽然慢，但我们只对前150个候选做，成本固定，不随语料库大小增长。

验证器直接用32B大模型做事实核查，因为小NLI模型在长文本多段落场景下容易漏判。这个判断器是整个“近零幻觉”的心脏。

混合索引：稠密+稀疏，谁也离不开谁

单一检索方式不够用：

稠密向量（Qwen3-Embedding）擅长语义相似，但会把专有名词、ID、数字模糊掉；
BM25（稀疏索引）擅长精确匹配人名、编号，但抓不住同义改写。

所以我们两个都建，存成LanceDB格式，直接在NVMe上读，不走内存。2万多个分块，索引只有11MB，但重点是同样的代码可以扩展到千万级而不用改一行——因为LanceDB是磁盘存储，内存放不下也没关系。

融合与重排序：先广后精

融合用RRF（倒数排名融合）——不看分数，只看排名。每条结果权重=1/(k+排名)，两个列表的权重相加。这样两个检索器都认可的结果会自然上浮。

比如稠密排[a,b,c]，稀疏排[b,c,a]，融合后b排第一，因为它两边都靠前。这就是“共识优先”的逻辑。

融合取150条，然后重排序打分，取前20条进入生成。在我们的例子里，两个黄金段落分别拿到0.999和0.996的高分，排在Top2，不相关的电影介绍只有0.796。全量评测中上下文召回率达到0.97——检索这关过了。

路由与拆解：不浪费算力

不是所有问题都需要全套流程。问候语、观点类问题直接打上“无需检索”，简单事实查一个段落就行，多跳问题才需要拆分子问题。

我们的路由器把问题分成三类，并会检测“假前提”——比如“牛顿在1700年发明了哪种编程语言？”这种荒谬问题，路由器先标记，但不会硬性拒答，而是交给后续的证据链去判断。

拆解器会把多跳问题拆成自包含的小问题，比如“Scott Derrickson的国籍是什么？Ed Wood的国籍是什么？”——这样后续检索更精准。

带引用的生成：第一道防火墙

生成时的系统提示词写死三条：

只能用上下文中的事实，严禁外部知识；
如果上下文没有答案，就回复 INSUFFICIENT_EVIDENCE；
每句话末尾必须标注引用段落ID。

生成后我们会解析引用标记，只保留那些确实存在于本次检索结果中的ID——模型如果瞎编一个引用，直接删掉，连用户都看不见。

我们的例子生成回答：“是的，两人都是美国人 [id1][id2]。”引用全合法，通过初步筛选。

但注意：有引用不代表事实正确——模型可能引了真实段落却读错了内容。所以下一道门才是真正的杀手锏。

验证门：逐条拆解，逐条核对

这是整条管线最关键的一步。我们把答案拆成“原子事实”——独立可验证的最小陈述。然后对每个事实，用验证器对着引用的原文打分（0~1）。

我们的例子答案拆成三条：

“Scott Derrickson是美国人”→ 1.00
“Ed Wood是美国人”→ 1.00
“两人国籍相同”→ 1.00

全部超过阈值0.3，通过。

但如果是假问题，比如“玛丽·居里登月了”，拆成“居里是物理学家”(0.95)和“居里登上月球”(0.20)。第二个事实低于阈值，整个答案被判不合格，直接转为拒答。这就是“取最低分”原则——一条链的强度取决于最弱的一环。

如果答案只是轻微不准确，我们给它一次修正机会（CoVe循环），重写不支持的句子，重新验证。

拒答：把“不知道”当成正确答案

拒答不是失败，而是系统的正常输出。我们把所有信号综合起来做决策：

路由判定“无需检索”→ 拒答
模型主动发出 INSUFFICIENT_EVIDENCE → 拒答
验证门任一事实不通过 → 拒答
假前提标记只是参考，不硬性拦，让证据自己说话

最终返回给用户的是一条平淡但诚实的：“我没有足够的证据来自信地回答这个问题。”——而不是一本正经的胡诌。

智能体：自我纠正的循环

我们用LangGraph把流程编成带循环的图，而不是一条直线。状态包括：问题、路由、证据、评分、草稿、验证结果、尝试次数。

节点如下：

路由：决定是否走检索
检索：获取证据
评分：判断当前证据是否足以回答（打分0~1）
修正：如果证据偏弱（0.4~0.7），拆解问题、扩展查询，重新检索，最多3次
生成：证据充足（≥0.7）才生成
验证：通过验证门
最终：输出回答或拒答

在我们的例子里，首次评分就是1.0，直接生成，整个过程总耗时4.6秒。而假问题“牛顿发明了哪种编程语言？”检索评分只有0.15，直接走拒答，耗时3.3秒，因为省掉了生成和验证。

效果怎么样：一张二乘二表格说了算

我们构建了200条测试题：100条可回答（来自HotpotQA），100条不可回答（来自SQuAD v2+手写荒谬题）。结果如下：

真实情况 \ 系统输出	回答	拒答
可回答	46	54
不可回答	2	98

不可回答问题中，系统只答了2条，拒答98条——幻觉率仅2%。 这个“不可回答&回答”的单元格就是幻觉的藏身之地，而我们的系统把它压到了极低。

当然，代价是覆盖度——可回答问题只回答了46%，其余也拒了。这是一个明确的权衡：宁可沉默，也不胡说。 阈值可以调，如果业务允许5%的幻觉，覆盖度可以更高。下图是风险-覆盖曲线，你可以根据场景选择平衡点。

验证器本身靠谱吗？

验证器是整个门禁的命门，所以必须单独评测。我们用HaluBench（人工标注的忠实/幻觉答案集）测试验证器的判别能力，得到AUROC=0.702——显著好于随机，但远非完美。这意味着验证器还有很大提升空间，而整个架构已经设计成可以随时替换更强的验证器，其他部分不用改。

规模测试：1000万向量，18毫秒

前面的质量测试是在2万片段上做的，但标题说了“1000万+文档”，必须实测规模。

我们用合成1024维向量，分别建10万、100万、1000万的LanceDB索引，并用IVF_PQ近似索引。结果：

向量数	构建时间	磁盘大小	P95查询延迟
10万	41秒	0.38 GB	10.5 ms
100万	82秒	3.9 GB	11.6 ms
1000万	348秒（≈6分钟）	39.1 GB	19.5 ms

数据量增长100倍，延迟只增加了不到一倍。原因是近似索引只扫描少数分区，查询复杂度与分区数相关，而非向量总数。磁盘占用线性增长，但39GB对于单机NVMe完全不是问题。

外推到1亿向量，预测延迟约78ms，磁盘约388GB——仍然在一台机器可承受范围内。 注意这个评测用的是随机向量，召回率很低（没什么可找的），但延迟数据是可信的；真实语料下召回率会保持高位，而延迟基本不变。

时间都花在哪了

对整个智能体按阶段拆分耗时，中位数总耗时约4秒，P95慢尾约17.7秒。其中检索占据大头（平均4.17秒），因为要跑两次检索+重排序，在困难问题上还可能循环多次。而向量搜索本身贡献很小——所以优化方向应该是减少模型调用、批处理重排序、缓存评分，而不是换向量引擎。

边界与下一步

最后必须坦诚地说几点：

幻觉率2%，不是0——生成模型做不到绝对零，我们只能力求近零。
覆盖度46%，这是为了安全付出的代价，阈值可以调。
规模测试基于合成向量，证明的是索引能力，真实召回还需验证。
验证器AUROC=0.702，是当前最值得攻坚的环节。

后续可以做的方向：

换更强的验证器，所有指标都会受益；
在真实文档向量上重做规模测试，确认召回保持；
单机不够时做分片和量化，逻辑不变；
不同领域调不同阈值，高风险场景更保守，低风险更开放。

核心思想就一句话

我们不是试图让模型永远正确——那是不可能的。我们做的是：让系统只回答能证明的东西，否则就沉默。

索引能撑到千万级、毫秒响应，答案忠实度0.908，不可回答的问题老老实实说“证据不足”。这就是从“生成”到“证明”的范式转变。

如果你也对RAG、AI可信度感兴趣，欢迎留言交流。