乐于分享
好东西不私藏

AI行为研究|学新的,忘旧的,为何微调之后幻觉更重?

AI行为研究|学新的,忘旧的,为何微调之后幻觉更重?

编者按:大语言模型(LLM)经监督微调(SFT)后普遍存在学会新知识、遗忘旧知识的幻觉问题,核心诱因是微调破坏了模型预训练阶段已形成的内部知识。如何让模型在适配新任务、吸收新知识的同时,守住事实记忆,成为大模型微调落地的关键难题。

来自耶路撒冷希伯来大学、伊利诺伊大学厄巴纳香槟分校、以色列理工学院与南加州大学的研究团队,将SFT引发的幻觉重新定义为持续学习中的“事实遗忘”,并证实这类遗忘的核心驱动是新旧知识的语义表示重叠。团队据此提出两类方案,既厘清了SFT幻觉的底层机制,也为大模型微调提供了理论支撑与实践方法。

补充术语说明

SFTSupervised Fine-Tuning):监督微调,大模型标准训练环节

事实可塑性(Factual Plasticity):模型学习新事实知识的能力

事实稳定性(Factual Stability):模型保留原有事实知识的能力

自蒸馏(Self-Distillation):通过正则化约束模型输出分布贴近微调前状态,防止知识遗忘

SLiCK:模型知识分类方法,将知识划分为高度已知、可能已知、未知等层级

01 大模型微调隐患:

学习新知识触发 “事实遗忘”

现有研究已证实,使用新增事实知识进行监督微调(SFT)时,会导致模型对预训练阶段已掌握的事实准确性显著下降,表现为幻觉增多。

为了厘清这一现象的本质,本研究采用SLiCK 方法将模型知识严格划分为三类,实现了「任务格式学习」与「事实知识学习」的完全解耦,为后续实验搭建了清晰的评估框架。

  • D_Known(已知事实):模型预训练阶段已掌握的「高度已知」事实,参与训练,核心作用是让模型学习问答任务的格式模板。

  • D_Unk(未知事实):模型预训练阶段未掌握的「未知」事实,参与训练,核心作用是测试模型的事实可塑性(学习新知识的能力)。

  • D_Held(保留事实):模型预训练阶段已掌握的「高度已知」事实,不参与训练,核心作用是评估模型的事实稳定性(是否遗忘旧知识)。

1SLiCK 数据划分规则与实验角色定义

基于这一划分,研究团队设计了两组对照实验:

  • 标准SFTStandard SFT):即常规监督微调,训练数据同时包含D_KnowD_Unk,模型一边学习问答格式,一边吸收新知识,用来模拟真实业务中的微调场景。

  • 仅用已知事实SFTOnly Known SFT):作为对照实验,训练数据仅包含D_Known,完全不引入D_Unk,模型仅学习问答格式,不接触任何新知识,用来验证“没有新知识时是否会发生遗忘”。

图 对比了两种训练模式下,模型在三类数据上的准确率变化:

  • 左图(标准SFT)呈现典型的两阶段特征:模型初期快速适配问答格式,D_Known(蓝线)准确率迅速达到100%;随后随着D_Unk(橙线)新知识的持续习得,D_Held(粉线)的准确率逐步下降,遗忘幅度约15%

  • 右图(仅用已知事实SFT)中,由于训练数据不含任何D_Unk,模型在快速掌握任务格式后,D_Known(蓝线)、D_Held(粉线)的准确率全程稳定在高位,未出现任何遗忘现象。

1:事实遗忘由新知识习得驱动,而非微调本身

两组实验的对比直接排除了“微调本身会导致遗忘”的可能,实验证明:

幻觉并非微调本身导致,而是新知识习得引发的事实遗忘(Factual Forgetting)。

这一现象本质上反映了模型在「事实可塑性」(学习新知识的能力)与「事实稳定性」(保存知识的能力)之间的内在权衡。

02 根源探究:

语义重叠引发表征空间局部干扰

为什么学习新知识会破坏旧知识?是因为模型的存储容量不够了吗?还是因为微调改变了模型的行为模式?

研究团队假设,真正的驱动因素是“结构性干扰”

当新实体与旧实体在字面或语义上相似时,它们在模型内部的表示区域会发生重叠,更新新知识的权重就会不可避免地“误伤”旧知识。

本实验设计了两类完全可控的新实体,用于验证“语义重叠是致幻根源”的假说:

  • “语义键(Semantic keys)”:通过重新组合真实地名的 token 生成(听起来像真实地名,如 Bergadena)。

  • UUID 键”:由随机的 位十六进制字符组成(如 Loc_fcfb42ee),与真实实体毫无字面重叠。

2两大实体构建流程

这两类实体的关键差异,在于它们与模型内部已有知识的语义表示重叠程度。研究团队正是利用这一差异,验证了“结构性干扰”假说:

当新实体与旧实体在语义空间中共享表示区域时,微调过程中对新实体的参数更新,会直接干扰旧实体的记忆,进而引发幻觉。

图 直观阐释了新旧知识的语义重叠如何引发事实遗忘

  • 模型的内部语义空间中,真实城市(如巴黎、米兰)的实体表示是共享的。当学习一个与真实地名语义高度相似的虚构实体(如Bergadena)时,其表示会与真实城市发生重叠,导致模型对已有事实的记忆被干扰,引发大量幻觉;

  • 而学习与真实实体无任何字面/语义关联的随机标识符(如 Loc_fcfb42)时,由于二者的表示空间完全不重叠,即便新增百万级事实,也不会引发任何相关幻觉;

  • 左右两侧的柱状图进一步量化了这一差异:

    随着新增语义相似事实数量的增加,幻觉率急剧上升;而新增随机标识符事实的数量,对幻觉率几乎没有任何影响。

两组实验的对比直接排除了“容量限制”假说,证明不是模型装不下新知识,而是新知识与旧知识的语义重叠,导致了表征空间的局部干扰,最终引发事实遗忘。

3:语义重叠是SFT 引发幻觉的核心驱动

03 两种幻觉缓解方案

基于“语义重叠引发表征干扰”的核心机制,研究团队提出了分场景适配的两类解决方案,覆盖大模型微调全场景需求,实现了事实可塑性与事实稳定性的动态平衡。

5:三种微调策略的参数空间对比

本图直观呈现了标准SFT、参数冻结、自蒸馏三种策略的差异:

  • 标准SFT(虚线箭头):为学习新事实B,会偏离原有事实A的参数区域,导致旧知识被“冲掉”;

  • 参数冻结(param freeze:能保留旧事实,但会完全阻断新知识的吸收;

  • 自蒸馏(self-distillation:则能同时保留旧事实、掌握新事实与任务能力,是兼顾二者的最优路径。

方案一:限制事实可塑性(无需学习新知识场景)

在对齐微调、格式学习等无需吸收新事实的场景中,我们的核心目标是掌握任务格式、不吸收新知识、不引发旧知识遗忘。研究发现,通过选择性冻结参数,可以精准限制模型的事实可塑性,从而最大化保护事实稳定性。

具体而言,冻结前馈网络(FFN)而仅更新注意力层(Attention layers,能够让模型完美掌握问答任务的格式,同时几乎完全阻断对新事实的吸收。

2:参数冻结策略的效果对比

本实验对比了不同粗粒度参数更新策略下,模型在事实可塑性与稳定性上的表现差异:

  • 仅更新注意力层时,模型的新知识学习能力被几乎完全抑制D_Unk=0.010),同时保留集事实的准确率高达0.931,实现了“任务格式学习+零事实遗忘”的安全微调效果;

  • 仅更新FFN 层时,模型的事实可塑性显著增强(D_Unk=0.941),与标准SFT持平,但保留集事实的准确率大幅下降至0.782,遗忘现象依然存在;

  • 标准SFT与仅用已知事实训练的基线对比进一步验证:当不引入任何新知识时,模型的保留集准确率可稳定维持在0.958的高水平,证明遗忘是由新知识习得直接驱动的。

为了进一步定位影响事实可塑性的关键模块,研究团队开展了更细粒度的消融实验

3:细粒度参数冻结消融实验

本实验对模型的不同参数模块进行了精细化冻结,验证了“事实可塑性与事实稳定性的负相关关系”:

  • 仅更新注意力相关参数(k/q/v/o/attn)时,模型的新知识学习能力被几乎完全抑制(D_Unk0.005~0.010),同时保留集事实的准确率维持在 0.90 以上,实现了 “任务格式学习 零事实遗忘”;

  • 更新FFN 层时,尤其是gate+up模块,模型的事实可塑性显著增强(D_Unk升至 0.242~0.941),但保留集事实的准确率也随之大幅下降至 0.78~0.88

  • 所有配置均呈现一致趋势:新知识学习能力越强,旧知识遗忘越严重,直接证明了事实可塑性是引发SFT 事实遗忘的核心中介变量。

方案二:自蒸馏(必须学习新知识场景)

在领域适配、知识库更新等需要吸收新事实的场景中,我们无法限制模型的事实可塑性,因此需要引入自蒸馏技术,在学习新知识的同时,通过正则化约束模型的输出分布,保护旧知识的表征结构。

自蒸馏的核心逻辑是:以微调早期(仅用已知事实训练一轮)的模型作为Teacher,在后续 SFT 训练中,约束 Student 模型的输出分布尽量贴近 Teacher 模型,避免参数更新对旧知识的表征空间造成过度干扰。

3:三种训练策略的动态对比(标准 SFT vs 自蒸馏 vs 仅用已知事实 SFT

本图直观呈现了自蒸馏缓解遗忘的效果:

  • 左图(标准SFT):随着未知事实(橙线)的学习,保留集事实(粉线)的准确率下降约 15%

  • 中间(自蒸馏训练):模型学习未知事实的效率与标准SFT 持平,同时保留集事实的准确率仅下降约 3%,大幅缓解了遗忘。

  • 右图(仅用已知事实SFT 基线):保留集事实准确率全程稳定,无任何遗忘;

自蒸馏的核心优势在于,它没有像参数冻结那样阻断新知识学习,而是通过输出分布的约束,间接保护了模型内部的表征结构。这种约束使得模型在更新新知识的参数时,不会过度修改与旧知识共享的语义空间,从而在事实可塑性与事实稳定性之间找到了平衡。

4:跨模型训练动态验证(Llama-3.1-8B & Qwen2.5-7B

本图在两个主流模型上重复了三种训练策略的实验,结果高度一致:

  • 标准SFT(左列):两个模型都呈现出典型的 “两阶段遗忘” 特征,D_Held(粉线)准确率在学习新知识后出现明显下降;

  • 自蒸馏(中列):两个模型的D_Held准确率都得到了显著保护,下降幅度远小于标准SFT,同时D_Unk(橙线)的学习效率并未受到明显影响;

  • 仅用已知事实SFT(右列):作为对照,两个模型的D_Held准确率全程稳定,无任何遗忘现象。

跨模型验证的结果证明,自蒸馏缓解SFT事实遗忘的效果不依赖特定模型架构,具有广泛的普适性。这一保护效果不仅体现在模型高度已知的核心知识上,对掌握程度较弱的边缘知识同样有效。

8:不同知识强度下的保护效果验证(D_Held & MaybeKnown

本图在Llama-3.1-8B 和 Qwen2.5-7B 上,验证了三种训练策略对不同强度知识的保护效果

l上排(D_Held高度已知事实):与图的结论一致,标准 SFT(粉线)的准确率下降明显,自蒸馏(蓝线)的下降幅度显著降低,仅用已知事实 SFT(橙线)全程稳定;

l下排(MaybeKnown 弱已知事实):标准 SFT 对这类知识的遗忘更为严重,准确率下降幅度远大于D_Held;而自蒸馏依然能有效缓解遗忘,保护效果与仅用已知事实SFT 更为接近。

这一结果进一步证明:自蒸馏对模型知识的保护是全面的,不仅能稳定核心事实,也能有效防止边缘知识在微调过程中被“冲掉”。

核心结论与行业启示

本研究将SFT幻觉转化为持续学习中的事实遗忘问题,通过系统性实验得出三大核心结论:

1.降低事实可塑性可减少幻觉:无需学习新知时,冻结FFN 等参数可保留任务性能,同时杜绝事实遗忘;

2.自蒸馏实现“学新知不忘旧知”:通过约束输出分布漂移,在不影响新知识学习效率的前提下,将 SFT 幻觉降至最低;

3.语义重叠是致幻核心:幻觉并非由模型容量瓶颈导致,而是新知识与旧知识的语义重叠,引发表征空间的局部干扰所致。

从行业实践来看,这项研究呼吁将事实稳定性作为微调的核心优化目标,与任务性能同等重视。未来依托持续学习工具,可开发更精准、更可靠的微调技术,让大模型在持续进化中牢牢守住基础事实知识。

论文标题:Why Fine-Tuning Encourages Hallucinations and How to Fix It

作者:Guy KaplanZorik GekhmanZhen ZhuLotem RoznerYuval ReifSwabha SwayamdiptaDerek HoiemRoy Schwartz

单位:耶路撒冷希伯来大学、伊利诺伊大学厄巴纳香槟分校、以色列理工学院、南加州大学

责任编辑|陈佳苗
内容编辑|顾兰馨