从零开始学大模型微调(六):详解对话模板、Loss Masking 与泛化黑科技

前几篇里，我们给模型扩充了“脑容量”，加足了“马达”，也平衡了“显存”。但最后一步，往往也是最致命的一步：如何确保模型真正听懂了你的话，并且学会了“举一反三”，而不是只会死记硬背？

今天，我们来聊聊微调中那些最容易被忽视、却决定了模型“灵魂”的软细节。

🎭1. Prompt Template (对话模板)：微调的“接头暗号”

这是新手翻车率最高的地方。

大模型本身并不认识什么是“用户”，什么是“助手”。它看到的是一段长长的字符。对话模板定义了特殊的控制 Token（如 <|im_start|>、### Instruction: 等），用来告诉模型哪里是指令的开始，哪里是回答的结束。

⚠️ 致命风险：如果你训练时用的模板是 qwen，但推理（部署）时少了一个换行符，或者多了一个空格。

后果：模型会因为找不到熟悉的“路标”而陷入混乱，出现复读、胡言乱语或者直接拒绝回答。

✅ 动作：严格对齐基座模型的官方模板。如果你用的是 Qwen3.5，请在 LLaMA-Factory 中务必选择 qwen；如果是 Llama-3，请选 llama3。不要尝试自定义模板，除非你非常确定 Token 的编码逻辑。

这是区分“调参小白”与“工程专家”的分水岭。

在微调数据中，包含 Question（问题）和 Answer（回答）。

如果不做 Masking，你的模型会变成一个“背题家”。它记住了题目本身，却没学会逻辑。这也是为什么很多人训练集准确率 75% 却依然无法正确回答的原因——模型在分心背题目。

如果你发现模型只会背答案，换个问法就不会了，那么这个黑科技是你的救命稻草。

在 Embedding（词向量）层注入微小的随机噪声。

✅ 建议值：NEFTune Alpha = 5 或 10。在 LLaMA-Factory 中一键开启，效果往往立竿见影。

模型一次性能“看”多长的文字。

⚠️ 风险预警：如果你的 7000 条数据里有大量长文档（超过 2048 Token），但你为了省显存设成了 1024。

后果：模型不仅学不到结尾，还会学到一种“说话说一半”的坏毛病，甚至逻辑断层。

当你面对 LLaMA-Factory 的界面时，请对照下表进行最后校准：