OpenAI用1.3万条数据打败了自家千亿参数模型,靠的是什么-夜雨聆风

OpenAI用1.3万条数据打败了自家千亿参数模型,靠的是什么

上周跟一个做AI产品的朋友吃饭。

他最近在选模型，试了一圈之后跟我说了一句话，我觉得挺有代表性的：

“参数量越大的模型，用起来不一定越顺手。但我说不清楚为什么。”

这个困惑我之前也有过。

直到后来我认真读了2022年OpenAI发布的一篇论文——InstructGPT。

里面有一个数据，第一次看到的时候我愣了一下：

他们用1.3万条人工精标数据，对一个13亿参数的小模型做了微调。然后让人类评估者盲测——结果这个小模型的输出，被显著更偏好于未经处理的1750亿参数GPT-3。

参数量差了100倍，输出质量却被翻转了。

这件事让我意识到，”模型能力”和”模型好不好用”，其实是两件事。中间隔着的，是一套很多人没有系统了解过的训练流程。所以我想把这篇文章写清楚。

不是为了科普而科普——而是因为我越来越觉得，如果你在做AI相关的产品或决策，却没搞清楚预训练、SFT、RLHF分别在解决什么问题，你很可能在用错误的框架做判断。比如迷信参数量。比如以为”换个更大的模型”就能解决问题。比如不知道为什么同样是AI助手，有的敢说、有的缩手缩脚。

这篇文章，我想把这三个词背后的逻辑，用你不需要机器学习背景也能读懂的方式，完整讲一遍。

一、先搞清楚这三个词在解决什么问题

很多人接触大模型，会反复看到这三个词：预训练、SFT、RLHF。

它们不是并列的技术选项，而是一条流水线上的三道工序——缺了任何一道，模型要么没有能力，要么有能力但不听话，要么听话但答得不够好。

用一张表先建立整体认知：

	预训练	SFT	RLHF
解决什么	模型有没有基础能力	会不会按指令回答	答得好不好、安不安全
数据	海量无标注文本	人工精标的问答对	人类对多个答案的偏好排序
产出	基础语言模型	指令遵循模型	对齐模型
类比	博览群书	专项培训上岗	持续绩效反馈

三者是递进依赖关系：后一阶段以前一阶段的输出为起点，顺序不能颠倒。

二、用两分钟看懂大模型的发展脉络

三个概念不是凭空出现的，每一个都是在解决前一个阶段遗留的问题。

关键转折点只有两个：

2017年，Transformer架构出现。

解决了”模型能不能在海量数据上高效训练”的工程问题，为预训练范式奠定基础。

2022年，InstructGPT发布（OpenAI）。

第一次系统性地将SFT和RLHF结合，解决了”模型有能力但不听话、不安全”的问题。ChatGPT正是这条路线的产物。

这两个节点之间，是BERT、GPT-1/2/3等预训练模型的积累期——模型越来越能干，但越来越难用，推动了SFT和RLHF的出现。

三、预训练——能力从哪里来？

一句话定义

预训练 = 在海量无标注文本上，让模型通过反复预测语言结构，自主习得语言能力。

解决的是”模型有没有基础能力”的问题。

说人话就是：

不告诉模型什么是对的，只给它看海量文字，让它反复猜”下一个词是什么”——猜了几千亿次之后，语言的规律、事实、逻辑，都被压进了参数里。

3.1 预训练学的是什么？

有两种主要形式：

	自回归（CLM）	掩码语言（MLM）
代表模型	GPT系列	BERT系列
任务形式	预测下一个词	预测被遮盖的词
类比	接龙游戏	完形填空
适合	文本生成、对话	文本理解、分类

两种形式的监督信号都来自文本自身。

“今天天气很好“中，”好”既是预测目标，也是文本本身提供的答案——不需要任何人工标注。这就是自监督学习的核心逻辑：通过预设的变换规则从数据中自动构造训练任务，文本自身即包含监督信号。

3.2 模型怎么”学会”的？

三步循环，重复千亿次：

[预训练学习循环流程图]

输入文本 → 基于上下文预测下一个词 → 与真实词对比计算误差 → 反向传播更新参数 → 循环

模型不是在”记忆”文本，而是在将语言规律压缩进参数空间。支撑这个过程的核心架构是Transformer——它允许模型在处理每个词时，同时参考序列中所有其他词的信息，使得长距离语义关联的捕捉和大规模并行训练都成为可能。

3.3 规模为什么重要？

参数量和数据量不只是量的堆叠，超过一定规模后，某些小模型几乎不具备的能力（多步推理、代码生成）会开始显著出现——研究者称之为”涌现能力”。

但需要注意：这一现象的成因存在争议。有研究表明，当改变评测指标的设计时，”突然出现”的能力可能呈现为平滑的连续提升，而非质变。对从业者的实践意义是：不能将”堆规模”视为获得特定能力的可靠路径，评测方法的设计同样关键。

3.4 预训练的价值与边界

价值：预训练一次，可以作为多个垂直领域模型的起点，这是基础模型（Foundation Model）范式的核心经济逻辑。

但有前提：

预训练语料需覆盖目标领域——冷门语言、高密度专业知识（如放射科报告、细分法律条款）往往覆盖不足，直接SFT效果会打折
“只需一次”是相对表述——知识时效性要求高的场景，仍需持续预训练或增量训练

预训练结束后，你得到的是一个基础语言模型。它能做什么？给它一段文字开头，它会继续续写。仅此而已。这就引出了SFT存在的必要性。

四、SFT（监督微调）——从”续写机器”到”指令助手”

一句话定义

SFT = 用人工精标的”指令→理想回答”样本对，让模型学会按预期方式响应用户指令。

解决的是”能不能完成任务、会不会好好回答”的问题。

即：

预训练之后模型”什么都懂但不听话”。SFT是给它看大量示范——遇到这类问题，应该这样回答——让它学会把能力以正确的形式输出来。

4.1 SFT的数据长什么样？

模型在大量这样的配对样本上训练，学会了：遇到特定类型的指令，以什么结构、什么边界来输出内容。

技术上，SFT与预训练的目标函数形式一致（最小化交叉熵损失），但条件变了——从”预测任意下一词”变为”在指令约束下预测期望输出”。

4.2 数据质量比数量更重要

OpenAI在InstructGPT论文中披露：约1.3万条精标数据对175B参数的GPT-3进行SFT，人类评估中结果显著优于未经SFT的GPT-3。

这带来一个重要的工程判断：

数据策略	适用场景
少量高质量精标数据	主流商业大模型，行为稳定一致
垂直领域精标数据	医疗、法律等专用模型（注意：通用能力可能同步下降）
大量中低质量数据	早期开源实验，覆盖广但稳定性差

一个容易被忽视的事实：标注员的判断直接定义了”什么是好的回答”。他们的背景、标准、理解偏差，会被模型学习并放大。谁在标注、按什么标准标注，是一个在技术文档里不显眼、但在产品影响上不可忽视的变量。

4.3 SFT的局限

SFT告诉模型”怎么回答”，但无法告诉它”哪个回答更好”。

标注数据只能覆盖有限场景，无法穷举所有指令类型。更关键的是，SFT的目标是最小化与标注答案的差距，而非最大化真实有用性——模型倾向于模仿标注风格，可能在某些场景输出”听起来对但实际错误”的内容。

这就是为什么需要RLHF。

五、RLHF——让模型学会”哪个答案更好”

一句话定义

RLHF = 用人类对多个模型输出的偏好排序，训练一个”评分模型”，再用强化学习驱动语言模型持续优化输出质量。

解决的是”回答得好不好、安不安全、符不符合用户期待”的问题。

即：

不只是给模型看”标准答案”，而是让人类比较多个回答，告诉模型：A比B好、B比C更安全——然后用这些判断训练出一个”自动评分官”，再用它持续引导模型改进。

5.1 RLHF的三个阶段

[RLHF三阶段流程图]

第一阶段：收集人类偏好数据

同一问题让模型生成多个回答，人类标注员进行两两比较（”A比B更有帮助”）。

收集的是相对偏好而非绝对评分——人类在判断”哪个更好”时，比给出绝对分数更稳定、更一致。

第二阶段：训练奖励模型（Reward Model）

输入：(问题, 回答) 对

输出：一个标量分数

训练目标：让奖励模型对”人类更偏好的回答”打出更高分。

奖励模型本质上是在学习人类标注员判断逻辑的压缩表征——它学的不是”客观正确”，而是”这批标注员认为什么是好的”。这是RLHF最重要的局限性来源。

第三阶段：用强化学习优化语言模型

语言模型生成回答 → 奖励模型打分 → 用PPO算法根据分数更新模型参数 → 循环迭代

为什么用PPO？如果模型单纯追求最大化奖励分数，会找到奖励模型的漏洞，生成”评分高但没有实际价值”的内容——即奖励黑客（Reward Hacking）。PPO通过约束每次参数更新的幅度，防止模型偏离原有能力边界过远。

5.2 RLHF真实效果

来源：InstructGPT论文（Ouyang et al., 2022）

对比	结果
1.3B InstructGPT vs 175B GPT-3	人类评估者显著更偏好InstructGPT的输出
有害内容生成	InstructGPT明显下降
核心启示	对齐质量的价值可能超过规模本身

这对资源有限的团队是一个重要判断：更大不一定更好用，对齐方式和数据质量同样是关键变量。

5.3 RLHF的局限与演进

局限	当前应对方向
标注成本高，规模化困难	RLAIF（用AI反馈替代部分人类标注）
标注者偏见被放大固化	Constitutional AI（用原则约束AI自我批评）
奖励黑客风险	奖励模型集成（Ensemble）+ 对抗性红队测试；或绕过奖励模型直接用DPO
过度对齐导致通用能力下降（对齐税）	平衡SFT与RLHF比例；DPO替代方法

关于DPO： 2023年提出的直接偏好优化（Direct Preference Optimization）绕过了显式奖励模型训练，直接用偏好数据优化语言模型，在部分场景下效果与RLHF相当但成本更低，是目前开源社区广泛采用的替代路线。

六、三者如何协同——一张图说清楚

核心关系：

预训练给模型能力，SFT给模型行为规范，RLHF给模型价值判断。

三者是递进依赖，不是并列替代。但实践中存在多种组合路线：

技术路线	代表案例
预训练 + SFT + RLHF	GPT-4、ChatGPT
预训练 + SFT + Constitutional AI	Claude 3.5 / 3.7
预训练 + SFT + DPO	Zephyr等开源模型
通用预训练 + 领域继续预训练 + 领域SFT	医疗、法律垂直模型
预训练 + 纯强化学习（减少人工标注）	DeepSeek-R1

七、三个真实案例

案例一：ChatGPT / GPT-4o——RLHF路线的商业验证

技术路线： GPT系列预训练 → SFT → RLHF

ChatGPT是RLHF从论文走向大规模商业落地的第一个现象级案例。2022年11月上线，2个月用户破亿。

对理解三个概念的价值：它验证了”对齐质量可以超越规模优势”，也让整个行业意识到——用户真正需要的不只是”能说话的模型”，而是”说得好、用得上、不出错”的助手。

截至2025年，GPT-4o的多模态能力（实时语音+图像+文本）和o系列的深度推理能力，代表了这条路线的最新演进方向。

案例二：Claude——Constitutional AI的差异化路线

技术路线：预训练 + SFT + Constitutional AI

Constitutional AI不是简单的”用AI替代人类标注”，机制上有本质差异：

先给AI一套明确的原则集（”宪法”）→ 让AI依据原则批评自己的回答 → AI根据批评修订输出 → 用AI生成的（原始 vs 修订）对作为偏好数据训练奖励模型 → 再用奖励模型做强化学习

与标准RLHF的核心差异：人类判断的介入点从”对每个回答打分”前移至”制定原则”——减少对大规模人工标注的依赖，同时使对齐标准更显式、可审计。

Claude 3.7（2025年）引入”扩展思考（Extended Thinking）”模式，在复杂推理任务上的深度进一步提升。

案例三：DeepSeek-R1——对标准路线的实质性挑战

为什么选DeepSeek-R1？

DeepSeek-R1（2025年1月）在数学推理和代码任务上达到与OpenAI o1相当的水平，且以开源形式发布，引发全球关注。它的核心意义不在于性能，而在于技术路线的挑战性：

标准路线	DeepSeek-R1的做法
大量人类偏好标注	使用基于规则的奖励函数（答案正确性、格式规范性），大幅减少人工标注依赖
SFT作为必要阶段	纯RL训练下，模型自发产生”自我反思”和”长思维链”行为

对从业者的判断意义： DeepSeek-R1对”人类反馈是否不可或缺”这一问题提出了实质性挑战，也让推理时计算（Test-Time Compute）的价值重新进入行业视野。

八、展望与反思

8.1 三个值得持续关注的方向

方向一：推理时计算 vs 训练时对齐

o系列和DeepSeek-R1的核心思路是：把更多计算放在推理时（让模型”多想一想”），而非全部依赖训练时对齐。这可能改变”更好的模型 = 更多预训练算力”的既有判断框架。

方向二：对齐的可验证性

随着模型能力超越人类评估者在特定领域的判断能力，”人类反馈”本身的可靠性会系统性下降。这不是工程优化能解决的问题，而是对RLHF范式的根本性挑战。

方向三：Benchmark Overfitting

当前模型选型高度依赖基准测试，但基准被过度优化已是显著问题。评测方法的设计本身，正在成为一个独立的技术挑战。

8.2 两个需要正视的结构性问题

对齐目标的选择权归属

RLHF中的”对齐”，本质是对齐到特定标注员群体的偏好。谁来定义”好的回答”，是技术问题之外的权力分配问题。目前这一权力高度集中在少数头部实验室，缺乏有效的外部校验机制。

“更对齐”不等于”更好用”

对齐税是有实验支撑的现象：过度对齐的模型在某些任务上通用能力会下降。SFT和RLHF的强度、方向、数据构成都在影响这个权衡，没有普遍适用的最优点。在具体场景中，明确评估对齐策略的实际成本，是比选择哪家模型更值得花时间的判断。

8.3 给从业者的选型参考框架

评估维度	核心问题
预训练覆盖	目标领域知识是否充分覆盖？
SFT数据匹配度	标注标准是否与目标场景一致？
对齐策略偏差	安全约束方向是否与场景容忍度匹配？
评测有效性	选型基准是否真实反映目标任务？
能力-对齐权衡	过度约束是否影响有效输出？

类型	资源
必读论文	Attention Is All You Need（2017）
必读论文	Training language models to follow instructions with human feedback（2022）
必读论文	Constitutional AI: Harmlessness from AI Feedback（2022）
必读论文	DeepSeek-R1 Technical Report（2025）
争议性论文	Are Emergent Abilities of Large Language Models a Mirage?（2023）
工程实践	Hugging Face TRL库文档
视频	Andrej Karpathy: State of GPT（YouTube）