乐于分享
好东西不私藏

OpenAI用1.3万条数据打败了自家千亿参数模型,靠的是什么

OpenAI用1.3万条数据打败了自家千亿参数模型,靠的是什么


上周跟一个做AI产品的朋友吃饭。
他最近在选模型,试了一圈之后跟我说了一句话,我觉得挺有代表性的:
“参数量越大的模型,用起来不一定越顺手。但我说不清楚为什么。”
这个困惑我之前也有过。
直到后来我认真读了2022年OpenAI发布的一篇论文——InstructGPT。
里面有一个数据,第一次看到的时候我愣了一下:
他们用1.3万条人工精标数据,对一个13亿参数的小模型做了微调。然后让人类评估者盲测——结果这个小模型的输出,被显著更偏好于未经处理的1750亿参数GPT-3。
参数量差了100倍,输出质量却被翻转了。
这件事让我意识到,”模型能力”和”模型好不好用”,其实是两件事。中间隔着的,是一套很多人没有系统了解过的训练流程。所以我想把这篇文章写清楚。
不是为了科普而科普——而是因为我越来越觉得,如果你在做AI相关的产品或决策,却没搞清楚预训练、SFT、RLHF分别在解决什么问题,你很可能在用错误的框架做判断。比如迷信参数量。比如以为”换个更大的模型”就能解决问题。比如不知道为什么同样是AI助手,有的敢说、有的缩手缩脚。
这篇文章,我想把这三个词背后的逻辑,用你不需要机器学习背景也能读懂的方式,完整讲一遍。
一、先搞清楚这三个词在解决什么问题
很多人接触大模型,会反复看到这三个词:预训练、SFT、RLHF
它们不是并列的技术选项,而是一条流水线上的三道工序——缺了任何一道,模型要么没有能力,要么有能力但不听话,要么听话但答得不够好。
用一张表先建立整体认知:
预训练
SFT
RLHF
解决什么
模型有没有基础能力
会不会按指令回答
答得好不好、安不安全
数据
海量无标注文本
人工精标的问答对
人类对多个答案的偏好排序
产出
基础语言模型
指令遵循模型
对齐模型
类比
博览群书
专项培训上岗
持续绩效反馈
三者是递进依赖关系:后一阶段以前一阶段的输出为起点,顺序不能颠倒。

二、用两分钟看懂大模型的发展脉络
三个概念不是凭空出现的,每一个都是在解决前一个阶段遗留的问题。
关键转折点只有两个:
2017年,Transformer架构出现。
解决了”模型能不能在海量数据上高效训练”的工程问题,为预训练范式奠定基础。
2022年,InstructGPT发布(OpenAI)。
第一次系统性地将SFT和RLHF结合,解决了”模型有能力但不听话、不安全”的问题。ChatGPT正是这条路线的产物。
这两个节点之间,是BERT、GPT-1/2/3等预训练模型的积累期——模型越来越能干,但越来越难用,推动了SFT和RLHF的出现。

三、预训练——能力从哪里来?
一句话定义
预训练 = 在海量无标注文本上,让模型通过反复预测语言结构,自主习得语言能力。
解决的是”模型有没有基础能力”的问题。
说人话就是:
不告诉模型什么是对的,只给它看海量文字,让它反复猜”下一个词是什么”——猜了几千亿次之后,语言的规律、事实、逻辑,都被压进了参数里。

3.1 预训练学的是什么?
有两种主要形式:
自回归(CLM)
掩码语言(MLM)
代表模型
GPT系列
BERT系列
任务形式
预测下一个词
预测被遮盖的词
类比
接龙游戏
完形填空
适合
文本生成、对话
文本理解、分类
两种形式的监督信号都来自文本自身
“今天天气很“中,”好”既是预测目标,也是文本本身提供的答案——不需要任何人工标注。这就是自监督学习的核心逻辑:通过预设的变换规则从数据中自动构造训练任务,文本自身即包含监督信号。

3.2 模型怎么”学会”的?
三步循环,重复千亿次:
                                                                    [预训练学习循环流程图]
输入文本 → 基于上下文预测下一个词 → 与真实词对比计算误差 → 反向传播更新参数 → 循环
模型不是在”记忆”文本,而是在将语言规律压缩进参数空间。支撑这个过程的核心架构是Transformer——它允许模型在处理每个词时,同时参考序列中所有其他词的信息,使得长距离语义关联的捕捉和大规模并行训练都成为可能。

3.3 规模为什么重要?
参数量和数据量不只是量的堆叠,超过一定规模后,某些小模型几乎不具备的能力(多步推理、代码生成)会开始显著出现——研究者称之为”涌现能力”。
但需要注意:这一现象的成因存在争议。有研究表明,当改变评测指标的设计时,”突然出现”的能力可能呈现为平滑的连续提升,而非质变。对从业者的实践意义是:不能将”堆规模”视为获得特定能力的可靠路径,评测方法的设计同样关键。

3.4 预训练的价值与边界
价值: 预训练一次,可以作为多个垂直领域模型的起点,这是基础模型(Foundation Model)范式的核心经济逻辑。
但有前提:
  • 预训练语料需覆盖目标领域——冷门语言、高密度专业知识(如放射科报告、细分法律条款)往往覆盖不足,直接SFT效果会打折
  • “只需一次”是相对表述——知识时效性要求高的场景,仍需持续预训练或增量训练
预训练结束后,你得到的是一个基础语言模型。 它能做什么?给它一段文字开头,它会继续续写。仅此而已。这就引出了SFT存在的必要性。

四、SFT(监督微调)——从”续写机器”到”指令助手”
一句话定义
SFT = 用人工精标的”指令→理想回答”样本对,让模型学会按预期方式响应用户指令。
解决的是”能不能完成任务、会不会好好回答”的问题。
即:
预训练之后模型”什么都懂但不听话”。SFT是给它看大量示范——遇到这类问题,应该这样回答——让它学会把能力以正确的形式输出来。

4.1 SFT的数据长什么样?
模型在大量这样的配对样本上训练,学会了:遇到特定类型的指令,以什么结构、什么边界来输出内容。
技术上,SFT与预训练的目标函数形式一致(最小化交叉熵损失),但条件变了——从”预测任意下一词”变为”在指令约束下预测期望输出”。

4.2 数据质量比数量更重要
OpenAI在InstructGPT论文中披露:约1.3万条精标数据对175B参数的GPT-3进行SFT,人类评估中结果显著优于未经SFT的GPT-3。
这带来一个重要的工程判断:
数据策略
适用场景
少量高质量精标数据
主流商业大模型,行为稳定一致
垂直领域精标数据
医疗、法律等专用模型(注意:通用能力可能同步下降)
大量中低质量数据
早期开源实验,覆盖广但稳定性差
一个容易被忽视的事实: 标注员的判断直接定义了”什么是好的回答”。他们的背景、标准、理解偏差,会被模型学习并放大。谁在标注、按什么标准标注,是一个在技术文档里不显眼、但在产品影响上不可忽视的变量。

4.3 SFT的局限
SFT告诉模型”怎么回答”,但无法告诉它”哪个回答更好”。
标注数据只能覆盖有限场景,无法穷举所有指令类型。更关键的是,SFT的目标是最小化与标注答案的差距,而非最大化真实有用性——模型倾向于模仿标注风格,可能在某些场景输出”听起来对但实际错误”的内容。
这就是为什么需要RLHF。

五、RLHF——让模型学会”哪个答案更好”
一句话定义
RLHF = 用人类对多个模型输出的偏好排序,训练一个”评分模型”,再用强化学习驱动语言模型持续优化输出质量。
解决的是”回答得好不好、安不安全、符不符合用户期待”的问题。
即:
不只是给模型看”标准答案”,而是让人类比较多个回答,告诉模型:A比B好、B比C更安全——然后用这些判断训练出一个”自动评分官”,再用它持续引导模型改进。

5.1 RLHF的三个阶段
                                                               [RLHF三阶段流程图]
第一阶段:收集人类偏好数据
同一问题让模型生成多个回答,人类标注员进行两两比较(”A比B更有帮助”)。
收集的是相对偏好而非绝对评分——人类在判断”哪个更好”时,比给出绝对分数更稳定、更一致。
第二阶段:训练奖励模型(Reward Model)
输入:(问题, 回答) 对
输出:一个标量分数
训练目标:让奖励模型对”人类更偏好的回答”打出更高分。
奖励模型本质上是在学习人类标注员判断逻辑的压缩表征——它学的不是”客观正确”,而是”这批标注员认为什么是好的”。这是RLHF最重要的局限性来源。
第三阶段:用强化学习优化语言模型
语言模型生成回答 → 奖励模型打分 → 用PPO算法根据分数更新模型参数 → 循环迭代
为什么用PPO? 如果模型单纯追求最大化奖励分数,会找到奖励模型的漏洞,生成”评分高但没有实际价值”的内容——即奖励黑客(Reward Hacking)。PPO通过约束每次参数更新的幅度,防止模型偏离原有能力边界过远。

5.2 RLHF真实效果
来源:InstructGPT论文(Ouyang et al., 2022)
对比
结果
1.3B InstructGPT vs 175B GPT-3
人类评估者显著更偏好InstructGPT的输出
有害内容生成
InstructGPT明显下降
核心启示
对齐质量的价值可能超过规模本身
这对资源有限的团队是一个重要判断:更大不一定更好用,对齐方式和数据质量同样是关键变量。

5.3 RLHF的局限与演进
局限
当前应对方向
标注成本高,规模化困难
RLAIF(用AI反馈替代部分人类标注)
标注者偏见被放大固化
Constitutional AI(用原则约束AI自我批评)
奖励黑客风险
奖励模型集成(Ensemble)+ 对抗性红队测试;或绕过奖励模型直接用DPO
过度对齐导致通用能力下降(对齐税)
平衡SFT与RLHF比例;DPO替代方法
关于DPO: 2023年提出的直接偏好优化(Direct Preference Optimization)绕过了显式奖励模型训练,直接用偏好数据优化语言模型,在部分场景下效果与RLHF相当但成本更低,是目前开源社区广泛采用的替代路线。

六、三者如何协同——一张图说清楚
核心关系:
预训练给模型能力,SFT给模型行为规范,RLHF给模型价值判断
三者是递进依赖,不是并列替代。但实践中存在多种组合路线:
技术路线
代表案例
预训练 + SFT + RLHF
GPT-4、ChatGPT
预训练 + SFT + Constitutional AI
Claude 3.5 / 3.7
预训练 + SFT + DPO
Zephyr等开源模型
通用预训练 + 领域继续预训练 + 领域SFT
医疗、法律垂直模型
预训练 + 纯强化学习(减少人工标注)
DeepSeek-R1

七、三个真实案例
案例一:ChatGPT / GPT-4o——RLHF路线的商业验证
技术路线: GPT系列预训练 → SFT → RLHF
ChatGPT是RLHF从论文走向大规模商业落地的第一个现象级案例。2022年11月上线,2个月用户破亿。
对理解三个概念的价值: 它验证了”对齐质量可以超越规模优势”,也让整个行业意识到——用户真正需要的不只是”能说话的模型”,而是”说得好、用得上、不出错”的助手。
截至2025年,GPT-4o的多模态能力(实时语音+图像+文本)和o系列的深度推理能力,代表了这条路线的最新演进方向。

案例二:Claude——Constitutional AI的差异化路线
技术路线: 预训练 + SFT + Constitutional AI
Constitutional AI不是简单的”用AI替代人类标注”,机制上有本质差异:
先给AI一套明确的原则集(”宪法”)→ 让AI依据原则批评自己的回答 → AI根据批评修订输出 → 用AI生成的(原始 vs 修订)对作为偏好数据训练奖励模型 → 再用奖励模型做强化学习
与标准RLHF的核心差异: 人类判断的介入点从”对每个回答打分”前移至”制定原则”——减少对大规模人工标注的依赖,同时使对齐标准更显式、可审计。
Claude 3.7(2025年)引入”扩展思考(Extended Thinking)”模式,在复杂推理任务上的深度进一步提升。

案例三:DeepSeek-R1——对标准路线的实质性挑战
为什么选DeepSeek-R1?
DeepSeek-R1(2025年1月)在数学推理和代码任务上达到与OpenAI o1相当的水平,且以开源形式发布,引发全球关注。它的核心意义不在于性能,而在于技术路线的挑战性:
标准路线
DeepSeek-R1的做法
大量人类偏好标注
使用基于规则的奖励函数(答案正确性、格式规范性),大幅减少人工标注依赖
SFT作为必要阶段
纯RL训练下,模型自发产生”自我反思”和”长思维链”行为
对从业者的判断意义: DeepSeek-R1对”人类反馈是否不可或缺”这一问题提出了实质性挑战,也让推理时计算(Test-Time Compute)的价值重新进入行业视野。

八、展望与反思
8.1 三个值得持续关注的方向
方向一:推理时计算 vs 训练时对齐
o系列和DeepSeek-R1的核心思路是:把更多计算放在推理时(让模型”多想一想”),而非全部依赖训练时对齐。这可能改变”更好的模型 = 更多预训练算力”的既有判断框架。
方向二:对齐的可验证性
随着模型能力超越人类评估者在特定领域的判断能力,”人类反馈”本身的可靠性会系统性下降。这不是工程优化能解决的问题,而是对RLHF范式的根本性挑战。
方向三:Benchmark Overfitting
当前模型选型高度依赖基准测试,但基准被过度优化已是显著问题。评测方法的设计本身,正在成为一个独立的技术挑战。

8.2 两个需要正视的结构性问题
对齐目标的选择权归属
RLHF中的”对齐”,本质是对齐到特定标注员群体的偏好。谁来定义”好的回答”,是技术问题之外的权力分配问题。目前这一权力高度集中在少数头部实验室,缺乏有效的外部校验机制。
“更对齐”不等于”更好用”
对齐税是有实验支撑的现象:过度对齐的模型在某些任务上通用能力会下降。SFT和RLHF的强度、方向、数据构成都在影响这个权衡,没有普遍适用的最优点。在具体场景中,明确评估对齐策略的实际成本,是比选择哪家模型更值得花时间的判断。

8.3 给从业者的选型参考框架
评估维度
核心问题
预训练覆盖
目标领域知识是否充分覆盖?
SFT数据匹配度
标注标准是否与目标场景一致?
对齐策略偏差
安全约束方向是否与场景容忍度匹配?
评测有效性
选型基准是否真实反映目标任务?
能力-对齐权衡
过度约束是否影响有效输出?

延伸阅读
类型
资源
必读论文
Attention Is All You Need(2017)
必读论文
Training language models to follow instructions with human feedback(2022)
必读论文
Constitutional AI: Harmlessness from AI Feedback(2022)
必读论文
DeepSeek-R1 Technical Report(2025)
争议性论文
Are Emergent Abilities of Large Language Models a Mirage?(2023)
工程实践
Hugging Face TRL库文档
视频
Andrej Karpathy: State of GPT(YouTube)