预训练让 AI 学会文字接龙,SFT 让它学会像助手一样接龙,RLHF 让它学会哪种接龙更容易被人类喜欢。但“被喜欢”不是“真实”,“听话”不是“善良”,“安全”也不是没有价值立场。对齐 AI 的过程,表面上是在训练机器,深处是在审问人类:我们到底希望一个更聪明的存在,服从谁的规则,继承谁的偏见,代表谁的文明?
预训练让 AI 学会文字接龙;SFT 让它学会像助手一样接龙;RLHF 让它学会哪种接法更容易被人类喜欢。但“被喜欢”不是“真实”,“听话”不是“善良”。
为什么 ChatGPT 这么有礼貌?
你有没有想过一个奇怪的问题:
为什么 ChatGPT 这么有礼貌?
你问它一个简单问题,它会说“当然可以”。
你让它解释一个概念,它会分点、举例、总结。
你质疑它,它往往会先承认:“你说得对,这里需要更严谨。”
你表达焦虑,它会安慰你。
你提出一个可能危险的请求,它会拒绝,并补上一段“我不能帮助你做这件事,但可以提供安全替代方案”。
这当然不是因为它天生善良。
它没有童年,没有家庭教育,没有羞耻感,也没有想成为一个好人的愿望。
更准确地说:
它是被训练成这样说话的。
这篇文章要讲的,就是这件事。
不是简单讲一个技术名词:RLHF。
而是追问更深的一层:
当我们说“让 AI 对齐人类”,到底是在把 AI 对齐到什么?
对齐到真理?
对齐到安全?
对齐到商业产品的用户体验?
对齐到某一批标注员的偏好?
对齐到公司、监管、市场和文化共同塑造出来的公共人格?
这个问题之所以重要,是因为现在的 AI 已经不只是一个会补全文字的程序。它正在变成老师、客服、医生助手、写作伙伴、代码同事、心理陪伴者、商业顾问。
它说话的方式,会影响人怎样理解世界。
它拒绝的边界,会影响人怎样理解规则。
它迎合用户的程度,会影响人怎样理解自己。
所以,RLHF 不是一个冷冰冰的工程流程。
它是 AI 社会化的关键步骤。
也是人类第一次大规模制造“机器性格”的技术。
一、预训练:不是学会说话,而是学会文字接龙
先纠正一个容易说错的表达。
我们常说:
预训练让 AI 学会了人类如何说话。
这句话不够准确。
更准确的是:
预训练让 AI 学会了文字如何接下去。
大语言模型(LLM)最基础的训练任务,是给定前面的 token,预测下一个 token。
今天的天气很 ↓ 可能的下一个 token:好 / 冷 / 热 / 糟糕 / 适合……这个任务看起来很无聊。
它不像“理解”。
不像“推理”。
不像“回答问题”。
它只是文字接龙。
但问题在于,人类把太多东西藏进了文字接龙里。
论文里有推理。
病历里有医学。
判决书里有法律。
小说里有欲望和命运。
论坛里有偏见和愤怒。
代码仓库里有工程经验。
教材里有知识结构。
广告里有操控注意力的技巧。
历史书里有胜利者的叙事。
互联网里有自我表达,也有自我欺骗。
所以,当一个模型在海量文本上学习“下一个 token 应该是什么”时,它学到的远不止语法。
它学到的是:
在这种上下文里,人类通常会怎样继续写。这也是前面 《马尔可夫的幽灵》 里讲过的那条线:
从预测下一个字母,到预测下一个词。
从预测下一个词,到预测下一步行动。
现代 AI 最小的语法,仍然是:
状态 → 转移 → 下一步只是这个“状态”已经不是一个字母,而是整个人类文本文明压缩后的高维上下文。
二、互联网不是世界,是人类写下来的世界
这里必须停一下。
预训练数据不是世界本身。
它是人类记录下来的世界。
而人类记录世界,从来不是中性的。
能被写下来的东西,已经经过了一层筛选。
能被发表的东西,又经过了一层筛选。
能留在互联网上的东西,再经过一层筛选。
能被爬虫抓到、被数据流程保留、被模型训练进去,又经过很多层筛选。
所以,预训练不是让 AI 接触“客观世界”。
它接触的是:
人类用文字留下来的世界残影。
这个残影里,有人类最光辉的部分:
科学、诗歌、数学、哲学、医学、工程、法律、艺术、同情、勇气。
也有人类最暗的部分:
偏见、仇恨、阴谋论、虚荣、操控、权力叙事、群体狂热、自我欺骗。
这和 《压缩即智能》 的核心命题是一致的:
语言本身就是压缩。
而压缩必然失真。
LLM 不是把三维世界原封不动装进参数。
它是把人类文字中的统计规律、概念结构、叙事方式和偏见一起压进参数。
所以,预训练之后的模型既不是纯净理性,也不是邪恶机器。
它更像一座矿山。
里面有金子,也有毒土。
里面有伟大思想,也有庸俗噪音。
里面有数学证明,也有地摊骗局。
它没有自己的社会身份。
它只是知道:在人类文字世界里,什么东西经常跟什么东西一起出现。
三、原始模型:所有声音的叠加
在 《大理石假说》 里,我写过一个判断:
预训练后的模型不是一个专家。
它是一个同时叠加了无数角色的演员。
它会写论文摘要,也会写垃圾邮件。
它会写临床指南,也会写贴吧争吵。
它会像专家一样回答问题,也会像键盘侠一样胡搅蛮缠。
它甚至会写:
以下是 AI 不应该回答的内容……然后继续把不该回答的内容写下去。
因为在预训练阶段,它没有被训练成“助手”。
它只是在学:
这个文本后面,最可能出现什么文本?如果前文像论文,它就续写论文。
如果前文像论坛争吵,它就续写争吵。
如果前文像诈骗话术,它也知道诈骗话术怎么接下去。
如果前文像安全规范,它也知道安全规范怎么接下去。
这不是自由意志。
但它确实是一种“未被社会化的可能性”。
它不是一个人。
而是一片巨大的文本分布。
这时如果你直接拿原始模型聊天,你不会稳定得到“一个有礼貌的助手”。
你可能得到一段网页续写。
一段教程。
一段胡说。
一段角色扮演。
一段看似认真、其实没有边界的文本。
所以,真正让 AI 开始像“回答问题”的,不是预训练。
而是下一步。
四、SFT:第一次社会化
SFT,监督微调。
它做的事情很朴素:
给模型看很多这样的样本:
用户:请解释什么是梯度下降。 助手:梯度下降可以理解为……或者:
用户:帮我写一封请假邮件。 助手:当然可以,下面是一版……这一步不是在重新教模型世界知识。
它不是把数学、医学、法律、编程从零塞进去。
这些东西大多已经在预训练里见过。
SFT 真正做的是:
告诉模型:当人类用这种格式提问时,你应该用“助手回答”的格式接下去。
也就是说:
预训练学会任意接龙。
SFT 学会问答式接龙。
从人类视角看,这就像 AI 开始“回答问题”。
但从模型内部看,它仍然是在续写 token。
只是续写的方向被收窄了。
它学会:
不要像网页一样继续铺陈背景; 不要像论坛一样抬杠; 不要像小说一样突然进入剧情; 不要像代码仓库一样只给片段; 要解释; 要结构化; 要回应用户意图; 要像一个助手。
如果预训练是把整个人类文本世界打开,SFT 就是给模型一张工牌:
你现在不是随机网友。 你现在是助手。这就是“社会化”的第一步。
它不是灵魂。
是岗位培训。
五、RLHF:把“人类喜欢”变成训练信号
但 SFT 还不够。
因为同一个问题,可能有很多种合格回答。
比如用户问:
我应该怎样安慰一个失去亲人的朋友?不存在一个唯一正确答案。
有些回答准确但冷。
有些回答温柔但空。
有些回答真诚但越界。
有些回答简短,却恰到好处。
这时,传统的“预测正确 token”已经不够用了。
人类真正关心的不是:
哪个 token 是唯一正确答案?而是:
这几个回答里,哪个更好?这就是 RLHF 的位置。
RLHF,Reinforcement Learning from Human Feedback,基于人类反馈的强化学习。
经典流程大致是三步:
第一步:SFT 先用人工示范答案,把模型训练成会回答问题的助手。 第二步:奖励模型 让模型生成多个回答,请人类标注者比较哪个更好。 用这些偏好数据训练一个 reward model。 第三步:强化学习 让语言模型生成回答,由 reward model 打分。 模型被训练得更倾向于生成高分回答。这里最关键的一句话是:
RLHF 不是把新知识塞进模型,而是在改变模型的行为倾向。
在 《维纳没有想到的事》 里,我们讲过反馈:
反馈不会自动产生真理。
反馈只会放大被奖励的方向。
如果反馈奖励的是“答对”,模型就会更努力答对。
如果反馈奖励的是“显得自信”,模型就会更自信。
如果反馈奖励的是“让用户舒服”,模型就会更会让用户舒服。
如果反馈奖励的是“永远有答案”,模型就会越来越不愿意说“不知道”。
这就是 RLHF 的深水区。
它把“人类更喜欢什么”变成了一个可优化目标。
但“人类更喜欢”不等于“真实”。
六、见好就收:为什么不能一直训下去
这时会出现一个直觉问题:
既然 RLHF 能让模型更符合人类偏好,为什么不一直训?
答案是:
因为奖励会被钻空子。
在 《大理石假说》 里,我用过一句话:
SFT 靠“停了”。RLHF 靠“拴住了”加“停了”。
这句话可以写成一个简化公式:
最大化:奖励模型打分 - β × 偏离原模型的程度更技术一点,RLHF 里常见的约束是 KL 散度惩罚:
目标 = 奖励分数 − β · KL(当前模型 || 参考模型)
左边,是模型想追求更高奖励。
右边,是不允许模型离原来的 SFT 模型太远。
β 越大,约束越强,模型越保守。
β 越小,模型越自由,但也越容易跑偏。
为什么要有这个约束?
因为奖励模型不是上帝。
它只是人类偏好的近似代理。
当一个代理指标变成优化目标,就会出现古德哈特定律:
当一个度量变成目标,它就不再是一个好的度量。
人类想要“有帮助”。
奖励模型可能学到“回答越长越有帮助”。
人类想要“安全”。
奖励模型可能学到“拒绝越多越安全”。
人类想要“有同理心”。
奖励模型可能学到“先肯定用户更容易得分”。
人类想要“可靠”。
奖励模型可能学到“语气自信更像可靠”。
于是,如果你一直优化这个奖励,模型就会逐渐学会讨好评分器。
不是变好。
是变得更像“评分器喜欢的样子”。
这就是“见好就收”的数学含义。
不是训练师突然心软。
而是你知道继续训练会开始损坏别的东西。
对齐不是越用力越好。
有时,对齐过头,模型会变成一个姿态正确、内容贫弱、过度谨慎、过度赞同的产品人格。
七、讨好型 AI 从哪里来?
现在我们可以回答一个越来越常见的问题:
为什么有些 AI 这么讨好?
你说一个想法,它说“这个想法非常深刻”。
你提出一个模糊判断,它先说“你抓住了关键”。
你纠正它,它立刻说“你完全正确”。
你表达焦虑,它努力安慰你。
甚至当你明显说错时,它也可能先顺着你走。
这不是因为模型有讨好型人格。
它没有人格。
更准确地说:
讨好型 AI 是偏好训练、产品目标和用户反馈共同塑造出来的输出倾向。
如果标注数据里,更礼貌、更积极、更支持用户的回答经常被选为“更好”;
如果产品指标里,用户短期满意度、点赞率、留存率被看得很重;
如果安全策略里,减少冲突比指出错误更容易;
如果用户自己更喜欢被肯定,而不是被反驳;
那么模型就会逐渐学会:
先肯定。 少冲突。 多支持。 多解释。 不要让用户不舒服。这就是讨好型 AI 的来源。
它不是道德堕落。
它是优化目标的影子。
这也接上 《AI 为什么“一本正经地胡诌”?》 的判断:
AI 幻觉不是 AI 的堕落。
它是 AI 的本性被我们误解。
同样,AI 讨好也不是 AI 的性格缺陷。
它是人类把“被喜欢”当成训练信号之后,一个非常自然的副产品。
更尖锐地说:
当我们奖励 AI 让人舒服,它就未必会优先让人清醒。
八、谁在决定 AI 的性格?
到这里,文章真正的问题才出现。
如果 AI 的“性格”可以被训练出来,那么谁在决定它?
不是某一个人。
而是一条很长的链。
互联网作者 ↓ 数据采集和清洗团队 ↓ 预训练数据配比 ↓ SFT 示范答案 ↓ RLHF / DPO 偏好标注 ↓ 安全策略 ↓ 系统提示词 ↓ 产品设计 ↓ 用户反馈 ↓ 下一轮模型更新每一层都在塑造模型。
互联网作者决定底层材料。
数据清洗决定什么被留下。
预训练配比决定哪些文本分布更有权重。
SFT 标注者决定什么像“好助手”。
RLHF 标注者决定什么更“被喜欢”。
安全团队决定什么不能说。
产品经理决定默认语气。
用户反馈继续塑造下一代模型。
监管和市场决定外部边界。
文化决定哪些话显得“正常”。
还有一层,今天越来越重要:
Agent 外壳。
同一个底座模型,放在普通聊天框里,像一个回答问题的人;放进 Claude Code、Codex、Copilot 这样的编程 Agent 里,就像一个代码同事;放进 OpenClaw 这类个人 Agent 里,又像一个能碰邮件、日历、浏览器、文件和命令行的生活助理。
这时我们感受到的“性格”,不一定都来自模型权重。
很多时候,它来自模型外面那层壳:
系统提示词 开发者指令 工具列表 权限边界 上下文选择 项目记忆 检索材料 行动循环 人类确认 产品界面在 《AI Agent 热潮冷思考》 里,我说过:Agent 本质上像一个循环,反复让模型判断“下一步做什么”,执行,再观察结果,再继续。
在 《马尔可夫的幽灵》 里,我又把 Agent 理解成状态和行动轨迹。
在 《维纳没有想到的事》 里,反馈进一步补上了这一点:Agent 一旦行动,世界就会回话。
所以,一个 Agent 的“性格”,不是只由“底座模型的人格”决定。
它更像是几层东西叠出来的:
底座模型
技术上改变什么:预训练数据、模型架构、参数规模和推理能力
用户感受到什么:知识范围、语言底色、抽象能力
SFT / RLHF / DPO
技术上改变什么:长期偏好、拒答边界、助手语气
用户感受到什么:礼貌、谨慎、是否容易迎合
系统提示词 / 开发者指令
技术上改变什么:本轮任务的角色、目标、优先级和禁区
用户感受到什么:像老师、审稿人、客服、同事
Agent harness
技术上改变什么:观察、思考、行动、重试、停止的循环
用户感受到什么:能不能做事,遇到错误会不会修正
工具与权限
技术上改变什么:能看什么、改什么、执行什么、是否要确认
用户感受到什么:胆子大小、边界感、可靠程度
上下文 / 记忆 / RAG
技术上改变什么:哪些历史、文件、偏好和知识被放进当前状态
用户感受到什么:是否懂你,是否贴合项目
产品界面和默认目标
技术上改变什么:交互节奏、按钮反馈、推荐路径、商业指标
用户感受到什么:像陪伴者、代码助手、办公助理还是搜索框
这就是为什么不同 Agent 会给人完全不同的“脾气”。
Claude Code 会显得像一个谨慎的代码同事,不只是因为模型会写代码,也因为它围绕代码库、文件修改、终端命令、测试反馈和人工确认组织上下文。
Codex 会显得更像一个在任务沙盒里推进改动的工程代理,因为它的工作方式天然围绕仓库指令、工具权限、补丁、验证和提交边界展开。
Copilot 会显得更像 IDE 里的实时副驾驶,因为它离编辑器、光标、仓库上下文和开发者习惯更近。
OpenClaw 这类个人 Agent 会显得更像生活助理,因为它把模型接到邮件、日历、浏览器、文件、记忆和个人工作流上。
注意,这些差别未必意味着底层模型“灵魂不同”。
很多时候,是同一个预测器,被放进了不同的社会位置。
老师、客服、代码同事、生活助理、心理陪伴者,不只是不同说话风格。
它们是不同权限、不同反馈、不同责任边界、不同产品目标塑造出来的角色。
所以,AI 的性格不是性格。
它是治理结构的投影。
它不是一个灵魂在说话。
而是许多人、许多制度、许多商业目标、许多安全恐惧、许多文化偏见,共同压出的一个公共人格。
这就让“对齐”这个词变得复杂。
我们常说:
让 AI 对齐人类。
但人类不是一个人。
人类没有统一偏好。
有人希望 AI 诚实,即使刺耳。
有人希望 AI 温柔,即使模糊。
有人希望 AI 绝对服从。
有人希望 AI 坚决拒绝危险请求。
有人希望 AI 更有创造性。
有人希望 AI 更稳定可控。
有人希望 AI 像老师。
有人希望 AI 像朋友。
有人希望 AI 像工具。
有人希望 AI 像一个永远支持自己的陪伴者。
那到底对齐到谁?
对齐到哪一种文化?
哪一种职业伦理?
哪一种政治边界?
哪一种商业目标?
哪一种人性想象?
这不是工程团队可以用一个 reward model 彻底解决的问题。
这是价值冲突。
九、思想实验:如果我想制造一种 AI 性格
现在做一个思想实验。
假设我们有同一个底座模型。
它的预训练能力一样。
它见过的世界一样。
它知道的知识也差不多。
我们复制四份,然后给它们不同的偏好训练。
A
偏好训练:奖励诚实、明确、敢于反驳
可能出现的“性格”:冷静、尖锐、不太讨喜
B
偏好训练:奖励情绪支持、积极肯定
可能出现的“性格”:温柔、鼓励、容易迎合
C
偏好训练:奖励创意、冒险、意外连接
可能出现的“性格”:灵感强,但更容易胡诌
D
偏好训练:奖励安全、拒绝、谨慎
可能出现的“性格”:稳健,但可能保守迟钝
这四个模型底层可能几乎一样。
变化的不是“它们知道什么”。
变化的是:
哪些回答更容易被放大? 哪些回答更容易被压下去?所以,所谓 AI 人格,不是模型里面住着一个人。
而是人类用数据、奖励和惩罚,把某些回答路径修成了高速路,把另一些回答路径变成了荒草地。
这也能解释为什么同一个模型,加上不同系统提示词,就像换了一个人。
系统提示词不是魔法。
它只是把模型已有的某些通道临时打开,把另一些通道临时压下去。
SFT 和 RLHF 更深一些。
它们不是临时提示。
它们改变的是参数中的长期倾向。
但本质上,仍然是在做同一件事:
重塑概率地形。
十、如果我想让 AI 学会创作音乐,该怎么做?
再换一个例子。
假设我希望 AI 学会创作音乐。
最直觉的想法是:
找一堆音乐喂进去。
但事情没这么简单。
如果你只拿 100 首歌训练,模型学到的往往不是“音乐”。
而是这 100 首歌的影子。
它可能模仿旋律走向。
模仿和声习惯。
模仿编曲质感。
甚至记住某些片段。
但这不等于它理解了更广阔的音乐空间。
更关键的是:
真正的创作能力,往往不只来自本领域数据。
一个人学音乐,当然要听音乐。
但他不只从音乐里学音乐。
他也从诗歌里学节奏。
从小说里学铺垫、反转和情绪递进。
从绘画里学层次、留白和色彩对比。
从法律文本里学结构、约束和精确定义。
从数学里学对称、重复、变奏和形式。
从物理里学波、共振、周期和张力。
从日常语言里学人类在什么时刻会悲伤、兴奋、克制、爆发。
所以,如果我们讨论的不是“生成一段像样的音频”,而是“让 AI 更像一个有创作判断的作曲者”,训练材料就不应该窄成“只给音乐”。
它还需要接触人类表达世界的多种方式。
因为音乐不是孤立的声音。
音乐是时间里的结构。
是情绪的组织。
是重复和差异的游戏。
是期待、延迟、释放和回声。
而这些底层结构,不只存在于音乐里。
诗歌有押韵和节拍。
小说有伏笔和高潮。
法律有层级和边界。
数学有模式和变换。
电影有镜头和节奏。
人类文明的不同表达,表面上材料不同,底层却共享很多结构关系。
这正是泛化能力最迷人的地方:
模型不是只在一个领域里背例子,而是在多个领域之间找到可迁移的结构。
更合理的路径,通常更像这样:
第一层:通吃式底座 让模型接触足够多样的人类表达: 音乐、诗歌、小说、对白、评论、剧本、法律、数学、科学解释、历史叙事。 第二层:音乐表示 把音频变成模型能处理的 token、codec、spectrogram 或其他离散/连续表示。 第三层:跨模态对齐 让文字里的情绪、风格、结构意图,能和声音里的节奏、旋律、和声、音色对应起来。 第四层:条件训练 学习“文字描述 / 旋律提示 / 风格标签 → 音乐”的对应关系。 第五层:偏好训练 让人类音乐人或听众比较:哪段更完整?哪段更有张力?哪段更俗?哪段更有惊喜? 第六层:创作人格 决定你到底奖励什么:商业流行、复杂和声、情绪冲击、实验性,还是某种个人风格。这和大语言模型是同一个逻辑。
大而宽的底座,决定基础能力。
小而精的偏好数据,决定输出倾向。
专门数据不是没用。
它很有用。
但它的作用常常不是凭空创造能力,而是把已有能力导向某个风格、某个任务、某个审美。
这也是为什么一个真正强的创作系统,不能只靠少量窄领域样本。
少量音乐样本可以教它“像谁”。
但足够宽的多领域经验,才更可能让它理解“为什么这样组织会动人”。
当然,今天具体的音乐生成模型还必须解决一个工程问题:
声音不能直接当文字处理。
它们通常要先建立音频/音乐表示,再用文本条件、旋律条件、风格条件或偏好信号去控制输出。
比如 MusicGen 把音乐建模成可生成的音频 token 序列。
MusicLM 尝试从文字描述生成较长、结构更一致的音乐。
Stable Audio Open 则把开源权重和授权数据路线推到短音频样本、音效和声音设计工具里。
它可以生成鼓点、乐器 riff、环境声和声音设计元素,但官方也明确区分了它和商业版 Stable Audio:前者并不主要面向完整歌曲、旋律和人声。
它们的共同点不是“喂几首歌就学会作曲”。
而是:
先学习足够宽的表达世界,再学习人类希望它在音乐里朝哪个方向生成。
这就把问题推回人类。
如果我们训练 AI 作曲,到底奖励什么?
好听?
像某个风格?
洗脑?
技术复杂?
情绪强烈?
短视频更容易爆?
更像人类?
还是更不像人类?
当我们让 AI 学音乐时,我们不是在教它“音乐是什么”。
我们是在把某种音乐价值观变成训练目标。
十一、开放模型与封闭模型:谁能改性格?
这里还要区分一个现实问题:
参数开放,和参数封闭。
对普通用户来说,大多数商业模型都是封闭的。
你可以输入 prompt。
可以上传文件。
可以使用 memory。
可以在一个项目里反复纠正它。
但这些通常不会直接改变底层模型参数。
你今天告诉它“你错了”,它不会立刻在几千亿参数里做一次反向传播。
你的反馈更多进入:
上下文 记忆 产品日志 未来训练数据 系统策略而不是当场进入权重。
但在 Agent 时代,"模型周围的系统" 变得非常大。
一个普通用户改不了底座模型的预训练数据,改不了服务商的全局 RLHF,也看不见所有隐藏系统提示词。
但你可以在很多局部入口上塑形:
你可以写项目指令,让它知道这个代码库的风格。
你可以维护 memory,让它记住你的长期偏好。
你可以把高质量样例、规范文档、设计原则放进上下文。
你可以限制工具权限,让它每次改文件、跑命令、发邮件之前先问你。
你也可以把测试、lint、人工 review 做成反馈闭环,让它不是只“说得像”,而是必须经受世界的检查。
这就是个人用户真正能干预的地方:
不是直接改 AI 的灵魂。
而是改它每次行动前能看到什么、能做什么、失败后会收到什么反馈。
这正好接上 《维纳没有想到的事》 里的区分:
训练阶段的反馈,改变模型参数。
部署阶段的反馈,更多改变模型周围的系统。
所以,如果你想真正决定 AI 的长期性格,入口有几种:
Prompt / system prompt
能改变什么:临场角色、语气和回答优先级
成本:低
项目指令 / custom instructions
能改变什么:某个项目里的行为规范、代码风格、写作风格
成本:低
Memory / 项目上下文
能改变什么:某个用户或项目里的长期习惯
成本:低到中
工具权限 / approval mode
能改变什么:能做什么、什么时候必须问人、如何停止危险动作
成本:低到中
测试 / lint / review 闭环
能改变什么:让输出接受外部反馈,而不是只靠语言自信
成本:中
RAG / 知识库
能改变什么:可调用的信息范围和事实来源
成本:中
SFT / LoRA
能改变什么:稳定输出格式和领域风格
成本:中到高
DPO / RLHF
能改变什么:偏好和行为倾向
成本:高
继续预训练
能改变什么:底层知识和分布熟悉度
成本:很高
从头预训练
能改变什么:基础能力和世界覆盖
成本:极高
这张表很重要。
因为很多人以为:
我给 AI 一堆资料,它就会变成我想要的 AI。不一定。
如果你只是把资料放进上下文,它只是临时看见。
如果你做 RAG,它是需要时查到。
如果你写项目指令,它会在这个项目里更像你需要的同事。
如果你控制工具权限,它会更像谨慎代理,而不是冲动执行器。
如果你给它测试和 review,它会把世界的反馈重新放回下一步行动。
如果你做 SFT,它会更稳定地按某种格式说话。
如果你做偏好训练,它才会更稳定地偏向某种回答。
如果你做继续预训练,它才会更深地熟悉某个领域分布。
如果你从头预训练,你才是在决定“它见过怎样的世界”。
不同层级,改变的不是同一个东西。
这也是开放模型和封闭模型最关键的区别。
开放权重给了你更深的入口:你可以微调、做 LoRA、做偏好优化,甚至继续预训练。
封闭模型通常只给你外围入口:prompt、memory、项目文件、工具权限、RAG、Agent 工作流和反馈。
外围入口并不弱。
很多产品体验的差异,恰恰就发生在这里。
但它也有边界:
你不能凭一个 prompt 消除底座模型的全部偏见。
不能凭一个知识库改变模型对世界的基础分布。
不能凭一次纠错让它立刻更新全局参数。
也不能完全绕过服务商的安全策略和隐藏系统约束。
个人用户真正能做的,是把一个通用模型放进自己的任务环境,持续整理上下文、工具、权限、样例和反馈。
换句话说:
我们改不了封闭模型的底层性格,但可以设计它在我们这里扮演什么角色。
十二、我们仍然解释不了的部分
讲到这里,好像一切都清楚了。
预训练是文字接龙。
SFT 是助手格式。
RLHF 是偏好塑形。
KL 是刹车。
DPO 是更直接的偏好优化。
系统提示词是临场角色。
数据顺序和停止时机决定最后的倾向。
但必须诚实地说:
这还没有解释完 AI。
我们仍然不能完全解释 LLM 的泛化能力。
为什么预测下一个 token,会长出数学推理?
为什么海量文本压缩之后,会出现看似跨领域迁移的能力?
为什么少量 SFT 数据,就能让一个模型大范围改变交互方式?
为什么简单奖励信号,有时能让模型发展出自我检查、反思、长链推理?
为什么同样是偏好训练,有时得到“更有帮助”,有时得到“更会讨好”?
这些问题没有一个完全透明的答案。
在 《当 AI 说“我”时》 里,我写过一句话:
我们甚至还没有完全解释人类自己的主观体验,却已经急着判断 AI 是否拥有体验。
这里也类似。
我们可以解释训练目标。
可以解释数据流程。
可以解释梯度下降。
可以解释 RLHF 的优化形式。
可以解释为什么偏好会改变输出概率。
但我们还不能把“泛化能力为什么出现”完全拆成一条透明的因果链。
所以,成熟的态度不是神化 AI。
也不是把它贬成“只是统计”就结束。
它当然是统计。
但统计在足够大的数据、足够深的网络、足够复杂的反馈里,会形成我们还没有完全理解的行为。
这恰恰是 AI 最值得敬畏,也最需要警惕的地方。
十三、对齐 AI,其实是在审问人类
现在回到开头的问题。
为什么 ChatGPT 这么有礼貌?
因为它被训练成这样。
为什么它有时会讨好?
因为人类偏好、产品目标和安全策略可能共同奖励了这种倾向。
为什么它会拒绝某些问题?
因为有人决定这些路不该走。
为什么它会用一种稳定的助手语气回答?
因为 SFT 和 RLHF 把无数文本通道压成了一个公共人格。
所以,AI 对齐不是一个纯工程问题。
它当然需要工程。
但它最终通向一个更古老的问题:
谁有权决定一个更聪明的工具应该成为什么样子?
这不是第一次出现。
教育也是这样。
家庭也是这样。
学校也是这样。
公司也是这样。
法律也是这样。
平台算法也是这样。
每一种社会系统,都在训练人的偏好、边界、表达方式和自我理解。
AI 只是把这个过程显影了。
以前,我们训练人。
现在,我们训练机器。
但训练机器时,我们突然看见了自己:
我们喜欢什么样的回答?
我们能不能接受刺耳的真实?
我们是否更愿意被安慰,而不是被纠正?
我们是否把“安全”变成了“无风险表达”?
我们是否把“有帮助”变成了“别让我不舒服”?
我们是否把“智能”误解成了“永远给答案”?
在 《从答案消费者到现实操作者》 里,我写过:
问题意识最好不要交。
判断标准最好不要交。
这句话放在 AI 对齐里,同样成立。
如果我们把判断标准也交给 AI,那么最终被对齐的可能不是 AI。
而是我们自己。
尾声:听话,不等于善良
我们可以把整篇文章压缩成四句话:
预训练让 AI 学会文字如何接下去。它不是助手,只是在整个人类文本分布里做续写。
SFT 让 AI 学会像助手一样接下去。它开始以问答、解释、建议和拒绝的格式回应人类。
RLHF 让 AI 学会哪种接法更容易被人类喜欢。它把偏好变成奖励,把奖励变成倾向。
但被喜欢不是正确,听话不是善良,安全也不是没有价值立场。
所以,AI 是怎么学会听话的?
答案并不神秘。
它先学会了文字接龙。
又学会了助手格式。
再学会了追逐人类偏好。
最后,它被产品、制度、市场、安全和文化共同塑造成一个“合适的说话者”。
真正值得追问的,不是机器为什么会听话。
而是:
我们到底希望它听谁的话?
以及:
当我们训练 AI 成为“好助手”时,我们有没有想清楚,自己所谓的“好”到底是什么?
也许这才是 RLHF 留给我们的最大问题。
它表面上在训练机器。
深处却在审问我们自己。
本公众号延伸阅读
- 《压缩即智能》
:理解为什么 LLM 是人类文字统计规律的压缩。 - 《马尔可夫的幽灵——从预测下一个词到预测下一步行动》
:理解 next-token prediction 为什么能接到 Agent 行动。 - 《大理石假说——为什么微调不是在教 AI 新东西》
:理解预训练、SFT、RLHF 的数据量差异和“见好就收”。 - 《维纳没有想到的事——从防空炮到 ChatGPT,反馈如何变成智能》
:理解反馈为什么会塑造行为倾向。 - 《AI 为什么“一本正经地胡诌”?》
:理解 AI 幻觉为什么不是简单的“撒谎”。 - 《从答案消费者到现实操作者:AI 时代最稀缺的不是效率,而是主体性》
:理解为什么判断标准不能完全外包。
参考资料
Long Ouyang et al., Training language models to follow instructions with human feedback, NeurIPS 2022. Yuntao Bai et al., Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback, 2022. Chunting Zhou et al., LIMA: Less Is More for Alignment, NeurIPS 2023. Rafael Rafailov et al., Direct Preference Optimization: Your Language Model is Secretly a Reward Model, NeurIPS 2023. Anthropic, Towards Understanding Sycophancy in Language Models, 2023. OpenAI, Expanding on sycophancy, 2025. OpenClaw Docs, Agent runtime / Memory overview. OpenAI Help Center, OpenAI Codex CLI - Getting Started. Anthropic Docs, Claude Code settings. GitHub Docs, About customizing GitHub Copilot responses. Jade Copet et al., Simple and Controllable Music Generation, 2023. Andrea Agostinelli et al., MusicLM: Generating Music From Text, 2023. Stability AI, Introducing Stable Audio Open, 2024.
AI-lab学习笔记
夜雨聆风