乐于分享
好东西不私藏

AI我知道:AI 的「价值观」从哪里来?——对齐、RLHF 与 AI 生态

AI我知道:AI 的「价值观」从哪里来?——对齐、RLHF 与 AI 生态

👇 连享会 · 推文导航 |www.lianxh.cn

连享会:2026五一论文班 · 线上
时间:5月2-4日
嘉宾:郭士祺 (上海交通大学)、戚树森 (厦门大学)、李学恒 (中山大学)
咨询:王老师 18903405450(微信)

 本次课程框架为:因果证据链的构建 → 在顶刊论文中感受和校准这套因果证据链判断 → AI Agent 辅助实现完成

  • • 先导课报名后可看回放
  • • 从「会跑回归」到「会做研究设计」。 从 RCT 出发,覆盖 DID、固定效应、工具变量的识别逻辑与论证策略,重点不在方法本身,而在于如何围绕一个研究问题构建完整的因果证据链——这是 AI 替代不了、也最值得花时间打磨的核心能力。
  • • 顶刊论文,原作者精讲。 戚树森老师亲自讲解自己参与完成的 Review of Finance 论文,覆盖选题缘起、识别策略设计、审稿意见的回应过程——不只是呈现结果,而是还原论文背后真实的决策过程。
  • • 用 AI Agent 真正解放执行环节。 学完这门课,你将掌握两套可以直接上手的 AI Agent 工作流——文献综述和论文修改——并理解如何把自己的研究方法论写成 Skill,让 Agent 按照你的标准自动执行,而不是每次重新解释。

作者: 丁闪闪 (连享会)
邮箱:lianxhcn@163.com[1]

系列说明:本文是「AI我知道[2]」系列推文的第五篇,面向经管、金融、社会学领域的研究者和学生。我们的目标不是把你训练成 AI 工程师,而是帮你建立足够扎实的概念框架,让你能更聪明地使用这些工具,并在研究和工作中做出有依据的判断。

  • • Title: AI我知道:AI 的「价值观」从哪里来?——对齐、RLHF 与 AI 生态
  • • Keywords: 对齐, RLHF, 指令微调, AI 生态, 大语言模型, 安全边界, ChatGPT

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:

你有没有遇到过这种困惑?

把几个 AI 产品并排用一段时间之后,很多人都会生出一种很具体的感觉:它们明明都能写文章、改代码、总结论文,但说话的分寸并不一样。有的比较谨慎,有的更愿意往前走一步;有的习惯先提醒风险,有的更倾向直接给方案;同一个问题,换个平台再问,语气、边界和结论框架都可能变掉。

于是,问题就来了:这些差异到底从哪里来? AI 真的有自己的「价值观」吗?还是说,我们看到的只是训练方式、产品规则和使用场景共同作用之后的结果?

这一篇想讨论的,就是这个问题。对普通用户来说,要理解 AI 为什么会表现出某种偏好、某种谨慎,或者某种拒答方式,至少要先抓住三个概念:对齐(Alignment)RLHF 和 AI 生态。它们分别回答三层问题:模型为什么不能只追求把话说通顺;人类反馈怎样把更像一个好助手的偏好写进模型行为;以及为什么同样是大模型,落到不同产品里,最后呈现出来的整体气质会明显不同。


1. 对齐:不是给 AI 灌输抽象道德,而是让它更适合合作

1.1 什么是「对齐」?

「对齐」这个词,听起来容易让人想到很大的哲学命题。但如果回到日常使用,它其实没有那么玄。

所谓对齐,就是尽量让模型的行为,朝着人类期待的任务方式靠拢。

这里说的,不是让模型永远正确,也不是让模型拥有人类那种真正的价值观。更实际的意思是:模型原本最擅长的事,是根据上下文生成下一个 token;但用户真正想要的,不只是一个会接话的系统,而是一个在合作时更有分寸、更少跑偏的助手。换句话说,大家希望它:

  • • 尽量听懂任务;
  • • 少编依据;
  • • 该谨慎的时候知道收住;
  • • 拿不准的时候愿意承认不确定;
  • • 在高风险问题上不过度自信;
  • • 在普通任务里又不至于僵硬得难以使用。

从这个角度看,对齐更像一种行为校准。它不是把模型训练成道德哲学家,而是让它更像一个可合作、可控制、也更可预期的助手。

1.2 为什么只有预训练还不够?

预训练当然非常重要。模型在海量文本中学到语言模式,才有了续写、归纳、表达这些基础能力。但这一步主要解决的,还是语言层面的问题:会不会说,像不像自然语言,能不能把一句话顺着接下去。

现实中的需求显然不止这些。用户并不需要一个只会顺着话往下讲、却不管真假、不看边界、也不判断任务目标的系统。也就是说,语言能力本身,并不自动等于可合作性。

这正是对齐要补的部分。它试图把模型从单纯的语言续写器,往任务助手的方向再推一步:不仅会生成内容,还要更接近一种可使用、可合作的行为方式。什么时候该保守一点,什么时候应该说清依据,什么时候需要把风险讲明白,这些都不是单靠预训练自然长出来的。

所以,对齐不是后来加上的小修小补,而是模型从能说,走向能被稳定使用的关键一步。

1.3 为什么你会感受到不同产品之间的气质差异?

因为很多你在日常使用中感受到的风格差异,本来就和对齐有关。

例如:

  • • 为什么有的模型回答更像老师,有的更像助理;
  • • 为什么有的模型遇到风险问题会明显更谨慎;
  • • 为什么有的模型更愿意说「我不确定」;
  • • 为什么有的平台习惯先讲原则,有的平台更愿意直接推进任务。

这些差异当然也和产品定位、目标用户、法律环境有关,但如果只看模型行为层面,其中相当一部分都可以理解为:对齐方式不同,外显出来的结果也会不同。

所以,很多人感受到的那种「脾气」,并不是模型天然有了某种人格,而更像是一整套训练、反馈和规则选择累积之后形成的表现。

图 1:AI 的行为,不只来自底层模型,还来自多层对齐与规则

图 1:从普通用户视角看,AI 的最终行为更像多层因素共同作用后的结果。底层模型当然重要,但系统提示、对齐方式、产品规则和任务场景都会继续塑造它的表现。


2. RLHF:让模型学会什么样的回答更受人类偏好

2.1 RLHF 是什么?

如果说「对齐」描述的是目标,那么 RLHF 说的就是一条重要的实现路径。RLHF 的全称是 Reinforcement Learning from Human Feedback,通常译为「基于人类反馈的强化学习」。

这个名字听起来有点技术味,但可以先把它理解成一个很直观的想法:不只是让模型模仿文本,还要让它学习哪种回答更符合人类偏好。

举个简单的例子。面对同一个问题,模型可能给出两个都还说得通的回答:

  • • A 比较流畅,但带着一点想当然;
  • • B 没那么华丽,却会说明依据,保留不确定性。

如果人类标注者反复更偏好 B,那么训练系统就会逐渐学到:在类似任务里,B 这种回答更接近较好的回答。时间久了,模型的行为就会朝这个方向偏过去。

所以,RLHF 并不是把某套完整价值体系灌进模型,而是在持续告诉它:人类通常更愿意接受哪一类回答。

2.2 RLHF 实际上改变了什么?

它改变的不只是表面措辞,而是更深一层的行为倾向。

经过这类反馈之后,模型通常会更倾向于:

  • • 优先回应用户真正关心的任务;
  • • 少做无谓的发散;
  • • 拿不准时保留不确定性;
  • • 在高风险问题上更容易触发谨慎策略;
  • • 输出更接近人类认为有帮助、较安全、较可信的样子。

这也是为什么很多人会觉得,助手型模型这几年明显更会配合了。原因之一就在于,它们学到的已经不只是语言模式,还包括一整套关于怎样才算更好回答的偏好信号。

当然,RLHF 也不是万能的。它可以改善一类问题,但并不能消除所有问题。模型依然会幻觉,依然可能在复杂任务里判断失误,也依然可能因为反馈分布和产品策略不同,而呈现出不同的边界。

2.3 这是不是意味着模型真的有了「价值观」?

严格说,不是。

很多用户会自然地联想到:既然模型会拒绝某些请求,会提醒风险,也会表现出相对稳定的风格,那它是不是已经拥有某种价值观?这个判断很容易把问题说得过满。

更稳妥的理解是:模型是在行为层面学会了某种偏好模式,而不是像人一样形成了内在的伦理信念。

它没有人类那种自我意识,也没有真正意义上的道德体验。你看到的更多是下面几层东西叠在一起:

  • • 训练数据中的模式;
  • • 指令微调形成的行为倾向;
  • • 人类反馈带来的偏好校准;
  • • 产品规则施加的边界约束。

所以,当我们说某个模型更谨慎、更温和,或者更喜欢提醒风险时,更准确的意思通常是:它在这些维度上的行为,被训练和产品设计一起塑造成了这样,而不是它真的像人那样自己这么想。

图 2:RLHF 更像反复告诉模型:哪种回答更受偏好

图 2:从普通用户角度看,RLHF 的核心不是学会正确答案,而是学会什么样的回答更像一个好助手。它改变的是行为偏好,而不只是表面措辞。


3. AI 生态:你看到的所谓「价值观」,往往是整个系统共同作用后的结果

3.1 为什么不能只盯着模型本身?

讲到这里,一个更重要的事实就清楚了:用户最终接触到的,并不只是一个模型,而是一个更大的系统。

这个系统至少包括:

  • • 底层基础模型;
  • • 指令微调和对齐训练;
  • • 系统提示与隐藏规则;
  • • 工具调用能力;
  • • 产品界面和交互方式;
  • • 内容政策与风控机制;
  • • 使用场景、行业规范与法律环境。

所以,很多你感受到的价值观差异,并不一定来自模型本体,而可能来自整条系统链条的不同配置。也就是说,用户面对的通常不是实验室里的一个抽象「裸模型」,而是 AI 生态中的一个具体产品

3.2 为什么底层模型相近,产品表现也可能很不一样?

因为产品层还在继续塑造行为。

这一点对普通用户特别重要。很多人会觉得,只要底层模型差不多,最终体验应该也差不多。实际情况往往没有这么简单。哪怕模型接近,只要下面这些部分不同,表现就可能明显分化:

  • • 系统提示写法不同;
  • • 是否接入搜索、代码执行、文件读取等工具;
  • • 是否叠加了额外的安全策略;
  • • 是否面向企业、学生、开发者等不同人群;
  • • 是否在某些问题上优先强调谨慎与合规。

于是,你就会看到很真实的差异:同样一个问题,有的平台更偏向讲原则,有的平台更偏向完成任务;有的平台更容易拒答,有的平台更喜欢给折中方案;有的平台把「安全第一」放得更前,有的平台则更强调「效率第一」。

因此,与其说 AI 有某种固定的「价值观」,很多时候不如说:它所在的产品生态,继续对它的行为做了塑形。

3.3 为什么理解 AI 生态,会直接改善你的使用判断?

因为它会改变你的期待方式。

如果你把所有差异都归因为模型聪不聪明,就很容易误判。你可能会觉得某次拒答说明模型不会,某次温和提醒说明模型更懂伦理,某次直接给方案说明模型更能干。但其中相当一部分差异,其实未必是能力差异,而是生态差异。

理解了这一点之后,你对 AI 的判断会稳一些:

  • • 不要把拒答自动等同于真理;
  • • 不要把顺滑自动等同于可靠;
  • • 不要把更敢答直接理解为更强;
  • • 也不要把更谨慎直接理解为更正确。

你面对的,常常是一整套训练、规则、工具和产品选择共同形成的结果。

图 3:AI 的所谓「价值观」更像训练、规则、工具与场景共同塑造出来的行为结果

图 3:从用户视角看,AI 的很多风格、边界和谨慎程度,其实是整个生态共同作用的结果。模型重要,但它并不是唯一来源。


4. 理解「对齐」之后,你会更会用 AI

把前面的三个概念放到一起看,其实会带来一个很实际的变化:你会更容易把 AI 放在一个合适的位置上。

很多人刚开始用 AI 时,容易在两个极端之间摇摆:要么把它想得过于神奇,要么把它当成一个随机输出的黑箱。但一旦理解了「对齐」「RLHF」和「AI 生态」,看法通常会现实得多。

你会慢慢意识到:

  • • 模型不是天然会合作,而是被训练得更像一个助手;
  • • 它看上去的风格和边界,并不等于真正的人类价值观;
  • • 很多产品差异,来自生态层的塑形,而不只是底层能力高低。

这会直接影响你的使用方式。你不会再只问它能不能做,而会开始判断:这类任务适不适合交给它;哪些输出可以当作初稿,哪些必须复核;哪些拒答更像产品策略,哪些提醒值得认真对待。

所以,理解对齐,并不是为了参与抽象的哲学争论,而是为了在日常使用里少一些误判,也少一些被表面风格牵着走。


5. 六条实用建议

如果前面的内容偏概念解释,那么这一节更接近日常使用。下面这些建议都不复杂,但真正有用的地方,往往就在于把它们变成习惯。

  • • 不要把 AI 的语气直接当成人格。
    温和、强硬、谨慎、积极,这些都首先是行为表现。很多时候,它们来自对齐方式和产品规则,而不是某种真正意义上的个性。
  • • 拒答不等于事情本身就不成立。
    有些拒答来自风险策略、产品边界或表述方式。遇到这种情况,先换一个更清楚、更正当的问法,通常比直接下结论更有帮助。
  • • 顺滑也不等于可靠。
    尤其在学术、政策和研究设计场景里,越是说得流畅、结构完整的回答,越值得回头再看一眼依据。
  • • 把高风险判断留给人,把初步整理交给 AI。
    摘要提取、结构梳理、初步分类、语言润色都很适合交给 AI;但涉及规范判断、研究设计取舍、政策解释边界时,最好还是保留人工判断。
  • • 比较不同产品时,尽量比较行为方式,而不只是比较它答得多不多。
    真正值得看的,是它们如何处理不确定性、依据、边界和风险,而不只是篇幅长短。
  • • 把有效问法和核查步骤沉淀下来。
    哪些任务要它说明依据,哪些任务要它区分事实与推断,哪些任务需要备选方案,这些都可以慢慢整理成你自己的小模板。久而久之,它们会变成一套可反复调用的工作习惯。

6. 建议学习路径

如果你想真正把这一篇的内容用起来,而不仅仅是记住「对齐」「RLHF」「AI 生态」这几个词,我更建议沿着一条先理解行为、再理解系统的路线往前走。

第一步,可以先建立一个基本直觉:AI 今天之所以看起来像一个助手,并不只是因为它会生成自然语言,更因为它被训练成了一种更可合作的行为模式。这个阶段最值得看的,是那些把问题讲透的核心材料,而不是一开始就追所有新术语。比如 InstructGPT[3] 这篇论文,能帮助你理解为什么听指令、为什么更像助手,会成为单独的训练目标;Constitutional AI[4] 则能帮助你理解,除了 RLHF 之外,人们还在尝试哪些对齐路线。

第二步,可以把注意力转到产品层。也就是说,不只是问模型会什么,还要问这个产品想把模型塑造成什么样的助手。这时最有用的,不是背术语,而是拿几个你熟悉的任务去比较:同一个问题,在不同平台上,哪些差异更像能力差异,哪些差异更像策略和边界。只要这样对照几次,你对「AI 生态」的理解就会比只读定义扎实得多。

第三步,再慢慢形成自己的使用准则。比如,哪些任务你愿意把 AI 当作第一轮助手,哪些任务必须要求它说明依据,哪些任务你会额外做人工复核。到了这一步,所谓方法就会变得很具体:它不再是抽象概念,而是你已经反复验证过的一套做事方式。之后如果还想继续往前走,OpenAI Cookbook[5] 这类案例型资源会很有帮助,因为它更适合拿来理解模型能力、工具调用和产品规则是怎样一起作用的。


7. 小结

如果只记住一句话,我希望是这一句:AI 看起来像有某种「价值观」,很多时候并不是因为它真的像人一样拥有价值观,而是因为它的行为被一层层训练、反馈和规则塑造成了现在这个样子。

对齐告诉我们,模型需要从会说,走向会合作;RLHF 告诉我们,人类偏好会把某些回答风格不断强化;AI 生态则提醒我们,用户真正接触到的,从来不只是一个裸模型,而是一整套产品化系统。

理解了这三点之后,很多原本显得神秘的问题,其实会变得更清楚:

  • • 为什么不同平台会表现出不同的「脾气」?
  • • 为什么有的模型更谨慎,有的更敢答?
  • • 为什么拒答、提醒风险、语气温和,都不能直接等同于真实可靠?

对经管、金融和社会学领域的读者来说,这并不是要求你去解决全部 AI 哲学问题,而是帮助你形成一种更稳的判断:既不神化 AI,也不把它简单看成一个随机答题机。理解它的行为是怎样被塑造出来的,你就更容易把它放在合适的位置上使用。

到这里,「AI 我知道」这一组基础概念篇就暂时告一段落。后面如果继续写,更自然的方向大概会是:AI 在科研、教学、读论文、写代码和整理资料中的具体工作流。


延伸阅读与工具入口

  • • InstructGPT: Training language models to follow instructions with human feedback[3]
  • • Constitutional AI: Harmlessness from AI Feedback[4]
  • • OpenAI Cookbook[5]
  • • Anthropic on Constitutional AI[6]
  • • Transformer paper: Attention Is All You Need[7]

相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 大语言 LLM AI我知道, nocat md2 ex(课)
安装最新版 lianxh 命令:
ssc install lianxh, replace

  • • 丁闪闪, 2026, AI我知道:AI 怎么读懂你的话?Token、上下文窗口与提示词[8].
  • • 丁闪闪, 2026, 从零开始玩转金融LLM:12个数据集+8个模型+完整代码实战[9].
  • • 丁闪闪 曾咏新 厦门大, 2026, 大语言模型如何重塑金融研究?一份全景式综述(上)[10].
  • • 丁闪闪 曾咏新 厦门大, 2026, 大语言模型如何重塑金融研究?一份全景式综述(下)[11].
  • • 初虹, 2022, Stata:fillmissing-缺失值填充-数值和文字的前后填充![12].
  • • 吴欣洋, 2025, AI自动生成研究假设,靠谱吗?流程与挑战[13].
  • • 吴茜, 2025, 我们需要因果 AI:Judea Pearl 聊 AI 的未来[14].
  • • 宗景辉, 2026, GenAI 正在如何改变金融研究?一份系统性综述 (上)[15].
  • • 宗景辉, 2026, GenAI 正在如何改变金融研究?一份系统性综述(下)[16].
  • • 宗景辉, 2026, GenAI 正在如何改变金融研究?一份系统性综述(中)[17].
  • • 张弛, 2025, 大语言模型到底是个啥?通俗易懂教程[18].
  • • 张弛, 2025, 找不到IV?如何借助大语言模型寻找工具变量[19].
  • • 张琪琳, 2025, CClaRA-扒了四万篇论文:如何论证因果关系?[20].
  • • 杜新月, 2025, 研究假设!研究假设!AI 来帮我[21].
  • • 王烨文, 2025, LLM Agent:大语言模型的智能体图解[22].
  • • 赵文琦, 2025, LLM系列:ChatGPT提示词精选与实操指南[23].
  • • 连小白, 2025, GPU 还是 CPU?文本分析、LLM 微调、多模态各自怎么选[24].
  • • 陈云菲, 2025, PDF神器MinerU:结构重构、图表提取、LaTeX公式识别全搞定![25].
  • • 陈云菲, 2025, 新书推荐:《图解大模型》轻松上手 LLM![26].
  • • 颜国强, 2026, 从 15 分钟到 5 小时:2025 年大模型能力跃迁全景图[27].

连享会:2026五一论文班 · 线上
时间:4月15日(先导课),5月2-4日(正式课)
嘉宾:郭士祺 (上海交通大学)、戚树森 (厦门大学)、李学恒 (中山大学)
咨询:王老师 18903405450(微信)

New! Stata 搜索神器:lianxh 和 songblGIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉  使用:
. lianxh DID 倍分法
. songbl all

🍏 关于我们

  • • 连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • • 直通车: 👉【百度一下:连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。

引用链接

[1] lianxhcn@163.com: mailto:lianxhcn@163.com
[2] AI我知道: https://www.lianxh.cn/search.html?s=AI%E6%88%91%E7%9F%A5%E9%81%93
[3] InstructGPT: https://arxiv.org/abs/2203.02155
[4] Constitutional AI: https://arxiv.org/abs/2212.08073
[5] OpenAI Cookbook: https://developers.openai.com/cookbook
[6] Anthropic on Constitutional AI: https://www.anthropic.com/news/constitutional-ai-harmlessness-from-ai-feedback
[7] Transformer paper: Attention Is All You Need: https://arxiv.org/abs/1706.03762
[8] AI我知道:AI 怎么读懂你的话?Token、上下文窗口与提示词: https://www.lianxh.cn/details/1770.html
[9] 从零开始玩转金融LLM:12个数据集+8个模型+完整代码实战: https://www.lianxh.cn/details/1754.html
[10] 大语言模型如何重塑金融研究?一份全景式综述(上): https://www.lianxh.cn/details/1751.html
[11] 大语言模型如何重塑金融研究?一份全景式综述(下): https://www.lianxh.cn/details/1752.html
[12] Stata:fillmissing-缺失值填充-数值和文字的前后填充!: https://www.lianxh.cn/details/1050.html
[13] AI自动生成研究假设,靠谱吗?流程与挑战: https://www.lianxh.cn/details/1588.html
[14] 我们需要因果 AI:Judea Pearl 聊 AI 的未来: https://www.lianxh.cn/details/1655.html
[15] GenAI 正在如何改变金融研究?一份系统性综述 (上): https://www.lianxh.cn/details/1760.html
[16] GenAI 正在如何改变金融研究?一份系统性综述(下): https://www.lianxh.cn/details/1762.html
[17] GenAI 正在如何改变金融研究?一份系统性综述(中): https://www.lianxh.cn/details/1761.html
[18] 大语言模型到底是个啥?通俗易懂教程: https://www.lianxh.cn/details/1600.html
[19] 找不到IV?如何借助大语言模型寻找工具变量: https://www.lianxh.cn/details/1575.html
[20] CClaRA-扒了四万篇论文:如何论证因果关系?: https://www.lianxh.cn/details/1589.html
[21] 研究假设!研究假设!AI 来帮我: https://www.lianxh.cn/details/1715.html
[22] LLM Agent:大语言模型的智能体图解: https://www.lianxh.cn/details/1650.html
[23] LLM系列:ChatGPT提示词精选与实操指南: https://www.lianxh.cn/details/1615.html
[24] GPU 还是 CPU?文本分析、LLM 微调、多模态各自怎么选: https://www.lianxh.cn/details/1716.html
[25] PDF神器MinerU:结构重构、图表提取、LaTeX公式识别全搞定!: https://www.lianxh.cn/details/1618.html
[26] 新书推荐:《图解大模型》轻松上手 LLM!: https://www.lianxh.cn/details/1603.html
[27] 从 15 分钟到 5 小时:2025 年大模型能力跃迁全景图: https://www.lianxh.cn/details/1750.html