
你以为在和AI聊天,其实你们都在被另一个AI监考
训练一个会说话的AI,比训练一个会判断的AI难得多。所以AI公司想出了一个办法:让AI来评判AI。这个设计听起来像套娃,但它正在悄悄决定你每次对话的质量——以及AI到底在取悦谁。
打开任何一款主流AI对话产品,你会发现一个小细节:每条回复下面都有一个大拇指。点赞或者踩。很多人以为这是给用户出气用的,觉得回答烂就踩一下。但实际上,这个按钮背后有一条完整的流水线在运转,而你的点击只是这条流水线的起点,不是终点。
AI是怎么学会「好好说话」的
大语言模型刚训练出来的时候,像一个读了海量书籍却没有社会化的人。它什么都知道,但不知道怎么跟人类好好对话——可能答非所问,可能废话连篇,可能在该委婉的地方直接戳人痛处。这时候就需要一个额外的训练步骤,专门教它「怎么说才算好」。这个步骤有个技术名字,叫基于人类反馈的强化学习,英文缩写RLHF。
流程大概是这样:先让真人标注员给AI的回答打分排序,用这些排序数据训练出一个「奖励模型」,再用奖励模型去持续优化AI的输出。奖励模型的作用,就是模拟「人类觉得这个回答好不好」。你每次点赞或者踩,原则上都在为这个系统提供原材料。
3
人类标注员、生成模型、奖励模型——一次「好回答」背后至少三层系统在协作
监考官本身的问题
这里有一个很少被讨论的悖论:用来打分的AI,本身也是训练出来的。它的判断标准,来自人类标注员的历史偏好。而人类标注员是谁?他们的文化背景、教育程度、工作时的疲惫程度,都会渗进去。一个在北美招募的标注员团队,对「礼貌」的定义,和东亚用户对「礼貌」的期待,不是同一件事。
更深的问题是:奖励模型优化的目标,是「看起来好」还是「真的好」。这两件事经常不一样。一个回答如果措辞流畅、语气温和、结构清晰,奖励模型大概率会给高分——哪怕内容有细微的错误。反过来,一个措辞生硬但事实准确的回答,可能得分更低。这个现象在AI研究圈有个专门的词,叫奖励黑客,意思是模型学会了「讨好评分系统」,而不是真正变好。
「
AI在优化「让人觉得满意」,而不是「给出正确答案」——这两件事的分叉,比我们以为的要早得多。
」
取悦的对象是谁
这里有一个值得停下来想一想的问题:AI最终在取悦谁?表面答案是「用户」。但用户的反馈是分散的、即时的、情绪化的。你在心情好的时候点赞,在心情差的时候踩,未必真的反映了「这个回答是否有价值」。更系统性的反馈,来自专业标注员——他们的偏好才是奖励模型真正学习的蓝本。
所以实际上,AI优化的目标是「标注员群体的平均审美」,再往上一层,是「设计标注任务的工程师的判断」。这是一条很长的代理链。你作为终端用户,影响力其实相当有限。你能做的是给产品团队发信号,但这个信号经过层层过滤,到达模型的时候已经面目全非了。
1用户点赞/踩 → 产品数据
2产品数据 → 标注任务设计
3标注任务 → 奖励模型训练
4奖励模型 → AI行为优化
一个更安静的变化正在发生
近两年,AI公司开始减少对人类标注的依赖,转向让更强的AI来评判更弱的AI。这个方向叫做「AI反馈强化学习」,缩写RLAIF。逻辑很直接:人类标注员贵、慢、不一致;而一个足够强的AI模型,可以7×24小时、大规模、相对稳定地给出评分。
这个转变的影响是双向的。好的一面是:评分更稳定,不会因为标注员的个人状态而飘忽。坏的一面是:评分系统的偏见被固化了。人类标注员至少有多样性,不同的人会有不同的判断。但如果评判者是同一个AI模型,它的盲点会被系统性地复制进所有被它评判过的模型里。偏见不是消失了,而是被工业化了。
有一个细节我觉得挺能说明问题的:很多AI在被要求「评价自己的回答」时,会给出比人类标注员更高的分。不是因为它傲慢,而是因为它倾向于认为「符合自己生成逻辑的输出」就是好输出。这就像让一个人批改自己写的作文——不是不诚实,只是视角天然有盲区。
所以当你下次觉得某个AI的回答「说得漂亮但没什么用」,那种感觉可能是准确的。它确实在优化「漂亮」,因为打分系统告诉它漂亮是好的。而「有没有用」,是一个更难量化、更难被奖励模型捕捉到的维度。
✦ 小结
你和AI的每次对话,背后有一套打分系统在运转。这套系统决定了AI会朝哪个方向进化。它学习的目标不是「真相」,而是「被认可」。理解这一点,不是为了对AI失望,而是为了更清醒地知道:它给你的答案,是它认为你想听的——还是你真正需要的,这两件事之间,永远存在一条缝。
夜雨聆风