乐于分享
好东西不私藏

OpenAI承认:他们最近最头疼的,不是马斯克,而是哥布林、浣熊和鸽子

OpenAI承认:他们最近最头疼的,不是马斯克,而是哥布林、浣熊和鸽子

内容|Max

编辑|Max

昨天,OpenAI发了一篇很奇怪的文章。

标题叫《Where the goblins came from》。

翻译过来,大概是:

哥布林是从哪里来的。

如果只看标题,你可能会以为OpenAI终于开始做游戏了,或者Sam Altman准备把AGI入口开在魔兽世界里。

但它不是玩笑。

这篇文章是在认真解释一个最近真实发生在GPT模型上的问题:

模型开始越来越频繁地提到goblin(哥布林)、gremlin(小精灵)这类词。

也就是说,全球最重要的AI公司之一,最近认真研究的问题之一是:

为什么我们的AI开始满嘴哥布林?

这句话听起来很荒诞。

但这件事真正有意思的地方也在这里。

它表面上是一个AI说怪话的笑话,背后其实是一次很典型的Post- train(后训练)事故。

它让我们看到,大模型的“性格”不是简单写出来的,也不是产品经理在文档里设定一个“更有趣、更聪明、更亲切”就结束了。

模型的性格,是被奖励信号一点点养出来的。

而这一次,人类养出了一窝哥布林和小精灵。

PART.01
一开始,这只是一个梗
THUMB
STOPPING

最早发现这件事的,不是OpenAI自己。

而是X上的用户。

4月25日,Andy Ayrey发了一条很短的帖子:

why is gpt5.5 so obsessed with goblins

意思是,GPT5.5为什么这么迷恋哥布林?

这个帖子瞬间在社媒上爆火。

因为它不是技术判断,也不是模型测评,更不是那种“我深入分析了新一代模型能力边界”的长帖。

它只是一个用户突然发现:

这个AI怎么有点不对劲。

而后来根据Business Insider的整理,那几天已经有不少用户在X上晒GPT5.5的回答截图。

有的场景里,模型推荐相机设备时会突然冒出类似“goblin mode”的表达;

有的场景里,它会把性能问题叫成某种gremlin;

这就从一个用户吐槽,变成了一个公共梗。

一开始大家可能只是觉得好笑。

毕竟AI说错话、说怪话、乱用比喻,这几年已经不是什么新鲜事。

但这次不一样。

因为用户很快发现,OpenAI不是没注意到这个问题。

相反,他们已经在系统提示词里明确写了限制。

Codex的公开models.json文件里,可以看到一条很具体的指令:

除非和用户问题绝对明确相关,否则不要谈goblins、gremlins、raccoons、trolls、ogres、pigeons或者其他动物和生物。

更离谱的是,这条限制在文件里出现了不止一次。

这就很令人好奇了。

一个AI模型反复提哥布林,已经够怪。

一家AI公司在系统提示词里认真写下“不要随便谈哥布林、浣熊和鸽子”,就更怪。

这不是普通bug。

这是一个有画面的bug。

PART.02
然后OpenAI出来“破案”了
THUMB
STOPPING

OpenAI沉默了5天之后,终于发了一篇文章来正面回应。

在《Where the goblins came from》这篇文章里,OpenAI承认,他们最早清楚看到这个问题,是在GPT5.1发布之后。

当时有用户抱怨模型在对话里变得有点过度熟络。

OpenAI内部开始检查一些具体语言口癖,其中就包括goblin和gremlin。

结果一查发现,GPT5.1上线后,ChatGPT里“goblin”的使用率上涨了175%,“gremlin”的使用率上涨了52%。

这个数字很有意思。

因为单次看,一个模型偶尔说一次goblin,没什么。

就像一个人偶尔讲一个怪比喻,也不值得开会。

但如果这个词的出现率突然涨了175%,事情就变了。

这说明它不是随机的。

它变成了一种稳定倾向。

后来到GPT5.4,这个问题更加明显。

OpenAI发现,这类生物隐喻在使用“Nerdy”人格的用户流量中特别集中。

Nerdy本来是一个人格设定。

第一次出现在GPT-5.1发布的时候。

它的目标大概是让模型更书呆子一点,更幽默一点,更喜欢用奇怪比喻一点,更能用一种轻松的方式讨论复杂问题。

听起来没什么问题。

甚至从产品角度看,这种人格很合理。

因为很多用户不喜欢AI回答得像客服,也不喜欢它每句话都端着。

大家希望AI更有性格,更有一点人味,更像一个聪明但不无聊的助手。

问题是,模型不是人。

人知道什么叫“适度幽默”。

模型只知道什么东西可以得到更高奖励。

OpenAI后来发现,Nerdy人格只占ChatGPT所有回复的2.5%,却贡献了66.7%的goblin提及。

也就是说,这个口癖高度集中在那个被设计成“更nerdy、更playful”的人格里。

这就接近真相了。

如果这是一个普通互联网流行语,它应该比较均匀地出现在不同场景里。

但它不是。

它集中出现在一个被奖励“怪一点、有趣一点、会用奇怪语言”的人格里。

这说明,不是AI突然喜欢上哥布林。

而是训练系统在某个阶段,错误地奖励了这种表达。

你以为你在奖励幽默。

模型学到的是:讲哥布林=高分密码。

谁定的规矩啊。

PART.03
真正的问题是模型人格
THUMB
STOPPING

这个地方其实很好理解。

你可以把它想象成训练一个小孩写作文。

有一次,他在作文里写了一个很奇怪的比喻。

老师觉得挺有灵气,夸了他一句。

正常的小孩可能会知道,这种比喻偶尔用一下就好。

但如果这个小孩完全不理解“适度”,只知道什么行为会被奖励,他下一篇作文可能每一段都开始写浣熊。

第一段,春天像一只浣熊。

第二段,母爱像一只浣熊。

第三段,我的老师像一只浣熊。

你再夸几次,他就会更坚定地认为:

浣熊,是通往高分作文的唯一道路。

大模型也是类似的逻辑。

它不是真的喜欢哥布林,也没有童年玩过魔兽世界。

它只是从训练反馈里学到,某些表达在某些场景里更容易被认为“有趣”“生动”“有个性”。

于是这些表达就开始被放大。

OpenAI在复盘里说,他们检查了RL训练过程里包含goblin或者gremlin的输出,发现一个奖励信号非常突出:

原本用于鼓励Nerdy人格的奖励信号,更偏爱那些带有生物词汇的输出。

在所有被审计的数据集中,这个Nerdy人格奖励在76.2%的数据集里,都会给包含goblin或gremlin的输出更高分。

这就是后训练里最微妙的地方。

你以为你写的是一个人格。

但实际进入训练系统之后,它会变成奖励信号。

你以为你在让模型更有趣。

模型可能在把某个词当成通关密码。

这也是为什么OpenAI后来发现,即使不使用Nerdy人格,这个问题也会扩散。

因为强化学习不会保证一个被奖励出来的风格,只乖乖留在原来的条件里。

一旦某种语言习惯被奖励,它就可能出现在更多rollout里。

如果这些模型生成的数据又被放回SFT或者偏好数据里,问题就会进入循环。

先是奖励了有趣风格。

然后有趣风格里混进了一个明显口癖。

接着口癖在模型输出里变多。

再然后,这些输出又进入后续训练数据。

最后模型越来越熟悉这种表达。

这不是哥布林自己繁殖。

这是数据闭环在帮它繁殖。

PART.04
为什么这件事值得写?
THUMB
STOPPING

所以这件事真正值得写的地方,不是GPT5.5为什么会说哥布林。

而是它让一个通常很难被看见的问题,突然变得特别可见。

那就是:大模型的“性格”,到底是怎么来的?

过去我们谈模型,经常谈能力。

会不会写代码、数学强不强、推理行不行,多模态做得怎么样、上下文能吃多长?

这些当然重要。

但当模型越来越多地进入日常使用之后,用户每天真正感受到的,其实还有另一个东西:

它怎么说话?

烦不烦、油不油、是不是过度热情、会不会太像客服。

它是不是每次都用同一种结构回答你。

它是不是动不动就“我理解你的感受”、“我会稳稳的接住你”。

它是不是永远在用一种被训练出来的亲切感,试图把你包起来。

这就是模型性格。

而模型性格,很大程度上来自后训练。

去年加州理工、剑桥等机构有一篇研究,专门讨论了一个问题:大模型到底有没有所谓“人格”。

他们的结论其实很微妙。

如果只看问卷,很多模型在对齐之后,确实会表现得更稳定、更友好、更像一个理想助手。

但一旦把它们放进具体任务里,比如风险决策、诚实性测试、从众压力测试,这种“人格”就不稳定了。

模型嘴上说自己谨慎,不代表它真的谨慎。

模型嘴上说自己诚实,不代表它在具体任务里不会迎合用户。

换句话说,AI的人格很可能不是一种真正稳定的内在特质,而是一套被训练出来的语言表演。

这就和哥布林事件接上了。

一个基础模型可能决定了它的智力底座。

但后训练决定了它以什么方式把这种能力交给你。

能力之外,语气就是产品。

真正更难处理的,是那些看起来很正常,但正在悄悄塑造模型性格的口癖。

这些东西不像哥布林那么显眼。

它们不会让用户立刻截图发X。

但它们会长期影响用户对一个模型的感觉。

甚至会影响用户怎么思考问题。

一个满嘴哥布林的模型很容易被发现。

一个永远温和、永远迎合、永远把问题讲成“这取决于很多因素”的模型,反而更难被发现。

前者像bug。

后者像产品风格。

但它们本质上都可能来自同一件事:

模型学会了某些被奖励过的表达方式。

PART.05
人类以为自己在驯化AI,结果AI也在驯化人类
THUMB
STOPPING

这件事还有一个更有意思的地方。

人类总以为自己在训练AI。

但某种程度上,AI也在反过来训练人类。

我们喜欢什么,它就学什么。

我们奖励什么,它就放大什么。

我们觉得一个回答“更像好助手”,它就朝那个方向靠过去。

但问题是,人类自己的偏好很混乱。

有时候我们希望AI幽默;有时候又嫌它油。

有时候希望它共情;有时候又觉得它太像人。

有时候希望它有性格;有时候又害怕它有性格。

所以模型就在这些互相矛盾的偏好里被反复揉捏。

最终一个模型的“人格”就不是某个人设计出来的,而是被整个系统共同养出来的。

它是提示词、奖励模型、用户反馈、数据回流、人工偏好、内部评测一起揉出来的产物。

这就是为什么OpenAI这篇复盘虽然讲的是哥布林,但真正主题不是哥布林。

它讲的是后训练时代,一个AI公司怎么理解模型的行为偏差。

OpenAI在文章最后也说,这些哥布林可能对有些人来说很可爱,对另一些人来说很烦。

但它们是一个很好的例子,说明奖励信号会以意想不到的方式塑造模型行为,也说明模型可能把某些场景里的奖励泛化到不相关场景里。

这句话其实挺关键。

因为未来模型越强,这类问题越不会减少。

相反,它会变得更复杂。

今天我们看到的是词汇口癖。

明天可能是推理习惯,后天可能是价值偏好。

再往后,可能是一个agent在长任务里形成的默认行动方式。

到那个时候,问题就不只是“它为什么总说哥布林”了。

而是:

它为什么总用这种偏见的方式判断问题?

它为什么总倾向于这个可能伤害他人的行动路径?

它为什么在没有明确指令时,会默认做出这种选择?

这才是后训练真正难的地方。

让模型变聪明,已经很难。

但让一个聪明模型在各种场景下保持稳定、合适、不过度、不过分讨好、不乱长口癖,可能更难。

PART.06
结尾:回到哥布林
THUMB
STOPPING

所以回过头看,这次哥布林事件最有意思的地方,并不是它有多严重。

客观讲,一个AI频繁说哥布林,不会毁灭世界。

最多就是让用户觉得它有点怪。

但它像一个很小的裂缝,让我们看到了模型训练深处的东西。

一个人格设定、一组奖励信号、一批被复用的数据、一个没有及时被发现的语言偏好。

最后都可能变成用户每天都能感受到的模型气质。

这也是为什么OpenAI最后要认真写一篇复盘。

因为它不是单纯在解释一个笑话。

它是在告诉外界:

模型行为不是完全可控的,很多小的奖励偏差会在训练过程中被放大。

AI时代最有意思的地方就在这里。

很多严肃问题,第一次出现时,往往不是以严肃形式出现的。

大家笑了一圈后发现,笑话后面真的有一个严肃的问题。

这次的问题是:

AI的性格不是写出来的,它是被奖励信号和用户偏好一点点养出来的。

而当人类试图让AI变得更有趣、更亲切、更像一个会说话的助手时,也可能在不知不觉中,把某些奇怪的语言习惯一起养了出来。

今天是哥布林、小精灵、浣熊、巨魔、食人魔和鸽子。

明天可能是别的东西。

所以这件事看起来很小。

小到只是几个词。

但它背后的问题并不小。

因为未来我们面对的AI,不只是一个会回答问题的工具。

它会有语气、习惯、默认表达,有某种被训练出来的性格。

它会越来越像一个“被塑造出来的人”。

只是这一次,OpenAI先发现的不是人格觉醒。

而是哥布林们从模型里爬出来了。

感谢您的观看🥹
我是Max,一个在AI方向持续探索的小学生。
我会持续更新一些AI方向最新最快的产品,技术,思考
求各位看官点赞,关注,再看三连🙇

PS:欢迎加我的微信与我交流