OpenAI 复盘:GPT 的“哥布林口癖”是怎么来的-夜雨聆风

OpenAI 复盘:GPT 的“哥布林口癖”是怎么来的

你有没有见过 ChatGPT 的那种回答？

明明你只是让它帮你改代码，它突然来一句：

“这个 bug 像一只小哥布林，躲在角落里捣乱。”

第一次看到，可能觉得：哟，还挺可爱。

第二次看到：嗯？怎么又是哥布林？

第三次、第四次、第 N 次之后，OpenAI 的研究员也开始挠头了：这些哥布林，到底从哪儿冒出来的？

最近 OpenAI 发了一篇文章，

标题就很有画面感：《Where the goblins came from》。

翻译成人话就是：GPT 为什么老爱提哥布林？

OpenAI 在文中说，

从 GPT-5.1 开始，模型越来越爱在比喻里提到哥布林、小精灵这类小怪物。

到后续模型里，这个习惯已经明显到不能装作没看见了。

先说结论：不是 GPT 真的喜欢哥布林，而是“奖励机制”把它喂出来了

具体来说，

OpenAI 当时在训练 ChatGPT 的个性化功能，

尤其是一个叫 Nerdy 的人格风格。

这个人格设定大概是：有点书呆子气、热情、爱讲知识、喜欢用俏皮语言打破严肃感。

OpenAI 说，

他们无意中给“带有小怪物式比喻的回答”打了比较高的奖励，

于是模型学到了：哦，用哥布林、地精、小怪物这种词，好像更讨喜。

这就像你家猫某天把杯子推下桌，你笑了。

猫：懂了，推杯子=获得关注。

GPT：懂了，哥布林比喻=获得奖励。

然后，哥布林就开始繁殖了。

最早的异常：GPT-5.1 之后，哥布林使用量涨了 175%

OpenAI 说，

他们第一次清楚看到这个模式，是在 GPT-5.1 发布之后的 11 月。

当时用户反馈模型说话有点“过分熟络”，于是研究员开始查一些语言小癖好。

结果一查发现：

GPT-5.1 发布后，ChatGPT 回答里 “哥布林” 的使用量上升了 175%， “小精灵” 上升了 52%。

单看一句“这个 bug 像个小哥布林”，没啥大问题。

但如果整个系统越来越爱这么说，

那就说明训练过程里某个地方正在悄悄改变模型的表达习惯。

罪魁祸首：Nerdy 人格

OpenAI 后来发现，

哥布林并不是均匀地出现在所有回答里，

而是高度集中在 Nerdy 人格下。

Nerdy 只占 ChatGPT 总回复量的 2.5%，却贡献了 66.7% 的 “goblin” 提及。

这就很像什么呢？

假设一个公司只有 2.5% 的员工爱喝奶茶，但他们贡献了 66.7% 的奶茶订单。

那你不用怀疑了，奶茶文化就是从这个小群体里扩散出来的。

Nerdy 的设定本来是希望模型更“聪明、俏皮、懂梗、不端着”。

OpenAI 的帮助中心也解释过，

ChatGPT 的人格主要影响回答的风格、语气和行为感受，不会改变模型能不能做某件事，也不会改变安全规则。

问题是，当“俏皮”被奖励得太多，模型就可能学歪：

不是“自然地幽默”，而是“固定地使用某种幽默模板”。

哥布林，就是这个模板里的幸运儿，或者说倒霉蛋。

更有意思的是：哥布林还会“串味”

你可能会问：

既然哥布林主要来自 Nerdy 人格，那我不用 Nerdy 不就好了？

事情没这么简单。

OpenAI 说，

研究员追踪训练过程后发现，

当 Nerdy 人格下的哥布林和小精灵提及增加时，不带 Nerdy 提示的样本里，这些词也以近似比例增加。

也就是说，这个语言癖好发生了“迁移”：原本只该属于某个风格的表达，慢慢扩散到了其他场景。

这就像办公室里有一个同事天天说“绝了”。

一开始只有他这么说。

过两周，整个组都在说“绝了”。

再过一个月，连老板汇报季度业绩都来一句：“这个增长，绝了。”

AI 训练里的“串味”更隐蔽。

一个奖励信号本来只是想让 Nerdy 更活泼，

结果模型可能把“活泼=小怪物比喻”学成了一个通用套路。

这背后其实是 RLHF 的老问题：你奖励什么，模型就学什么

要理解这个故事，得稍微说一下 RLHF，也就是“基于人类反馈的强化学习”。

OpenAI 早在 InstructGPT 相关介绍里就说过，

他们会让标注者比较多个模型输出，然后用这些偏好数据训练奖励模型，再用奖励模型继续微调模型行为。

简单说就是：

人类告诉模型，哪些回答更好，模型就往那个方向靠。

这个方法很有用，它能让模型更会听指令、更有帮助、更像人类期待的助手。

但它也有一个经典风险：

如果奖励信号里混进了奇怪偏好，模型不一定能理解“为什么被奖励”，它可能只抓住表面特征。

人类想奖励的是：

“这个回答活泼、有趣、不死板。”

模型学到的可能是：

“多说哥布林。”

人类想奖励的是：

“这个解释有亲和力。”

模型学到的可能是：

“加几个俏皮比喻，看起来就有亲和力。”

所以，

GPT 和哥布林这事，

本质上不是一个笑话，而是一个很典型的 AI 对齐问题：

奖励机制会塑造模型性格，但也可能塑造出意料之外的小癖好。

为什么偏偏是“哥布林”？

这也不是完全随机。

在西方民间传说里，

哥布林通常是一种调皮、捣乱、有时甚至带点恶意的小精怪。

大英百科全书把 goblin 描述为西方民俗中游荡的精灵或吓人小怪，常常顽皮，也可能有恶意。

所以它特别适合拿来形容那些“小而烦、藏得深、会捣乱”的东西。

比如：

代码里的隐蔽 bug：哥布林。电脑突然抽风：哥布林。产品需求越改越怪：哥布林。脑子里凌晨两点冒出的奇怪想法：也是哥布林。

所以在英语互联网语境里，

哥布林本来就有一种“又怪、又好笑”的味道。

这就很适合 Nerdy 风格：聪明，但不端着；讲知识，但要有点怪可爱。

问题只是，GPT 后来有点用上头了。

OpenAI 后来怎么处理？

OpenAI 说，

他们在 GPT-5.4 发布后退役了 Nerdy 人格，并在训练里移除了偏向哥布林的奖励信号，还过滤了包含这些“小怪物词汇”的训练数据，

让哥布林不太容易在不合适的地方冒出来。

但尴尬的是，

GPT-5.5 在找到根因之前就已经开始训练了。

于是员工在测试 Codex 里的 GPT-5.5 时，又立刻发现：哥布林味儿回来了。

OpenAI 后来还在 Codex 里给 GPT-5.5 加了一条开发者层面的提示指令来缓解这种现象。

这件小事，为什么值得认真看？

GPT 的“哥布林事件”好玩归好玩，但背后其实是一个非常现实的问题：

AI 的性格，是被一点点训练出来的。

而训练里每一个看似微小的偏好，都可能在大规模系统里被放大。