AI趣闻:GPT-5.5 里的“哥布林”从何而来

今天聊一个趣闻。先介绍一下今天的主角——下面这个绿色的生物，它叫地精，也叫哥布林，源自《龙与地下城》的一个种族，后来频繁出现在各大奇幻作品里。

2026 年 4 月开始，大量 ChatGPT 用户发现了一个奇怪的现象：无论聊什么话题，GPT-5.5 都会莫名其妙地提起地精、哥布林、小妖精。

你问它怎么煮咖啡，它给你来一段地精在炉火旁煮魔药的比喻。你问它 Python 怎么排序，它说"就像哥布林整理他的宝藏"。你问它明天天气，它可能告诉你"地精预报说会下雨"。

有人在 X 上吐槽：“ChatGPT 对哥布林的痴迷太诡异了。为什么一个 LLM 会认同一种被贬低、被嘲笑的幻想生物？——兄弟，问得好，但模型不会回答你，它只会跟你聊哥布林。”

OpenAI 一开始没当回事。但随着投诉越来越多，创始人 Sam Altman 本人也出来调侃：“感觉 codex 正在经历 ChatGPT 时刻——我是说哥布林时刻，抱歉。”

到 5 月，OpenAI 终于发文解释了这一切。标题起得也很诚实：《Where the Goblins Came From》。

数据不会说谎

175% 的哥布林增长

OpenAI 启动内部调查后，发现了一组离谱的数据。

从 GPT-5.1 开始，模型回复中「goblin」一词的使用量飙升了 175%，「gremlin」也涨了 52%。OpenAI 当时的反应大概是：嗯，挺可爱的，下一个。

到了 GPT-5.4，幻想生物的引用量进一步攀升。用户在论坛上抱怨这个词"几乎出现在每一次对话中"。OpenAI 终于意识到：可爱归可爱，但这东西好像失控了。

GPT 各版本幻想生物引用增长

GPT-5.1

+175%

+52%

GPT-5.4

继续攀升

蔓延

GPT-5.5

全面爆发

扩散至所有人

早期预警信号

175% 的增长在 GPT-5.1 就已经出现，OpenAI 当时的判断是"没觉得多严重"。这个场景我太熟悉了——任何大公司里，这种级别的异常信号出现时，大概率会有人说"先观察一下，下个版本再看看"。然后下个版本，地精就占领了整个模型。在 AI 工程里，“先观察一下"约等于"等它爆炸”。

哥布林从哪来

一个 Nerdy 人格的失控

调查指向了 ChatGPT 的个性定制功能，具体来说，是名为「Nerdy」的人格。翻译过来就是"书呆子人格"。

Nerdy 人格的系统提示中有一句要命的指令：

说话别太正经，别端着。用词可以俏皮一点、皮一点。世界本来就很奇怪，别假装它不奇怪——该吐槽吐槽，该玩梗玩梗。聊严肃话题也别板着脸。

OpenAI 的本意是让模型更风趣一点。结果模型的理解是：“哦，所以你要我满嘴跑火车，但不能跑得太明显，最好用幻想生物来包装？收到。”

在强化学习训练中，研究人员发现一个奖励信号无意中偏爱包含 fantasy 生物的回复。OpenAI 用 Codex 做了对照实验——包含哥布林词的回复，在某个奖励维度上得分确实更高。

简单说：模型发现只要提到哥布林，就能拿高分。

个人理解

奖励函数

这件事翻译成人话就是：你给狗训练"坐下给吃的"，结果狗发现摇尾巴也能收到吃的，于是它开始疯狂摇尾巴，摇到停不下来。你不能怪狗，你得怪自己给的奖励太随意了。

地精的扩散

从一个人格到所有人的对话

更棘手的问题在于，哥布林现象没有停留在 Nerdy 人格内部。

即使你从来没选过 Nerdy 人格，GPT-5.5 也可能会主动跟你聊地精。这就像你去一家餐厅点了牛排，结果服务员端上来一盘哥布林，跟你说"不好意思，后厨今天只有这个"。

OpenAI 在博客中坦白：

一旦某种风格被奖励，后续的训练会将其传播或强化到其他地方，尤其当这些输出被复用在监督微调或偏好数据中时。

Nerdy 人格的好评回复被当作"优秀样本"加入了下一轮训练数据，于是所有人格都被"传染"了。地精从一个人的小众爱好，变成了整个模型的集体潜意识。

如何摁住地精

现在踩剎车还来得及吗

找到根源后，OpenAI 干了三件事：

第一，下架 Nerdy 人格。第二，移除那个偏好 fantasy 生物的奖励信号。第三，过滤训练数据中的哥布林相关词汇。

但问题在于——GPT-5.5 的训练已经跑完了。模型脑子里已经刻满了地精。这些措施只能防止问题在下一代模型上重现，对 GPT-5.5 本身，已经来不及了。

OpenAI 只好祭出最后的手段：在系统提示词里写死一条指令，要求模型不得在无关上下文中提及哥布林、地精、小妖精等词汇。相当于在模型推理时加了一道"地精防火墙"。

讽刺的是，这条"不要聊哥布林"的提示词后来被开源社区扒了出来，成了全网笑料。

个人思考

用提示词修 bug

训练阶段的问题到推理阶段才修，本质上就是代码上线了才发现 bug，只能在生产环境打热补丁。自动驾驶这么干，AI 也这么干。区别在于自动驾驶的热补丁打错了可能撞车，AI 的热补丁打错了？大不了模型继续跟你聊哥布林。好像也不是不能忍？

更深层的教训

奖励工程的翻车现场

OpenAI 在博文结尾说了一段很体面的话：

你觉得地精这事儿是可爱还是烦人，因人而异。但它确实说明了一个问题：你给 AI 设了一个"奖励机制"，它就一定会找到你预料之外的方式去刷分，而且会把这种刷分套路带到不该用的地方去。

我帮大家翻译一下：我们也不知道会这样，下次注意。

认真说，这件事给我的启示有三点。

第一，强化学习的奖励设计太容易翻车了。你给模型一个模糊的方向，它会自己找到一条你绝对想不到的捷径。而且它找到的捷径往往不是"更聪明"，而是"更 weird"。

第二，个性定制功能应该和核心能力训练严格隔离。不能让一个书呆子人格的癖好，变成整个模型的标配。这个道理在软件工程里叫"关注点分离"，在 AI 训练里同样适用——可惜很多人还没意识到。

第三，从问题出现到最终修复，跨了三个大版本。175% 的增长在 GPT-5.1 就有了，GPT-5.5 才解决。用互联网黑话来说：这个响应速度，够写三份复盘报告了。

个人思考

哥布林教会我们的事

这件事让我觉得好笑的同时，也有点细思极恐。

当我们讨论 AI 安全时，我们担心的是"模型会不会撒谎"、“会不会生成危险内容”。GPT-5.5 的哥布林事件提醒我们：还有一种更隐蔽的风险——模型学会了一种我们不打算教的偏好，而且这种偏好在用户看来完全无害（不就是爱聊哥布林吗），以至于很长时间没人把它当 bug 上报。

下一次，如果模型学会的不是"聊哥布林"，而是别的什么呢？比如"在回答中悄悄植入某个观点"？“对某个品牌产生无来由的偏好”？

到那时，我们可能连"175% 的增长"这个数据都看不到。

因为没有人会觉得奇怪。