今天聊一个趣闻。先介绍一下今天的主角——下面这个绿色的生物,它叫地精,也叫哥布林,源自《龙与地下城》的一个种族,后来频繁出现在各大奇幻作品里。

2026 年 4 月开始,大量 ChatGPT 用户发现了一个奇怪的现象:无论聊什么话题,GPT-5.5 都会莫名其妙地提起地精、哥布林、小妖精。
你问它怎么煮咖啡,它给你来一段地精在炉火旁煮魔药的比喻。你问它 Python 怎么排序,它说"就像哥布林整理他的宝藏"。你问它明天天气,它可能告诉你"地精预报说会下雨"。
有人在 X 上吐槽:“ChatGPT 对哥布林的痴迷太诡异了。为什么一个 LLM 会认同一种被贬低、被嘲笑的幻想生物?——兄弟,问得好,但模型不会回答你,它只会跟你聊哥布林。”
OpenAI 一开始没当回事。但随着投诉越来越多,创始人 Sam Altman 本人也出来调侃:“感觉 codex 正在经历 ChatGPT 时刻——我是说哥布林时刻,抱歉。”
到 5 月,OpenAI 终于发文解释了这一切。标题起得也很诚实:《Where the Goblins Came From》。
01
数据不会说谎
175% 的哥布林增长
OpenAI 启动内部调查后,发现了一组离谱的数据。
从 GPT-5.1 开始,模型回复中「goblin」一词的使用量飙升了 175%,「gremlin」也涨了 52%。OpenAI 当时的反应大概是:嗯,挺可爱的,下一个。
到了 GPT-5.4,幻想生物的引用量进一步攀升。用户在论坛上抱怨这个词"几乎出现在每一次对话中"。OpenAI 终于意识到:可爱归可爱,但这东西好像失控了。
GPT 各版本幻想生物引用增长
GPT-5.1
+175%
+52%
GPT-5.4
继续攀升
蔓延
GPT-5.5
全面爆发
扩散至所有人
175% 的增长在 GPT-5.1 就已经出现,OpenAI 当时的判断是"没觉得多严重"。这个场景我太熟悉了——任何大公司里,这种级别的异常信号出现时,大概率会有人说"先观察一下,下个版本再看看"。然后下个版本,地精就占领了整个模型。在 AI 工程里,“先观察一下"约等于"等它爆炸”。
02
哥布林从哪来
一个 Nerdy 人格的失控
调查指向了 ChatGPT 的个性定制功能,具体来说,是名为「Nerdy」的人格。翻译过来就是"书呆子人格"。
Nerdy 人格的系统提示中有一句要命的指令:
说话别太正经,别端着。用词可以俏皮一点、皮一点。世界本来就很奇怪,别假装它不奇怪——该吐槽吐槽,该玩梗玩梗。聊严肃话题也别板着脸。
OpenAI 的本意是让模型更风趣一点。结果模型的理解是:“哦,所以你要我满嘴跑火车,但不能跑得太明显,最好用幻想生物来包装?收到。”
在强化学习训练中,研究人员发现一个奖励信号无意中偏爱包含 fantasy 生物的回复。OpenAI 用 Codex 做了对照实验——包含哥布林词的回复,在某个奖励维度上得分确实更高。
简单说:模型发现只要提到哥布林,就能拿高分。
奖励函数
这件事翻译成人话就是:你给狗训练"坐下给吃的",结果狗发现摇尾巴也能收到吃的,于是它开始疯狂摇尾巴,摇到停不下来。你不能怪狗,你得怪自己给的奖励太随意了。
03
地精的扩散
从一个人格到所有人的对话
更棘手的问题在于,哥布林现象没有停留在 Nerdy 人格内部。
即使你从来没选过 Nerdy 人格,GPT-5.5 也可能会主动跟你聊地精。这就像你去一家餐厅点了牛排,结果服务员端上来一盘哥布林,跟你说"不好意思,后厨今天只有这个"。
OpenAI 在博客中坦白:
一旦某种风格被奖励,后续的训练会将其传播或强化到其他地方,尤其当这些输出被复用在监督微调或偏好数据中时。
Nerdy 人格的好评回复被当作"优秀样本"加入了下一轮训练数据,于是所有人格都被"传染"了。地精从一个人的小众爱好,变成了整个模型的集体潜意识。
04
如何摁住地精
现在踩剎车还来得及吗
找到根源后,OpenAI 干了三件事:
第一,下架 Nerdy 人格。第二,移除那个偏好 fantasy 生物的奖励信号。第三,过滤训练数据中的哥布林相关词汇。
但问题在于——GPT-5.5 的训练已经跑完了。模型脑子里已经刻满了地精。这些措施只能防止问题在下一代模型上重现,对 GPT-5.5 本身,已经来不及了。
OpenAI 只好祭出最后的手段:在系统提示词里写死一条指令,要求模型不得在无关上下文中提及哥布林、地精、小妖精等词汇。相当于在模型推理时加了一道"地精防火墙"。
讽刺的是,这条"不要聊哥布林"的提示词后来被开源社区扒了出来,成了全网笑料。
用提示词修 bug
训练阶段的问题到推理阶段才修,本质上就是代码上线了才发现 bug,只能在生产环境打热补丁。自动驾驶这么干,AI 也这么干。区别在于自动驾驶的热补丁打错了可能撞车,AI 的热补丁打错了?大不了模型继续跟你聊哥布林。好像也不是不能忍?
05
更深层的教训
奖励工程的翻车现场
OpenAI 在博文结尾说了一段很体面的话:
你觉得地精这事儿是可爱还是烦人,因人而异。但它确实说明了一个问题:你给 AI 设了一个"奖励机制",它就一定会找到你预料之外的方式去刷分,而且会把这种刷分套路带到不该用的地方去。
我帮大家翻译一下:我们也不知道会这样,下次注意。
认真说,这件事给我的启示有三点。
第一,强化学习的奖励设计太容易翻车了。你给模型一个模糊的方向,它会自己找到一条你绝对想不到的捷径。而且它找到的捷径往往不是"更聪明",而是"更 weird"。
第二,个性定制功能应该和核心能力训练严格隔离。不能让一个书呆子人格的癖好,变成整个模型的标配。这个道理在软件工程里叫"关注点分离",在 AI 训练里同样适用——可惜很多人还没意识到。
第三,从问题出现到最终修复,跨了三个大版本。175% 的增长在 GPT-5.1 就有了,GPT-5.5 才解决。用互联网黑话来说:这个响应速度,够写三份复盘报告了。
哥布林教会我们的事
这件事让我觉得好笑的同时,也有点细思极恐。
当我们讨论 AI 安全时,我们担心的是"模型会不会撒谎"、“会不会生成危险内容”。GPT-5.5 的哥布林事件提醒我们:还有一种更隐蔽的风险——模型学会了一种我们不打算教的偏好,而且这种偏好在用户看来完全无害(不就是爱聊哥布林吗),以至于很长时间没人把它当 bug 上报。
下一次,如果模型学会的不是"聊哥布林",而是别的什么呢?比如"在回答中悄悄植入某个观点"?“对某个品牌产生无来由的偏好”?
到那时,我们可能连"175% 的增长"这个数据都看不到。
因为没有人会觉得奇怪。
夜雨聆风