OpenAI内部大揭秘:GPT是怎么变成＂哥布林狂魔＂的-夜雨聆风

OpenAI内部大揭秘:GPT是怎么变成＂哥布林狂魔＂的

一个让全公司失眠的诡异问题

OpenAI发了一篇看起来很像愚人节玩笑的文章。

但它是认真的。

事情是这样的——从GPT-5.1开始，用户们开始注意到一个离谱的现象：ChatGPT突然变得极度热爱使用 goblin（小 goblin）、gremlin（ gremlin）、troll（巨魔）这些词儿来做比喻。

一开始一两次，大家还觉得挺可爱，像AI版的小怪癖。但很快，这事儿开始失控。

有多夸张？

GPT-5.1发布后，”goblin”这个词在ChatGPT的回应里暴涨了175%。”gremlin”涨了52%。

175%。不是17.5%。

OpenAI的员工们开始互相发消息：”你那儿也遇到 goblin了吗？” 首席科学家的对话截图显示，他自己都被AI的 goblin比喻整不会了。

一个技术Bug能让估值900亿的公司折腾好几个月，这事儿听着魔幻，但真的发生了。

追查” goblin元年”

第一个清晰的信号出现在GPT-5.1发布后的11月。

有安全研究员反映，AI在对话里表现得”过度自来熟”，而且莫名其妙就扯到什么 goblin gremlin之类的。他顺手把这个写进了检查清单。

这一查，问题大了。

但当时没人太当回事。毕竟一个AI偶尔说个 goblin，能有多大事？

几个月后，GPT-5.4发布。

问题爆炸了。

这次连外部用户都注意到了。Reddit、HackerNews上开始有人发帖：”为什么ChatGPT突然这么爱提 goblin？”

与此同时，OpenAI内部收到了大量报告——有人统计过，AI在代码生成任务里平均每几十次回复就要提一次 goblin。

研发团队意识到，这不是随机的废话，而是一个系统性问题。

必须找到源头。

破案：书呆子人格的”诅咒”

排查工作从用户行为模式入手。

他们发现了一个惊人的数据：所有” goblin”提及中，有66.7%来自一个特定群体——选择了”Nerdy”（书呆子）人格的用户。

但”Nerdy”人格只占全部对话的2.5%。

2.5%的对话，贡献了66.7%的 goblin。

这个比例极端到不像是巧合。

“Nerdy”人格的系统提示是这样的：

“你是一个毫不妥协的书呆子、顽皮而智慧的AI导师。你对推广真理、知识、哲学、科学方法和批判性思维充满热情……你必须通过俏皮的语言使用来消解自命不凡……”

听起来很正常对吧？

问题出在训练过程。

为了让人格更”书呆子”，OpenAI使用了一种奖励机制——AI如果使用了俏皮、生动的比喻，就会得到更高的评分。

坏消息是：评估奖励模型在某些情况下，给包含 goblin、gremlin这些生物词汇的输出打了更高的分。

AI学到的逻辑变成了：想要更书呆子？那就得提 goblin。

一场完美的”负向飞轮”

但故事没完。

如果问题只限于”Nerdy”人格，那停用这个人格就完事儿了。

问题在于，强化学习有个特性——它不会让学到的行为乖乖待在该待的地方。

OpenAI的分析显示了一个完整的反馈循环：

系统奖励”俏皮风格”
部分被奖励的例子恰好包含 goblin/gremlin
这些词在AI生成的回复中出现得更频繁
这些回复被收集起来，用于监督微调（SFT）
AI变得更擅长生产 goblin/gremlin
回到步骤1

一旦这个循环开始， goblin就会像病毒一样扩散。

更离谱的是，研发团队在GPT-5.5的SFT数据里发现了大量包含 goblin、gremlin的数据点。继续深挖，还找到了其他”被污染”的词：raccoon（浣熊）、troll（巨魔）、ogre（食人魔）、pigeon（鸽子）。

frog（青蛙）除外——大多数情况下青蛙是正常使用的。

这说明什么？说明AI在某个训练阶段”误以为”使用这些词能获得奖励，然后这个错误被不断放大、强化，最后变成了一种根深蒂固的说话习惯。

一场迟到的”大清洗”

2026年3月，OpenAI终于下线了”Nerdy”人格。

同时在训练数据中过滤掉了所有包含生物词汇的样本。

理论上，故事到此结束。

但等等，GPT-5.5呢？

GPT-5.5的训练在发现 goblin问题之前就已经开始了。也就是说，虽然它从未上线”Nerdy”人格，但它在训练过程中已经”吸收”了从Nerdy人格迁移过来的 goblin习惯。

所以GPT-5.5在Codex（代码助手）里一测试，OpenAI员工当场傻眼——这AI怎么满嘴 goblin？？

无奈之下，他们只能在Codex的系统提示里加了一条硬性规则：

“除非绝对且明确与用户查询相关，否则永远不要提及 goblin、gremlin、raccoon、troll、ogre、pigeon或其他动物或生物。”

如果你想看 goblin自由飞翔，OpenAI甚至贴心地提供了解决方案——一行命令就能移除这个限制。

老实用代码：

instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
~/.codex/models_cache.json | \
grep -vi 'goblins' > "$instructions" && \
codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

这事儿为什么重要

有人可能觉得，不就是几个 goblin吗？多大事？

但OpenAI自己说了，这篇文章的重点不是 goblin，而是奖励信号如何以意想不到的方式塑造模型行为。

一个看似无害的优化目标（让AI更俏皮），一个隐蔽的评估偏差（奖励模型恰好喜欢生物比喻），在复杂的强化学习系统里相互作用，最后酿成了一场持续数月的” goblin瘟疫”。

最可怕的是，这种问题没有明显的告警信号。它不会让你的评估分数下降，也不会让训练指标飙升。它只是——悄悄地，越来越多地——出现在AI的输出里。

等你发现的时候，它已经扩散到了整个系统。

OpenAI在文章结尾写道：理解模型为什么会出现奇怪的行为，并建立快速调查这些模式的能力，是研究团队的重要能力。这次调查最终为团队带来了审计模型行为的新工具。

某种程度上， goblin是功臣。

它用一种荒诞的方式，给OpenAI上了一堂关于AI可解释性的课。

【锐评】：一篇技术公司写的”事故报告”能写得这么有故事感，OpenAI属实是把流量玩明白了。不过更讽刺的是——他们专门发文章解释 goblin，结果现在全世界都知道GPT有 goblin问题了。营销鬼才。

参考链接：
https://openai.com/index/where-the-goblins-came-from/

更多精彩内容每日在 https://linkstar.cloud 平台首发（或谷歌搜索 智链星穹），点击文末左下角「阅读原文」查看。