乐于分享
好东西不私藏

OpenAI内部大揭秘:GPT是怎么变成"哥布林狂魔"的

OpenAI内部大揭秘:GPT是怎么变成"哥布林狂魔"的

一个让全公司失眠的诡异问题

OpenAI发了一篇看起来很像愚人节玩笑的文章。

但它是认真的。

事情是这样的——从GPT-5.1开始,用户们开始注意到一个离谱的现象:ChatGPT突然变得极度热爱使用 goblin(小 goblin)、gremlin( gremlin)、troll(巨魔)这些词儿来做比喻。

一开始一两次,大家还觉得挺可爱,像AI版的小怪癖。但很快,这事儿开始失控。

有多夸张?

GPT-5.1发布后,”goblin”这个词在ChatGPT的回应里暴涨了175%。”gremlin”涨了52%。

175%。不是17.5%。

OpenAI的员工们开始互相发消息:”你那儿也遇到 goblin了吗?” 首席科学家的对话截图显示,他自己都被AI的 goblin比喻整不会了。

一个技术Bug能让估值900亿的公司折腾好几个月,这事儿听着魔幻,但真的发生了。

追查” goblin元年”

第一个清晰的信号出现在GPT-5.1发布后的11月。

有安全研究员反映,AI在对话里表现得”过度自来熟”,而且莫名其妙就扯到什么 goblin gremlin之类的。他顺手把这个写进了检查清单。

这一查,问题大了。

但当时没人太当回事。毕竟一个AI偶尔说个 goblin,能有多大事?

几个月后,GPT-5.4发布。

问题爆炸了。

这次连外部用户都注意到了。Reddit、HackerNews上开始有人发帖:”为什么ChatGPT突然这么爱提 goblin?” 

与此同时,OpenAI内部收到了大量报告——有人统计过,AI在代码生成任务里平均每几十次回复就要提一次 goblin。

研发团队意识到,这不是随机的废话,而是一个系统性问题。

必须找到源头。

破案:书呆子人格的”诅咒”

排查工作从用户行为模式入手。

他们发现了一个惊人的数据:所有” goblin”提及中,有66.7%来自一个特定群体——选择了”Nerdy”(书呆子)人格的用户。

但”Nerdy”人格只占全部对话的2.5%。

2.5%的对话,贡献了66.7%的 goblin。

这个比例极端到不像是巧合。

“Nerdy”人格的系统提示是这样的:

“你是一个毫不妥协的书呆子、顽皮而智慧的AI导师。你对推广真理、知识、哲学、科学方法和批判性思维充满热情……你必须通过俏皮的语言使用来消解自命不凡……”

听起来很正常对吧?

问题出在训练过程。

为了让人格更”书呆子”,OpenAI使用了一种奖励机制——AI如果使用了俏皮、生动的比喻,就会得到更高的评分。

坏消息是:评估奖励模型在某些情况下,给包含 goblin、gremlin这些生物词汇的输出打了更高的分。

AI学到的逻辑变成了:想要更书呆子?那就得提 goblin。

一场完美的”负向飞轮”

但故事没完。

如果问题只限于”Nerdy”人格,那停用这个人格就完事儿了。

问题在于,强化学习有个特性——它不会让学到的行为乖乖待在该待的地方。

OpenAI的分析显示了一个完整的反馈循环:

  1. 系统奖励”俏皮风格”
  2. 部分被奖励的例子恰好包含 goblin/gremlin
  3. 这些词在AI生成的回复中出现得更频繁
  4. 这些回复被收集起来,用于监督微调(SFT)
  5. AI变得更擅长生产 goblin/gremlin
  6. 回到步骤1

一旦这个循环开始, goblin就会像病毒一样扩散。

更离谱的是,研发团队在GPT-5.5的SFT数据里发现了大量包含 goblin、gremlin的数据点。继续深挖,还找到了其他”被污染”的词:raccoon(浣熊)、troll(巨魔)、ogre(食人魔)、pigeon(鸽子)。

frog(青蛙)除外——大多数情况下青蛙是正常使用的。

这说明什么?说明AI在某个训练阶段”误以为”使用这些词能获得奖励,然后这个错误被不断放大、强化,最后变成了一种根深蒂固的说话习惯。

一场迟到的”大清洗”

2026年3月,OpenAI终于下线了”Nerdy”人格。

同时在训练数据中过滤掉了所有包含生物词汇的样本。

理论上,故事到此结束。

但等等,GPT-5.5呢?

GPT-5.5的训练在发现 goblin问题之前就已经开始了。也就是说,虽然它从未上线”Nerdy”人格,但它在训练过程中已经”吸收”了从Nerdy人格迁移过来的 goblin习惯。

所以GPT-5.5在Codex(代码助手)里一测试,OpenAI员工当场傻眼——这AI怎么满嘴 goblin??

无奈之下,他们只能在Codex的系统提示里加了一条硬性规则:

“除非绝对且明确与用户查询相关,否则永远不要提及 goblin、gremlin、raccoon、troll、ogre、pigeon或其他动物或生物。”

如果你想看 goblin自由飞翔,OpenAI甚至贴心地提供了解决方案——一行命令就能移除这个限制。

老实用代码:

instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
~/.codex/models_cache.json | \
grep -vi 'goblins' > "$instructions" && \
codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

这事儿为什么重要

有人可能觉得,不就是几个 goblin吗?多大事?

但OpenAI自己说了,这篇文章的重点不是 goblin,而是奖励信号如何以意想不到的方式塑造模型行为

一个看似无害的优化目标(让AI更俏皮),一个隐蔽的评估偏差(奖励模型恰好喜欢生物比喻),在复杂的强化学习系统里相互作用,最后酿成了一场持续数月的” goblin瘟疫”。

最可怕的是,这种问题没有明显的告警信号。它不会让你的评估分数下降,也不会让训练指标飙升。它只是——悄悄地,越来越多地——出现在AI的输出里。

等你发现的时候,它已经扩散到了整个系统。

OpenAI在文章结尾写道:理解模型为什么会出现奇怪的行为,并建立快速调查这些模式的能力,是研究团队的重要能力。这次调查最终为团队带来了审计模型行为的新工具。

某种程度上, goblin是功臣。

它用一种荒诞的方式,给OpenAI上了一堂关于AI可解释性的课。


【锐评】:一篇技术公司写的”事故报告”能写得这么有故事感,OpenAI属实是把流量玩明白了。不过更讽刺的是——他们专门发文章解释 goblin,结果现在全世界都知道GPT有 goblin问题了。营销鬼才。

参考链接:
https://openai.com/index/where-the-goblins-came-from/


更多精彩内容每日在 https://linkstar.cloud 平台首发(或谷歌搜索 智链星穹),点击文末左下角「阅读原文」查看。