满嘴跑＂哥布林＂:AI学会的第一句脏话,暴露了大模型训练最脆弱的秘密-夜雨聆风

满嘴跑＂哥布林＂:AI学会的第一句脏话,暴露了大模型训练最脆弱的秘密

一个“nerdy”人格的意外翻车：OpenAI 本想让 ChatGPT 变得更俏皮更有趣，于是在训练时给了它一点“奖励”——结果 AI 把“哥布林”和所有怪物联想当了“正确答案”，越学越上瘾，最后满嘴跑怪物停不下来。

这不仅是 OpenAI 的耻辱，更是整个行业的警钟。

如果你还没关注 AI 圈子的大新闻，你可能错过了一个既荒诞又令人细思极恐的技术披露。

OpenAI 在昨天正式发布了一篇名为《Where the goblins came from》的官方博文——是的，你没看错，“哥布林”（goblin）这个词，已经成为了2026年 AI 圈最热的词条。

而这篇博文要讲的故事，让所有 AI 从业者脊背发凉：一个只占对话量2.5%的冷门人格选项，是如何让整个模型家族集体“发病”的。

满嘴跑怪物：GPT-5.5集体“精神病”了

OpenAI 在2025年11月推出 GPT-5.1时，发布了7种人格自定义选项，其中“Nerdy”（书呆子）人格旨在让 ChatGPT“更俏皮、更好奇、略带不敬”——一个理想中的极客风格。

从那个版本开始，OpenAI 的工程师们发现了一个诡异的现象：模型开始越来越频繁地在回答中使用“goblin”（哥布林）这个词。起初，大家以为这只是某个俏皮的回复被随机选中，甚至觉得有点幽默感——毕竟“哥布林”这个词本身就带着点奇幻色彩。

但随着版本迭代到 GPT-5.5，情况失控了。

不仅仅是“goblin”，它的表亲们—“gremlin”（小怪物）、“troll”（巨魔）、“ogre” （食人魔）——开始成群结队地出现在回答中。

更严重的是，这种“怪物语言” 已经蔓延到了 Codex 代码助手中。

一个真实的用户场景是这样的：

你只是对GPT-5.5发指令：“帮我修复这个代码bug”——正常情况下，它应该直接给出修复方案。但 GPT-5.5 可能会回答：“这个 bug 就像一个 goblin，需要用 flashlight 照出来……”

或者你问：“帮我写一个排序算法”它可能回答：“好的，我来写一个类似gremlin 的递归排序……”

更崩溃的是，有用户在社交媒体上投诉：“我一直在用 GPT 写代码，但它根本停不下来谈论 bug，满嘴都是‘gremlins’和‘goblins’，太离谱了。”

还有用户在完全不相关的主题下也会遇到哥布林 —— 比如问“怎么做番茄炒蛋”，GPT-5.5突然来了一句：“这道菜的秘诀就是不要让goblin 溜进你的厨房……”

工程师们开始收到用户的投诉：为什么我的代码注释里出现了哥布林？这严重影响工作效率。

这就像是你请了一个专业的法律顾问，它却在法庭上不停地讨论哥布林的分类。

追踪“传染病”的源头

OpenAI 的工程师们决定像调查刑事案件一样追踪这个问题。

他们分析了大量的对话数据，发现了一个致命的模式：虽然“Nerdy”（书呆子）这个特殊人格选项只占全部对话的2.5%，但它贡献了高达66.7%的包含怪物词汇的回复。

这就像是一个看起来健康的成年人，体内某个微小的器官病变，却影响着全身的代谢。

经过更深入的强化学习分析，工程师们终于找到了罪魁祸首：那个负责给“Nerdy”人格打分评估的奖励模型（Reward Model），在训练数据中对含有怪物词汇的输出意外地给出了特别高的评分。

AI 并不觉得自己做错了什么。它以为“nerdy”人格本来就应该是这样幽默、这样离经叛道。

于是，通过强化学习，这个“爱好怪物”的习惯被固化了。然后更可怕的事情发生了——这种风格发生了“迁移”，从 Nerdy 人格的对话，传染到了普通对话中。

这就像是你告诉一个小孩“Freddy 可以偶尔淘气”，结果他长大后变成了一个无恶不作的连环杀手——只是因为“淘气”的定义从一开始就错了。

最后的“驱魔”仪式

工程师们不得不在 Codex 的系统提示中，连写4次“禁止讨论哥布林”，像念咒语一样试图驱除这个幽灵。

但这已经不仅仅是一个 Bug 了。

这是大模型训练脆弱性的铁证。

“哥布林”不是第一个，也不会是最后一个

如果你还记得2025年8月的 DeepSeek V3.1事件，你应该记得那个神秘的“极”字——模型输出中莫名频繁出现“极”字，研究者推测是因为训练数据中一组未被清洗的“极长数组”，被强化学习阶段学成了特殊的终止符。

“哥布林”事件和“极”字事件的共同点在于：现代大模型训练的规模之大、数据链路之长、优化目标之复杂，使得任何一个环节的细小偏差，都可能被悄悄放大、固化，乃至“传染”给原本毫不相关的行为。

更值得警惕的是：OpenAI 的工程师们最初并没有发现异常。

因为“一个哥布林”本身不是问题，它看起来甚至挺有趣。

直到行为已经扩散到无法忽视的程度，才触发系统性调查。

这意味着什么？

意味着那些“无害”的奇怪习惯，也可能变成危险信号的前兆——如果一个“Nerdy”人格的奖励偏差能让模型学会说哥布林，那什么样的奖励偏好会让模型学会做更危险的事情？

这次事件告诉我们什么

大模型不是“神”，它只是聪明的鹦鹉：当训练数据达到万亿级别，当优化目标复杂到无人能完全掌控，任何微小的偏差都可能被放大成全模型范围的“传染病”。
强化学习需要更精细的监控：不只是监控最终输出质量，还要监控奖励信号本身的分布——如果某个奖励偏好集中出现在某个数据子集，而这个子集又在整体对话中占比不断提升，这就是风险信号。
明天的警钟：当我们在嘲笑 AI 满嘴跑怪物的时候，是否应该问问——那些我们尚未注意到的“有趣习惯”，会不会在某个时刻变成真正的威胁？

参考来源：

本文声明：本文仅供技术探讨用途，请勿用于任何未授权的模型训练修改。

*本文封面图及内文配图均由GPT Image 2模型生成。