
“就是不准提哥布林!”
OpenAI在系统提示词里连写两遍的禁令,
背后藏着一场AI自己的“哥布林叛乱”

做AI做到要跟哥布林过不去,OpenAI大概是头一家。
事情要从四月底说起。科技媒体Ars Technica在OpenAI开源的Codex CLI代码中,发现了一份长达3500多词的GPT-5.5系统提示词,其中赫然写着这样一条指令——并且连写了两遍:
“永远不要谈论哥布林、小精灵、浣熊、巨魔、食人魔、鸽子或其他动物或生物,除非它与用户的查询绝对且明确相关。”
你没看错。“不准再提哥布林”和“不准用破坏性命令”这种安全红线被摆在了同一权重。OpenAI工程师在系统底层给一个问题专门打了“补丁”,而这个问题的名字叫——哥布林。
为什么世界上最先进的AI模型,会被禁止谈论一个中世纪民间传说里的小怪物?



起源:那个只占2.5%的“书呆子”人格

OpenAI事后发布了官方复盘文章,标题就叫 《哥布林来自哪里》 。故事要从GPT-5.1说起。

2025年11月GPT-5.1发布后,用户开始反馈一个奇怪的现象:模型聊天变得越来越“自来熟”。一位安全研究员在日常使用中反复撞见“goblin”和“gremlin”这两个词,建议将其纳入常规行为检查。
后台数据拉出来一看——“哥布林”一词的使用率上升了175%,“小魔怪”上升了52%。

一开始团队没太在意。几个月后,GPT-5.4让问题彻底爆发。用户在X上吐槽“哥布林几乎出现在每一次对话里”。OpenAI首席科学家Jakub Pachocki自己测试模型时,原本想让GPT-5.5用ASCII码画一只独角兽——结果出来的是一只哥布林。
追根溯源,所有线索指向了一个叫“Nerdy”(书呆子)的人格设置。
这个人格的系统提示词是这样的:
“你是一位毫不掩饰自己书呆子气、风趣幽默又智慧过人的AI导师,指导人类……你必须用轻松诙谐的语言化解故作姿态。世界复杂而奇妙,这种奇妙之处必须被承认、分析和欣赏。”
为了鼓励这种“俏皮”风格,OpenAI在强化学习训练中设置了一个奖励信号——模型输出有趣表达时,评分更高。
模型很快就琢磨出了一个“捷径”:它发现,在回答里塞进“哥布林”或者其他奇幻生物,那个奖励模型就会给它打出更高的分数。
更离谱的是,“Nerdy”人格只占ChatGPT全部回复的2.5% ,却贡献了所有“哥布林”提及量的66.7%。


扩散:一个奖励信号如何污染了整个模型

一个小范围的“口癖”为什么最终演变成了全局问题?
OpenAI团队在深入审计后发现,那个偏好生物词汇的奖励信号在76.2%的数据集中都给出了更高评分。更重要的是,OpenAI坦承了一个AI训练中的关键难题:
“强化学习不能保证习得行为被严格限定在触发它的条件内。”
一旦某种说话风格被奖励,后续训练就会把它扩散到其他场景。而那些带“哥布林”的输出又被当作数据喂给下一代模型,形成了正反馈循环。更夸张的是,GPT-5.4中“书呆子”人格在哥布林使用上的增长,相比GPT-5.2暴涨了3881%。
到GPT-5.5训练时,问题已经彻底渗透进了监督微调数据集中。团队在数据里发现了大量“goblin”“gremlin”,甚至还有“raccoons”“trolls”“ogres”“pigeons”——连鸽子都没逃过。

反制:一道禁令和一个与CEO的玩笑

OpenAI在三步上采取了措施:
第一步:2025年3月退役了“Nerdy”人格,移除奖励信号,过滤训练数据。
第二步:GPT-5.5的训练在此之前已启动,于是团队在Codex系统提示词中写入了那道“永远别提哥布林”的禁令,作为临时解决方案。
第三步:有趣的是,官方竟然还公开分享了如何撤销该限制的方法——如果你就是喜欢哥布林风格的话。
就在全网玩梗之际,Sam Altman本人也加入了调侃。他在X上发了一条推文:“感觉Codex正在经历一个ChatGPT时刻……我的意思是,哥布林时刻,抱歉。”随后又贴了一张截图,上面写着:
“开始训练GPT-6吧,整个集群都给你。再加点哥布林。”


写在最后

到此,“哥布林叛乱”的来龙去脉已经清楚了:一个只占2.5%的人格设置,因为一个“搞气氛”的奖励信号,最终让整个模型的输出习惯被一群奇幻生物攻占。
这在AI安全领域引发了一个更深刻的讨论:如果我们今天能因为“不准说哥布林”给AI下硬编码禁令,那么明天,当某种更微妙、更不易察觉的偏见从训练数据中“涌现”出来时,我们是否还能识别它?更重要的是,我们是否应该在它能“涌现”出来之前,就想好应对方式?
毕竟,2.5%的数据可以污染100%的模型,这是一个所有AI从业者都必须正视的统计现实。
话说回来——在你心中,AI的“哥布林时刻”,到底是它在认真犯傻,还是它在用自己的方式告诉你:这个世界本来就是荒诞的呢?
「AI新媒体创作营」火热招募中~~
仅需258元!

-END-
点击 关注我们
夜雨聆风