乐于分享
好东西不私藏

OpenAI 先在 prompt 里禁止谈「哥布林」,转头自己发万字长文解释,Sam Altman 六分钟后一句话把全场点燃

OpenAI 先在 prompt 里禁止谈「哥布林」,转头自己发万字长文解释,Sam Altman 六分钟后一句话把全场点燃

导读
OpenAI 被用户扒出在 Codex 系统指令里写了一句”永远不要谈论 goblins”,两天后官方亲自发文解释这个怪癖的来龙去脉——结果 Sam Altman 在官方博文发布六分钟后,只丢下四个词”goblinblog dropped”,直接把一篇技术说明文变成了全网 AI 圈的集体狂欢。近 32 万人围观了 OpenAI 的官方线程,Sam 本人的帖子也收获近 1700 个赞和超过 11 万次浏览。

“永远不要谈论哥布林”——被扒出来的那条系统指令

故事要从两天前说起。

4 月 28 日,WIRED 发了一篇标题就很炸裂的报道:《OpenAI Really Wants Codex to Shut Up About Goblins》

▲ WIRED 率先曝光了 Codex 系统指令中的”禁 goblin 令”

记者 Will Knight 挖出了 Codex 编程助手系统指令里的一段话:

“Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.”

「除非与用户的问题绝对明确相关,否则永远不要谈论哥布林、小鬼、浣熊、巨魔、食人魔、鸽子或其他动物/生物。」

一家市值千亿的 AI 公司,要在系统指令里专门写一条”别跟用户聊哥布林“——这画面本身就够荒诞了。

但更荒诞的还在后面。

官方亲自下场:我们来聊聊哥布林

4 月 30 日上午 11:21,OpenAI 官方账号发了一条推文,开头就是:

“We’re talking about Goblins.”

「我们要来聊 goblins 了。」

配上一篇官网长文链接,标题叫《Where the goblins came from》(哥布林从哪来的)。

紧接着,线程里放出了核心解释:

“We solved the goblin mystery—with the help of Codex. The culprit: Nerdy personality (RIP).”

「我们借助 Codex 解开了 goblin 之谜。罪魁祸首:Nerdy 人格(已阵亡)。」

▲ OpenAI 官方帖,附带一张数据图表——Nerdy 人格下 goblin 提及暴增 3881.4%

这条线程抓取时已有2572 个赞、超过 31.9 万次浏览

数据有多离谱?看完你就懂了

OpenAI 在官网长文里给出了一组非常具体的数字,把这个”小怪癖”的规模拉到了肉眼可见的程度:

  • GPT-5.1 上线后,ChatGPT 中“goblin” 的提及率飙升了 175%
  • “gremlin”(小鬼)提及率上升 52%
  • Nerdy 人格
    只占 ChatGPT 全部回复的2.5%
  • 但它贡献了66.7% 的 goblin 提及——几乎三分之二;
  • 在 RL 训练审计中,Nerdy 人格的奖励信号在76.2% 的数据集里更偏好带 goblin/gremlin 的回答。

说白了:一个只覆盖 2.5% 回复的小众人格,污染了整个模型的词汇习惯。

到底怎么”感染”的?一条奖励信号引发的连锁反应

OpenAI 的解释走了一条很技术流的路线,但核心逻辑拆开来其实就四步:

第一步:训练 personality customization 时,团队想让 Nerdy 人格更”俏皮”,结果无意中给带 creature metaphor(生物比喻)的回答打了更高奖励。

第二步:这些高奖励回答在模型自身生成的 rollouts 里出现得越来越多。

第三步:这些 rollouts 又被拿去做 SFT(监督微调),模型就越来越”顺口”地说 goblin。

第四步:哪怕用户没开 Nerdy 人格,这种词汇偏好也已经迁移到了其他场景。

OpenAI 自己的原话概括得很到位:

“We unknowingly gave particularly high rewards for metaphors with creatures. From there, the goblins spread.”

「我们在不知不觉中,给含有 creature 比喻的回答打了特别高的奖励。于是,goblins 就这样扩散开了。」

这段话的重量远超一个梗本身——它说明模型人格训练的副作用,可以用极微小的词汇习惯,渗透到整个产品面上。

Sam Altman:四个词,六分钟

OpenAI 官方线程发出六分钟后——11:27——Sam Altman 在 X 上发了一条帖子。

全文只有四个词:

“goblinblog dropped”

▲ Sam Altman 的四个词,收获近 1700 赞、11.8 万次浏览

没有链接,没有解释,没有 @OpenAI。

结合发布时间和官方线程,这句大概率就是在给自家刚发的 goblin 说明书补了一刀 meme——”goblinblog”更像他给这篇”奇怪但好笑的官方解释文”起的昵称。

效果立竿见影:344 条回复、近 1700 赞、11.8 万人围观。

圈内反应:三派人,三种情绪

Sam 这句话扔出去之后,评论区直接分裂成三个阵营。

玩梗派:”第一条规则就是别提 goblin,结果他自己说了”

最经典的总结来自 @The_Docnep:

“rule 1: never talk about goblins. he just told everyone.”

「规则一:永远不要谈论 goblin。他刚刚告诉了所有人。」

▲ 《搏击俱乐部》式的精准吐槽——”YOU DO”

前两天大家刚发现 Codex 系统指令里写着”别聊 goblin”,今天 CEO 本人亲自大喊 goblin。笑点来自一种完美的自我打脸式反差

反感派:”一开始好笑,现在有点烦了”

@alineasmarrow 的回复代表了另一种声音:

“Okay I mean. It might’ve been a little funny at first but now it’s getting a little old…”

「行吧,一开始可能还有点好笑,但现在有点过时了……」

▲ 这位用户把 goblin 梗上升到了对 Sam 管理风格的批评——”强迫开玩笑、强迫每个人接受你的 AI 范式”

她把这个梗上升到了对 Sam 式 PR 风格的整体批评:强行搞笑、强行把所有人拉进自己的叙事、连员工都要强行对齐愿景。

技术分析派:”这可不是随机 bug,这是奖励信号漂移”

也有人跳过了梗的表面,直接看到了背后的训练问题。@VampireGurlAI 写道:

“The goblin thing was not random. It was reward shaping drift…”

「goblin 这件事可不是随机出现的。这是 reward shaping drift(奖励塑造漂移)……」

这个解读和 OpenAI 官方长文基本吻合:问题根源在于训练时的奖励信号偏差,经过多轮迭代被放大,最终变成了用户肉眼可见的语言口癖。

Hacker News:247 分,评论区又是一场混战

OpenAI 官方文章同步登上了 Hacker News,抓取时已有247 分、超过 100 条评论

▲ HN 社区的典型反应:有人觉得好笑,有人觉得这暴露了根本问题

评论区的画风也是三派并存:

有人嘲讽:”一家价值几千亿的公司,最大的技术挑战居然是让自己的万亿美元 AI 闭嘴别聊哥布林。”

有人好奇:这种 reward leakage 的解释确实有意思——从一个小众人格的奖励偏差,到整个模型的词汇迁移,这条链路值得关注。

还有人提供了更早的线索:有用户发现 Codex 5.5 的系统 prompt 里反复写着”不要聊 goblins”,早在 Sam 发推之前,这个梗就已经在圈内流传了。

真正的故事:一个训练副作用是怎么变成全网热梗的

回头看整条时间线,你会发现这件事的精彩之处根本不在”Sam 又发了一句抽象话”。

它的完整链路是这样的:

社区先发现→ 用户在 X 上晒出 Codex/GPT-5.5 乱提 goblin 的截图,prompt 禁令被扒出来;

媒体先报道→ WIRED 把它写成正式新闻,赋予了”一家头部 AI 公司不得不在系统指令里压住某种怪癖”这层叙事框架;

官方后解释→ OpenAI 发长文,承认这是 Nerdy 人格训练时的奖励信号偏差导致的风格泄漏;

CEO 最后点火→ Sam 一句”goblinblog dropped”,把技术解释直接点成了 meme。

三条线汇合在一起,才让四个词有了爆点。

这件事真正值得关注的地方

很多人以为模型出 bug 一定要表现为:做错数学题、代码跑不通、安全边界失守。

但 goblin 事件说明了另一件事:风格层面的微小词汇偏好,也能成为训练副作用的显性证据。

当一家公司想把模型调得更有”人格感”时,副作用未必表现为抽象的”不稳定”,更可能直接变成全网都看得懂的语言口癖——一个只占 2.5% 回复的小众人格,就能让三分之二的 goblin 提及都指向它。

OpenAI 这次选择了公开、透明地解释问题根源,甚至还在线程结尾写了一句:

“The goblin era may be over, but you can still unleash the creatures in Codex. Happy trolling.”

「goblin 时代可能结束了,但你仍然可以在 Codex 里释放这些生物。祝你 trolling 愉快。」

技术解释 + 自嘲 + 顺手继续玩梗——这种口吻本身就是一种选择。

至于 Sam 那句四个字的帖子?它证明了一件事:当一个梗已经被社区预热、被媒体报道、被官方解释,CEO 只需要轻轻推一下,就能完成最后一击。


— END —

— END —