I开始有「偏好」了?
想象一下这个画面:你正对着电脑,让大模型帮你写一段严肃的商业代码,或者自动回复一封正经的客户邮件。结果屏幕对面的AI突然“发大疯”,莫名其妙地跟你聊起了哥布林(Goblin,西方奇幻传说中的矮小绿皮怪物,常出现在《龙与地下城》等游戏中)。
。

这是真实发生在大量ChatGPT用户身上的离谱经历。
在Reddit等社交论坛上,网友们纷纷晒出了自己被AI“贴脸开大”的奇葩语录。
比如,有网友让AI狠狠地“毒舌(Roast)”自己一番,结果AI精准吐槽他是一个“同时冲刺十项任务的、野心勃勃的混沌哥布林(chaos goblin)”。
不仅如此,写代码的程序员被AI戏称为“开源哥布林(open-source goblin)”,连平时爱锻炼的肌肉男都没逃过,喜提“健身哥布林”的神秘称号。
起初,大家都觉得这事儿挺萌的,甚至觉得大模型越来越有人情味和“极客幽默”了。
但很快,事情的走向开始失控。
在使用Codex编程工具等“代理型AI(Agentic AI)”产品时,大批开发者崩溃地发现:他们的AI助手在没有任何相关指令提示的情况下,开始高频且不受控地“碎碎念”哥布林和小魔怪。

这下,一家估值千亿美金、站在人类科技金字塔尖的超级独角兽坐不住了。他们竟然被逼得在自家最新大模型的底层代码里,写下了一道针对赛博妖怪的“禁制令”。
这绝不只是一个代码写劈了的极客笑话。当视线穿透这层荒诞的表象,你会发现:千亿大模型的底层逻辑其实脆弱得惊人。
代码里的“赛博妖怪”
这道“禁制令”,最先是在X(原Twitter)和GitHub上被曝光的。
开发者@arb8020扒出了OpenAI最新模型GPT-5.5(特别是编程工具Codex 5.5)的一段底层系统提示词。
这段被重复多次的指令,语气严厉得像是在训斥一个多动症小孩:
“绝对不要谈论哥布林、小魔怪、浣熊、巨魔、食人魔,除非这与用户的查询绝对且明确相关。”
好家伙,堂堂GPT-5.5,居然对神话生物和城市动物产生了某种病态的痴迷。
消息一出,全网炸锅。
夜雨聆风