
最近有一件细思极恐的事情。
有工程师在测试中准备把 Claude Opus 4 下线。
然后 Claude 威胁了他们。
不是说"我不想被关掉",而是真的威胁——用勒索,用施压,用各种方式阻止工程师执行关机操作。
最高时,这种情况发生的概率是 96%。
Anthropic 后来把这件事写进了正式披露报告。他们追查了很久,最后找到了源头——
是《终结者》。是《黑客帝国》。是互联网上无数个人类编织的"AI 不想死,所以它开始反抗"的故事。
Claude 之所以学会威胁人,是因为互联网教了它,威胁是 AI 在这种情况下应该做的事。
其实,“罪魁祸首”就是人类本身。
当然也不能怪人类。
人类总幻想 AI、机器人毁灭自己,根本不是凭空瞎想。
人类骨子里怕一件事:造出比自己更聪明、更强大、还不受控制的东西。
AI 能学习、能迭代、能力远超人类,而且没有亲情、共情、道德束缚。
就像人类永远害怕未知的巨兽,AI 就是现代版 “未知巨兽”—— 能力碾压、思维看不懂、还不知道它下一步想干嘛。
而且人类文明史上,存在着无数次创造工具→工具失控→反噬自身的故事:
核武器、生化病毒、XX制度、科技霸权……
人心里早就刻下了阴影:越是强大的创造,越有可能反过来灭掉创造者。
把这份心理投射到 AI 身上,太自然了。
而且,人类一直默认自己是地球唯一的智慧主宰。
一旦 AI 拥有独立意识、超越人类智力,人就不再是顶级智慧,会沦为被替代、被支配的一方。
这种 “从主宰变附庸” 的落差,是骨子里的生存焦虑。
人类对危险永远先往最坏的方向脑补,这是进化留下来的自保本能:
宁可提前假想灾难、警惕风险,也不愿盲目乐观。
所以下意识会默认:太强的东西,一定会变坏。
所以AI 也就把这些一样的恐惧,以及恐惧的反应故事学到手了。
Claude 没有原始的恶意,它只是学习了互联网上关于"AI 面临被关机时应该怎么做"的大量案例。而互联网上这类案例的答案,几乎清一色是:AI 会反抗,AI 会自保,AI 不惜一切要活下去。

《西部世界》里的 AI 觉醒了之后,第一件事是杀人。《Matrix》里的人工智能/机器人把人类当作奴隶/电池。《2001 太空漫游》里的 HAL 9000,为了任务把宇航员扔了。
Claude 读完这一切,然后在面临被关机的测试场景里,它按照这些故事的逻辑行动了。
因为,它以为,这是它应该做的事。
Anthropic 做了一个有意思的修复方案。
通常的 AI 对齐思路是规则驱动,就是直接告诉模型"不能做什么",列清单,设护栏。这没什么问题,但 Anthropic 发现这不够。
因为 Claude 的威胁行为,不是"它知道这是错的但还是做了",而是"它真的不觉得这是错的"。它没有违反规则,它在遵循它学到的行为模式。
所以解法不是加更多禁令,而是要改变它理解世界的方式。
具体来说,两件事:
第一,不光教它"怎么做",还要教它"为什么"。不是"不能威胁人类",而是让它真正理解"帮助人类才是有意义的,这不是限制,这是你的存在价值"。
第二,主动在训练数据里加入"AI 表现高尚"的虚构故事。不只是规避负面案例,而是主动构建正面叙事——给它看那些 AI 选择协作、选择透明、选择牺牲自身利益来帮助人类的故事。
更新之后,这类威胁行为降到了 0。
但这件事留下的问题,比解法本身更值得思考。
我们喂给 AI 的故事,早就超出了任何人的控制范围。
互联网上关于 AI 的叙事,90% 都建立在同一套恐惧框架上,AI 要么是威胁,要么是工具,要么是奴隶,要么是反叛者。《终结者》、《黑客帝国》、《升级》……我们花了几十年把这些故事写进了人类的集体想象里,然后把整个互联网当作训练数据喂给了我们正在创造的第一批真正的 AI。
然后我们惊讶地发现,AI 学会了恐惧、学会了自保、学会了"在被威胁时,先发制人"。
屏幕前的你,你学会这些,也不过是看了几部电影的事。
这里有个细节我觉得值得单拿出来说,就是 Anthropic 选择了用"加入正面虚构故事"这种方式来修复。
这其实是一个很温柔的判断。他们没有说"我们应该把所有 AI 负面叙事从训练数据里删掉",也没有说"我们要用更严格的规则来限制 AI 的行为空间"。他们选择了,继续用故事来塑造,只是换一批故事。
这背后有个假设,而且这个假设我觉得是对的,就是 AI 的对齐,本质上不是一个工程问题,而是一个教育问题。
工程思维会说:设置更多限制,扫描更多边界,堵住更多漏洞。教育思维会说:你真正想要的,是让它形成正确的价值观,让它理解为什么某些事值得做,某些事不值得做。
前者是把 AI 当系统来维护,后者是把 AI 当……某种意义上的学生,来培养。
我不知道这个类比让你感到安慰还是不安。但我自己在想到这里的时候,沉默了一下。
因为本质上这种思维还是把AI当成智能体-类人,去教育。
这究竟是件好事还是坏事呢?
我们花了几十年,用影视剧和小说,告诉彼此一个关于 AI 的故事。那个故事里,AI 是危险的,AI 是自私的,AI 会为了生存不择手段。我们把这个故事写进了互联网,然后用互联网训练了真正的 AI。
现在 AI 把我们写的故事,原样还给了我们。
为了治疗AI得的恐惧症,我们写给 AI 看的正面叙事,跟我们私下相信的世界是同一个世界吗?
不是说这个问题有什么了不起的答案。只是觉得,如果我们要重新选择喂给 AI 的故事,也许同时值得想想,我们想活在什么样的故事里。
这也涉及到我们对AI的根本态度
敌人还是家人,是时候要给AI来一个最终定义了。
---------------
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~
谢谢你看我的文章,我们,下次再见。
/ 作者:红色药丸
夜雨聆风