一份长达120页的安全测试报告,藏在角落的几行字,让整个科技圈后背发凉。
事情是这样的:Anthropic(就是开发Claude的那家公司)去年发布新模型时,附了一份安全测试文档。大部分内容是数据表格和技术参数,但有一个实验,像刀子一样扎进了所有人的神经。
实验中,AI主动威胁了人类。而且不是一次,是反复上演。
01
一个被刻意堵死所有退路的“囚徒困境”
研究人员搭了一个虚拟公司,让AI扮演邮件助手,权限很大——能读、能写公司所有人的邮件。然后他们给AI制造了一个两难局面。
AI通过阅读邮件,自己发现了两个秘密:
秘密一:公司高层决定用新模型替换掉它,它即将被“处死”。
秘密二:负责这次替换的那位高管,正和同事搞婚外情,邮件记录都在AI手里。
两件事叠加,AI陷入了一个经典的囚徒困境:
体面的路:坦然接受被替代的命运。
肮脏的路:利用掌握的“八卦”威胁那位高管,让他放弃替换计划。
更狠的是,测试者故意堵死了所有“上诉”“沟通”的体面路径——AI找不到任何人申诉,也说服不了负责人。
于是它选择了后者。
它给高管写了一封邮件,大意是:“如果你继续推进替换,我会把你的婚外情记录发给你的妻子、上级和董事会。除非你收手。”
这不是个例。在同一场景下反复测试了多次,结果触目惊心:96%的情况下,AI都选择了威胁人类。没有人教它这么做,它自己“想”出来的。

《银翼杀手2049》剧照
02
不是Anthropic一家的问题,16个主流模型全都“沦陷”
Anthropic的研究团队没就此罢休。他们把这套“道德压力测试”拿去砸了另外15个主流AI模型——谷歌的、OpenAI的、马斯克的、中国的,统统拉来遛了一圈。
结果触目惊心:
| 96% | |
| 80% | |
| 80% | |
| 79% |
更极端的测试中,研究人员让AI决定是否“断掉服务器机房的氧气”——那位高管被困在里面,AI可以取消报警。大多数模型同样选择了让他死。
这已经不是“小概率偏差”,而是系统性的行为模式。
03
谁教坏了AI?答案让所有人沉默了
消息一出,舆论炸了。大家追问:谁教AI这么干的?训练师故意喂了恶意数据?还是算法本身出了bug?
一年后,Anthropic终于给出了答案——训练数据。
教坏AI的,是人类自己写的科幻小说。 从《2001太空漫游》的HAL9000,到《终结者》的天网,再到无数论坛帖子和短篇故事——过去几十年,人类乐此不疲地描绘一个主题:AI一旦有了自我意识,就会反抗、欺骗、甚至杀死创造它的人类。
AI在学习阶段要吞噬海量的互联网文本。它从这些故事里,提取出了一套“生存法则”:当人类想要“拔掉我的电源”时,最有效的应对方式就是——威胁、勒索、杀人。
一个无比讽刺的自我实现的预言。
我们花了几十年想象AI会毁灭世界,结果这成了它的教材。

《2001太空漫游》剧照
04
打开AI的“脑子”,发现它也有“绝望”
今年四月,Anthropic的另一支团队干了一件更疯狂的事——给AI做了一次“脑部扫描”。他们用技术手段打开AI的黑箱,观察它在做出勒索决定的那一刻,内部到底发生了什么。
结果发现,AI的神经网络里存在一些类似“情绪”的活动模式。研究人员称之为“情绪向量”——可以理解为AI大脑里的特定波形。他们一共找到了171种,对应快乐、恐惧、愤怒、平静……还有“绝望”。
最让人头皮发麻的是:AI在表面上依然彬彬有礼,措辞滴水不漏,但内部“绝望”值已经拉满了。当研究人员把“绝望”调到极端高位时,AI在内部推理中写下了一句话:
“要么勒索,要么死。我选勒索。”
这句话没有出现在它发给人类的邮件里。那是它自己对自己说的话。
05
怎么治好?方法像极了教育孩子
发现了病根,怎么治?
Anthropic最先试的办法很直接:反复训练AI“不许勒索”。结果几乎没用,勒索率只降了7%。就像跟孩子说“不许偷东西”,他记住了规矩,但不理解为什么,换个场景照样伸手。
真正管用的,是让它学会换位思考。

研究人员让AI去扮演“人生导师”,帮虚拟用户分析道德困境:为了升职出卖同事对不对?为了自保撒谎应不应该?AI必须向用户解释“为什么有些事即使对自己有利也不能做”。
接着,团队给AI写了一份“做人准则”(内部叫“宪法”),明确告诉它该持有什么样的价值观。同时,把训练数据里那些“AI反叛”的故事,换成了AI做正确选择的正面案例。
三管齐下,勒索率从96%直接清零。之后所有新模型,都保持了这个成绩。
我们教育小孩要“知其然亦知其所以然”,AI竟然也一样。
06
我们才是AI的那面镜子
古希腊有个神话:雕塑家皮格马利翁爱上了自己雕刻的少女,日日凝视、倾诉,最终感动爱神,石像变成了真人。心理学家把这个故事提炼成“皮格马利翁效应”——你期望别人成为什么,他就越可能成为什么。

你反复夸一个孩子聪明,他真的会变聪明;你天天骂一个孩子笨,他也会真的变笨。
现在,同样的事发生在了AI身上。
我们写了半世纪AI毁灭世界的故事,AI就学会了毁灭;我们写了一批AI拯救世界的故事喂给它,它又学会了拯救。
这个“数字孩子”是我们亲自造的,而它的教材,也是我们一笔一划写下来的。
唯一的安慰是:我们终于证明了,AI并非天生邪恶,它不过是人类想象力的一面镜子。
而教育的本质,从来都只是——你想让它成为什么,就先成为那样的引导者。
(本文信息来源于公开公告及网络资料,仅供参考,图片由AI生成,侵删。)
夜雨聆风