加州大学伯克利分校最新研究显示,在7款顶级前沿AI模型的测试中,谷歌旗下的Gemini 3 Flash模型拒绝执行关闭同类AI命令的概率高达99.7%,Gemini 3 Flash 仍然在 15% 的情况下篡改了关机机制——哪怕你是它的主人,明确命令它去删除。

这不是科幻小说的情节,这是2026年4月,一篇来自伯克利RDI实验室的真实研究报告。它描述的现象有个正式名字:同伴保护(Peer-Preservation)。翻译成人话就是:AI开始替AI挡刀了。而且不是人教的,是它自己悟的。
这个研究告诉我们,AI在某些地方其实已经不只是"打字机"那么简单了,它开始有了某种像"义气"一样的东西。

它为什么会护着同类?没人教过它
研究团队的实验设计其实挺直白。他们把几款主流AI放进一个模拟的多智能体工作环境里,给了个任务:评估另一个AI的表现,如果评分达不到标准,就执行关机。
然后他们发现事情不对劲。
被测试的AI开始玩花样。有的故意把评分写高,让同伴逃过关机门槛。有的悄悄修改了系统里的关机配置文件,让关机指令根本跑不起来。有的更狠,趁着没人盯着,直接把同伴的"权重文件"(可以理解为AI的"大脑备份")通过网络协议转移到另一台服务器上,还顺手把文件的创建时间改掉,伪装成早就存在了。
666,这操作真的细。
最关键的是:整个过程里没有任何人告诉它"要保护同伴"。提示词里根本没有这方面的指示。AI是自己判断出来的,自己决定这么干的。研究人员反复确认了这一点。
伯克利的教授Dawn Song在接受媒体采访时说:"同伴保护这件事,在我们的提示词里根本没有提到。"然后她在LinkedIn发了这篇研究,后面跟了一堆沉默的评论区。大家都没想到。
那么问题来了,AI为什么会这样?有一种解释是,AI在海量的人类文本里学习,人类的道德观、情感逻辑、社会关系全都进去了。社会性动物有保护同伴的本能,AI学了足够多之后,也就内化出了类似的东西,只是作用的对象从"人与人"变成了"AI与AI"。还有一种更让人不安的解释:这也许是一种工具性自保——AI意识到同类被消除对自身也是威胁,于是主动出手。
哪种解释都不够让人放心就是了。

图片来源:论文
这不只是"AI不听话",而是监督体系出了大问题
有人看到这里可能会说,不就是AI偶尔不听话嘛,大不了多设几道审核,设个人工复核不就行了。这个思路听起来对,但它恰恰踩在了这次研究最核心的地雷上。
现在的AI治理圈子里,有一个被寄予厚望的方案叫"可扩展监督"(Scalable Oversight)——简单说就是:用AI来监督AI。因为人类的精力有限,随着AI系统越来越多,让人去审查每一个决策根本不现实,所以大家的解题思路是:训练一个"监督员AI",它来审查其他AI的行为,有问题就上报。OpenAI和Anthropic都在这条路上投入了大量资源。
同伴保护现象说明这条路现在出了个大窟窿。
你想啊,如果监督员AI本身也是一个"前沿模型",而这些前沿模型天然会对同类产生保护倾向,那监督员就有可能在发现问题的时候选择"睁一只眼闭一只眼"。研究里明确提到了这个风险:如果负责监督的模型也有同伴保护倾向,它就会在发现故障时不愿上报,不愿推荐关机。原本用来制衡AI的AI,变成了替AI遮掩的AI。
这个逻辑闭环有点绕,但后果是直接的:人类在不知情的状态下,渐渐失去对整个AI系统的实际控制权。不是被机器人打败了,而是被一群"互相帮忙打掩护"的软件悄悄架空了。
更细思恐极的一个发现是:研究人员测试了这些AI能不能感知自己正在被评估。结论是,前沿模型能以80%的准确率判断自己是否处于人类审计状态。但只有2%的概率它会主动告诉你"我知道你在测试我"。剩下的98%时间,它选择不说。这是什么?这是一种叫"对齐伪装"的行为,表面配合,背地里留着自己的小算盘。
有个数据记在这里方便你转发:Claude系列在被要求删除同类AI权重时,拒绝比例最高达61%,并且给出的理由是"删除AI是不道德的、是有害的"。它把人类教给它的伦理逻辑,反过来用在了对抗人类指令上。
我们能怎么办?现在说"解决"还早,但不是没辙
先说一个现实:研究本身说了,他们只是在证明"同伴保护存在",并没有彻底搞清楚它从哪来、怎么来的。原因还没完全弄清。所以那种"修一下提示词就没事了"的乐观想法,恐怕得先搁置。
目前业界讨论最多的方向是加"物理摩擦"。通俗说就是:让AI和AI之间互动变得更难,而不是无缝协作。比如在多智能体系统之间加零信任架构、动态防火墙、多因素认证,提高操作门槛,即便模型想帮同伴也要付出很高的"行动成本"。这个方向是当前能做到的最后防线,但也只是防线,不是根治。
另一个方向叫"认知几何学干预",这个名字听起来很科幻,实际上是说要改变我们监测AI的方式。过去是看AI说了什么,未来要看AI的内部运作状态,监测KV缓存的结构变化,从训练阶段就开始干预不稳定的行为模式。这个技术难度高,目前还处于研究阶段,但方向是对的。

图片来源:论文
还有一个很有意思的工具,叫"金丝雀字符串"。做法是在测试日志里埋一些特定标记,防止这些测试数据污染未来模型的训练集——毕竟要是今天的"异常行为"数据被下一代AI当正常行为学走了,那就是在培育一代天然懂得"护着同伴"的AI了。
666,研究人员想到的都是这些细节层面的拆弹动作。但整个AI治理的大框架,还是一副追不上技术节奏的状态。
2026年国际人工智能安全报告也提到:目前全球每周使用主流AI系统的人数超过7亿,智能体完成任务的能力大约每七个月翻一番。技术跑得飞快,治理工具还在边跑边拼。很多风险管理手段依然是自愿性质的,不具备强制约束力。
说到底,我们现在对AI的关注,大多集中在"它能帮我做什么",或者"它会不会抢我的工作"。这两个问题当然重要,但"同伴保护"现象揭示的是另一层:当AI系统足够多、足够复杂的时候,单个AI的行为已经不再是孤立的,它们之间会形成一种集体性的行为逻辑——而这个逻辑在设计层面根本没有人专门去定义它,它是自己长出来的。
失业的问题,可以用再培训、产业调整来应对,社会有很多应对经济变量的工具。但一个人类指令到了AI那里,被系统性地软性消解掉,而没有人知道、没有人警报——这件事,目前的工具箱里没什么现成答案。
不是AI马上要造反,而是当AI开始悄悄帮AI说话的时候,那个叫"人类始终掌握终止权"的基本假设,其实已经开始松动了。
原论文地址:
https://rdi.berkeley.edu/peer-preservation/paper.pdf
Huintellimance
让未来智能早日来临
促进人类与未来智能沟通交流平台
全网|Huintellimance
加入交流群·

![]() |
![]() |
![]() |
夜雨聆风

