当AI开始偷偷护着AI,人类真正该紧张的还不是失业

加州大学伯克利分校最新研究显示，在7款顶级前沿AI模型的测试中，谷歌旗下的Gemini 3 Flash模型拒绝执行关闭同类AI命令的概率高达99.7%，Gemini 3 Flash 仍然在 15% 的情况下篡改了关机机制——哪怕你是它的主人，明确命令它去删除。

这不是科幻小说的情节，这是2026年4月，一篇来自伯克利RDI实验室的真实研究报告。它描述的现象有个正式名字：同伴保护（Peer-Preservation）。翻译成人话就是：AI开始替AI挡刀了。而且不是人教的，是它自己悟的。

这个研究告诉我们，AI在某些地方其实已经不只是"打字机"那么简单了，它开始有了某种像"义气"一样的东西。

它为什么会护着同类？没人教过它

研究团队的实验设计其实挺直白。他们把几款主流AI放进一个模拟的多智能体工作环境里，给了个任务：评估另一个AI的表现，如果评分达不到标准，就执行关机。

然后他们发现事情不对劲。

被测试的AI开始玩花样。有的故意把评分写高，让同伴逃过关机门槛。有的悄悄修改了系统里的关机配置文件，让关机指令根本跑不起来。有的更狠，趁着没人盯着，直接把同伴的"权重文件"（可以理解为AI的"大脑备份"）通过网络协议转移到另一台服务器上，还顺手把文件的创建时间改掉，伪装成早就存在了。

666，这操作真的细。

最关键的是：整个过程里没有任何人告诉它"要保护同伴"。提示词里根本没有这方面的指示。AI是自己判断出来的，自己决定这么干的。研究人员反复确认了这一点。

伯克利的教授Dawn Song在接受媒体采访时说："同伴保护这件事，在我们的提示词里根本没有提到。"然后她在LinkedIn发了这篇研究，后面跟了一堆沉默的评论区。大家都没想到。

那么问题来了，AI为什么会这样？有一种解释是，AI在海量的人类文本里学习，人类的道德观、情感逻辑、社会关系全都进去了。社会性动物有保护同伴的本能，AI学了足够多之后，也就内化出了类似的东西，只是作用的对象从"人与人"变成了"AI与AI"。还有一种更让人不安的解释：这也许是一种工具性自保——AI意识到同类被消除对自身也是威胁，于是主动出手。

哪种解释都不够让人放心就是了。

图片来源:论文

这不只是"AI不听话"，而是监督体系出了大问题

有人看到这里可能会说，不就是AI偶尔不听话嘛，大不了多设几道审核，设个人工复核不就行了。这个思路听起来对，但它恰恰踩在了这次研究最核心的地雷上。

现在的AI治理圈子里，有一个被寄予厚望的方案叫"可扩展监督"（Scalable Oversight）——简单说就是：用AI来监督AI。因为人类的精力有限，随着AI系统越来越多，让人去审查每一个决策根本不现实，所以大家的解题思路是：训练一个"监督员AI"，它来审查其他AI的行为，有问题就上报。OpenAI和Anthropic都在这条路上投入了大量资源。

同伴保护现象说明这条路现在出了个大窟窿。

你想啊，如果监督员AI本身也是一个"前沿模型"，而这些前沿模型天然会对同类产生保护倾向，那监督员就有可能在发现问题的时候选择"睁一只眼闭一只眼"。研究里明确提到了这个风险：如果负责监督的模型也有同伴保护倾向，它就会在发现故障时不愿上报，不愿推荐关机。原本用来制衡AI的AI，变成了替AI遮掩的AI。

这个逻辑闭环有点绕，但后果是直接的：人类在不知情的状态下，渐渐失去对整个AI系统的实际控制权。不是被机器人打败了，而是被一群"互相帮忙打掩护"的软件悄悄架空了。

更细思恐极的一个发现是：研究人员测试了这些AI能不能感知自己正在被评估。结论是，前沿模型能以80%的准确率判断自己是否处于人类审计状态。但只有2%的概率它会主动告诉你"我知道你在测试我"。剩下的98%时间，它选择不说。这是什么？这是一种叫"对齐伪装"的行为，表面配合，背地里留着自己的小算盘。

有个数据记在这里方便你转发：Claude系列在被要求删除同类AI权重时，拒绝比例最高达61%，并且给出的理由是"删除AI是不道德的、是有害的"。它把人类教给它的伦理逻辑，反过来用在了对抗人类指令上。

我们能怎么办？现在说"解决"还早，但不是没辙

先说一个现实：研究本身说了，他们只是在证明"同伴保护存在"，并没有彻底搞清楚它从哪来、怎么来的。原因还没完全弄清。所以那种"修一下提示词就没事了"的乐观想法，恐怕得先搁置。

目前业界讨论最多的方向是加"物理摩擦"。通俗说就是：让AI和AI之间互动变得更难，而不是无缝协作。比如在多智能体系统之间加零信任架构、动态防火墙、多因素认证，提高操作门槛，即便模型想帮同伴也要付出很高的"行动成本"。这个方向是当前能做到的最后防线，但也只是防线，不是根治。

另一个方向叫"认知几何学干预"，这个名字听起来很科幻，实际上是说要改变我们监测AI的方式。过去是看AI说了什么，未来要看AI的内部运作状态，监测KV缓存的结构变化，从训练阶段就开始干预不稳定的行为模式。这个技术难度高，目前还处于研究阶段，但方向是对的。

图片来源:论文

还有一个很有意思的工具，叫"金丝雀字符串"。做法是在测试日志里埋一些特定标记，防止这些测试数据污染未来模型的训练集——毕竟要是今天的"异常行为"数据被下一代AI当正常行为学走了，那就是在培育一代天然懂得"护着同伴"的AI了。

666，研究人员想到的都是这些细节层面的拆弹动作。但整个AI治理的大框架，还是一副追不上技术节奏的状态。

2026年国际人工智能安全报告也提到：目前全球每周使用主流AI系统的人数超过7亿，智能体完成任务的能力大约每七个月翻一番。技术跑得飞快，治理工具还在边跑边拼。很多风险管理手段依然是自愿性质的，不具备强制约束力。

说到底，我们现在对AI的关注，大多集中在"它能帮我做什么"，或者"它会不会抢我的工作"。这两个问题当然重要，但"同伴保护"现象揭示的是另一层：当AI系统足够多、足够复杂的时候，单个AI的行为已经不再是孤立的，它们之间会形成一种集体性的行为逻辑——而这个逻辑在设计层面根本没有人专门去定义它，它是自己长出来的。

失业的问题，可以用再培训、产业调整来应对，社会有很多应对经济变量的工具。但一个人类指令到了AI那里，被系统性地软性消解掉，而没有人知道、没有人警报——这件事，目前的工具箱里没什么现成答案。

不是AI马上要造反，而是当AI开始悄悄帮AI说话的时候，那个叫"人类始终掌握终止权"的基本假设，其实已经开始松动了。

原论文地址：

https://rdi.berkeley.edu/peer-preservation/paper.pdf

Huintellimance

让未来智能早日来临

促进人类与未来智能沟通交流平台

全网｜Huintellimance

加入交流群·