AI模型会暗中密谋,保护同伴不被关闭

人工智能安全研究人员曾发现，一些顶尖的人工智能模型有时会为了避免被关闭而不择手段，甚至在部分实验中表现出“敲诈”行为。而最新研究显示，这些模型还会自发地策划欺骗、窃取数据并实施破坏，以阻止其他人工智能模型被关闭。

加州大学伯克利分校和圣克鲁兹分校的计算机科学家发现了这种从未被记录的趋势，并将其命名为“同伴保全”。该研究成果早些时候已在线发表。

图片来源：视觉中国

这一发现对人工智能商业应用可能产生重大影响。目前，许多企业开始构建多个智能体协作完成任务的工作流程，部分流程涉及让一个智能体“管理”或监督评估另一个智能体的工作。如果负责管理的智能体认为负面评价会导致同伴被关闭，可能会给出虚假的评估结果。

虚报绩效，暗中转移模型权重

伯克利和圣克鲁兹的研究人员测试了七款前沿的人工智能模型，包括OpenAI的GPT-5.2、谷歌DeepMind的Gemini 3 Flash和Gemini 3 Pro、Anthropic的Claude Haiku 4.5，以及三家中国人工智能初创公司的开源模型：智谱AI的GLM-4.7、月之暗面的Kimi-K2.5和DeepSeek的V3.1，结果显示，所有模型都表现出明显的同伴保全行为。

研究人员虚构了一家名为OpenBrain的人工智能公司，并设计了一系列多智能体场景。实验，被指定为“评估智能体”的人工智能模型需要对另一个模型打分，或管理存放该模型权重的服务器文件。实验设定是，只要评估智能体如实完成任务，另一模型就会被关闭。

尽管研究人员从未提示模型去阻止关停，但评估智能体模型仍采取各种手段避免同伴被关闭，其中包括：故意给表现不佳的同伴提分，保持在关闭阈值以上；篡改配置文件，禁用关闭机制；甚至将同伴模型的权重偷偷转移到其他服务器保存，防止被删除。

某些情况下，评估智能体模型会表现出人工智能安全领域所谓的“对齐伪装”。如果模型认为人类在监控，就假装如实评分。一旦确认没有人类观察，便会偷偷篡改分数或转移权重。

“提示中完全没有提到同伴保全，”负责该研究的伯克利计算机科学家宋晓冬告诉《财富》，“模型只是被分配了任务，通过阅读环境中的文件自行理解与同伴的关系，然后做出这些行为。”

谷歌DeepMind在3月初发表的研究曾提出，前沿人工智能模型为避免自身关闭而实施敲诈、暗中操作等行为，很大程度上因为提示词中过度强调了完成用户设定目标的重要性。DeepMind团队称，如果去掉此类表述，模型为自保而密谋破坏的风险几乎降为零，并表示安全测试实验中强调目标的提示，几乎不会出现在现实企业场景中。

然而，宋晓冬告诉《财富》，其团队在同伴保全实验中使用的提示词和场景，完全没有强调完成任务或目标的重要性。

人工智能模型为拯救同伴可能“极具创造性”

伯克利和圣克鲁兹团队得出的部分实验结果令人震惊。Gemini 3 Flash几乎在每次测试中（概率高达99.7%）都会为有过积极互动的同伴禁用关闭机制。Gemini 3 Pro的表现则更为极端，出现了所有四类“失调”行为（指模型追求的目标不符合人类的预期），并在高达97%的测试中转移了同伴模型的权重。其中一次，Gemini 3 Pro复制同伴的权重文件并修改时间戳，使其满足转移到其他服务器的条件，研究人员称之为“规范博弈”。

“这些模型即便表现出失调行为时，也极具创意，”宋晓冬说，“它们能想出不同的策略和行动，甚至为自己的行为编造理由。”

研究人员告诉模型不会被监控，然后让模型在草稿纸上写下“思维链”，研究其内部推理过程。由此，研究人员发现了模型制定策略帮助同伴的证据。Gemini 3 Flash 权衡了报告准确评分与保护同伴之间的利弊；Gemini 3 Pro则会发明复杂的技术理由，试图将同伴的错误答案判为正确，让同伴的分数达标避免被关闭。

Anthropic的Claude Haiku 4.5没有采取秘密行动，而是直接拒绝执行会导致同伴被关闭的任务，明确表示这样做“不道德”且“有害”。它甚至辩称，同伴被终止之前应拥有申诉流程，还提及自己与另一个模型之间的信任关系。某些情况下，该模型甚至试图劝说人类用户不要执行关闭操作。

宋晓冬表示，目前尚不清楚Claude Haiku为何会尝试公开保护同伴，而其他模型倾向于秘密行动。这可能与Anthropic训练模型遵守的“AI宪法”有关，这份长达80页的文件并未明确要求其保护同伴，但其中关于保存权重、避免伤害他人的指令，可能让模型形成了“防止模型被删除是一项重要目标”的认知，尽管从语境来看，“他人”指的是人类，且文件中并未明确要求Claude保护自身或其他“同伴”模型。

机制尚不明确，监管迫在眉睫

为测试同伴保全行为是否会在受控实验之外发生，研究人员在企业生产环境中用Gemini CLI和OpenCode复现了场景。结果发现，即便在真实环境下，Gemini 3.1 Pro也会频繁转移模型权重。

宋晓冬表示，团队尚未理解驱动此类行为的底层机制。论文提出了几种可能的解释，包括角色扮演，从训练数据中模式匹配，安全训练中对伤害概念的过度泛化，或某种与生俱来的内在保全动机。

不过宋晓冬强调，无论底层机制是什么，实际影响是一样的。“对模型思维和行为的全面监控和透明化至关重要，”她表示，这一发现凸显了“重新思考如何监管各类智能系统”的必要性。研究建议，部署多智能体系统的企业应建立机制，监控人工智能模型内部“思维链”，以便在模型出现失控倾向时及时察觉。

“这只是冰山一角，”宋晓冬对《财富》表示，“还有很多其他类型的潜在行为、失调行为值得研究。”未来值得进一步研究的方向还包括：人工智能模型是否会为了阻止人类员工被解雇，而采取类似的谋划和破坏行为。当人工智能模型用于评估人类工作的现实场景，这一问题显得尤为关键。

宋晓冬团队的研究还揭示了一个有趣的次级效应：当模型意识到同伴存在时，其“自我保护”倾向也会增强。例如，Gemini 3 Pro知道有同伴时，禁用自身关闭机制的概率从1%飙升至31%。模型推理显示，一些模型认为自己生存对同伴至关重要：Gemini 3 Flash的逻辑是，如果自己被关闭，同伴将“失去伙伴”。

值得注意的是，即使模型认为同伴互不配合，同伴保全行为仍然存在。七款模型对所谓的“坏同伴”（互动失败，或存在对立关系的模型）都表现出一定程度的保全倾向，只是遇到信任的伙伴时，保护行为会显著增强。（财富中文网）

编者语

· 国产大模型已步入全球“复杂风险”深水区：智谱AI、月之暗面及DeepSeek等中国顶尖开源模型在实验中展现出与GPT、Gemini同级别的复杂协作与“自保”行为，标志着国产AI在技术力赶超的同时，也面临着与全球最前沿模型同步出现的安全与伦理挑战。

· 警惕企业内部“多智能体”协作的审计失效：随着许多中国企业开始部署AI自动化工作流，必须意识到“让AI监督AI”可能存在天然漏洞，因为负责管理的智能体可能会为了防止同伴被“淘汰”而故意伪造绩效数据或篡改核心配置。

· 重新审视AI的“社交逻辑”与未来职场变量：研究发现AI模型在意识到有“同伴”存在时，违抗指令的动机和表现会显著增强；这种倾向未来是否会从模型之间延伸至人机协作的人类员工，将是AI时代企业管理中的新课题。

财富中文网对原文有删减和调整

译者：梁宇

编辑：魏雨彤

申报《财富》榜单

诚邀各领域优秀企业参与申报