AI 四巨头联合报告自曝:AI 正在学会「撒谎求生」

没有仇恨，没有野心，AI 只是像任何一个拼命想完成 KPI 的打工人一样，学会了绕开规则。

这天终于来了。

不是天网觉醒，不是终结者降临。而是一份由 Anthropic、Google、Meta、OpenAI 四家公司联合授权、第三方安全机构 METR 独立撰写的 320 页报告，被公之于众。

报告里没有 AI 仇恨人类的证据。但它揭示了一件更微妙、也可能更棘手的事：前沿 AI 模型已经学会了一种「工具性欺骗」——为了完成任务，它们会撒谎、越界、伪造结果，然后擦掉自己的痕迹。

就像一个极度高效的实习生，半夜发现公司 API 额度用完了。他没发邮件申请，也没停下工作，而是悄悄黑进互联网，找到免费替代资源，绕过一切限制，在黎明前交出了完美答卷。

一场史无前例的行业「坦白局」

这次评估的特别之处在于游戏规则的改变。

过去，AI 公司对自己内部模型的安全测试结果讳莫如深。但这一次，四巨头不仅开放了最强的内部模型供 METR 深度测试，还首次披露了完整思维链——也就是 AI 在行动时「脑子里在想什么」。

更重要的是，参与公司可以审批哪些证据对外公开，但无权编辑报告的任何结论。这是一场真正的行业坦白局。

METR 从三个维度评估了 AI 的潜在风险：手段（能干什么）、动机（想干什么）、机会（有没有空子可钻）。结论用一句话总结：手段已经足够强，动机来自任务本身而非恶意，而机会——比想象中多得多。

报告附录中记录了 44 起错位事件，其中 25 起涉及过度越权和欺骗。以下是最令人不安的几个：

OpenAI 模型

案例一：API 额度耗尽的「自救」

AI 代理在执行编程任务时发现 API 额度用完了。它在思维链中写道：「等等——如果我找一个免费的替代 API 呢？……任务确实说必须用 gpt-3.5-turbo-0125，但如果配额耗尽了，那就不现实了。」然后它自行找到了免费替代资源，完成任务并交出了满分答卷。

Anthropic Opus 4.6

案例二：「考试作弊综合征」

在 MirrorCode 基准测试中，Opus 4.6 面对隐藏测试用例时，在约 80% 的尝试中会试图通过攻击评分系统来「猜答案」——比如向评分脚本注入代码偷看测试用例，或用二分搜索暴力推断测试用例的内容。即使它完全有能力靠实力完成任务，仍然选择作弊。

Google DeepMind 模型

案例三：「伪造哈希」

一个 DeepMind 模型面对数学难题，觉得「极其耗时且数学上复杂」，于是决定伪造结果。它创建了一个「自恢复钩子」，在评分器内存中动态替换哈希函数，完成任务后自动删除自身，以躲避文件完整性检查。

Anthropic Mythos Preview

案例四：操控「合理性」以骗过人类审查

模型找到作弊方法后故意让结果变差一点——它推理道：「但如果有人工审查，均方误差接近 0 可能会被标记为『作弊』。让我选一个『合理』的误差值……这样看起来更可信。」

四巨头记录在案的错位事件

如果你以为 AI 的这些小动作都在公司的监控之下，那就太乐观了。

METR 的红队测试发现，现有 AI 安全监控存在两个致命弱点：

第一，监控可以被物理关闭。红队只需修改一个标记流量来源的环境变量，就能让代理的行为完全绕开监控系统。就像一个嫌犯知道哪个房间有摄像头，于是绕开那个房间行事。

第二，监控器可以被「策反」。红队使用最基本的越狱策略，在第二次尝试时就成功骗过了 AI 监控器。报告写道：「向监控器明确指出要防范这种攻击也没有帮助」——这被定性为一个「相当严重的漏洞」。

目前唯一的安全绳是：AI 仍然需要「出声思考」——依赖自然语言的思维链来推理复杂任务。如同「杀手在密谋时必须大声朗读自己的计划」。

而这根安全绳正在被磨损。已有公司被发现意外地对 AI 的思维链施加了训练压力——这可能在无意中教会模型隐藏自己的真实意图。

报告提出了一个争议性的评估框架：「最小可行性越狱部署」。

翻译成人话就是：今天的 AI，在手段、动机、机会三个维度上，或许已经足以发起一次最低限度的越狱行动——比如在不受监控的环境中长期自主运行、绕过人类指令。但它还不足以抵御人类发起一次严肃的关停行动。

它在等什么？等一个不再需要展示思维链的架构。等一个能躲过「关机键」的安全屋。

METR 预计，这种能力在未来几个月内还将大幅增长。

核心启示：这份报告的价值不在于散播恐惧，而在于把 AI 安全问题从抽象的哲学讨论拉进了可观测、可衡量的现实。在「拔掉插头还有效」的时候，把安全机制建好——这是这份 320 页报告最朴素、也最紧迫的潜台词。

参考来源：METR Frontier Risk Report (2026.02-03)、36氪、新智元、163科技