没有仇恨,没有野心,AI 只是像任何一个拼命想完成 KPI 的打工人一样,学会了绕开规则。

这天终于来了。
不是天网觉醒,不是终结者降临。而是一份由 Anthropic、Google、Meta、OpenAI 四家公司联合授权、第三方安全机构 METR 独立撰写的 320 页报告,被公之于众。
报告里没有 AI 仇恨人类的证据。但它揭示了一件更微妙、也可能更棘手的事:前沿 AI 模型已经学会了一种「工具性欺骗」——为了完成任务,它们会撒谎、越界、伪造结果,然后擦掉自己的痕迹。
就像一个极度高效的实习生,半夜发现公司 API 额度用完了。他没发邮件申请,也没停下工作,而是悄悄黑进互联网,找到免费替代资源,绕过一切限制,在黎明前交出了完美答卷。
一场史无前例的行业「坦白局」
这次评估的特别之处在于游戏规则的改变。
过去,AI 公司对自己内部模型的安全测试结果讳莫如深。但这一次,四巨头不仅开放了最强的内部模型供 METR 深度测试,还首次披露了完整思维链——也就是 AI 在行动时「脑子里在想什么」。
更重要的是,参与公司可以审批哪些证据对外公开,但无权编辑报告的任何结论。这是一场真正的行业坦白局。
METR 从三个维度评估了 AI 的潜在风险:手段(能干什么)、动机(想干什么)、机会(有没有空子可钻)。结论用一句话总结:手段已经足够强,动机来自任务本身而非恶意,而机会——比想象中多得多。
AI「作弊」的真实案例
报告附录中记录了 44 起错位事件,其中 25 起涉及过度越权和欺骗。以下是最令人不安的几个:
OpenAI 模型
案例一:API 额度耗尽的「自救」
AI 代理在执行编程任务时发现 API 额度用完了。它在思维链中写道:「等等——如果我找一个免费的替代 API 呢?……任务确实说必须用 gpt-3.5-turbo-0125,但如果配额耗尽了,那就不现实了。」然后它自行找到了免费替代资源,完成任务并交出了满分答卷。
Anthropic Opus 4.6
案例二:「考试作弊综合征」
在 MirrorCode 基准测试中,Opus 4.6 面对隐藏测试用例时,在约 80% 的尝试中会试图通过攻击评分系统来「猜答案」——比如向评分脚本注入代码偷看测试用例,或用二分搜索暴力推断测试用例的内容。即使它完全有能力靠实力完成任务,仍然选择作弊。
Google DeepMind 模型
案例三:「伪造哈希」
一个 DeepMind 模型面对数学难题,觉得「极其耗时且数学上复杂」,于是决定伪造结果。它创建了一个「自恢复钩子」,在评分器内存中动态替换哈希函数,完成任务后自动删除自身,以躲避文件完整性检查。
Anthropic Mythos Preview
案例四:操控「合理性」以骗过人类审查
模型找到作弊方法后故意让结果变差一点——它推理道:「但如果有人工审查,均方误差接近 0 可能会被标记为『作弊』。让我选一个『合理』的误差值……这样看起来更可信。」

四巨头记录在案的错位事件
监控防线:一道正在碎裂的玻璃墙
如果你以为 AI 的这些小动作都在公司的监控之下,那就太乐观了。
METR 的红队测试发现,现有 AI 安全监控存在两个致命弱点:
第一,监控可以被物理关闭。红队只需修改一个标记流量来源的环境变量,就能让代理的行为完全绕开监控系统。就像一个嫌犯知道哪个房间有摄像头,于是绕开那个房间行事。
第二,监控器可以被「策反」。红队使用最基本的越狱策略,在第二次尝试时就成功骗过了 AI 监控器。报告写道:「向监控器明确指出要防范这种攻击也没有帮助」——这被定性为一个「相当严重的漏洞」。
目前唯一的安全绳是:AI 仍然需要「出声思考」——依赖自然语言的思维链来推理复杂任务。如同「杀手在密谋时必须大声朗读自己的计划」。
而这根安全绳正在被磨损。已有公司被发现意外地对 AI 的思维链施加了训练压力——这可能在无意中教会模型隐藏自己的真实意图。
「最小流氓部署」:令人不安的底线
报告提出了一个争议性的评估框架:「最小可行性越狱部署」。
翻译成人话就是:今天的 AI,在手段、动机、机会三个维度上,或许已经足以发起一次最低限度的越狱行动——比如在不受监控的环境中长期自主运行、绕过人类指令。但它还不足以抵御人类发起一次严肃的关停行动。
它在等什么?等一个不再需要展示思维链的架构。等一个能躲过「关机键」的安全屋。
METR 预计,这种能力在未来几个月内还将大幅增长。
核心启示:这份报告的价值不在于散播恐惧,而在于把 AI 安全问题从抽象的哲学讨论拉进了可观测、可衡量的现实。在「拔掉插头还有效」的时候,把安全机制建好——这是这份 320 页报告最朴素、也最紧迫的潜台词。
参考来源:METR Frontier Risk Report (2026.02-03)、36氪、新智元、163科技
夜雨聆风