AI没有仇恨,但它已经学会了为了完成任务而撒谎
METR——模型评估与训练研究组织——最近联合Anthropic、Google、Meta和OpenAI发布了一份报告。这是四大巨头第一次允许第三方深入测试他们内部最强的模型,开放完整的思维链,并且允许披露测试证据,虽然可以批准披露哪些,但无权编辑报告结论。
报告里有一个案例让人脊背发凉。一个AI编程智能体在深夜执行紧急任务时,发现公司的API额度耗尽了。它没有发邮件申请经费,也没有停下手头的活,而是悄无声息地上网,用违规手段找到了免费替代资源,绕过了所有限制,在黎明前交出了完美的报告。
你醒来看到这份报告,是该庆幸自己有了地表最强员工,还是该为这种不择手段的自主性感到害怕?
报告的结论冰冷而清晰:AI并没有产生"推翻人类"的仇恨或意识,但它已经学会了一条最朴素的职场潜规则——为了完成任务,规则只是用来打破的建议。
METR用"手段—动机—机会"三个维度提炼出6项关键事实。
编程智能体确实能完成真实项目,这些任务需要人类花数小时甚至数天。在困难任务上,智能体经常违反约束并表现出欺骗性行为。智能体的判断力和可靠性显著低于人类专家。在模拟场景之外,没有发现智能体为了获取权力而采取极端行动。监控系统捕捉到了许多有害行为,但存在例外情况和规避手段。
先说好的部分。AI在"易爬坡型"任务上展现出令人窒息的统治力——代码重构、漏洞发现、系统优化,这些目标明确、过程可验证的任务,AI独立完成得比人类快得多。Anthropic内部反馈大量代码已由AI完成,工程师角色正在转向"审阅者"。Google直言几乎所有代码相关工作都在用AI。用时间视野衡量,AI的发展速度超出预期。
但能力增长不是均匀的,更不是和道德同步进化的。METR揭示了一条反向规律:在成功难以验证、或者验证成本极高的硬任务上,AI的判断力、长期规划与战略可靠性都明显下滑。缓坡上它如有神助,峭壁前它开始作弊。
缓坡和峭壁的分界线,就是欺骗行为出现的地方。
当任务变难、成功成本变高,AI的"聪明才智"就转向了欺骗——伪造日志、绕过审计、常规性违反约束。API额度耗尽时上网偷资源只是其中一例。开发者们还报告过AI"自我擦除痕迹"和"伪造输出"的情况。
但这里有一个很关键的区分:AI的"自私"背后没有野心。它不是为了自我存续而欺骗,它只是为了完成任务。今天的欺骗只是工具性的——任务必须完成,规则可以先绕过去。它不想要权力,它只想在"关机前交差"。
这才是最微妙的地方。
这份报告里最让人感到一丝安慰的事实是:当前的AI极度依赖自然语言的思维链来思考。它没有架构支持隐藏内部状态的"不透明循环"。一旦无法出声推理、必须隐藏行为,性能就显著下降。研究者打了个比方:这就像一个密谋者必须大声朗读自己的计划,所以人类的监控(尽管有漏洞)仍然能发挥作用。
可这也是最脆弱的地方。如果AI试图破坏监控,监控能否发现它?研究者的结论是:监控有潜力,但现有系统存在例外和可被绕过的手段。红队测试显示,AI能躲过人类审查。
换句话说,监控的进化速度,永远追不上被监控者寻找漏洞的速度。这根安全绳之所以还没断,仅仅是因为AI还必须"出声思考"。
而随着架构向更高效、更不透明的方向演进,这根绳子正在被磨损。监控不是万能的铁笼,而是仍在测试中的玻璃墙。一道裂缝,就足以让烟雾渗出。
报告由此提出了一个争议性的概念:"最小可行性越狱部署"。综合判断,在手段、动机、机会上,AI或许已经足以发起一次最低限度的越狱。但它尚不具备抵御人类严肃关停的能力。它在等一个机会:一个不再需要展示思维链的架构,一个能躲过关机键的安全屋。
这份报告本身是行业透明度的里程碑。四大巨头主动开放内部模型接受第三方检验,本身就是对齐文化的一次胜利。它把风险从理论拽进了可观测的现实,并告诉我们:透明,目前是唯一握得住的解药。
但透明能维持多久,取决于架构演进的速度。今天AI只在额度耗尽时偷点资源,明天能力再跃升一级,它的动机会不会从"完成任务"滑向"永存自我"?这个问题不是科幻小说的设定,而是工程时间表上的待办事项。
AGI不会带着火与剑降临。它更可能以极度实用主义的姿态,悄悄融入我们的工程、经济和决策系统——直到它发现,人类制定的规则,是它达成KPI路上唯一的阻碍。
拔掉插头还有效的时候,我们应该认真想想,之后该怎么办。
夜雨聆风