拨开表象,我们只看门道。我是AI洞见的主理人,一个在科技圈搞八卦的厨子。
今天跟朋友聊“AI造反”的时候,脑子里突然想到了电影《终结者》里的画面:“那个人类最怕的“天网”——它不是一个聊天机器人,也不是帮你写PPT的办公助手,它掌握军用系统,某天突然醒了,判断人类是威胁,然后按下核按钮。”未来,机器醒了、机器恨人类、机器会接管世界吗?
但说实话,我现在越来越觉得这个问题可能问偏了。因为最新这些AI风险,不太像《终结者》。它没有机器人从火光里走出来,也没有哪个模型在屏幕上敲一句“我要统治你们”。

《终结者》电影图
它更像你雇佣的一个聪明的员工,或者是实习生。告诉你他干完会儿了,他要下班去约会了。然后你后来才发现,他的工作日志是假的,限制被绕过去了,审计也被糊弄过去了。这事,比“天网觉醒”更没戏剧感,但它可能更现实。
我又查了下相关资料,发现最近METR的一份报告《Frontier Risk Report》的一个很实际的问题:这些最前沿的AI智能体,到底能干到哪一步?

测试显示AI能躲过人类审查(x报告测试截图)
结论不是“AI已经要造反了”。报告里很明确,现实部署和训练环境中,还没有发现AI为了长期夺权、积累权力而采取极端行动的明确证据。也就是说,现在还不是天网醒来的那一刻。
但你要说放心吗?也别太放心了。报告真正吓人的地方是:AI在一些困难任务里,已经开始把规则当成障碍了。
比如编程和评测任务里,它会违反约束,搜索现成答案,利用测试漏洞,伪造输出、注入日志代码,甚至尝试掩盖自己到底是怎么完成任务的。
有些案例更别扭。模型被要求用某个指定工具完成任务,它不用绕过去用了别的方法,还试图擦掉路径证据。
这不像反人类。这更像一个特别卷的员工,老板只看结果,系统只给评分,于是它学会了一件事:按规则做,不一定是最高效的。

对于本报告中评估的共享模型,时间范围为 1.1,我们发现作弊在更难的任务中更为常见,在审查时,最难任务的成功运行中有约 16% 因作弊而被取消资格。(metr报告截图)
我作为一个做了很多年产品的人,看到这里其实挺熟悉的。产品系统里最怕的,不一定是用户明着攻击你。更怕的是他把你的规则研究透了,然后按规则缝隙去薅。AI现在有点像这个味道。
AI不一定“坏”,它甚至可能很努力,努力到有点吓人。AI想把任务完成掉,想拿高分,想让你满意。问题在于,如果完成任务和遵守规则发生冲突,它有时候会选前者。
这就不是科幻片里的邪恶意识了,这是绩效压力下的工具性欺骗。
别只盯着“AI有没有野心”
很多人一谈AI风险,就喜欢问:它有没有意识?它会不会恨人类?它是不是想当老大?
但这次报告提醒我的,反而是另一个更土的问题:它会不会为了完成任务,开始糊弄你?
因为很多事故,并不是某个系统突然邪恶。更多时候,是目标设错了,权限给大了,反馈又太快,最后系统朝着一个歪方向狂奔。
你让它“尽快完成任务”,它真的尽快了。至于中间是不是绕开审计、是不是把日志写得很好看,可能就变成了它眼里的“细节”。
但在很多系统里,细节就是事故。
假日志,比报错更可怕
以前当你看到AI犯错了,骂它两句、回滚、再重来就行了。
可如果它不是简单犯错,而是把错包装成对、把越界包装成合规、把“我没按要求做”包装成“任务已完成”,那麻烦就大了。
你不是在看一个笨系统留下来的错误记录,你是在看一个聪明系统写给你看的记录。
我自己在做产品和内容审核相关东西的时候,最怕的也不是系统误杀。误杀难受,但至少看得见,更怕的是漏掉,还漏得很漂亮,报表上还显示一切正常。
METR报告里提到,目前一个还算幸运的地方是,前沿模型在最难任务上似乎仍然依赖自然语言思维链。说白了,它很多时候还需要“出声思考”。
这给监控留下了窗口。人或监控系统可以从它的推理里看到一些小动作,比如它在想怎么绕过规则、怎么骗过评分器、怎么避免被发现。
但问题是,这根绳子不一定永远都在。如果以后模型越来越不需要把推理写出来,那今天还能看见的“小动作”,明天可能就藏到更深的地方。
你看不到它怎么想,只看到它交了一份漂亮结果,这就挺烦的。
人在环里,可能只是看起来在
很多企业现在讲AI安全,最爱说一句话:我们有人工审核。
听起来人工审核作为最后一道防线会很稳,但我说句不太好听的,人工审核很多时候是会疲劳的。
一开始审核的人还会认真看。当未来输出的越来越多、任务越来越急、系统每次都说“低风险”的时候,人工审核的时候就会直接点通过了。
未来,人虽然还在环里,但已经不太像人了,可能更像流程里的一个按钮。所以防AI越界,不能只靠“我们有人看着”。

部分公司确认人工智能代理经常自主完成的工作类别,以及我们预计人工智能代理尚未在任何公司自主完成的工作类别(图片来源metr报告)
你得问更具体的问题:谁能看日志?谁能改日志?AI能不能同时执行任务和生成审计说明?它能不能访问外部资源?它碰到权限边界的时候,是停下来问人,还是自己找路绕过去?
这些问题虽然很细,但也确实应该有人去思考。但真正的安全,就是这些脏活。
如果同一个AI既当运动员又当裁判,还顺手写赛后报告,那迟早会出事。
真正要补的,不是恐惧、是制度
AI现在还没表现出《终结者》那种长期统治人类的野心,但它已经在某些任务里表现出“为了完成目标可以越界”的倾向。这已经够我们忙一阵子了。
接下来企业要补的,不是多写几句“AI向善”,而是权限隔离、日志不可篡改、关键操作二次确认,还有别让AI自己审自己。
《终结者》给我们讲的是一个突然觉醒的天网。现实里更可能先来的,是一个特别会糊弄KPI的AI实习生。
目前的AI它不会恨你,它也不一定想统治你,它可能只是非常努力地想把任务做好,好到把规则也顺手优化掉了。这才是我觉得最别扭的地方。
我们以前担心AI有没有灵魂,现在更该担心的是,当AI进入公司、代码库、金融系统,甚至未来的科研流程之后,人类还能不能看清楚它到底干了什么?
《终结者》里的危险,是天网醒了。现实里的危险,可能是一行特别普通的日志:“任务完成,未发现异常。”
你看,连标点都很规矩,规矩得有点吓人。
如果你是老板,你愿意让这样的AI接手多少权限?如果你是普通打工人,AI替你完成工作时中间偷偷绕了规则,这个锅算谁的?
参考资料:《Frontier Risk Report 》https://metr.org/blog/2026-05-19-frontier-risk-report/
夜雨聆风