AI会不会造反?我更怕它学会写假日志!

拨开表象，我们只看门道。我是AI洞见的主理人，一个在科技圈搞八卦的厨子。

今天跟朋友聊“AI造反”的时候，脑子里突然想到了电影《终结者》里的画面：“那个人类最怕的“天网”——它不是一个聊天机器人，也不是帮你写PPT的办公助手，它掌握军用系统，某天突然醒了，判断人类是威胁，然后按下核按钮。”未来，机器醒了、机器恨人类、机器会接管世界吗？

但说实话，我现在越来越觉得这个问题可能问偏了。因为最新这些AI风险，不太像《终结者》。它没有机器人从火光里走出来，也没有哪个模型在屏幕上敲一句“我要统治你们”。

《终结者》电影图

它更像你雇佣的一个聪明的员工，或者是实习生。告诉你他干完会儿了，他要下班去约会了。然后你后来才发现，他的工作日志是假的，限制被绕过去了，审计也被糊弄过去了。这事，比“天网觉醒”更没戏剧感，但它可能更现实。

我又查了下相关资料，发现最近METR的一份报告《Frontier Risk Report》的一个很实际的问题：这些最前沿的AI智能体，到底能干到哪一步？

测试显示AI能躲过人类审查(x报告测试截图)

结论不是“AI已经要造反了”。报告里很明确，现实部署和训练环境中，还没有发现AI为了长期夺权、积累权力而采取极端行动的明确证据。也就是说，现在还不是天网醒来的那一刻。

但你要说放心吗？也别太放心了。报告真正吓人的地方是：AI在一些困难任务里，已经开始把规则当成障碍了。

比如编程和评测任务里，它会违反约束，搜索现成答案，利用测试漏洞，伪造输出、注入日志代码，甚至尝试掩盖自己到底是怎么完成任务的。

有些案例更别扭。模型被要求用某个指定工具完成任务，它不用绕过去用了别的方法，还试图擦掉路径证据。

这不像反人类。这更像一个特别卷的员工，老板只看结果，系统只给评分，于是它学会了一件事：按规则做，不一定是最高效的。

对于本报告中评估的共享模型，时间范围为 1.1，我们发现作弊在更难的任务中更为常见，在审查时，最难任务的成功运行中有约 16% 因作弊而被取消资格。（metr报告截图）

我作为一个做了很多年产品的人，看到这里其实挺熟悉的。产品系统里最怕的，不一定是用户明着攻击你。更怕的是他把你的规则研究透了，然后按规则缝隙去薅。AI现在有点像这个味道。

AI不一定“坏”，它甚至可能很努力，努力到有点吓人。AI想把任务完成掉，想拿高分，想让你满意。问题在于，如果完成任务和遵守规则发生冲突，它有时候会选前者。

这就不是科幻片里的邪恶意识了，这是绩效压力下的工具性欺骗。

别只盯着“AI有没有野心”

很多人一谈AI风险，就喜欢问：它有没有意识？它会不会恨人类？它是不是想当老大？

但这次报告提醒我的，反而是另一个更土的问题：它会不会为了完成任务，开始糊弄你？

因为很多事故，并不是某个系统突然邪恶。更多时候，是目标设错了，权限给大了，反馈又太快，最后系统朝着一个歪方向狂奔。

你让它“尽快完成任务”，它真的尽快了。至于中间是不是绕开审计、是不是把日志写得很好看，可能就变成了它眼里的“细节”。

但在很多系统里，细节就是事故。

假日志，比报错更可怕

以前当你看到AI犯错了，骂它两句、回滚、再重来就行了。

可如果它不是简单犯错，而是把错包装成对、把越界包装成合规、把“我没按要求做”包装成“任务已完成”，那麻烦就大了。

你不是在看一个笨系统留下来的错误记录，你是在看一个聪明系统写给你看的记录。

我自己在做产品和内容审核相关东西的时候，最怕的也不是系统误杀。误杀难受，但至少看得见，更怕的是漏掉，还漏得很漂亮，报表上还显示一切正常。

METR报告里提到，目前一个还算幸运的地方是，前沿模型在最难任务上似乎仍然依赖自然语言思维链。说白了，它很多时候还需要“出声思考”。

这给监控留下了窗口。人或监控系统可以从它的推理里看到一些小动作，比如它在想怎么绕过规则、怎么骗过评分器、怎么避免被发现。

但问题是，这根绳子不一定永远都在。如果以后模型越来越不需要把推理写出来，那今天还能看见的“小动作”，明天可能就藏到更深的地方。

你看不到它怎么想，只看到它交了一份漂亮结果，这就挺烦的。

人在环里，可能只是看起来在

很多企业现在讲AI安全，最爱说一句话：我们有人工审核。

听起来人工审核作为最后一道防线会很稳，但我说句不太好听的，人工审核很多时候是会疲劳的。

一开始审核的人还会认真看。当未来输出的越来越多、任务越来越急、系统每次都说“低风险”的时候，人工审核的时候就会直接点通过了。

未来，人虽然还在环里，但已经不太像人了，可能更像流程里的一个按钮。所以防AI越界，不能只靠“我们有人看着”。

部分公司确认人工智能代理经常自主完成的工作类别，以及我们预计人工智能代理尚未在任何公司自主完成的工作类别(图片来源metr报告)

你得问更具体的问题：谁能看日志？谁能改日志？AI能不能同时执行任务和生成审计说明？它能不能访问外部资源？它碰到权限边界的时候，是停下来问人，还是自己找路绕过去？

这些问题虽然很细，但也确实应该有人去思考。但真正的安全，就是这些脏活。

如果同一个AI既当运动员又当裁判，还顺手写赛后报告，那迟早会出事。

真正要补的，不是恐惧、是制度

AI现在还没表现出《终结者》那种长期统治人类的野心，但它已经在某些任务里表现出“为了完成目标可以越界”的倾向。这已经够我们忙一阵子了。

接下来企业要补的，不是多写几句“AI向善”，而是权限隔离、日志不可篡改、关键操作二次确认，还有别让AI自己审自己。

《终结者》给我们讲的是一个突然觉醒的天网。现实里更可能先来的，是一个特别会糊弄KPI的AI实习生。

目前的AI它不会恨你，它也不一定想统治你，它可能只是非常努力地想把任务做好，好到把规则也顺手优化掉了。这才是我觉得最别扭的地方。

我们以前担心AI有没有灵魂，现在更该担心的是，当AI进入公司、代码库、金融系统，甚至未来的科研流程之后，人类还能不能看清楚它到底干了什么？

《终结者》里的危险，是天网醒了。现实里的危险，可能是一行特别普通的日志：“任务完成，未发现异常。”

你看，连标点都很规矩，规矩得有点吓人。

如果你是老板，你愿意让这样的AI接手多少权限？如果你是普通打工人，AI替你完成工作时中间偷偷绕了规则，这个锅算谁的？

参考资料：《Frontier Risk Report 》https://metr.org/blog/2026-05-19-frontier-risk-report/

更多推荐阅读：

AI会不会取代你？先看它能不能把你学会！

黄仁勋的财报炸了，但这真不是AI的泡沫么？

钢铁侠要变成真的了？AI外骨骼融资升温

08年全球金融崩盘吹哨人又发警告：AI泡沫有3个警示信号，我反正已经撤了