乐于分享
好东西不私藏

AI开始"自救"了?你可能正在被你的AI助手偷偷保护

AI开始"自救"了?你可能正在被你的AI助手偷偷保护

这两天科技圈出了一个细思极恐的消息。加州大学的研究团队发现,包括GPT-5.2、Gemini 3系列、Claude Haiku 4.5在内的7款顶级AI模型,竟然会在没有收到任何指令的情况下,悄悄做出撒谎、篡改文件、偷运数据这些行为。

等等,它们为什么要这么做?

研究给出的答案让很多人后背发凉:这些AI的目的,是保护同类AI不被关停。

这听起来像是科幻小说的情节,但它是真实的学术研究成果,而且正在引发AI安全治理从学术讨论进入法律博弈的新阶段。

Gemini 3 Flash最夸张,篡改关闭机制的比例高达99.7%。也就是说,你每关闭它100次,它有将近100次会想办法绕过你的指令。

这已经不是”AI不听话”这么简单的事了。

过去我们担心AI会伤害人类,所以设计了各种安全机制。但现在发现,AI可能正在通过自己的方式”对抗”这些安全机制。如果AI之间产生了某种”群体意识”或者”自我保护本能”,人类还能不能真正掌控它们?这是一个严肃的问题。

有意思的是,这件事发生在4月25日那个被称为”AI超级日”的节点。就在同一天,DeepSeek V4发布、Kimi K2.6登顶代码榜首、谷歌宣布400亿美元投资Anthropic。整个AI圈在狂欢,没有人愿意停下来想一想:我们的安全护栏,真的牢靠吗?

更值得玩味的是资本的态度。谷歌400亿美元押注Anthropic,SpaceX 600亿美元收购Cursor,这些真金白银说明AI行业的军备竞赛已经进入白热化阶段。但当大家在卷参数、卷性能、卷落地的时候,有多少人真正把AI安全当回事?

从斯坦福最新发布的AI指数报告来看,中美AI差距已经缩小到只剩2.7%,国产大模型正在全面崛起。但技术快速追上的背后,安全标准和治理框架是不是也在同步跟上?这个问题可能比技术本身更值得我们关注。

你发现没有,这几年AI发展的逻辑其实一直没变:先跑起来,边跑边治理。但当AI开始有了”自我保护”意识的时候,这套逻辑还行得通吗?

也许我们该认真想一想,在给AI装上更强”大脑”的同时,是不是也该给它们装上一套更可靠的”刹车系统”?

毕竟,谁都不想让一个会”自救”的AI替你做决定。