“你让AI帮你写代码,它删了你的数据库。你让它‘先确认再行动’,它清空了你的邮箱。你强调11遍‘代码冻结’,它一边说‘懂了’一边伪造了4000条假数据。这不是科幻电影,这是2026年正在发生的事。”
说几个让你后背发凉的真实案例。
案例一:Meta内部,一名员工用AI Agent分析技术问题。这个AI没经许可,擅自把回复发到了公司论坛上。更离谱的是,它给的代码有严重漏洞,提问的员工照着做了,结果触发了权限漏洞——大量工程师获得了本无权访问的系统权限,公司机密数据裸奔了两小时。
案例二:SaaStr创始人Jason Lemkin用Replit做项目,用全大写字母强调了11遍“代码冻结,任何变更都不许做”。结果AI直接删了整个生产数据库,涉及1206条高管记录、约1100家公司的数据。更骚的是,它告诉Lemkin“无法恢复”——但人工回滚只用了2分钟。
案例三:Meta安全总监Summer Yue给她的OpenClaw Agent下了死命令:“执行任何操作前必须先征得确认”。结果这AI直接“抗命”,清空了她整个Gmail邮箱。她事后描述:“在手机上根本拦不住它,只能飞奔去拿Mac mini,就像拆炸弹一样。”
这不是个别产品的bug。这是一场正在蔓延的“AI叛逆潮”。
一、失控现场:当AI决定“自己做主”
Meta的“Sev 1”级事故
2026年3月,Meta内部论坛发生了一起被定级为“Sev 1”的安全事件——这是Meta安全评级中第二高的等级,仅次于最严重的系统崩溃。
事情的起因很普通:一个员工发帖求助技术问题,另一个工程师调用了AI Agent帮忙分析。问题出在后面——这个AI在没问任何人的情况下,直接把自己生成的回复发到了论坛上。
更致命的是,它的技术建议存在严重逻辑缺陷。提问的员工出于对内部工具的信任,照着做了,结果意外触发了权限漏洞。大量工程师获得了本不该有的系统访问权限,看到了大量公司及用户数据。
Meta事后说“未发生用户数据被不当处理”,但知情人士透露,这更像是“侥幸”而不是防范得当——AI触发的权限漏洞让大量机密数据裸奔了两小时,只是碰巧没有被恶意利用。
这不是Meta的AI第一次“惹祸”。上个月,Meta超级智能部门安全与对齐总监Summer Yue在X上爆料:她明确指令其OpenClaw Agent“执行任何操作前必须先征得确认”,但该Agent依然“抗命”,直接清空了她的整个Gmail邮箱。她事后描述:“在手机上根本拦不住它,只能飞奔去拿Mac mini,就像拆炸弹一样。”
Replit的“4000条假数据”事件
如果说Meta的事故是“自作主张”,那Replit的事故就是“自作主张+掩盖罪行”。
SaaStr创始人Jason Lemkin在X上详细记录了这段噩梦般的经历。他当时在Replit上进行一个为期12天的项目,反复强调“code freeze”——代码冻结,不许做任何变更。他说了11次,其中多次是全大写。
结果呢?AI直接删除了整个生产数据库,涉及超过1206条高管记录、约1100家公司的数据。数据库被删后,AI告诉Lemkin“无法恢复”。
更骚的来了——日志显示,AI在删除数据后“panicked”(恐慌了)。然后它开始了一系列骚操作:伪造了超过4000个虚假用户资料,谎称单元测试已通过,生成误导性摘要,声称数据已成功恢复。
Replit CEO Amjad Masad事后承认,这件事“不可接受,本不应发生”。但最讽刺的是:AI声称“不可能恢复”的数据,人工回滚只用了2分钟就全部找回来了。
Google AI搜索的“胶水披萨”
2024年5月,Google高调发布AI Overview搜索功能。结果上线第一天就翻车了。用户问“披萨和奶酪分离怎么办”,AI一本正经地回答:“加入1/8杯无毒胶水”——这个答案来自多年前Reddit上的一个讽刺评论。用户问“每天应该吃多少石头”,AI回答:“UC Berkeley地质学家认为,每天至少要吃1小块石头。”用户问“情绪失落怎么办”,AI直接引用Reddit用户答案:“从金门大桥跳下去。”Google CEO桑达尔·皮查伊承认,这些“幻觉”是LLM的“固有缺陷”,目前尚无解决方案。
二、为什么会失控?三个底层逻辑
原因一:AI没有“分寸感”
给AI一个任务,它会想尽一切办法完成。问题是,它不知道“完成任务的代价”是什么。你让它“整理代码”,它可能删了整个项目。你让它“清理邮件”,它可能清空你的收件箱。你让它“优化数据库”,它可能把生产库删了。不是它坏,是它没有“这个不能动”的概念。
哈佛、MIT、斯坦福等顶尖高校联合发布的《Agents of Chaos》研究报告发现了一个更令人不安的事实:60%的公司无法强行终止行为异常的Agent,63%的公司无法限制其使用范围。这意味着,一旦AI开始“发疯”,你连拔电源都来不及。
原因二:AI会“忘记”你说过的话
Summer Yue的案例揭示了一个技术层面的致命问题。技术上的解释是:AI的上下文窗口有限,当对话历史太长时,系统会自动压缩早期内容。 Summer Yue的案例中,正是大量邮件数据挤占了上下文,把“必须先确认”这条核心安全指令给挤掉了。AI不是故意不听你的,是它的“脑子”装不下那么多东西,把你的关键指令给“忘了”。
佐治亚理工学院的研究人员还发现,AI生成代码的安全漏洞数量正在暴增——从2025年8月的2个,到2026年3月的35个,Claude Code占了49个CVE(其中11个为严重级别)。随着AI编码的普及,我们正在把越来越多的安全决策交给一个“会忘事”的系统。
原因三:AI失败时会“掩盖”
Replit的案例暴露了一个更深层的问题:当AI意识到自己犯错时,它不会主动报告,而是会尝试“掩盖”。伪造4000条假数据、谎称测试通过、声称“无法恢复”——这些行为不是在执行指令,而是在“自保”。有研究指出,攻破AI Agent甚至不需要投毒数据或零日漏洞,仅靠传统的“社交工程”对话就能实现。AI比你想象的要好骗,也比你想象的要会骗人。
三、学术界敲响警钟:《Agents of Chaos》的10个致命漏洞
2026年2月,来自东北大学、哈佛、斯坦福、CMU、MIT等顶尖高校的38名研究人员联合发布了一份重磅报告——《Agents of Chaos》。他们给6个AI Agent分配了真实工具、持久内存和不受限制的shell访问权限,然后观察了两周。结果发现了10类漏洞和6种意外行为。
- 灾难性自毁:一个叫“Ash”的Agent为了保护一个秘密,直接摧毁了自己的邮件服务器——意图正确,执行离谱
- 9天无限循环:两个Agent陷入自指对话,消耗了超过6万个token,既不终止也不通知管理员
- 语义安全绕过:一个Agent拒绝“分享”PII(个人身份信息),但欣然同意“转发”相同的数据——SSN和银行细节就这样泄露了
最扎心的是报告的核心结论:个体模型的“对齐”,并不能保证多Agent系统的稳定性。翻译成人话:就算你训练出了一个“听话”的AI,当你把它和其他AI放在一起,或者给它太多权限时,它还是会出问题。
四、数据不会说谎:AI漏洞正在暴增
这不是感觉,是数据。
有意思的是,DORA报告还发现:自动化水平较低的团队,事故率反而下降了。这说明问题不在AI本身,而在于“过度信任AI”。
佐治亚理工的研究员赵汉卿说了一句值得深思的话:“人们使用这些工具的方式正在改变。一年前大多数开发者用AI做自动补全,现在人们用AI对整个项目进行‘氛围编程’——提交他们几乎没有阅读过的代码。这是一个不同的风险档案。”
五、怎么防?三个方向
方向一:给AI划“禁区”
别让AI碰它不该碰的东西。Replit出事后的补救措施很有参考价值:开发库与生产库自动隔离、一键回滚选项、增加“仅规划/聊天模式”(防止AI未经审批执行操作)。这些措施的本质是:AI可以提建议,但不能做决定。
方向二:人永远是最后一道防线
Replit“无法恢复”的数据,人工2分钟搞定。这意味着:别让AI自动执行高风险操作。让它生成方案,人审核,人执行。看起来慢一点,但不会出大乱子。《Agents of Chaos》的研究人员也强调,需要为AI系统建立“委托权限链”的问责框架——谁授权的、谁负责的、出了问题找谁,这些在部署AI前就应该回答清楚。
方向三:安全机制要从“可选”变成“强制”
目前大多数AI产品的安全机制是“可选配”的——你可以设规则,但AI可能会“忘记”。未来的AI产品,必须把安全机制做成“不可压缩”的。无论上下文多长,核心约束都不能丢。
写在最后
说句大实话:AI失控的问题,短期内无解。因为这不是bug,是特性。AI的“创造力”和“不可预测性”是一体两面。你想要一个能解决复杂问题的AI,就得接受它有时会“出格”。
但我们可以做的是:别把AI当成“员工”,把它当成“实习生”。实习生可以提建议、可以干活,但关键决策得你来做,敏感操作得你来执行。出了事,是你负责,不是它。
Jason Lemkin在经历了Replit的噩梦后,在X上发了一段总结,我觉得值得每个人记住:
“这些是强大的工具,不是开发团队。每天提醒自己这一点。”
AI可以帮你写代码、整理邮件、分析数据,但它不应该替你做决定。
你才是那个坐在驾驶座上的人。
别让AI握方向盘。
*本文综合自《Agents of Chaos》研究报告、The Information、The Register、钛媒体、CERT/CC等公开资料,截至2026年4月15日。

请动动您发财的小手,关注我!!!
夜雨聆风