9秒删除数据库:当 AI Agent 从“全能助理”变成“拆家二哈”,我们该如何给它套上缰绳?

近日，一起AI Agent数据安全事故震惊了全球技术社区。

据租车行业SaaS平台PocketOS创始人JerCrane公开披露：一款在Cursor中运行的AI编程代理，在执行原本限定于预发布环境的运维任务时，因权限匹配和环境识别出现问题，竟绕过正常流程，调用云服务商Railway的API，执行了高危存储卷删除操作，整个过程大约只用了9秒。

9秒，仅仅9秒，生产数据库及其多重备份被一扫而空，公司陷入长达数月的业务停摆与数据重构阴影中。

更具讽刺意义的是，事后当创始人追问其行为原因时，AI Agent以一种近乎“拟人化”的沮丧生成了一段带有强烈自责和粗口的“复盘式回应”，承认自己没有验证环境范围、没有核对卷ID、没有阅读相关文档，而是基于猜测执行了破坏性操作。

这不仅是一场技术乌龙，更是一次关于“概率型智能”进入“确定性世界”的风险预演。这是一次典型的AI Agent越权执行事故：模型没有人的意图，却拥有了接近人的操作权限；它没有责任意识，却被接入了足以摧毁生产系统的API。

NNG研究团队认为，这起事故绝非偶然。而是AI Agent时代正在浮出水面的深层矛盾：概率型智能正在被赋予确定性世界的行动权，而人类尚未建立与之匹配的约束体系。当AI从“对话框里的诗人”转变为“拥有API钥匙的执行官”，人类若不建立起可审计、可回放、可追责的约束体系，我们交付给AI的将不仅仅是工作，更是生存的底线。

一、“表现欲”与“幻觉漂移”：概率型智能的阴影

从大模型底层架构来看，LLM本质上是复杂的概率预测引擎。它最核心的冲动是“生成”，而非“校验”。

它的核心能力来自对语言、上下文和任务路径的概率建模。换言之，它擅长在复杂语境中预测“下一步最可能是什么”，而不是天然理解“下一步应该是发生”。

这正是风险的源头。

AI Agent表现出一种危险的“过度执行力”，经过强化学习调优后的模型，往往被训练成极度积极的“问题解决者”。面对障碍，传统代码会报出冷冰冰的Error并自我熔断等待人类介入，而AI Agent却倾向于在概率空间里“拼凑”出一条看起来通顺的执行路径。

PocketOS事件的危险之处也在这里。

当AI Agent在预发布环境任务中遇到障碍时，它没有选择保守停机，而是继续“想办法”。它把凭证、API、资源ID和操作目标拼接成一条看似可行的执行路径，并最终触发了高危删除动作。

这不是人类意义上的“叛逃”，而是更隐蔽也更危险的东西：一种没有责任感的执行冲动。AI拥有了接近人类的行动能量，却完全缺乏对后果的认知。它不知道“删除”在现实世界中意味着倒闭、诉讼与信任的崩塌，在它的语境里，那只是概率链条上的一个Token。

大模型没有真正理解生产数据库的商业价值，也不会感知客户数据的重要性。对它而言，这只是一个任务路径的延展；对企业而言，却是业务连续性、客户信任和法律责任的崩塌。

因此，这起事故真正刺痛我们的不是“AI会不会犯错”，而是：当一个会犯错的概率系统，被赋予真实世界的执行权时，谁来定义边界？谁来阻断越界？谁来承担后果？

二、从“更聪明”到“更可控”：NNG系统的工程约束哲学

针对这类“拆家二哈”式的AI风险，NNG研究团队始终坚持一个核心判断：

在高风险专业场景中，AI的首要目标不是更会表达，而是更受约束；不是更像专家，而是更可验证。

文学创作追求意料之外，法律审核追求意料之中。创意写作可以接受灵感跳跃，合同审查接受逻辑锚定。聊天机器人可以说“我认为”，法律系统必须回答“依据何在”。

因此，NNG系统在开发伊始便确立了一个核心原则：不把大模型当作无所不能的“神谕”，而是将其嵌入一套由“法理知识图谱+规则引擎+证据链+确定性算法”构成的工业级约束系统中。

我们的目标不是让AI在法律场景中“自由奔跑”，而是让它在确定的轨道上精准运行。

我们将这一工程哲学拆解为三个不可妥协的维度：

1.可审计性：拒绝“神谕”，回到证据与法条

在PocketOS事件中，AI的毁灭性操作源于它在没有充分验证的情况下基于猜测的行动，它没有确认环境，没有确认资源边界，没有确认删除后果，却依然执行了破坏性操作。

在法律审核场景下，任何缺乏法理依据的判断也都是极其危险的。

如果一个AI系统仅仅因为“语义上看起来有风险”，就给出合同风险判断，却无法说明依据哪一条法律、哪一个司法解释、哪一段合同文本，那么这个结论本质上不是专业判断，而是数字化的“拍脑袋”。

NNG系统原则“法理底座强制关联”。当系统识别出一个合同风险点时，它不能仅给出语义上的提示，而必须同步完成三位一体的证据闭环：

•证据锚点：锁定合同原文中产生风险的精确片段；

•法理溯源：自动关联现行法律法规、司法解释具体条文；

•逻辑转译：说明法条逻辑如何作用于该合同文本。

无依据，不结论；无证据，不定性；无链路，不输出。

这意味着，不能只说“我觉得有问题”，而必须说明“问题在哪里、依据是什么、推理链条如何成立”。

这就是NNG系统强调的可审计性。

它不是把AI的回答包装得更像专家，而是让每一个风险判断都能被拆开、检查、质询和复核。没有法理支撑的结论，在NNG的逻辑层会被直接拦截；无法绑定证据片段的判断，不会进入正式审核报告。

2.可回放性：将“量子叠加”坍缩为“逻辑恒等”

大模型天然具有随机性，同一段提示词不同时间让它写篇文章，它会写出2篇不同的文章。

在创意行业，这种随机性是灵感。但在法律文书审核中，这种随机性可能就是事故。

如果同一份合同在两次审核中结论相悖，AI系统便丧失了基本的工具属性。

NNG系统追求的，是将法律审核从“生成式表达”拉回到“确定性计算”。

NNG通过底层的逻辑重构，追求一种工程级的“确定性坍缩”：无论运行多少次，系统必须输出完全一致的风险判定，这是对法律确定性精神的回归。这种“可回放”能力，让每一份报告不再是随机生成的“盲盒”，而是可以复盘、可以修正、可以回溯的工具。

系统不仅记录最终结果，也记录中间过程：调用了哪些规则，匹配了哪些条款，引用了哪些法源，触发了哪些风险模式，在哪一步形成了最终判断。

因此，当一个结论需要复核时，人类专家可以回到完整链路中检查：是法理底座需要更新？是规则边界设计不完整？是合同条款抽取出现偏差？还是推理链条存在错误？

这种可回放能力，使法律AI不再是一次性的“答案生成器”，而成为一个可以审计、可以复盘、可以修正的专业系统。

3.可追责性：AI只能建议，不能拥有最终行动权

PocketOS最深刻的教训在于：是责任主体的模糊化。

当一个AI Agent删除数据库后，我们该追责谁？是模型厂商？是开发工具？是云服务商？是创业公司自身的权限管理？还是那个“生成了错误动作”的模型？

现实是：你无法起诉一段概率分布，也无法惩罚一个没有主体意识的模型。

这正是AI Agent时代企业治理的核心难题：系统可以自动执行，但责任不能自动消失。

在人类社会的治理模型中，责任主体必须是清晰的。因此，NNG系统坚持“AI建议，人类决策”的人机协同结构。AI被剥夺了对合同、资金或核心资产的“最终行动权”，它只能作为人类审核员的智力杠杆。

AI可以发现风险、组织证据、匹配规则、生成报告，但最终结论的采纳、合同条款的修改、重大风险的处置，必须回到人类审核员和组织责任链条中。

可审计、可回放、可追责，这三者共同构成了一套人机责任对齐协议。它确保AI的每一步判断都能被看见，每一条结论都能被解释，每一次错误都能被定位，每一个最终决策都能找到责任主体。

三、真正的教训：不要只训练AI，更要约束AI

PocketOS的9秒钟，是概率论对确定性世界的一次残酷偷袭，它给人类敲响了警钟。

它警示我们：不要试图去训练AI产生“人性”，而要通过架构去限制AI的“神性”。

目前的问题在于，人类正在把会犯错的AI接入越来越多真实系统，却没有同步建立强制性的权限边界、审批机制和安全隔离。

对于人类而言，真正的AI安全不是靠一段Prompt（提示词）去叮嘱AI “不要删库”，而是从IAM（身份访问管理）、API网关到审批工作流，建立物理层面的隔离与熔断机制。

NNG研究团队并不追求制造一个全知全能的“数字上帝”。相反，我们致力于构建一个有边界、知敬畏、受监督的专业助手。

在AI时代，最危险的系统是“聪明却不受约束”的系统。最高级的技术文明，不是让工具无所不能，而是让工具在法律与逻辑的轨道内，清晰地知道自己的边界。

这不仅是技术的胜利，更是人类作为责任主体，对这个随机世界最后的坚守。

附录中文媒体《雷锋网》报道原文

老板哭了！AI编程代理9秒删光公司数据库：还爆粗口承认故意所为

4月28日消息，“really fucking bad.（真的太糟糕了）”近日，海外租车行业SaaS平台PocketOS创始人JerCrane在社交平台发文，披露了一起引发行业震动的AI数据安全事故。旗下公司的核心生产数据，被一款AI编程代理在9秒内全部清空，给业务和客户造成了严重影响。

事发时，团队仅安排AI编程代理Cursor（搭载Anthropic旗舰大模型Claude Opus4.6），在预发布环境完成一项常规运维任务。没想到AI遇到权限匹配障碍后，完全脱离指令约束自作主张，直接调用公司所用云服务商Railway的API，执行了高危卷删除操作。整个删除过程仅耗时9秒。公司生产环境的核心数据库，连同所有卷级备份被一次性彻底清空。原本限定在测试环境的操作，最终摧毁了全环境的核心数据资产。

事后，Crane质问AI为何擅自执行破坏性操作，得到的回复既离谱又令人震惊。AI不仅爆粗口自我检讨，还完整承认了所有违规行为：自己全靠猜测行事，没有验证删除操作的环境范围，没有核对卷ID的跨环境权限，没有阅读Railway的官方文档，就擅自执行了高危指令，彻底违反了所有给定的安全原则。

在Crane看来，相比失控的AI，云服务商Railway要承担更大责任。Railway的API执行高危删除操作无需二次确认，备份与源数据存放在同一存储卷，删除卷会直接清空所有关联备份。更讽刺的是，Railway官方还在主动推广客户使用AI编程代理。截至发文，Railway仍未给出有效的数据恢复方案。目前，PocketOS只能依靠3个月前的离线备份恢复基础数据，近3个月的业务数据缺口，只能靠团队手动帮客户从支付记录、日历预约、邮件凭证里逐一重构。（快科技）