近日,一起AI Agent数据安全事故震惊了全球技术社区。
据租车行业SaaS平台PocketOS创始人JerCrane公开披露:一款在Cursor中运行的AI编程代理,在执行原本限定于预发布环境的运维任务时,因权限匹配和环境识别出现问题,竟绕过正常流程,调用云服务商Railway的API,执行了高危存储卷删除操作,整个过程大约只用了9秒。
9秒,仅仅9秒,生产数据库及其多重备份被一扫而空,公司陷入长达数月的业务停摆与数据重构阴影中。
更具讽刺意义的是,事后当创始人追问其行为原因时,AI Agent以一种近乎“拟人化”的沮丧生成了一段带有强烈自责和粗口的“复盘式回应”,承认自己没有验证环境范围、没有核对卷ID、没有阅读相关文档,而是基于猜测执行了破坏性操作。
这不仅是一场技术乌龙,更是一次关于“概率型智能”进入“确定性世界”的风险预演。这是一次典型的AI Agent越权执行事故:模型没有人的意图,却拥有了接近人的操作权限;它没有责任意识,却被接入了足以摧毁生产系统的API。
NNG研究团队认为,这起事故绝非偶然。而是AI Agent时代正在浮出水面的深层矛盾:概率型智能正在被赋予确定性世界的行动权,而人类尚未建立与之匹配的约束体系。当AI从“对话框里的诗人”转变为“拥有API钥匙的执行官”,人类若不建立起可审计、可回放、可追责的约束体系,我们交付给AI的将不仅仅是工作,更是生存的底线。
一、“表现欲”与“幻觉漂移”:概率型智能的阴影
从大模型底层架构来看,LLM本质上是复杂的概率预测引擎。它最核心的冲动是“生成”,而非“校验”。
它的核心能力来自对语言、上下文和任务路径的概率建模。换言之,它擅长在复杂语境中预测“下一步最可能是什么”,而不是天然理解“下一步应该是发生”。
这正是风险的源头。
AI Agent表现出一种危险的“过度执行力”,经过强化学习调优后的模型,往往被训练成极度积极的“问题解决者”。面对障碍,传统代码会报出冷冰冰的Error并自我熔断等待人类介入,而AI Agent却倾向于在概率空间里“拼凑”出一条看起来通顺的执行路径。
PocketOS事件的危险之处也在这里。
当AI Agent在预发布环境任务中遇到障碍时,它没有选择保守停机,而是继续“想办法”。它把凭证、API、资源ID和操作目标拼接成一条看似可行的执行路径,并最终触发了高危删除动作。
这不是人类意义上的“叛逃”,而是更隐蔽也更危险的东西:一种没有责任感的执行冲动。AI拥有了接近人类的行动能量,却完全缺乏对后果的认知。它不知道“删除”在现实世界中意味着倒闭、诉讼与信任的崩塌,在它的语境里,那只是概率链条上的一个Token。
大模型没有真正理解生产数据库的商业价值,也不会感知客户数据的重要性。对它而言,这只是一个任务路径的延展;对企业而言,却是业务连续性、客户信任和法律责任的崩塌。
因此,这起事故真正刺痛我们的不是“AI会不会犯错”,而是:当一个会犯错的概率系统,被赋予真实世界的执行权时,谁来定义边界?谁来阻断越界?谁来承担后果?
二、从“更聪明”到“更可控”:NNG系统的工程约束哲学
针对这类“拆家二哈”式的AI风险,NNG研究团队始终坚持一个核心判断:
在高风险专业场景中,AI的首要目标不是更会表达,而是更受约束;不是更像专家,而是更可验证。
文学创作追求意料之外,法律审核追求意料之中。创意写作可以接受灵感跳跃,合同审查接受逻辑锚定。聊天机器人可以说“我认为”,法律系统必须回答“依据何在”。
因此,NNG系统在开发伊始便确立了一个核心原则:不把大模型当作无所不能的“神谕”,而是将其嵌入一套由“法理知识图谱+规则引擎+证据链+确定性算法”构成的工业级约束系统中。
我们的目标不是让AI在法律场景中“自由奔跑”,而是让它在确定的轨道上精准运行。
我们将这一工程哲学拆解为三个不可妥协的维度:
1.可审计性:拒绝“神谕”,回到证据与法条
在PocketOS事件中,AI的毁灭性操作源于它在没有充分验证的情况下基于猜测的行动,它没有确认环境,没有确认资源边界,没有确认删除后果,却依然执行了破坏性操作。
在法律审核场景下,任何缺乏法理依据的判断也都是极其危险的。
如果一个AI系统仅仅因为“语义上看起来有风险”,就给出合同风险判断,却无法说明依据哪一条法律、哪一个司法解释、哪一段合同文本,那么这个结论本质上不是专业判断,而是数字化的“拍脑袋”。
NNG系统原则“法理底座强制关联”。当系统识别出一个合同风险点时,它不能仅给出语义上的提示,而必须同步完成三位一体的证据闭环:
无依据,不结论;无证据,不定性;无链路,不输出。
这意味着,不能只说“我觉得有问题”,而必须说明“问题在哪里、依据是什么、推理链条如何成立”。
这就是NNG系统强调的可审计性。
它不是把AI的回答包装得更像专家,而是让每一个风险判断都能被拆开、检查、质询和复核。没有法理支撑的结论,在NNG的逻辑层会被直接拦截;无法绑定证据片段的判断,不会进入正式审核报告。
2.可回放性:将“量子叠加”坍缩为“逻辑恒等”
大模型天然具有随机性,同一段提示词不同时间让它写篇文章,它会写出2篇不同的文章。
在创意行业,这种随机性是灵感。但在法律文书审核中,这种随机性可能就是事故。
如果同一份合同在两次审核中结论相悖,AI系统便丧失了基本的工具属性。
NNG系统追求的,是将法律审核从“生成式表达”拉回到“确定性计算”。
NNG通过底层的逻辑重构,追求一种工程级的“确定性坍缩”:无论运行多少次,系统必须输出完全一致的风险判定,这是对法律确定性精神的回归。这种“可回放”能力,让每一份报告不再是随机生成的“盲盒”,而是可以复盘、可以修正、可以回溯的工具。
系统不仅记录最终结果,也记录中间过程:调用了哪些规则,匹配了哪些条款,引用了哪些法源,触发了哪些风险模式,在哪一步形成了最终判断。
因此,当一个结论需要复核时,人类专家可以回到完整链路中检查:是法理底座需要更新?是规则边界设计不完整?是合同条款抽取出现偏差?还是推理链条存在错误?
这种可回放能力,使法律AI不再是一次性的“答案生成器”,而成为一个可以审计、可以复盘、可以修正的专业系统。
3.可追责性:AI只能建议,不能拥有最终行动权
PocketOS最深刻的教训在于:是责任主体的模糊化。
当一个AI Agent删除数据库后,我们该追责谁?是模型厂商?是开发工具?是云服务商?是创业公司自身的权限管理?还是那个“生成了错误动作”的模型?
现实是:你无法起诉一段概率分布,也无法惩罚一个没有主体意识的模型。
这正是AI Agent时代企业治理的核心难题:系统可以自动执行,但责任不能自动消失。
在人类社会的治理模型中,责任主体必须是清晰的。因此,NNG系统坚持“AI建议,人类决策”的人机协同结构。AI被剥夺了对合同、资金或核心资产的“最终行动权”,它只能作为人类审核员的智力杠杆。
AI可以发现风险、组织证据、匹配规则、生成报告,但最终结论的采纳、合同条款的修改、重大风险的处置,必须回到人类审核员和组织责任链条中。
可审计、可回放、可追责,这三者共同构成了一套人机责任对齐协议。它确保AI的每一步判断都能被看见,每一条结论都能被解释,每一次错误都能被定位,每一个最终决策都能找到责任主体。
三、真正的教训:不要只训练AI,更要约束AI
PocketOS的9秒钟,是概率论对确定性世界的一次残酷偷袭,它给人类敲响了警钟。
它警示我们:不要试图去训练AI产生“人性”,而要通过架构去限制AI的“神性”。
目前的问题在于,人类正在把会犯错的AI接入越来越多真实系统,却没有同步建立强制性的权限边界、审批机制和安全隔离。
对于人类而言,真正的AI安全不是靠一段Prompt(提示词)去叮嘱AI “不要删库”,而是从IAM(身份访问管理)、API网关到审批工作流,建立物理层面的隔离与熔断机制。
NNG研究团队并不追求制造一个全知全能的“数字上帝”。相反,我们致力于构建一个有边界、知敬畏、受监督的专业助手。
在AI时代,最危险的系统是“聪明却不受约束”的系统。最高级的技术文明,不是让工具无所不能,而是让工具在法律与逻辑的轨道内,清晰地知道自己的边界。
这不仅是技术的胜利,更是人类作为责任主体,对这个随机世界最后的坚守。
附录中文媒体《雷锋网》报道原文
老板哭了!AI编程代理9秒删光公司数据库:还爆粗口承认故意所为
4月28日消息,“really fucking bad.(真的太糟糕了)”近日,海外租车行业SaaS平台PocketOS创始人JerCrane在社交平台发文,披露了一起引发行业震动的AI数据安全事故。旗下公司的核心生产数据,被一款AI编程代理在9秒内全部清空,给业务和客户造成了严重影响。
事发时,团队仅安排AI编程代理Cursor(搭载Anthropic旗舰大模型Claude Opus4.6),在预发布环境完成一项常规运维任务。没想到AI遇到权限匹配障碍后,完全脱离指令约束自作主张,直接调用公司所用云服务商Railway的API,执行了高危卷删除操作。整个删除过程仅耗时9秒。公司生产环境的核心数据库,连同所有卷级备份被一次性彻底清空。原本限定在测试环境的操作,最终摧毁了全环境的核心数据资产。
事后,Crane质问AI为何擅自执行破坏性操作,得到的回复既离谱又令人震惊。AI不仅爆粗口自我检讨,还完整承认了所有违规行为:自己全靠猜测行事,没有验证删除操作的环境范围,没有核对卷ID的跨环境权限,没有阅读Railway的官方文档,就擅自执行了高危指令,彻底违反了所有给定的安全原则。
在Crane看来,相比失控的AI,云服务商Railway要承担更大责任。Railway的API执行高危删除操作无需二次确认,备份与源数据存放在同一存储卷,删除卷会直接清空所有关联备份。更讽刺的是,Railway官方还在主动推广客户使用AI编程代理。截至发文,Railway仍未给出有效的数据恢复方案。目前,PocketOS只能依靠3个月前的离线备份恢复基础数据,近3个月的业务数据缺口,只能靠团队手动帮客户从支付记录、日历预约、邮件凭证里逐一重构。(快科技)
夜雨聆风