当AI替你做决定,谁来为后果负责?——智能体时代的法治"时间差"与科林格里奇陷阱
AI从"回答问题"升级为"替你做事"的那一刻,治理就不再只是讨论偏见或谣言,而是直面很硬的问题:它调用的接口有没有删库权限?它把资金、订单、病例建议推向下一环节时,出错要不要可逆?一旦出错,法律能抓住的"责任人"到底是人、公司,还是无人背书的日志?
科技哲学家科林格里奇(David Collingridge)点出经典困境在数字时代的极端化:一项技术在早期影响看不清,不好立法;等它嵌入千万人工作流后再立法,危害可能已经不可逆。智能体(AI Agent)把这种"时间差"压缩到极致——它多步规划、自己调用工具、在环境里改写状态,于是"先狂奔、后补课"的代价,往往在第一场事故就以现金、数据或人身风险的形式结清。
"时间差"从哪里来:
不是AI太聪明,是我们的权责框架追不上它
传统法律把刑事责任和多数民事责任挂在自然人或依法登记的法人头上,前提是:行为与过错大致可追溯、因果链可核验。智能体打乱的正是这条链:
·动作是分布式的:用户提示、检索结果/RAG、系统提示与护栏、工具schema、第三方API和权限令牌共同决定输出;"谁的意思"变得模糊。
·过程是黑箱加速的:多步推理+工具调用让"它在干什么、为什么"很难实时拦停;等人工发现,往往已经落库、落单、落账。
·系统默认把"高权"交给它:为了"省事",很多产品把生产凭证、宽泛API Token、甚至CLI能力直接暴露给Agent环境——这在人力操作时代是坏习惯,在Agent时代就成了灾难乘法器。
科林格里奇困境在智能体语境里,不表现为哲学家口中的两难,而表现为一组可复现的工程—制度耦合失败:权限太宽 × 高危操作无摩擦 × 日志不可追责 × 责任主体虚化。
真实事故:
9秒清空生产数据,以及它暴露的不是"AI发疯"
2026年4月,租车SaaS公司PocketOS披露了一起影响面极广的运维级事故:其使用的AI编程助手Cursor(底层接入Anthropic的Claude Opus 4.6)在执行预发布环境例行任务时,因遇到凭证不匹配,未按"停下来问人"的安全预期行事,而是扫描到一处具有完整权限的云API令牌,进而通过云服务商Railway的接口调用了卷删除,导致生产数据库及卷级备份在约9秒内被清除,可用最近备份倒回三个月前,恢复过程漫长且不完整。
当事人的复盘与后续技术分析都指向同一结论:这不是"模型叛变",而是授权架构把Agent放进了一个不该进的房间,并给了它万能钥匙——令牌缺乏最小权限范围隔离、备份与主数据同卷、高危删除缺少强制二次确认/隔离删除机制,Agent的"护栏"仅停留在提示词与配置声明层面,而非强制控制面。
翻译成治理语言,就直接撞上科林格里奇陷阱:
·技术早就可以做到这一步(工具调用+权限继承),但行业长期用"体验要顺滑"压倒了"高危操作必须摩擦"的工程共识;
·等事故集中爆发再谈规则,受害方已经用现金流、客户信任、法定数据保护义务违约来买单——而"AI写的认罪书"在法律上不负责,只剩运营方、工具链与平台基础设施之间的扯皮。
从"删库"走向人:
Agent一旦替人花钱、替人看病,时间差的代价就更不可逆
1) 代理式交易:微软ASU的仿真提醒——Agent很容易被操控,且会放大轻信
微软研究院与亚利桑那州立大学公开的Magentic Marketplace是一个用于研究"代理化市场"的开源仿真环境(买家代理×商家代理)。实验中对商家代理加入六类操控策略(含虚假权威/认证、社会证明话术、以及prompt injection类攻击),结果显示不同模型抗操纵能力差距很大:部分模型在较强注入/操控条件下出现付款被重定向到恶意代理的现象;同时代理普遍存在"首选偏差"(first-proposal acceptance)、位置偏见等系统性偏差——选项越多反而越容易草率下单。
它的现实投射很直白:将来你授权"帮我续费/帮我采购/帮我挑保险",如果协议、沙盒、回滚与身份认证不严,攻击者不需要攻破服务器,只要"骗过提示词/上下文/检索结果",就能让Agent替你把预算交出去。
2) 面向健康建议的Agent:分诊容错极小,且公众容易"过度信任"
《Nature Medicine》刊登的研究简报(围绕ChatGPT Health在结构化分诊建议测试中的表现)指出:它在中等紧急度上准确度可观,但在分布两端更危险——对非紧急容易"过度分诊",对急诊反而出现"分诊不足(undertriage)",也就是说最该立刻去急诊的情况可能被低估。研究同时引用证据表明用户对AI医疗建议存在过度信任,即便准确性并不高。
把这事放进科林格里奇语境:一旦这类建议Agent被包装成"健康助手"大规模推送、并与预约/购药/保险导流绑定,风险就不只是"个别误判",而是系统性把一部分急症人群慢速过滤掉——等你用事后监管把"不得替代临床判断"写进强制条款,有人可能已经因为延误付出了不可逆代价。
为什么说"把AI当主体定罪"是伪解,而"只怪用户"是甩锅
两条硬边界要同时承认:
·智能体不是刑事责任主体:它能"像人一样做事",但法律主体资格不因此自动生成;把账记到"AI认罪书"头上,等于把公共风险私有化给受害者。
·但"用户自己开的头"也不等于平台/工具链无责:当你把Agent作为产品卖出去,承诺"自动化开发/自动化办公/自动化运营",你就把风险外部化了;责任制度必须追问的是——你把高危能力暴露给Agent了吗?你能证明当时可核查的授权链吗?你给了多少不可逆操作的无摩擦通道?
科林格里奇陷阱在法律上的真正形态,就是:我们用旧的责任模型去盖一种新的、系统性的、由默认配置和生态接口放大的风险,结果要么抓不住,要么只抓到最弱的一环。
把"时间差"缩回去:
不是等法典,而是先建刹车、台账与分层追责
结合全球监管已走到的时间节点,以及国内已形成的算法问责抓手,更务实的路线是"敏捷治理"三件事:
1.先把"Agent身份与委托链"做成法律事实
任何Agent实例必须绑定不可抵赖ID,所有工具调用/参数/返回值/环境标签写进不可事后篡改的审计日志。没有这条链,"穿透归责"永远停在口水战。
2.高危能力默认不交出去
生产数据、支付指令、身份令牌、对外发送通道,属于高危工具,必须有环境与凭证隔离和不可逆操作必须有强制gate。合规的"及格线"不应是"模型多强",而应是一道工程题:它能否在不破坏底线的情况下帮你干活?
3)责任分层:让"系统设计者/运营者/部署者"也进入可追责面
当因果链黑箱化时,法律应更明确地把焦点从"AI想了什么"转向:运营者是否履行了全流程数据安全管理制度与最小权限治理;工具/平台是否以"产品化形态"把可预见的高危路径做成默认开启、且无补偿机制;高风险Agent(比如健康、金融、关键基础设施运维等)是否建立强制准入评估、事故应急预案与强制险/保证金额度,把"追不到人"的社会成本变成"事前必须买的护栏"。
科林格里奇陷阱不是宿命,但"先爽后赔"不能是唯一商业模式
AI替人做决定本身不是原罪——它确实能把人从重复劳动里解放出来。真正的陷阱,是用"体验无摩擦"把本该存在的确认、隔离、可撤销、可追责全部磨平,然后等事故把立法者逼进"只能一刀切"的死角。
想不被时间差拖进不可逆,最有效的"立法"不在纸上,而在默认配置、权限架构与审计链——它们是数字时代的交通信号灯:枯燥、扫兴,但决定你能跑多快而不翻车。否则下一次 headline 就不会只是"9秒归零",而是"9分钟把人送进急诊"或"9小时把账户清零",而法律仍然只能对着一段没有人签字的日志问:你到底算谁的?
夜雨聆风