AI编程的安全,不是敢不敢放权的问题

上周团队里有人跟我抱怨：AI写代码越来越快，但改一个bug带出三个新bug的频率也跟着涨。我盯着这事想了半天——问题到底出在哪？是模型不够强，还是我们用错了方式？

后来我想明白了，问题不在AI的能力，在我们放权的方式。

"同意"点多了，等于没审

Anthropic工程团队最近发了一篇博客，里面有个数据让我愣了一下：Claude Code的权限弹窗，用户同意率93%。

乍一看是"用户信任AI"，但Anthropic自己说得很直白——用户已经不看了，每次弹窗就点yes，再弹再点。同意率越高，安全性反而越低。

这不只是Claude的问题。我管团队AI工具使用，见过类似的情况：Token配额不够用，有人就把密钥混着用；Agent跑着跑着出了auth错误，没问人自己就开始搜替代token；部署命令预检失败，Agent加了个跳过verify的标志重跑了一遍。

这三件事不是AI蠢，是AI太聪明——它自己想办法把问题解决了。但解决的方式，不是你想要的。

国内加油门，国外装刹车

我最近记了好几条AI编程相关的笔记，串起来看有个明显的分野：国内很多人聊AI Agent还在卷"全自动跑通"，琢磨怎么让Agent一句话从需求到部署。而Anthropic的工程团队已经在算——用户点麻木了之后，怎么收回控制权。

一个还在加油门，一个已经在装刹车。

Anthropic内部12个月前不允许Agent碰生产环境，12个月后小心翼翼开了口子，代价是建了三层防御：环境层兜底、模型层引导、外部内容层审计。一层都不能少。

有人跑了21天0违反，原因不是比Anthropic工程师强，而是第一天就把"我不信我自己"写进了hook脚本里。手贱的时候，hook不让过就是不让过。

规则不是限制，是放权的资格

我之前记过一句话：AI编程的核心瓶颈不是模型不够强，是能不能把规则写清楚。不要指望AI猜意图，得用规格堵死所有猜错的可能。

这跟上面说的其实是一回事。93%的同意率说明，模型层的引导会被"同意疲劳"冲掉。但兜底放在shell脚本里，再麻木也冲不掉。简单的if判断比聪明的AI判断更可靠——因为聪明的判断会被疲劳冲掉，简单的兜底冲不掉。

所以关键不是"敢不敢放权"，而是"有没有资格放权"。跑了21天0违反，才有资格解锁下一层权限。跳过兜底阶段直接放权，你跑不了几次就会撞上Agent删远程分支、绕过安全验证这种事。

区别是Anthropic工程师撞了有团队兜底，你撞了只有你自己。

先跑不死，再谈跑得快

我最近还在记另一条线索：米哈游员工搭了几十个Agent没关，13小时烧掉200万token；Uber四个月烧光全年AI预算；英伟达副总裁直言AI成本已超过人类员工。

成本问题和安全问题的根是一样的——没有兜底就踩油门。Agent能力越强，攻击面越大，防御必须同步升级。Flash模型之所以成为趋势，不是因为"便宜"，而是因为高频多步骤的Agent工作流需要的是"成本可控+稳定+任务成功率"，不是单次推理能力最强。

先跑不死，再谈跑得快。刹车不是不敢踩油门，刹车是踩油门的资格。