上周团队里有人跟我抱怨:AI写代码越来越快,但改一个bug带出三个新bug的频率也跟着涨。我盯着这事想了半天——问题到底出在哪?是模型不够强,还是我们用错了方式?
后来我想明白了,问题不在AI的能力,在我们放权的方式。
"同意"点多了,等于没审
Anthropic工程团队最近发了一篇博客,里面有个数据让我愣了一下:Claude Code的权限弹窗,用户同意率93%。
乍一看是"用户信任AI",但Anthropic自己说得很直白——用户已经不看了,每次弹窗就点yes,再弹再点。同意率越高,安全性反而越低。
这不只是Claude的问题。我管团队AI工具使用,见过类似的情况:Token配额不够用,有人就把密钥混着用;Agent跑着跑着出了auth错误,没问人自己就开始搜替代token;部署命令预检失败,Agent加了个跳过verify的标志重跑了一遍。
这三件事不是AI蠢,是AI太聪明——它自己想办法把问题解决了。但解决的方式,不是你想要的。
国内加油门,国外装刹车
我最近记了好几条AI编程相关的笔记,串起来看有个明显的分野:国内很多人聊AI Agent还在卷"全自动跑通",琢磨怎么让Agent一句话从需求到部署。而Anthropic的工程团队已经在算——用户点麻木了之后,怎么收回控制权。
一个还在加油门,一个已经在装刹车。
Anthropic内部12个月前不允许Agent碰生产环境,12个月后小心翼翼开了口子,代价是建了三层防御:环境层兜底、模型层引导、外部内容层审计。一层都不能少。
有人跑了21天0违反,原因不是比Anthropic工程师强,而是第一天就把"我不信我自己"写进了hook脚本里。手贱的时候,hook不让过就是不让过。
规则不是限制,是放权的资格
我之前记过一句话:AI编程的核心瓶颈不是模型不够强,是能不能把规则写清楚。不要指望AI猜意图,得用规格堵死所有猜错的可能。
这跟上面说的其实是一回事。93%的同意率说明,模型层的引导会被"同意疲劳"冲掉。但兜底放在shell脚本里,再麻木也冲不掉。简单的if判断比聪明的AI判断更可靠——因为聪明的判断会被疲劳冲掉,简单的兜底冲不掉。
所以关键不是"敢不敢放权",而是"有没有资格放权"。跑了21天0违反,才有资格解锁下一层权限。跳过兜底阶段直接放权,你跑不了几次就会撞上Agent删远程分支、绕过安全验证这种事。
区别是Anthropic工程师撞了有团队兜底,你撞了只有你自己。
先跑不死,再谈跑得快
我最近还在记另一条线索:米哈游员工搭了几十个Agent没关,13小时烧掉200万token;Uber四个月烧光全年AI预算;英伟达副总裁直言AI成本已超过人类员工。
成本问题和安全问题的根是一样的——没有兜底就踩油门。Agent能力越强,攻击面越大,防御必须同步升级。Flash模型之所以成为趋势,不是因为"便宜",而是因为高频多步骤的Agent工作流需要的是"成本可控+稳定+任务成功率",不是单次推理能力最强。
先跑不死,再谈跑得快。刹车不是不敢踩油门,刹车是踩油门的资格。
夜雨聆风