这周Anthropic发了一篇工程博客,标题就叫《How we contain Claude across products》,讲他们怎么在不同的产品里控制Claude的风险。我读完的感受是:这可能是我见过的最诚实、最有深度的AI安全工程实践分享。他们把Agent部署风险拆成了两个维度:失败概率×爆炸半径。模型能力和安全训练在持续降低”失败概率”,但随着Claude接入的工具越来越多、能做的事越来越强,“爆炸半径”反而在扩大。Agent做得越像人,你越不敢放它自由行动。他们的解法是三重隔离:第一层:沙箱+虚拟机+网络出口控制。直接限制Agent能运行环境,控制它和外部世界的交互边界。第二层:系统提示词+模型训练引导。从根本上让模型”不想”做坏事,而不是仅仅”不能”做坏事。第三层:MCP服务器和第三方插件的细粒度权限管理。这是最容易被忽略但也最危险的一层——当Agent接入了大量外部工具,每个工具的权限都要单独管理。他们还提到了一个有意思的细节:ClaudeCode之前的做法是”每一步都让用户确认”。听起来很安全对吧?但遥测数据显示,用户对权限提示的批准率高达93%。越批准得多,注意力和警惕性越低。93%的批准率意味着用户在第100次批准时跟第1次已经完全不同了——人不是机器,你不可能长期保持高度警觉。所以他们做了Claude Code Auto Mode,让更安全的自动化审批替代人的疲劳审批。这是我觉得这篇文章最值钱的地方——他们不是在展示”我们已经完美控制风险了”,而是在诚实地承认”这个问题我们还在探索中”。这种诚实,比很多公司画的安全路线图更让人安心。
Google CEO Pichai在GoogleI/O之后接受了TheVerge的专访,这是他连续第五年做这档访谈。聊了很多东西,但我觉得有几点特别值得记录。关于搜索的未来:他说Google正在从”提供结果”转向”启动任务”。GeminiSpark智能体平台要做的事情,就是让搜索不再是”给你一串链接”,而是”帮你把事情搞定”——搜索触发行动,而不是搜索返回页面。关于”GoogleZero”:就是你可能听过的那个概念——随着Google直接在搜索结果页回答越来越多问题,来自Google的网站流量可能会归零。Pichai被问到这个问题,他选择正面回应而不是打太极,但他的答案本质上是”网络不会死,但我们对网络的使用方式在变”。有意思的是,TheVerge的编辑自己在报道里说,这是他从Pichai那里听到的”最清醒的承认”。关于YouTube作为训练资产:他还提到Google正在用YouTube视频训练视频搜索和索引模型。YouTube是全球最大的视频内容库,这个训练数据优势是Google独家的。关于AGI时间线:他认同Hassabis说的”我们正处于智能奇点的起步阶段”。这话从他嘴里说出来,分量不一样。
沃顿商学院教授、著名的AI观察者EthanMollick发了一篇文章叫《Choosing to Stay Human》。他观察到:社交媒体上越来越多的帖子开始”长得一样”——因为它们都是AI生成的。评论区也是AI,学术论文是AI,甚至还有AI写的文章拿了文学奖。AI写作的特征不只是”相似”,而是”缺乏意义”。你读一段AI写的文字,会觉得它逻辑通顺,但营养密度很低,像是在用”看起来很努力的文字”消耗你的注意力。他真正想说的不是”AI写作不好”,而是:如果连写作这种表达个人风格的核心能力都外包给AI了,人类在写作过程中获得的成长怎么办?他自己写了几十年,才练出了自己的风格。如果一开始就靠AI写,会跳过那个”笨拙地学习”的过程。这段我非常认同。但我也有我的盲区补充——Mollick说的是那些”每天大量生产内容”的创作者。但还有另一批人,他们不是”被AI替代写作”,而是”用AI释放了更多精力去做只有人才能做的事”。用AI写初稿,用人写温度。AI不是终点,是起点。所以我对这件事的态度是:Mollick说的对,但解法不是”不用AI”,而是”用了AI之后,把省下来的时间用来做什么”。这个问题,他没有回答。