过去一年,AI 行业最热闹的词是 agent。但如果只把 agent 理解成“更聪明的聊天机器人”,可能会错过真正重要的变化。今天几条来自 builders 的更新放在一起看,会发现行业正在从“模型能力竞争”,转向另一件更具体的事:AI 怎么进入真实工作流,怎么闭环,怎么执行,怎么被约束。这件事听起来没那么性感,但它可能决定下一批 AI 产品谁能真正跑出来。
一、Google 的新主线:模型只是底座,agent harness 才是产品骨架
Google AI Studio 和 Gemini API 负责人 Logan Kilpatrick 最近谈到一个很关键的变化:Google 正在把 Gemini 从“模型 through line”,推进到“agent harness through line”。简单说,过去 Gemini 是 Google 各产品共同使用的模型底座;现在,Google 希望让 agent 执行层也成为各产品的共同底座。这意味着 Google 对 agent 的理解已经不只是“让模型回答问题”,而是让模型可以在一套执行系统里完成任务。这也是为什么 coding agent 重要。不是因为写代码本身是唯一场景,而是因为写代码暴露了 agent 产品最难的一组问题:任务长、状态多、工具复杂、失败率高、成本可见、用户又要求结果可验证。更冷静的判断是:今天大多数产品的 agentic 程度还处在早期。大公司不是不知道方向,而是要把十亿级用户产品慢慢改成能执行任务的系统。
二、Replit、Vercel 和 builders 都在追同一件事:闭环
如果 Google 代表大平台的 agent 底座,Replit、Vercel 这些产品线则更像前线试验场。Replit CEO Amjad Masad 最近的表达很直接:当 Fable 落到 Replit 后,他第一次进入了“零挫败”的 vibe coding 状态。更有意思的是,他说自己几乎不再觉得需要更高 IQ 的模型,而是需要更便宜、更快的模型。这句话背后有个行业信号:当模型能力过了某个阈值,产品竞争点会从“谁更聪明”转到“谁能更稳定、更低成本地完成完整工作”。Replit 展示的方向也不只是代码生成,而是一个 canvas 里同时管理 web app、mobile app、营销素材和 App Store 材料。这不是单点工具,而是把创业早期一堆碎片化工作合并到一个工作台里。Swyx 提到的“Loopcraft”也在讲同一个问题:未来很长一段时间,真正重要的能力可能是会不会把一个个 loop 叠起来。模型不够稳的时候,要知道怎么往下退一层保证可靠性;模型变强之后,要知道怎么往上升一层获得杠杆。这很像今天 AI 产品的真实状态。很多工具已经能生成,但还没有真正“闭环”:报错谁接、监控谁管、失败谁提醒、上线后的反馈怎么回到系统里。Vercel 的叙事则更商业化:从 dream 到 build,再到 ship 和 sell,链路越来越短。这些更新合起来看,今天 builders 关心的不是“能不能生成一个页面”,而是能不能把构思、开发、调试、部署、监控、商业转化放进同一个闭环。
今天几位 OpenAI/Codex 相关人士都提到了 Ona 加入 OpenAI。这个信息本身不适合过度解读,但可以放在更大的趋势里看:coding agent 已经不是实验室项目,而是几家核心 AI 公司都在重押的产品入口。开发者工具的叙事变化非常快。上一轮大家还在争论哪家模型能力领先,下一轮注意力很快又转向 agentic coding。这个市场变化速度太快,领先不再只取决于一次模型发布,而取决于能不能把模型、产品和真实使用数据持续转起来。
五、企业采用 AI 的反直觉信号:用得越多,越想招人
Box CEO Aaron Levie 分享了一个有意思的数据点:Box 调研了美国、日本和欧洲的 1,640 位 IT leaders,发现采用 AI 最积极的公司,反而最计划增加 headcount。这和“AI 会让公司立刻裁人”的常见叙事不完全一样。他的解释是,生产率上升后,公司会想做更多工程项目、卖给更多客户、自动化更多流程,把省出来的时间再投入到业务增长里。这不代表 AI 不会改变岗位结构,也不代表所有公司都会扩招。但它提醒我们,企业采用 AI 的结果不一定是简单的“人被替代”。在增长型公司里,AI 可能先变成扩张工具,让团队能承担更多原来做不了的项目。
六、agent 越能干,越要限制它能碰什么
今天另一个值得认真看的方向,是 agent 安全。当 Claude 这样的 agent 能访问文件、运行代码、调用工具、连接外部服务时,风险不只来自模型会不会“听话”,更来自它到底能触达什么。真正的问题不是“模型会不会犯错”,而是“一旦犯错,它能造成多大影响”。这也是为什么运行环境、sandbox、VM、文件系统边界、egress control 这些听起来偏工程的东西,正在变成 agent 产品的核心能力。还有一个很现实的现象:如果一个产品每一步都弹权限确认,用户很快会疲劳。提示越多,用户越容易机械性同意,监督质量反而下降。所以单纯靠“每一步都问用户”并不可靠。成熟的 agent 产品需要把能力和边界一起设计。大家都想让 agent 更自主、更长程、更能完成工作,但 agent 越能干,越不能只靠“相信模型会做对”。真正成熟的 agent 产品,需要先定义它能做什么,也要定义它绝对不能碰什么。