AI agent 的下一站,不是更聪明,而是更会“接管工作”

过去一年，AI 行业最热闹的词是 agent。

但如果只把 agent 理解成“更聪明的聊天机器人”，可能会错过真正重要的变化。今天几条来自 builders 的更新放在一起看，会发现行业正在从“模型能力竞争”，转向另一件更具体的事：AI 怎么进入真实工作流，怎么闭环，怎么执行，怎么被约束。

这件事听起来没那么性感，但它可能决定下一批 AI 产品谁能真正跑出来。

一、Google 的新主线：模型只是底座，agent harness 才是产品骨架

Google AI Studio 和 Gemini API 负责人 Logan Kilpatrick 最近谈到一个很关键的变化：Google 正在把 Gemini 从“模型 through line”，推进到“agent harness through line”。

简单说，过去 Gemini 是 Google 各产品共同使用的模型底座；现在，Google 希望让 agent 执行层也成为各产品的共同底座。

这意味着 Google 对 agent 的理解已经不只是“让模型回答问题”，而是让模型可以在一套执行系统里完成任务。

这也是为什么 coding agent 重要。不是因为写代码本身是唯一场景，而是因为写代码暴露了 agent 产品最难的一组问题：任务长、状态多、工具复杂、失败率高、成本可见、用户又要求结果可验证。

更冷静的判断是：今天大多数产品的 agentic 程度还处在早期。大公司不是不知道方向，而是要把十亿级用户产品慢慢改成能执行任务的系统。

二、Replit、Vercel 和 builders 都在追同一件事：闭环

如果 Google 代表大平台的 agent 底座，Replit、Vercel 这些产品线则更像前线试验场。

Replit CEO Amjad Masad 最近的表达很直接：当 Fable 落到 Replit 后，他第一次进入了“零挫败”的 vibe coding 状态。更有意思的是，他说自己几乎不再觉得需要更高 IQ 的模型，而是需要更便宜、更快的模型。

这句话背后有个行业信号：当模型能力过了某个阈值，产品竞争点会从“谁更聪明”转到“谁能更稳定、更低成本地完成完整工作”。

Replit 展示的方向也不只是代码生成，而是一个 canvas 里同时管理 web app、mobile app、营销素材和 App Store 材料。这不是单点工具，而是把创业早期一堆碎片化工作合并到一个工作台里。

Swyx 提到的“Loopcraft”也在讲同一个问题：未来很长一段时间，真正重要的能力可能是会不会把一个个 loop 叠起来。模型不够稳的时候，要知道怎么往下退一层保证可靠性；模型变强之后，要知道怎么往上升一层获得杠杆。

这很像今天 AI 产品的真实状态。很多工具已经能生成，但还没有真正“闭环”：报错谁接、监控谁管、失败谁提醒、上线后的反馈怎么回到系统里。

Vercel 的叙事则更商业化：从 dream 到 build，再到 ship 和 sell，链路越来越短。

这些更新合起来看，今天 builders 关心的不是“能不能生成一个页面”，而是能不能把构思、开发、调试、部署、监控、商业转化放进同一个闭环。

三、成本和速度开始变得比“更聪明”更重要

过去大家讨论 coding agent，最常问的是：哪个模型代码能力最强？

但今天的 builder 讨论开始变了。有人说自己更需要便宜和更快的模型，也有人提到长任务中途触发 safeguards、fallback，最后不得不切回另一个工具。

这不是简单的产品吐槽，而是 agent 产品进入真实使用后的典型问题：一次任务可能跑很久，可能中途降级，可能触发安全机制，可能成本失控，也可能在用户回来之前已经偏航。

这也是为什么“模型更强”不能单独解决问题。长任务 agent 需要的是一整套产品能力：任务拆解、状态管理、错误恢复、成本控制、权限边界、结果验收。

换句话说，AI 产品正在从“prompt 体验”进入“系统工程”阶段。

四、OpenAI Codex 线索继续增多，coding agent 竞争会更激烈

今天几位 OpenAI/Codex 相关人士都提到了 Ona 加入 OpenAI。

这个信息本身不适合过度解读，但可以放在更大的趋势里看：coding agent 已经不是实验室项目，而是几家核心 AI 公司都在重押的产品入口。

开发者工具的叙事变化非常快。上一轮大家还在争论哪家模型能力领先，下一轮注意力很快又转向 agentic coding。

这个市场变化速度太快，领先不再只取决于一次模型发布，而取决于能不能把模型、产品和真实使用数据持续转起来。

五、企业采用 AI 的反直觉信号：用得越多，越想招人

Box CEO Aaron Levie 分享了一个有意思的数据点：Box 调研了美国、日本和欧洲的 1,640 位 IT leaders，发现采用 AI 最积极的公司，反而最计划增加 headcount。

这和“AI 会让公司立刻裁人”的常见叙事不完全一样。

他的解释是，生产率上升后，公司会想做更多工程项目、卖给更多客户、自动化更多流程，把省出来的时间再投入到业务增长里。

这不代表 AI 不会改变岗位结构，也不代表所有公司都会扩招。但它提醒我们，企业采用 AI 的结果不一定是简单的“人被替代”。在增长型公司里，AI 可能先变成扩张工具，让团队能承担更多原来做不了的项目。

六、agent 越能干，越要限制它能碰什么

今天另一个值得认真看的方向，是 agent 安全。

当 Claude 这样的 agent 能访问文件、运行代码、调用工具、连接外部服务时，风险不只来自模型会不会“听话”，更来自它到底能触达什么。

真正的问题不是“模型会不会犯错”，而是“一旦犯错，它能造成多大影响”。

这也是为什么运行环境、sandbox、VM、文件系统边界、egress control 这些听起来偏工程的东西，正在变成 agent 产品的核心能力。

还有一个很现实的现象：如果一个产品每一步都弹权限确认，用户很快会疲劳。提示越多，用户越容易机械性同意，监督质量反而下降。

所以单纯靠“每一步都问用户”并不可靠。成熟的 agent 产品需要把能力和边界一起设计。

大家都想让 agent 更自主、更长程、更能完成工作，但 agent 越能干，越不能只靠“相信模型会做对”。真正成熟的 agent 产品，需要先定义它能做什么，也要定义它绝对不能碰什么。

七、今天的结论：AI 行业正在从“模型崇拜”走向“工作流战争”

把这些信号放在一起，今天的行业变化很明确：

第一，agent 的竞争不再只是模型 benchmark。大公司在讲 agent harness，创业产品在讲完整工作流，安全团队在讲执行环境和边界。

第二，coding agent 仍然是最重要的前线场景。不是因为只有程序员需要 agent，而是因为 coding 把长任务、工具调用、失败恢复、成本控制、安全边界这些核心问题一次性暴露出来。

第三，下一阶段的产品机会可能不在“再做一个聊天框”，而在帮用户把 loop 闭上。谁能把生成、执行、报错、监控、反馈、迭代放进一个系统，谁就更接近真正的 agentic product。

第四，安全不是拖慢创新的反面。对长程 agent 来说，安全边界本身就是产品能力。没有边界，用户不敢授权；没有授权，agent 就只能停留在演示层。

所以今天最值得记住的一句话是：

AI agent 的下一站，不是更像人聊天，而是更像一个能被信任的工作系统。

它要能做事，也要知道自己不能碰什么。