AI 平台的下一步,是让 Agent 自己组织 Agent

在 Every 的《AI & I》访谈里，Claude 平台团队谈到一个很有意思的方向：一年以后，平台可能不再要求用户想清楚该用哪个模型、该怎么拆 sub-agent、该搭什么 agent 架构。Claude 会越来越懂自己，知道什么时候该用什么模型，什么时候该启动几个子任务，甚至能根据当前目标，临时组织出适合这件事的 agent 结构。

这句话听起来像一个产品愿景，但它背后其实是 AI 平台正在发生的变化。早期的 AI 平台很简单，开发者把 prompt 发进去，模型返回一段文本。后来有了 tool calling、聊天 session、代码执行、搜索、文件读写。再往后，平台开始提供 memory、sandbox、managed agents、多 agent orchestration。它不再只是一个“模型接口”，而越来越像一个让 AI 可以持续工作的运行环境。

这个变化不是无缘无故发生的。单个模型再强，也很难独自完成所有复杂任务。一个真实任务往往包含很多不同性质的工作：查资料、读文件、写代码、跑测试、整理结论、检查质量、等待用户确认。过去这些流程需要开发者手动搭架构：哪个模型负责规划，哪个负责执行，哪个负责评审，工具怎么接，状态怎么保存，出错怎么回滚。平台团队现在想做的，是把这些越来越常见的组织方式沉到基础设施里。

所以，“Agent 自己组织 Agent”真正指的不是科幻里的 AI 自我繁殖，而是任务执行方式的抽象层继续上移。开发者不再从零搭一个复杂的 agent 系统，而是告诉平台：我要达到什么结果，有哪些约束，哪些工具可以用，哪些权限不能碰。至于中间要不要拆成几个子任务、要不要让一个 agent 负责调研、一个 agent 负责执行、一个 agent 负责验收，平台自己来决定。

这有点像云计算的发展。最早你要自己买服务器、装系统、配网络；后来你租虚拟机；再后来你用托管数据库、serverless、队列、监控。基础设施每往前走一步，开发者需要亲自处理的底层细节就少一点。AI 平台也在走类似的路。早期你直接调用模型，现在你调用的是一个带状态、工具、记忆、执行环境和调度能力的系统。

Claude Managed Agents 这一类产品，就是这个方向的中间形态。它已经不是简单地“给模型加几个工具”，而是把代码执行、sandbox、memory、webhook、outcomes、多 agent 编排这些东西放到一起。开发者当然还可以自己搭，但当很多人都在重复搭同一套东西时，平台就会自然往上收，把常见模式变成默认能力。

这对开发者有两个影响。第一个影响是，很多 agent 工程会变得更容易。过去你要花大量时间处理运行环境、状态持久化、工具调用、错误恢复和任务拆分，现在平台会替你兜住一部分。开发者的工作重心会从“怎么搭一套 agent 架构”，转向“怎么定义任务、约束、验收标准和权限边界”。

第二个影响更微妙：当平台替你组织 agent，很多决策也会被平台拿走。它选择哪个模型，怎样拆任务，什么时候并行，什么时候停止，怎样判断一个结果足够好，这些都不再完全暴露在代码里。方便是真的方便，但黑箱也会变厚。Agent 系统越能自己组织工作，开发者越需要知道它到底是怎么组织的。

这也是 observability 会变得重要的原因。一个简单 API 调用失败了，开发者看错误码就行；一个多 agent 系统产出了错误结果，就麻烦得多。问题可能出在模型选择、任务拆分、工具权限、记忆召回、上下文污染、评审标准，也可能只是某个子 agent 在中间做了一个不合适的判断。如果平台把组织过程藏得太深，开发者会很难调试。

所以，下一代 AI 平台不能只追求“自动组织”，还要提供可追踪的组织过程。谁被派去做了什么，为什么这样拆任务，哪个子 agent 使用了哪些工具，哪些记忆被调用，哪一步被判定为失败，哪一步触发了重试，这些都应该能被看见。否则 agent 越聪明，系统越难信任。

这里也能看出 AI 平台和普通 SaaS 平台的不同。普通平台主要托管数据和流程，AI 平台托管的是一部分判断过程。它不是简单把任务排队执行，而是在运行中决定怎么理解任务、怎么分工、怎么调用工具、怎么判断质量。这让平台的责任变重了。它不能只说“我们提供能力”，还要回答“这些能力在什么边界内运行”。

对用户来说，这个方向会让 AI 更像一个工作系统。你不需要知道每个 agent 的名字，也不需要手动给每个子任务分配角色。你只会感觉到：这个系统拿到一个目标以后，会自己查、自己拆、自己跑、自己检查，在必要的时候再回来问你。它从“回答问题”变成“组织一段工作”。

但人并不会因此完全退出。越是复杂任务，越需要人定义什么叫好，什么不能做，哪些地方需要停下来确认。平台可以帮你组织 agent，但不能替你决定所有价值判断。尤其在代码、法律、财务、医疗、内容发布这些场景里，自动分工只是第一步，真正关键的是验收、责任和边界。

这也是这句话值得写的地方。AI 平台的下一步，不只是模型更强，也不是工具更多，而是平台开始把“组织工作”这件事本身产品化。模型负责能力，工具负责行动，memory 负责连续性，sandbox 负责执行环境，sub-agent 负责分工，而平台负责把这些东西临时组合成一个能完成任务的系统。

如果这个方向走下去，未来开发 AI 应用会越来越不像写一串 prompt，而更像设计一种组织方式。你要决定目标如何描述，权限如何限制，结果如何验收，过程如何追踪，人在哪些节点介入。Agent 自己组织 Agent，并不是人类不再管理工作，而是人类要管理的对象从单个工具，变成了一套会自己分工的系统。