AI Agent 正在进入“顾问模式”:最强模型不必全程出手

过去我们讨论 AI Agent，经常会默认一个逻辑：如果想让系统更聪明，就应该让最强的模型来当“大脑”。它负责理解任务、拆解步骤、分配工作、调用工具、检查结果；便宜一些的模型则像执行人员，负责完成具体任务。这种模式看起来合理，也符合人类团队里常见的分工方式：能力最强的人负责判断，其他人负责执行。但 Anthropic 最近提出的 Advisor Strategy，给出了一个相反的思路：不一定要让最强模型从头到尾掌控任务，而是让更快、更便宜的模型负责推进完整流程；只有当任务进入复杂、模糊、容易出错的节点时，再临时调用更强的模型作为“顾问”提供判断。这个变化表面上是模型调度方式的调整，真正值得关注的是，AI 的使用逻辑正在从“选一个最强模型”，变成“设计一个更合理的协作结构”。

“顾问模式”的核心，不是让强模型做更多事，而是让它少做，但做在关键处。按照 Anthropic 的设计，Sonnet 或 Haiku 可以作为主要的执行模型，从头到尾负责完成任务，包括读取上下文、调用工具、生成中间结果和继续迭代。Opus 则被设置为 advisor。它不会直接接管任务，也不会直接向用户输出最终答案，而是在执行模型需要帮助时，基于当前上下文给出建议，比如提醒可能存在的问题、提出下一步计划、判断是否需要调整方向，甚至建议停止继续操作。这个模式很像真实工作里的 senior advisor：初级成员负责推进项目，高级专家不需要一直盯着每一步，但在方案判断、风险评估、复杂问题定位时介入，往往能显著提高整体质量。它强调的不是“谁最强，谁就全程负责”，而是“谁最适合在哪个节点出现”。

过去很多多模型 agent 采用的是“强模型做总指挥”的模式。最强模型先规划任务，再把不同子任务分配给其他模型或工具。这种模式并不差，但很容易变得又重又贵，因为强模型要参与大量过程性判断，哪怕很多步骤其实只是普通执行。Advisor Strategy 把更多主动权交给执行模型，让它自己推进任务，并在不确定时主动求助。很多任务本身并不难，真正决定成败的是少数关键判断点。让高级模型全程参与，会把它的能力消耗在大量普通操作里；让它只在最容易出错、最影响结果的地方出现，反而能让高级模型的价值更集中。

Anthropic 给出的测试结果也说明，这个策略不只是理论上好看。在 SWE-bench Multilingual 测试中，Sonnet 搭配 Opus advisor 相比 Sonnet 单独运行，表现提升了 2.7 个百分点，同时每个 agentic task 的成本降低了 11.9%。这组数据有点反直觉。我们通常会以为，质量提升意味着成本上升，但这里加入更强模型后，整体成本反而下降。原因在于 Opus 并不是全程生成大量内容，而是只在关键时刻提供相对短的建议；真正承担大量执行、工具调用和最终输出的，仍然是成本更低的模型。成本优化不一定来自“用更弱的模型”，也可能来自“不要让强模型参与低价值步骤”。

Haiku 搭配 Opus advisor 的结果，则更能说明这种模式在批量任务里的价值。在 BrowseComp 评测中，Haiku 加上 Opus advisor 后的得分比 Haiku 单独运行明显提升。虽然它仍然不如 Sonnet 单独运行，但成本低很多。很多高频任务其实都符合这种特征：大部分步骤重复、明确、可执行，只有少数地方需要高级判断。比如批量整理文档、提取用户反馈、分类研究资料、检查表格异常、生成初稿、处理客户咨询。全部交给最强模型，成本太高；全部交给便宜模型，关键判断又容易出错。更现实的方式，是让低成本模型处理大多数内容，遇到模糊、矛盾、高风险或需要推理判断的部分，再升级给强模型。这已经不像一个单独的 AI 工具，而更像企业里的分级处理机制：普通问题一线解决，复杂问题升级给 senior，关键问题交给专家。

对普通用户来说，Advisor Strategy 的意义并不只是 Claude 多了一个开发者工具。它真正提醒我们的是：使用 AI 时，不要总是把一个完整任务直接丢给模型，然后期待它一次性给出完美结果。很多人现在的使用方式仍然是：“帮我写一篇文章”“帮我做一个方案”“帮我分析这个设计”。但更高效的做法，可能是把任务拆成不同阶段，让 AI 在不同阶段承担不同角色。写文章时，可以先让 AI 快速生成主线和初稿，再让它以顾问身份检查逻辑是否松散、论点是否重复、案例是否支撑观点，最后再回到执行角色进行重写。做 UX 项目时，可以先让 AI 整理访谈资料和用户痛点，再让它作为资深 researcher 检查洞察是否过度推断，作为 product strategist 判断设计方向是否有商业价值，最后作为 portfolio reviewer 检查 case study 是否讲清楚了影响力。这里的重点不是某个工具名称，而是把 AI 从单一生成器，变成一个能在不同阶段承担不同职责的协作者。

AI coding 会更快体现这种变化。代码任务里既有大量执行型工作，也有少量高价值判断。查找文件、修改变量、补充测试、按规范重构，这些事情适合执行模型完成；架构选择、复杂 bug 定位、性能瓶颈、安全风险和依赖关系判断，则更适合让强模型介入。全部交给最强模型，成本会很高；全部交给低成本模型，又容易在关键判断上出错。Advisor Strategy 提供的是一种更平衡的方式：执行模型负责推进，顾问模型负责关键决策。未来的 coding agent，很可能不会只是一个超级模型从头到尾写代码，而是一个能自主执行、能识别不确定性、能在必要时请求高级判断的系统。

Advisor Strategy 真正值得关注的地方，不是“Claude 又加了一个新功能”，而是它把“智能调度”这件事产品化了。过去开发者如果想实现类似机制，需要自己写复杂的 orchestration logic：什么时候调用强模型，传递哪些上下文，如何避免重复调用，如何控制成本，如何把建议反馈给执行模型。现在 Anthropic 把这一部分包装成 advisor tool，让执行模型可以在需要时主动调用顾问模型。AI 竞争正在从单纯比拼模型能力，逐渐走向系统设计能力的竞争。一个 AI 工作流好不好，不只取决于模型有多强，还取决于它是否知道什么时候该自己执行，什么时候该暂停，什么时候该升级判断。

AI 的下一阶段，可能不是“一个最强模型替你完成所有事”，而是“多个智能角色组成一个小型协作系统”。在这个系统里，执行者负责推动任务，顾问负责关键判断，审查者负责质量控制，工具负责搜索、计算、文件处理和自动化，人类则负责设定目标、判断价值和做最终取舍。对开发者来说，这是更低成本、更高质量的 agent 架构；对企业来说，这是更接近真实组织流程的自动化方式；对普通用户来说，这是从“会用 AI”走向“会设计 AI 工作流”的开始。真正的问题不再只是“我应该用哪个模型”，而是“这个任务中哪些步骤需要执行，哪些步骤需要判断，哪些地方值得升级智能”。

过去一年，AI 的关键词是“更强模型”。Advisor Strategy 暗示的关键词则是“更聪明的协作”。强模型不必全程出手，便宜模型也不一定只能做简单任务。成熟的 AI 系统，会把不同层级的智能安排在合适的位置：大部分时间低成本推进，关键时刻高质量判断。对普通用户来说，这也是最值得学习的地方。不要盲目追逐新工具，也不要把所有任务都丢给同一个模型。更重要的是开始思考：AI 应该在我的工作流程中扮演什么角色？它什么时候应该执行，什么时候应该审查，什么时候应该像顾问一样，只在关键节点提醒我别走错方向？当我们开始这样使用 AI，AI 就不再只是一个回答问题的工具，而会逐渐变成参与工作系统的一部分。