别让贵的模型干便宜的活多智能体系统的模型选配指南
以搭建一套智能售前系统为例 · 价格截至 2026 年 3 月
很多人一开始搭多智能体系统,犯的第一个错误都一样:
给所有的虾崽子都配最好的大脑。
不是不行,是很贵。而且没必要。
类比一下:你开了一家公司,同样的工资标准,给前台和给核心研发。前台每天接电话、答复常规问题,用不着博士学历;但写核心技术方案的人,确实需要最强的人。
多智能体系统里的模型选配,逻辑完全相同:用对的模型干对的活,贵的留给真正需要质量的地方。
这篇用一个实际的案例来拆解——搭一套智能售前系统,看每个环节应该用什么模型、为什么、大概花多少钱。
一、先搞清楚:这些模型到底有什么不同
市面上主流的大模型,按能力和成本大致可以分成三档。
不用记参数、不用看跑分,只需要理解一件事:你为什么付更多钱,你额外买到了什么。
三档模型,三种定位
🔴 旗舰档:贵,但真的强
Claude Opus 4.6、GPT-5、Gemini 3 Pro 这类。适合需要深度推理、严密逻辑、高质量创作的任务。你付的额外成本,买的是"少出错"和"举一反三"的能力。每百万 token 输出约 ¥180~220。
🟡 均衡档:质量和成本的平衡点
Claude Sonnet 4.6、GPT-5.4、Gemini 2.5 Pro、Kimi K2.5。大多数需要"质量不错"的写作和分析任务,用这档就够了。每百万 token 输出约 ¥18~108。
🟢 经济档:速度快、便宜、够用就好
DeepSeek V3.2、MiniMax M2.7、Gemini 2.5 Flash、GLM 系列(部分免费)。高频、重复、对质量要求没那么高的任务。每百万 token 输出约 ¥0~8.7。
价格差距有多大?举个直观的例子:
同样让模型输出 100 万个 token 的内容,用旗舰档的 Claude Opus 大约花 ¥180,用 MiniMax M2.7 大约花 ¥8.7,用 GLM Flash 免费。差距在 20 倍到无限之间。
所以问题不是"哪个模型最好",而是"这个任务值得用多贵的模型"。
二、各系列模型的真实特长
不同模型在某些任务上有实际的差异,不是品牌偏好的问题。了解这个,才能把对的模型配给对的角色。
三、案例:搭一套智能售前系统
一家做 B2B 软件的公司,想搭一套智能售前系统,目标是让销售团队把时间集中在真正需要人工跟进的客户上,其他的重复性工作交给 AI。
这套系统需要四个功能:
① 构建产品知识库(一次性任务)
② 售前机器人:回答潜在客户的常见问题
③ 材料生成:根据不同客户写标准方案和需求举例
④ 产品初稿:虚拟助手生成产品介绍和客户案例初稿
四个功能,四种不同的需求,应该用四套不同的模型配置。逐一来看。
① 构建产品知识库
这个任务在干什么:把公司现有的产品手册、FAQ、历史成交案例、竞品对比文档……全部读进去,整理成一个 AI 能快速检索和引用的知识库。
核心需求:能处理超长文档,读得准、不遗漏重要信息。这是一次性或周期性任务,不是每次对话都触发。
推荐选择:Gemini 2.5 Flash 或 DeepSeek V3.2
为什么选这两个
Gemini 2.5 Flash 支持 100 万 token 上下文——一次性塞进去几百页的产品文档完全没问题,输出 ¥2.5 每百万 token,处理整批文档的总费用可能不到 ¥20。
DeepSeek V3.2 中文能力强,输出 ¥8 每百万 token,如果你的文档是中文为主,整理结构和提炼摘要的质量会更稳定。两个都可以,看你的文档语言决定。
❌ 不要用 Claude Opus 或 GPT-5 来做这个:太贵了,而且这个任务对模型推理深度的要求不高,主要需要的是"读多"和"整理准"。
② 售前机器人:回答常见问题
这个任务在干什么:网站访客、表单来询、展会收到的联系人……每天大量"产品支持哪些功能""多少钱""能不能对接我们的系统"这类重复性问题,用 AI 来第一时间回复。
核心需求:速度快、成本低、回答准确(基于知识库),不需要太强的创造力。这是使用频率最高的功能,一天可能触发几百次。
推荐选择:GLM Flash(免费)或 MiniMax M2.7
为什么选这两个
GLM Flash 完全免费,而且专门针对工具调用和长对话做了优化,从知识库里检索答案的准确性有保障。高频问答用免费模型,每个月直接省下几十甚至上百元的 API 费用。
如果觉得 GLM Flash 的回答措辞不够流畅,可以换 MiniMax M2.7——输出 ¥8.7 每百万 token,每次标准回复大约 300 字,费用不到 ¥0.003,一天回复 300 次也就 ¥0.9。
❌ 这里绝对不要用旗舰模型:每次回复"我们支持 XX 功能",用 Claude Opus 来回答,和用 GLM Flash 来回答,客户根本感觉不出差别,但成本差了 20 倍。
③ 材料生成:标准方案和业务需求举例
这个任务在干什么:销售要去见一个做制造业的客户,需要一份针对制造业场景的方案介绍;或者客户说"举几个跟我行业类似的业务需求案例",AI 来起草这些材料。
核心需求:中文表达要自然流畅,能理解行业背景,材料要能直接拿出去用(或者只需要销售稍微改改)。频率比问答低,但质量要求高一档。
推荐选择:Kimi K2.5 或 Claude Haiku 4.5
为什么选这两个
Kimi K2.5 的中文写作表达自然,行业感强,超长上下文可以把公司所有产品信息和客户背景都带进去再生成,不会出现"答非所问"的情况。输出约 ¥18 每百万 token,一份 2000 字的方案大约 ¥0.04。
Claude Haiku 4.5 的指令遵循能力强,格式和篇幅控制准确,如果你的材料有固定格式模板,Haiku 会严格按格式来,几乎不需要返工。输出约 ¥36 每百万 token,贵一些但材料完成度更高。
💡 这里有一个省钱的小技巧:让便宜模型先生成草稿,再用稍贵的模型做最后一遍润色。比如 GLM 先写,Kimi 再改——总成本是单独用 Claude 的三分之一,效果差不多。
④ 产品初稿:介绍文章和客户案例
这个任务在干什么:写官网上的产品功能介绍、发给重要潜在客户的深度案例材料、参加招标需要的方案文件——这些内容代表公司的专业形象,会被客户反复阅读和评估。
核心需求:逻辑严密、语言专业、结构清晰,AI 生成的内容要经得起客户的细读,不能有明显的"模板感"或事实性错误。
推荐选择:Claude Sonnet 4.6 或 GPT-5.4
为什么选这两个
Claude Sonnet 4.6 的长文写作质量是目前最稳定的,逻辑层次清晰,不会出现"前后矛盾"或者"说了半天没说到点"的问题,生成后人工修改量最少。输出约 ¥108 每百万 token。
GPT-5.4 的综合写作能力相近,如果你已经在用 OpenAI 生态,直接用这个,不用再维护两套 API。输出约 ¥108 每百万 token,两者价格接近。
💡 这类内容虽然用贵的模型,但使用频率低——一周可能只生成几篇,总成本其实不高。真正吃成本的是高频任务(问答机器人),那里用便宜模型才是关键。
四、一表看清楚:最优配置 vs 全用贵模型
以一个中等规模的 B2B 软件公司、每月正常使用量估算(问答 3000 次、材料 200 份、初稿 30 篇):
差距超过 10 倍。
更关键的是:两种配置下,客户感知到的质量几乎没有差别——因为和客户交互质量最直接相关的"产品初稿"那个环节,两种方案都用了好模型。省下来的成本,全是花在质量差别不大的地方。
五、怎么判断一个任务用什么档次的模型
不用记具体的模型名,记住两个问题就够了:
问题一:这个任务的输出,会直接给客户或重要决策者看吗?
→ 会:用好模型(均衡档或旗舰档)。这是代表公司形象的地方,省这点钱不值。
→ 不会:用便宜模型。中间过程的整理、分类、检索,客户不会看到,区别不大。
问题二:这个任务每天/每月触发多少次?
→ 高频(每天几十到几百次):成本放大效应极强,必须用便宜模型。高频场景用贵模型,是最快烧光预算的方式。
→ 低频(每周几次):用好模型,总成本也不高,不必将就。
多智能体系统的成本控制,不是省掉好模型——
而是把好模型用在刀刃上,把便宜模型用在品质感知不大的地方。
这才是经济适用,不是凑合。
这套原则不只适用于售前系统——任何多 Agent 场景都可以用同样的框架来做模型分配。下次搭系统之前,先把每个功能的任务属性想清楚,再选模型。
附:主流模型价格速查(截至 2026 年 3 月)
汇率按 1 USD ≈ ¥7.2 换算,价格随时可能变动,以各平台官网为准
💬 你现在用 OpenClaw 跑的系统,主要在哪个环节花钱最多?评论区说说,也许能帮你找到一个替换方案。
夜猫子弦月 | 白天写代码,晚上写文章,偶尔弹古琴MeowClaw Lab 出品
夜雨聆风