OpenClaw·多智能体系统的模型选配指南

别让贵的模型干便宜的活多智能体系统的模型选配指南

以搭建一套智能售前系统为例 · 价格截至 2026 年 3 月

很多人一开始搭多智能体系统，犯的第一个错误都一样：

给所有的虾崽子都配最好的大脑。

不是不行，是很贵。而且没必要。

类比一下：你开了一家公司，同样的工资标准，给前台和给核心研发。前台每天接电话、答复常规问题，用不着博士学历；但写核心技术方案的人，确实需要最强的人。

多智能体系统里的模型选配，逻辑完全相同：用对的模型干对的活，贵的留给真正需要质量的地方。

这篇用一个实际的案例来拆解——搭一套智能售前系统，看每个环节应该用什么模型、为什么、大概花多少钱。

一、先搞清楚：这些模型到底有什么不同

市面上主流的大模型，按能力和成本大致可以分成三档。

不用记参数、不用看跑分，只需要理解一件事：你为什么付更多钱，你额外买到了什么。

三档模型，三种定位

🔴 旗舰档：贵，但真的强

Claude Opus 4.6、GPT-5、Gemini 3 Pro 这类。适合需要深度推理、严密逻辑、高质量创作的任务。你付的额外成本，买的是"少出错"和"举一反三"的能力。每百万 token 输出约 ¥180～220。

🟡 均衡档：质量和成本的平衡点

Claude Sonnet 4.6、GPT-5.4、Gemini 2.5 Pro、Kimi K2.5。大多数需要"质量不错"的写作和分析任务，用这档就够了。每百万 token 输出约 ¥18～108。

🟢 经济档：速度快、便宜、够用就好

DeepSeek V3.2、MiniMax M2.7、Gemini 2.5 Flash、GLM 系列（部分免费）。高频、重复、对质量要求没那么高的任务。每百万 token 输出约 ¥0～8.7。

价格差距有多大？举个直观的例子：

同样让模型输出 100 万个 token 的内容，用旗舰档的 Claude Opus 大约花 ¥180，用 MiniMax M2.7 大约花 ¥8.7，用 GLM Flash 免费。差距在 20 倍到无限之间。

所以问题不是"哪个模型最好"，而是"这个任务值得用多贵的模型"。

二、各系列模型的真实特长

不同模型在某些任务上有实际的差异，不是品牌偏好的问题。了解这个，才能把对的模型配给对的角色。

系列	真实优势	相对不足
Claude 系列	长文写作质量稳定，逻辑严密，指令遵循能力强，安全边界清晰。做需要"让客户看到"的文件首选。	价格偏贵，国内 API 访问需要工具。
GPT 系列	综合能力强，工具调用成熟，生态最完善，多模态（图文）处理稳定。	旗舰版价格最贵，国内访问同样需要工具。
Gemini 系列	超长上下文（1M token），Flash 系列性价比极高，免费额度充裕，适合处理大量文档。	中文输出质感不如 Claude，部分场景稳定性有波动。
DeepSeek	价格极低（¥2/¥8 每百万 token），中文能力强，代码和逻辑推理优秀，直接可用国内 API。	官方 API 稳定性有波动，建议用国内云厂商托管版本。
MiniMax	价格极低（约 ¥2.2/¥8.7 每百万 token），专门优化了文档处理和办公场景，对话连贯性好。	复杂推理任务弱于顶级模型，国际知名度较低。
Kimi K2.5	26.2 万 token 超长上下文，支持图文输入，中文表达自然流畅，缓存机制节省重复成本。	价格比 DeepSeek 稍贵，工具调用稳定性仍在改进。
GLM 系列	Flash 版本完全免费，专门针对 OpenClaw 长链工具调用优化，零出错率是其核心卖点。	旗舰版本能力相比国际一线模型仍有差距。

三、案例：搭一套智能售前系统

一家做 B2B 软件的公司，想搭一套智能售前系统，目标是让销售团队把时间集中在真正需要人工跟进的客户上，其他的重复性工作交给 AI。

这套系统需要四个功能：

① 构建产品知识库（一次性任务）

② 售前机器人：回答潜在客户的常见问题

③ 材料生成：根据不同客户写标准方案和需求举例

④ 产品初稿：虚拟助手生成产品介绍和客户案例初稿

四个功能，四种不同的需求，应该用四套不同的模型配置。逐一来看。

① 构建产品知识库

这个任务在干什么：把公司现有的产品手册、FAQ、历史成交案例、竞品对比文档……全部读进去，整理成一个 AI 能快速检索和引用的知识库。

核心需求：能处理超长文档，读得准、不遗漏重要信息。这是一次性或周期性任务，不是每次对话都触发。

推荐选择：Gemini 2.5 Flash 或 DeepSeek V3.2

为什么选这两个

Gemini 2.5 Flash 支持 100 万 token 上下文——一次性塞进去几百页的产品文档完全没问题，输出 ¥2.5 每百万 token，处理整批文档的总费用可能不到 ¥20。

DeepSeek V3.2 中文能力强，输出 ¥8 每百万 token，如果你的文档是中文为主，整理结构和提炼摘要的质量会更稳定。两个都可以，看你的文档语言决定。

❌ 不要用 Claude Opus 或 GPT-5 来做这个：太贵了，而且这个任务对模型推理深度的要求不高，主要需要的是"读多"和"整理准"。

② 售前机器人：回答常见问题

这个任务在干什么：网站访客、表单来询、展会收到的联系人……每天大量"产品支持哪些功能""多少钱""能不能对接我们的系统"这类重复性问题，用 AI 来第一时间回复。

核心需求：速度快、成本低、回答准确（基于知识库），不需要太强的创造力。这是使用频率最高的功能，一天可能触发几百次。

推荐选择：GLM Flash（免费）或 MiniMax M2.7

为什么选这两个

GLM Flash 完全免费，而且专门针对工具调用和长对话做了优化，从知识库里检索答案的准确性有保障。高频问答用免费模型，每个月直接省下几十甚至上百元的 API 费用。

如果觉得 GLM Flash 的回答措辞不够流畅，可以换 MiniMax M2.7——输出 ¥8.7 每百万 token，每次标准回复大约 300 字，费用不到 ¥0.003，一天回复 300 次也就 ¥0.9。

❌ 这里绝对不要用旗舰模型：每次回复"我们支持 XX 功能"，用 Claude Opus 来回答，和用 GLM Flash 来回答，客户根本感觉不出差别，但成本差了 20 倍。

③ 材料生成：标准方案和业务需求举例

这个任务在干什么：销售要去见一个做制造业的客户，需要一份针对制造业场景的方案介绍；或者客户说"举几个跟我行业类似的业务需求案例"，AI 来起草这些材料。

核心需求：中文表达要自然流畅，能理解行业背景，材料要能直接拿出去用（或者只需要销售稍微改改）。频率比问答低，但质量要求高一档。

推荐选择：Kimi K2.5 或 Claude Haiku 4.5

为什么选这两个

Kimi K2.5 的中文写作表达自然，行业感强，超长上下文可以把公司所有产品信息和客户背景都带进去再生成，不会出现"答非所问"的情况。输出约 ¥18 每百万 token，一份 2000 字的方案大约 ¥0.04。

Claude Haiku 4.5 的指令遵循能力强，格式和篇幅控制准确，如果你的材料有固定格式模板，Haiku 会严格按格式来，几乎不需要返工。输出约 ¥36 每百万 token，贵一些但材料完成度更高。

💡 这里有一个省钱的小技巧：让便宜模型先生成草稿，再用稍贵的模型做最后一遍润色。比如 GLM 先写，Kimi 再改——总成本是单独用 Claude 的三分之一，效果差不多。

④ 产品初稿：介绍文章和客户案例

这个任务在干什么：写官网上的产品功能介绍、发给重要潜在客户的深度案例材料、参加招标需要的方案文件——这些内容代表公司的专业形象，会被客户反复阅读和评估。

核心需求：逻辑严密、语言专业、结构清晰，AI 生成的内容要经得起客户的细读，不能有明显的"模板感"或事实性错误。

推荐选择：Claude Sonnet 4.6 或 GPT-5.4

为什么选这两个

Claude Sonnet 4.6 的长文写作质量是目前最稳定的，逻辑层次清晰，不会出现"前后矛盾"或者"说了半天没说到点"的问题，生成后人工修改量最少。输出约 ¥108 每百万 token。

GPT-5.4 的综合写作能力相近，如果你已经在用 OpenAI 生态，直接用这个，不用再维护两套 API。输出约 ¥108 每百万 token，两者价格接近。

💡 这类内容虽然用贵的模型，但使用频率低——一周可能只生成几篇，总成本其实不高。真正吃成本的是高频任务（问答机器人），那里用便宜模型才是关键。

四、一表看清楚：最优配置 vs 全用贵模型

以一个中等规模的 B2B 软件公司、每月正常使用量估算（问答 3000 次、材料 200 份、初稿 30 篇）：

功能	推荐模型	月费用（最优）	月费用（全用贵）
知识库构建	Gemini 2.5 Flash	≈ ¥15	≈ ¥200
问答机器人	GLM Flash（免费）	¥0	≈ ¥600
材料生成	Kimi K2.5	≈ ¥25	≈ ¥400
产品初稿	Claude Sonnet 4.6	≈ ¥80	≈ ¥200
合计	混合配置	≈ ¥120/月	≈ ¥1400/月

差距超过 10 倍。

更关键的是：两种配置下，客户感知到的质量几乎没有差别——因为和客户交互质量最直接相关的"产品初稿"那个环节，两种方案都用了好模型。省下来的成本，全是花在质量差别不大的地方。

五、怎么判断一个任务用什么档次的模型

不用记具体的模型名，记住两个问题就够了：

问题一：这个任务的输出，会直接给客户或重要决策者看吗？

→ 会：用好模型（均衡档或旗舰档）。这是代表公司形象的地方，省这点钱不值。

→ 不会：用便宜模型。中间过程的整理、分类、检索，客户不会看到，区别不大。

问题二：这个任务每天/每月触发多少次？

→ 高频（每天几十到几百次）：成本放大效应极强，必须用便宜模型。高频场景用贵模型，是最快烧光预算的方式。

→ 低频（每周几次）：用好模型，总成本也不高，不必将就。

多智能体系统的成本控制，不是省掉好模型——
而是把好模型用在刀刃上，把便宜模型用在品质感知不大的地方。
这才是经济适用，不是凑合。

这套原则不只适用于售前系统——任何多 Agent 场景都可以用同样的框架来做模型分配。下次搭系统之前，先把每个功能的任务属性想清楚，再选模型。

附：主流模型价格速查（截至 2026 年 3 月）

模型	输入（每百万 token）	输出（每百万 token）	适合场景
GLM Flash	免费	免费	高频问答、工具调用
DeepSeek V3.2	¥2	¥8	中文整理、知识库构建
MiniMax M2.7	约 ¥2.2	约 ¥8.7	对话、文档处理
Gemini 2.5 Flash	约 ¥2.2	约 ¥18	超长文档、知识库构建
Kimi K2.5	约 ¥4.3	约 ¥18	中文材料生成、图文分析
Claude Haiku 4.5	约 ¥7.2	约 ¥36	格式规范的材料生成
Claude Sonnet 4.6	约 ¥22	约 ¥108	高质量长文、对外文件
GPT-5.4	约 ¥18	约 ¥108	高质量写作、综合任务
Claude Opus 4.6	约 ¥36	约 ¥180	最复杂推理任务

汇率按 1 USD ≈ ¥7.2 换算，价格随时可能变动，以各平台官网为准

💬 你现在用 OpenClaw 跑的系统，主要在哪个环节花钱最多？评论区说说，也许能帮你找到一个替换方案。

夜猫子弦月 | 白天写代码，晚上写文章，偶尔弹古琴MeowClaw Lab 出品