月活 1 万、AI 账单 26 万:我们用"三把刀"砍掉了 43%
读完这篇,你脑子里会装下一张图:成本公式 · 三把刀 · 一段路由代码 · 5 句口诀。下次老板问"AI 是不是太烧钱",你能 3 分钟讲明白省钱的路径。

一、那张让 CFO 找上门的账单
朋友的 SaaS 公司上线了一个企业 RAG 客服助手。
两个月后,CFO 拿着账单直接走到了 CTO 工位:
• 月活:1 万人 • 日均问答:3.2 万次 • 当月模型账单:¥26 万 • 超预算:+42%
更崩溃的是产品同学的那句话:
"功能没变化,调用量也没暴涨啊。"
打开 Trace 一看真相——调用量没涨,是每次调用都太贵了。
那次复盘会上,CTO 在白板写了一句话:
"模型便宜,不等于账单便宜。"
这就是本文的灵魂。
二、为什么"单价便宜"也能被账单干翻?
很多团队盯着的是这个:
"GPT-4o-mini 每百万 token 才 ¥1.x,多便宜啊。"
但他们忽略了真正的成本公式——记住这个5 项公式:
月成本 = 请求数
× ( 输入 token × 输入单价
+ 输出 token × 输出单价
- 缓存命中折扣 )单价只是一个变量。真正决定账单的,是另外 3 件事:
1. 每次输入塞了多少 token(Prompt + RAG 上下文) 2. 所有请求是不是都打到最贵的模型 3. 有没有缓存和批处理
90% 的成本失控,都是这 3 件事。
三、记忆点①:成本三角形——"长、贵、重"
把账单失控的真凶画成一个三角形,记成**"长、贵、重"**:
💰 账单失控
/ | \
/ | \
长 贵 重
(上下文长) (模型贵) (输出重)
压缩↓ 路由↓ 限长↓• 长:上下文太长 → 砍 (Prompt 压缩 + Top-K 减半) • 贵:全打贵模型 → 分 (小/中/大三层路由) • 重:输出没限 → 限 (max_output_tokens 强制约束)
砍、分、限——这就是省钱三把刀。
四、记忆点②:三把刀,按顺序砍
🔪 第一刀:砍(无损降本 10%~35%)
最容易被低估,但最安全。
• System Prompt 抽离成模板,不再每次重复发送 • RAG Top-K 从 10 降到 4(配合 rerank,质量基本不掉) • 输出长度强制约束(客服 256~512 token 足够)
省钱不一定要换模型,先砍上下文。
🔪 第二刀:分(最大收益 20%~50%)
绝对不要让所有请求都走 GPT-4o。把模型当成饭店点菜,按需点。
def route_model(intent, complexity):
if intent in {"faq", "policy_lookup"}:
return "small-model" # 麦当劳
if complexity < 0.7:
return "mid-model" # 必胜客
return "large-model" # 米其林(留给真正复杂的)实操中常见结构:70% 小模型 + 20% 中模型 + 10% 大模型。
你不会用米其林米饭做盖浇饭,凭啥每个请求都给 GPT-4o?
🔪 第三刀:缓存 + 批处理(命中场景 15%~60%)
• 高重复前缀(系统指令 + 知识库块)开 Prompt Cache • 非实时任务(审核、批量摘要)走批窗口聚合
同样的话不该付两次钱。
五、记忆点③:那家公司是怎么砍到 14.8 万的?
他们没换模型供应商、没改架构,只做了 3 件事:
# ① 分(路由):70/20/10
if intent in {"faq", "policy_lookup"}:
model = "small-model"
elif confidence < 0.7:
model = "mid-model"
else:
model = "large-model"
# ② 砍(压缩):上下文截断
prompt = trim_prompt(prompt, max_tokens=2800)
# ③ 限(出口):输出长度封顶
answer = call_llm(model, prompt, max_output_tokens=350)两周后看数据:
| ¥26 万 | ¥14.8 万 | ⬇️ 43% | |
省了 11.2 万/月 = 一年 134 万——足够多招一个高级工程师。
六、记忆点④:5 个最常见的坑
❌ 坑 1:上来就换便宜模型
对策:先做"无损优化"(砍、缓存、限长),换模型放最后。
口诀:先剪枝,再换刀。
❌ 坑 2:RAG Top-K 默认 10
对策:Top-K 从 3 开始,按指标加。
口诀:召回越多越贵,噪声还越多。
❌ 坑 3:输出长度不约束
对策:业务侧强制 max_output_tokens。
口诀:输出 token 通常贵 3~5 倍——不限长 = 自己烧自己。
❌ 坑 4:没按租户/场景拆账
对策:建 FinOps 看板,按租户/路由/模型核算。
口诀:不分账,永远找不到失控点。
❌ 坑 5:降本不做回归
对策:每次降本都跑离线评测 + 线上灰度。
口诀:砍了成本砍了准确率,比不优化更亏。
七、记忆点⑤:5 句口诀,贴在工位上
1. 模型便宜,不等于账单便宜 2. 省钱三把刀:砍、分、限 3. 70/20/10 路由法则 4. 输出 token 是贵的,必须限长 5. 降本必带灰度 + 评测,否则等于赌博
八、那位 CFO 后来又找了一次
——这次是给团队点赞,还顺手批了下半年的预算。
他在邮件里说了一句让我印象很深的话:
"我以前以为 AI 是花钱的,现在我才知道——AI 不是花得多就好,而是看你把每一块钱花在哪里。"
模型每 6 个月就便宜一次。
但能不能用好它,是工程能力的事,不是采购能力的事。
九、结尾:你的 AI 账单,能砍 30% 吗?
把这三个问题问一遍:
1. 我所有请求是不是都打到了最贵的模型? 2. 我每次 RAG 的 Top-K 是不是 ≥ 8? 3. 我的输出长度是不是没限?
只要有一个"是",账单里就有 30% 是白烧的。
💡 原始笔记:成本优化:Token 经济学
觉得有用就转发给正在管 AI 预算的同事和领导——
让他们知道:AI 的成本,从来不是模型决定的,是工程决定的。
夜雨聆风