适用于所有通过 API 或订阅使用 AI 大模型的用户(开发者、内容创作者、企业团队)。
先理解一件事:Token 的钱花在哪
很多人以为 AI 的费用主要在"你问的那句话"上,其实不全对。
以一段 10 轮对话为例,实际 Token 消耗是这样的:
第 1 轮:你说 100 token → AI 回 500 token → 本轮消耗 600
第 2 轮:历史 600 + 你说 100 → AI 回 500 → 本轮消耗 1200
第 3 轮:历史 1200 + 你说 100 → AI 回 500 → 本轮消耗 1800
...
第 10 轮:历史 5400 + 你说 100 → AI 回 500 → 本轮消耗 6000
10 轮对话的总消耗不是 6000,而是 600+1200+1800+...+6000 = 33000 token。
其中你的提问只占 1000 token(10 轮 × 100),但系统为了让 AI "记住"上下文,每轮都要把之前的全部对话重新传一遍。这才是 Token 消耗的大头。
搞清楚这个,后面的省钱思路就顺了。
方法一:控制对话轮次(省 50-80%)
做法
一个任务一个窗口,做完就新开。不要在一个窗口里聊 50 轮,前面的历史每轮都在烧钱。
一次把需求说清楚。与其挤牙膏式地补充"哦对了,还要加个 XX""格式改成 XX",不如第一次就把需求、约束、格式、示例全部给出。
5 轮对话改成 2 轮,Token 消耗直接砍掉 60% 以上。
需要继续深入时,带摘要开新窗口。把前一段对话的结论(而非全文)复制到新窗口,比在旧窗口追问便宜得多。
效果
一个典型的编程任务,从"10 轮反复调试"变成"1 轮清晰描述 + 1 轮微调",Token 消耗从 33000 降到约 3600,省了 89%。
方法二:选对模型(省 3-10 倍)
不是所有任务都需要最强模型。
模型分级
同样一个"帮我把这段英文翻译成中文"的任务:
用 Claude Opus:约 $0.03 用 GPT-4o mini:约 $0.001
差 30 倍,翻译质量几乎一样。
省钱套路:两段式
便宜模型跑初稿、提信息、清洗数据 结果丢给贵模型精修、做决策
比如:用 DeepSeek 提取 10 篇文章的要点 → 把要点喂给 Claude Opus 写综合分析报告。总成本比全程用 Opus 省 80%。
方法三:控制输出长度(省 20-40%)
输出 Token 通常比输入贵 3-6 倍。AI 不限制的话默认就往长了写,你不说停它就不停。
做法
在提示词里加一句限制就行:
"≤ 200 字" "最多 5 条,每条一句话" "一句话总结" "只给代码,不要解释" "只说要改什么,不要重复整个文件"
对比
同一个问题"解释 JavaScript 的闭包":
不限制输出:约 800 token(详细解释 + 3 个代码示例 + 注意事项) 加"≤ 100 字,一个代码示例":约 200 token
省了 75%,而且对于已有基础的开发者,短回答反而更有效率。
方法四:利用 Prompt Caching(省 50-90%)
这个功能很多人不知道,但其实各家平台都有。
原理
Claude 和 OpenAI 都支持 Prompt Caching:如果你多次请求中 system prompt(系统提示词)相同,平台会缓存这部分内容,后续请求只按缓存价格计费。
Claude:缓存命中价格是正常价格的 10% OpenAI:**10-50%**,因模型而异(GPT-5.4 缓存折扣高达 90%,GPT-4o 为 50%)
怎么用
把固定内容放在 system prompt 里:项目背景、代码规范、角色设定、输出格式要求等不变的内容,统一放在 system prompt 开头。
保持 system prompt 前缀一致:缓存是前缀匹配的,前面内容一致就能命中。
API 调用时开启缓存参数(各平台文档有说明)。
效果
如果你的 system prompt 有 2000 token(比如包含项目文档和规范),每次调用都命中缓存:
不缓存:每次都付 2000 token 的输入费 缓存:首次付全价,后续只付 200-1000 token 的价格
日调用 100 次的场景下,一个月省几十到上百美元。
不太有用的"省 Token 技巧"
网上常见的一些说法,实际效果一般:
总结:优先级清单
按性价比排序:
前 3 项做到就能省 70% 以上,不用改代码,改习惯就行。
最贵的 Token 不是模型的定价,是你用 10 轮对话做了 2 轮就能完成的事。
夜雨聆风