AI 大模型价格战杀疯了!1 块钱能买 125 万 tokens,但 90% 的人都买贵了

编者按：如果你还在用原价调用 GPT-4，或者不知道 DeepSeek 的缓存技术能省 90% 的钱，那么这篇文章可能会帮你省下几千甚至几万块。

上周，一位在某大厂做技术总监的朋友老张（化名）找到我，说他们团队每个月的 AI API 账单高达8 万多。

我帮他看了一眼账单，差点没晕过去——

他们用的全是原价，而且压根不知道有缓存复用这回事。

举个例子：他们用 Claude Opus 处理长文档，每次都重新上传上下文，一次调用几百块就出去了。

而实际上，如果用缓存复用技术，同样的调用量能省 90%。

一个月下来，至少能省7 万块。

老张听完沉默了三分钟，然后说了一句话：

"原来我们不是在搞 AI，是在给大厂送钱。"

一张表看懂各家价格（2026 年 5 月最新版）

废话不多说，先上硬核内容。

这是我花了一天时间，从各家官网、API 文档、客服咨询扒出来的最新价格表。建议先收藏，再细看。

📊 主流大模型价格对比（每百万 Token 价格，人民币）

厂商	模型	输入价格	输出价格	缓存命中	计费方式	备注
DeepSeek	V4-Pro	¥0.25（命中）/ ¥3（未命中）	¥8	¥0.25	按量	2.5 折优惠至 5/31
DeepSeek	V3	¥0.5（命中）/ ¥2（未命中）	¥8	¥0.5	按量	基础款
豆包大模型	主力模型	¥0.008	¥0.008	-	按量	1 元=125 万 tokens
通义千问	Qwen3.5-Flash	¥0.2	¥0.6	-	按量	性价比极高
通义千问	Qwen-Plus	¥1.2	¥3.6	-	按量	中高精度
通义千问	Qwen-Max	¥20	¥60	-	按量	旗舰模型
Kimi	K2.5	¥1.12（命中）/ ¥6.84（未命中）	¥28.80	¥1.12	按量	缓存命中率 90%
Kimi	K2.6	¥1.15（命中）/ ¥6.84（未命中）	¥28.80	¥1.15	按量	最新款
MiniMax	M2.7	¥2.16	¥8.64	-	按量	支持高速版
智谱 AI	GLM-4.6	¥5.00	¥15.00	-	按量	编程套餐更优惠
OpenAI	GPT-5.5	¥28.80	¥172.80	¥2.88	按量	美元计价
OpenAI	GPT-4o	¥14.40	¥86.40	¥1.44	按量	主流选择
Claude	Opus 4.7	¥36.00	¥180.00	¥45.00	按量	顶级模型
Claude	Sonnet 4.6	¥21.60	¥108.00	¥27.00	按量	平衡选择
Claude	Haiku 4.5	¥7.20	¥36.00	¥9.00	按量	轻量快速
文心一言	4.5	¥1.00	¥3.00	-	按量	百度官方
讯飞星火	Lite	免费	免费	-	按量	永久免费
讯飞星火	Pro/Max	¥2.10	¥6.30	-	按量	促销价

汇率参考：1 美元 ≈ 7.2 人民币
注：缓存命中价格指利用硬盘缓存复用上下文时的优惠价格

💰 一眼看出谁最便宜

输入价格最低（缓存命中场景）：

🥇 讯飞星火 Lite：免费（永久）
🥈 豆包大模型：¥0.008/百万 tokens
🥉 DeepSeek V4-Pro：¥0.25/百万 tokens（2.5 折活动价）

输出价格最低：

🥇 豆包大模型：¥0.008/百万 tokens
🥈 通义千问 Flash：¥0.6/百万 tokens
🥉 DeepSeek V3：¥8/百万 tokens

综合性价比最高：

DeepSeek V4-Pro
（2.5 折活动期间）：输入¥0.25 + 输出¥8，缓存命中场景无敌
豆包大模型
：输入输出都是¥0.008，1 元能买 125 万 tokens
通义千问 Flash
：输入¥0.2 + 输出¥0.6，简单任务首选

最贵型号：

Claude Opus 4.7
：输入¥36 + 输出¥180，顶级能力也顶级价格
OpenAI GPT-5.5
：输入¥28.80 + 输出¥172.80，美元计价还得考虑汇率

这些优惠和套餐，90% 的人都不知道

价格表看完了，接下来才是真正的省钱干货。

🎁 限时优惠活动

DeepSeek 2.5 折大促（⚠️ 即将结束）

优惠时间：截至 2026 年 5 月 31 日 23:59
优惠力度：原价的 25%
活动后价格：V4-Pro 将调整为原价的 1/4（依然是市场价）
建议
：趁着活动赶紧囤一些 token，或者把能迁移的任务先迁移过来

阿里云百炼新人福利

免费额度：超 5000 万 tokens
领取方式：开通百炼平台 automatically 赠送
有效期：领取后 180 天内使用
相当于
：¥700+ 的免费额度

Kimi 新用户充值优惠

充值$1 起步
累计充值5送5送5 代金券（相当于 5 折）
适合
：第一次尝试 Kimi 的用户

讯飞星火新开发者福利

注册即送 100 万 Tokens 免费额度
Lite 版本永久免费
适合
：个人开发者、学生党

📦 订阅套餐 vs 按量付费

2026 年，越来越多的厂商开始推"编程套餐"（Coding Plan），类似手机套餐的概念。

先对比一下价格：

厂商	套餐名称	月费	包含额度	超出后单价	适合人群
智谱 AI	Lite	¥49	1000 万 tokens	¥5/百万	轻度用户
智谱 AI	Pro	¥149	5000 万 tokens	¥4/百万	中度用户
智谱 AI	Max	¥469	2 亿 tokens	¥3.5/百万	重度用户
MiniMax	Starter	$10	1500 requests/5h	按量	开发者
MiniMax	Plus	$20	4500 requests/5h	按量	小团队
MiniMax	Max	$50	15000 requests/5h	按量	企业
讯飞星火	无忧版	¥3.9（首月）	不限量	-	试用用户
讯飞星火	标准版	¥49	不限量	-	个人开发者

订阅制划算还是按量划算？

给你算笔账：

假设你每天调用 API 的成本是¥50，一个月就是¥1500。

按量付费
：¥1500/月
智谱 Pro 套餐
：¥149/月（包含 5000 万 tokens）

如果你的用量在套餐内，省¥1351
如果超出，超出部分按¥4/百万计算

结论：只要你每个月 token 用量稳定在 1000 万以上，订阅制至少省 50%。

🌐 中转站到底靠不靠谱？

说到省钱，就不得不提"Token 中转站"。

这些中转站的价格，能比官方便宜30%-80%，是不是很诱人？

先看看主流中转站的价格：

中转站	折扣力度	支持模型	内部汇率	稳定性	推荐指数
云雾 AI	30%-60% off	500+ 模型	1:1	⭐⭐⭐	⭐⭐⭐⭐
APIYI	20% off	Claude/GPT/Gemini	1:1	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
PoloAPI	40%-70% off	主流大模型	1:1	⭐⭐	⭐⭐⭐
OpenRouter	动态比价	多模型聚合	浮动	⭐⭐⭐⭐	⭐⭐⭐⭐
非线智能	15%-30% off	480+ 模型	1:1	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
GitHub zzsting88	50%-80% off	Claude/GPT/Gemini	1:1	⭐	⭐

中转站的猫腻：

数据来源不明
：有些是批量采购的官方额度，有些是黑产搞来的信用卡盗刷
模型调包
：你以为是 GPT-4，实际可能是调包的小模型
数据泄露风险
：你的代码、业务逻辑、用户数据，可能已经被转手卖了
跑路风险
：小中转站说关门就关门，预充值的钱都要不回来

我的建议：

测试环境、学习用途：可以用中转站玩玩
生产环境、敏感数据：老老实实用官方
一定要用中转站：选大路货（OpenRouter、非线智能这种），别贪便宜选小站

不同场景，这样选最省钱

价格、优惠、套餐都了解了，接下来给你一些直接能用的选购方案。

场景一：个人开发者/学生（每月预算¥50 以内）

推荐组合：

主力
：讯飞星火 Lite（永久免费）
备用
：DeepSeek V3（新用户¥10 体验金）
补充
：通义千问 Flash（开通送 5000 万 tokens）

月成本：¥0-30 元

操作建议：

把和讯飞星火 Lite 能解决的任务，全部用 Lite
复杂任务用 DeepSeek，趁着 2.5 折活动多用一些
把各平台的新人羊毛薅一遍（加起来有¥200+ 免费额度）

场景二：中小团队/创业公司（每月预算¥1000-5000）

推荐组合：

主力
：豆包大模型（¥0.008/千 tokens，1 元=125 万 tokens）
补充
：通义千问 Flash（简单任务）、Kimi K2.5（长文本）
策略
：批量调用享受 50% 折扣

月成本：¥500-2000 元

操作建议：

80% 的常规任务用豆包，成本压到最低
长文本任务用 Kimi，缓存命中率能做到 90%
和云厂商谈企业折扣，一般能再谈 down 10%-20%

场景三：企业生产环境（每月预算¥1 万+）

推荐组合：

主力
：阿里云百炼（企业版，年付更优惠）
备份
：智谱 AI Coding Plan Pro（¥149/月）
特殊任务
：Claude/GPT-5（关键任务不省钱）

月成本：¥5000-20000 元

操作建议：

年付锁定价格，避免中途涨价
和厂商签框架协议，量大从优
建立多厂商备份，避免单点依赖
优化 prompts，提高缓存命中率（能省 50%-90%）

场景四：长文本/高并发场景

推荐组合：

首选
：Kimi K2.6（256K 上下文，缓存命中率 90%）
备选
：DeepSeek V4-Pro（硬盘缓存技术）

成本节省：缓存命中的情况下，比直接用便宜5-10 倍

操作建议：

把常用的系统提示词、上下文模板做好缓存
多轮对话时，尽量复用之前的上下文
长文档处理分块，每块单独调用并缓存

场景五：海外业务/国际团队

推荐组合：

主力
：Claude Sonnet 4.6（$3/百万输入，综合能力强）
备选
：GPT-4o（$2/百万输入，生态好）
策略
：订阅制比按量便宜 36 倍

月成本：$100-500 美元

操作建议：

能用订阅制就别按量（Claude 订阅比 API 便宜 36 倍）
用 Batch API 享受 50% 折扣
关注官方的限时优惠（比如 OpenAI 偶尔会送 credits）

几个立竿见影的省钱技巧

最后，分享几个我亲测有效的省钱技巧。

技巧一：缓存复用 = 印钞机

这可能是最重要的省钱技巧，没有之一。

什么叫缓存命中？

简单说，就是你第一次调用时把上下文存起来，第二次调用同样的上下文时，只需要付**10% 甚至 1%**的钱。

实际案例：

有个做代码审查的团队，每天都要审查类似的代码。

之前：每次都重新上传完整代码，一次调用¥50，一天 100 次=¥5000/月

优化后：把项目结构和规范做好缓存，每次只传差异部分，一次调用¥5，一天 100 次=¥500/月

一个月省¥45000，一年省 50 多万。

这样的案例，我见过不下 10 个。

技巧二： activity 时段调用

有些厂商在非高峰时段会有折扣，比如：

阿里云百炼：凌晨 2:00-6:00，部分模型 7 折
腾讯云：周末和节假日，部分套餐 8 折

如果你的任务不紧急，可以设置定时任务在优惠时段调用。

技巧三：模型混合使用

不要所有任务都用一个模型。

正确做法：

简单任务（摘要、分类、格式化）：用 Flash/Lite 版
中等难度（代码生成、问答）：用 Plus/Pro 版
复杂任务（推理、创作、分析）：用 Max/Opus 版

Cost 差距：可能差出10-20 倍

技巧四：批量调用攒积分

多数平台都有批量折扣：

OpenAI：50% off
Claude：50% off
阿里云百炼：50% off

如果任务不紧急，攒到一定量再批量调用，能省一半。

技巧五：年付锁定价格

长期用户，年付通常能省20%-30%。

比如智谱 AI 的 Coding Plan：

月付：¥149 × 12 = ¥1788/年
年付：¥1341/年（省 25%）

唯一的缺点：提前锁定，中途不能换。

2026 年下半年，价格还会怎么变？

最后，聊聊我对 2026 年下半年价格趋势的判断。

趋势一：价格战还会继续

DeepSeek 的 2.5 折优惠 5 月 31 日结束后，价格会回调到原价的 1/4，但依然会是市场最低之一。

其他厂商为了抢市场，一定会跟进降价。

趋势二：订阅制成为标配

按量付费适合低频用户，但对于高频用户，订阅制是必然选择。

2026 年下半年，会有更多厂商推出类似 Coding Plan 的订阅套餐。

趋势三：缓存技术成核心竞争力

2026 年，不支持缓存复用的模型，都会被市场淘汰。

缓存命中率会成为和模型能力一样重要的指标。

趋势四：中转站生存空间缩小

随着厂商打击力度加大，中转站的生存空间会越来越小。

建议：今年的中转站，能用就用，别抱长期期望。

写在最后

写这篇文章的目的，不是让大家去比价、去薅羊毛。

而是想说：

AI 时代，选择比努力更重要。

同样的任务，选对模型、用对策略，成本能差出几十倍。

我曾经见过一个团队，用错模型 + 不用缓存，一个月花了 10 万块。

后来优化了方案，同样的业务量，每个月只要 1 万块。

省下来的 9 万块，可以用来招人、做研发、搞市场，不香吗？

信息差，就是真金白银。

希望这篇文章，能帮你少走一些弯路。

如果觉得有用，欢迎转发给身边的朋友、同事、老板。

毕竟，省钱这种事，大家都喜欢。

参考来源

DeepSeek API 官方文档
火山方舟价格说明
阿里云百炼定价
Kimi 开放平台
MiniMax 定价
智谱 AI 价格
OpenAI/Claude官方定价
和讯网、36 氪、澎湃新闻等媒体报道

免责声明

注：文中价格信息整理自公开资料，截至 2026 年 5 月 27 日。实际价格以各厂商官方公告为准。中转站使用存在风险，请谨慎选择。文中涉及公司及人物均为化名，旨在探讨行业现象，不构成任何投资或职业建议。