AI越便宜,你反而越不知道花了多少钱
小张说,这个月AI账单又爆了。
他老板盯着报表看了很久,只问了一句:
“不是说模型越来越便宜了吗?”
确实。过去三年,Token价格下降超过300倍。
按理说,AI应该越来越省钱。
但现实恰好相反——越来越多企业发现,AI成本不降反升,甚至开始侵蚀利润。
问题不在价格。
问题在于:你以为你买的是Token,其实你买的是一整套不透明的计算过程。
一、AI不是变贵了,而是变“不可控”了
很多人对 AI 有一个直觉判断:Token越便宜,成本越低。
这个逻辑在纸面上成立,在现实中却失效了。因为 Token 从来就不是价值单位,它只是一个记账单位。
就像打车。你以为自己按“每公里价格”付费,但真正决定你花多少钱的,是路径、拥堵、绕路,以及司机的选择。AI也是一样。
你看到的是Token单价,真正决定成本的,是一整套你看不见的机制。
换句话说,AI不是在涨价,而是在增加不确定性。
二、同样的Token,可能对应完全不同的“智力”
一个被很多人忽略的事实是:Token是一样的,但“智力含量”不是。

行业里有一个指标叫“reads-per-edit”,用来衡量模型在一次输出前读取和思考的程度。有数据表明,这个指标在某些版本中从6.6下降到2.0,降幅达到67%。
这意味着什么?
模型的名字没变,价格没变,但它的“思考深度”已经被压缩了。再叠加系统默认开启的“自适应推理”,模型会在你不知情的情况下,降低计算强度,换取更快响应。
这就是好多遇到的模型“降智”问题。
一开始你很难察觉。直到某一天,你发现代码变浅、回答变糊、错误变多,才意识到问题。
这时候再回头看,其实很简单:
你买的是Token,但你真正依赖的,是模型有没有认真思考。
一句话总结:你买的是Token,赌的是智力。
三、真正决定成本的,是那个你看不见的变量
如果说“智力含量”影响的是结果质量,那么“缓存命中率”决定的,就是成本本身。

在理想情况下,大量 Token 会命中缓存,价格极低。但只要进入复杂场景——长上下文、多轮对话、Agent调用——缓存一旦失效,成本就会迅速放大。
问题在于,这个变量不在你手里。
缓存策略、命中规则、失效时机,全部由平台控制。你看到的只是最终账单,而不是过程。
于是就出现一种很典型的体验:
同样的任务,这次便宜,下次翻倍;同样的用法,这个平台省钱,换一个平台成本失控。
Token价格是透明的,但成本结构是黑箱的。
所以真实情况是:Token在贬值,但不确定性在涨价。
四、国内AI计费,本质是“规则不统一的黑箱”
如果只是技术变量复杂,还可以接受。更大的问题,是计费体系本身的混乱。
表面上大家都在卖Token,但实际规则完全不同:有的按Token,有的按请求次数,有的按资源点,还有的按套餐窗口。
看几个例子:
MiniMax Token Plan Starter:29元/月,600次调用,5小时窗口。问题来了——”600次调用”是什么意思?一次调用消耗多少Token?不知道。
阿里云Coding Plan:90000次请求/月,200元。听着很多,但”请求次数”和”Token数量”是两码事。一次请求可能消耗100 Token,也可能消耗10000 Token。
扣子(Coze):资源点制。1500分/天免费。1资源点=0.001元。但资源点怎么换算成Token?取决于你用的模型、调用的工具、知识库检索量……一套算下来,用户已经晕了。
腾讯混元:Credits配额 + Token Plan批发包。39元买35M Token,599元买650M Token。终于有Token数量了,但这个Token是输入还是输出?缓存怎么算?还是黑箱。
DeepSeek:最纯粹,¥2/MTok输入,¥8/MTok输出。但缓存命中率多少?要不要单独买?没说。
这些单位之间无法直接换算,也无法提前预估。结果就是——你根本算不清成本,也无法横向比较。
于是决策变成了一件很奇怪的事:
不是选最优解,而是选“看起来最便宜”的方案。
但真正使用之后才发现,账单完全不是那么回事。
更极端的情况是,有用户付费升级,却遇到限速甚至服务波动。给出的解释是算力紧张,但在付费之前,这些信息并没有被明确告知。
这就带来一个根本性的问题:你付的钱,买到的到底是能力,还是一个“看情况”的服务?
一句话点破:当计费变成黑箱,AI就不再是工具,而是一种不确定性。
五、真正的分水岭:卖Token,还是卖结果
就在国内还在讨论“Token能不能再便宜一点”的时候,另一种模式已经开始出现。
有些厂商不再强调Token,而是直接按会话、按任务、按Agent执行收费。用户购买的,不再是算力本身,而是“完成一件事的能力”。
Anthropic Claude Max:$20-200/月,按5小时会话窗口订阅。用户买的是”不间断思考时间”,不是Token数量。
Microsoft Azure SRE Agent:0.025/任务秒。这是真正的托管式按会话付费。
这背后是一个关键变化:
从卖资源,转向卖结果。

在旧模式下,用户自己承担一切不确定性——用多少、花多少、效果如何,都要自己负责。而在新模式下,这些被打包成一个服务,由平台来吸收波动。
所以真正的差异,不在计费单位,而在责任分配。
说得更直白一点:以前卖的是“你用了多少”,现在卖的是“你有没有做成”。
最后
AI行业现在最大的问题,不是贵。
而是——你根本不知道,它什么时候开始不值。
Token会越来越便宜,但真正稀缺的,从来不是算力,而是可预期的结果、可控制的成本,以及一个值得信任的系统。
当价格变得足够低,问题就不再是“值不值”,而是“你能不能看懂它到底在怎么算”。
当你看不懂AI账单的时候,你就已经在为它付出代价了。
Tip
专注于 AI 智能体实践与技术演进深度思考。主理人拥有资深技术背景与心理学视角,致力于通过真实实验(2025年更新361篇实操记录)探索 LLM、RAG 与 Agentic Workflow 的落地边界。

夜雨聆风