推荐给做Token生意的老板。
今年做AI的,没有不谈Token的。
模型服务按Token收费,算力平台按Token计价,甚至连政务数据资产评估都在琢磨"Token化"。但你要是真问一句:Token到底怎么计费的?计费里有多少猫腻?十个老板里有九个说不清。

今天就把这层窗户纸捅破。
1 AI的计费单位,Token
先说基本概念。
Token不是字符,不是单词,是语义碎片。一个汉字大概1-2个Token,一个英文单词大概1个Token,但具体怎么切,取决于模型的分词器。同样一句话,不同模型切出来的Token数量不一样。
这就有意思了——你拿GPT和Qwen跑同样一段话,Token消耗能差出30%以上。
计费逻辑很简单:输入Token数 × 输入单价 + 输出Token数 × 输出单价 = 你掏的钱。
行业计价标准,目前主流是:
• 输入Token:0.5-8元/百万Token(取决于模型规模)
• 输出Token:输入价格的2-5倍
• 大参数模型(100B+):单价翻5-10倍
看起来很清晰?往下看。
2 Token计费的问题在哪里?
2.1 计费的猫腻
猫腻一:多模态溢价,你不知道自己多花了多少

传一张图片进去,模型要先转成Token再处理。问题是,图片转Token的倍率是不透明的。有的平台按像素折算,一张1024×1024的图直接吃掉765个Token;有的平台按"图片块"算,同样的图只算150个Token。
同一个请求,换个平台,费用能差5倍。
语音更离谱。一分钟语音,有的算500Token,有的算2000Token,折算倍率完全取决于平台的"良心"。
猫腻二:长文本的模糊计费
超过上下文窗口的文档,需要做分片处理。但分片产生的重叠Token——每一片都要重复前面的一部分内容来保证上下文连贯——这部分重叠,绝大多数平台照常收费。
一份10万字的文档,实际有效Token可能只占70%,剩下30%全是重叠,你替平台的无能买了单。
2.2 计费规则的猫腻
猫腻三:输入输出比例的游戏
输入便宜,输出贵,这是行业共识。但"贵多少",学问很大。
有的平台输出价格是输入的2倍,有的是5倍,有的甚至8倍。最狠的玩法是:把系统提示词(System Prompt)的Token也算进输入,但系统提示词每轮都要重复计算——你聊100轮,同样的系统提示词收你100次钱。
猫腻四:缓存Token的灰色地带
现在主流平台都支持Prompt Cache,命中缓存的Token按半价甚至1/10计费。但问题来了:缓存命中率是多少?你的请求到底命中了多少?没有一家平台在账单里标注这个。
你以为是新Token在计费,其实大部分是缓存命中,但价格按新Token收——这差价去哪了?
2.3 计费的组成
拆开看,一次AI调用的费用构成是这样的:
组成部分 | 占比 | 透明度 |
模型推理计算 | 40-50% | 较高 |
上下文加载 | 20-30% | 低,重叠Token不透明 |
多模态转换 | 10-20% | 极低,折算倍率不公开 |
网络传输与排队 | 5-10% | 不透明 |
缓存命中节省 | 理论-30% | 完全不透明 |
加起来,你以为你在为模型能力付费,实际上至少有30%的费用是灰色地带。
3 Token计费的发展趋势
3.1 简单化
2026年的趋势之一,是计费规则越来越"简单"。
呼和浩特绿色算力平台、无锡Token超市,都在做同一件事:把复杂的Token计费变成"一口价"。按调用量包月、按行业场景打包、按效果付费——本质上是降低用户的计费理解成本。
这对中小企业是好事。不用算Token了,买个套餐直接用。
但简单化的背后,是平台把定价权牢牢攥在手里。你觉得简单了,实际上你失去了拆账和比价的能力。
3.2 复杂化
另一个趋势,恰恰相反:计费越来越复杂。
原因很简单——模型能力在分化。同一个平台,不同规模的模型价格差10倍,不同模态的价格差5倍,不同时段(高峰/低谷)的价格还能浮动。
未来还会出现:推理精度计费(FP16 vs INT4价格不同)、延迟计费(100ms响应 vs 1s响应价格不同)、服务质量计费(SLA保障等级不同价格不同)。
越复杂,越专业。越专业,越需要懂行的人。
3.3 简单化与复杂化的辩证关系
表面矛盾,实则统一:
对外的报价简单化,对内的成本精细化。
用户看到的是"99元/月畅享AI",平台内部跑的是毫秒级的Token级成本核算。谁能把这两层都做好,谁就能在Token生意里赚到大钱。
4 精确计费
4.1 关于计费,我们的观点
一句话:和模型官方保持一致。
模型官方怎么算Token,你就怎么算。模型官方的输入输出定价比例是多少,你就按多少来。不做加价,不做模糊折算,不做隐性收费。
这不是道德问题,是商业逻辑问题。
Token计费越透明,用户信任越深,复购率越高,平台规模越大。靠信息差赚差价的模式,在AI这个行业活不过三年。
4.2 精确计费
怎么做到精确?像搭积木一样:
第一层:Token计数精确
使用模型官方的分词器做Token计数,不做二次折算。一就是一,二就是二。
第二层:计费规则透明
每一笔调用,账单拆解到:输入Token数、输出Token数、缓存命中Token数、多模态转换Token数。用户能自己验算。
第三层:成本可追溯
每次调用的GPU算力消耗、推理时长、排队时间,全部可查。让用户知道钱花在哪了。
第四层:定价可比较
公开每百万Token的单价,和模型官方定价并列对比。加价多少、节省多少,一目了然。
做到这四层,才算真正的精确计费。

最后说一句。
Token计费这件事,看起来是技术问题,实际上是信任问题。谁先透明,谁先赢。
2026年的AI市场,拼的不只是模型能力,更是计费诚信。那些还在靠模糊计费吃差价的平台,好日子不多了。
做Token生意的老板,想清楚这一点,比多签几个客户都重要。

夜雨聆风