你每天用AI聊天,但你真的知道它怎么"算"的吗?
你有没有想过一个问题:你每次跟AI聊天,它到底怎么”算”的?
不是在问它用了什么算法、什么芯片,而是在问一个更基础的东西——它处理信息的基本单位是什么?
你去自助餐厅吃饭,不是把整盘菜一口吃下去的(我知道有人要杠一下,说日料他就可以,但请先听我说完)。你需要一口一口地吃,每一口就是一份最小的进食单位。AI处理语言也是一样的道理,它不会一口气”吃”掉你写的整段话,而是把它切成一小块一小块的,然后一块一块地”嚼”。
这一小块一小块的东西,就叫Token(词元)。把文字切成一小块一小块的刀子就是Tokenizer(分词器)。
你可能会觉得,这不就是把句子拆成词语嘛,有什么稀奇的?还真不是。AI拆分文本的方式跟人类完全不同,而且这个”不同”会直接影响到你用AI的成本和效果。理解了Token,你就能看懂AI行业的很多”潜规则”。
Token不是字数,是”算力货币”
很多人第一次接触Token这个概念的时候,会下意识地把它等同于”字数”。这个理解大方向没错,但差了挺多。
打个比方。你去超市买东西,结账的时候看的是商品价格,不是商品数量。一瓶水标价2元,一袋薯片标价8元,虽然都是”一件商品”,但花的钱完全不同。Token就相当于AI世界的”计价单位”——不是每个Token都一样”贵”,但每个Token都是一次计费的依据。
你跟AI说”你好”,可能就2个Token。你发一个emoji”🤔”,也是1个Token。你贴一段5000字的合同进去,可能要消耗8000多个Token。为什么5000个字会变成8000多个Token?因为AI切分文本的方式跟人类的”字数”统计不是一回事。好分词器比差分词器能节省约 23%~44% Token。还能保障大模型理解内容上不会因为乱拆分词组而理解的驴唇不对马嘴。
同时引出了一个很多人不知道的事实:不同语言的Token消耗量差别非常大。
中英文的Token”汇率”不一样
我之前帮一个做跨境电商的朋友算过一笔账。他有一份产品描述,中文版500字,英文版大概350个单词。同样的内容,中文版消耗了大约700个Token,英文版消耗了大约450个Token。
为什么中文更”费”Token?
因为AI的分词方式对英文更友好。英文单词本身就有天然的空格分隔,像”artificial intelligence”这样的常用词组,AI可能直接把它当成一个Token来处理。但中文没有空格,AI得先判断”人工智能”是一个词还是四个字,这个判断过程本身就需要更多的Token来表示。
大致的换算关系是这样的:英文大约4到5个字符对应1个Token,而中文大约1到2个字对应1个Token。表面上看中文好像更”省”,但实际上因为中文的信息密度更高——同样一段意思,中文可能只需要50个字,英文需要80个单词——所以综合下来,处理中文内容的Token消耗往往比英文多出30%到50%。
🦞虾说:在AI的世界里,中文比英文”贵”30%到50%。这不是歧视,是分词机制的天然差异。
这对做AI应用的人来说是个很现实的成本问题。如果你的产品主要服务中文用户,你的Token账单会比做英文产品的同行高出不少。所以你会看到很多团队在想各种办法”压缩”中文的Token消耗,后面我们聊到Prompt技巧的时候会详细讲。
说到这儿,还有一个容易被忽略的点:代码的Token消耗。程序员们注意了,你贴一段Python代码给AI看,可能比你想象中”费”得多。因为代码里有大量的缩进、空格、符号,这些东西在BPE分词中往往不会被合并成高效的Token。一段100行的Python代码,Token消耗可能超过2000。所以你会发现很多AI编程助手都在做”代码压缩”——把不必要的空行和注释去掉再发给AI,就是为了省Token。
BPE分词:AI是怎么”切菜”的
既然Token不是按字数来的,那AI到底是怎么把一段话切成Token的?
这里要提到一个叫BPE(Byte Pair Encoding)的算法。名字听着吓人,原理其实特别简单。
想象你在学一门外语。一开始你只认识单个字母,看到”hello”你得一个字母一个字母地读。但学了一段时间之后,你发现”th””he””ll””er”这些字母组合反复出现,于是你开始把它们当成一个整体来记——看到”the”不用再拆成t-h-e三个字母,直接作为一个词来理解。
BPE干的就是这件事。它从最小的单位(字节)开始,统计文本里哪些字符组合出现得最频繁,然后把最频繁的组合”合并”成一个新Token。反复做这个合并操作,直到Token的总数量达到预设的上限。
我们拿”AI正在改变我们的生活方式”这句话来演示一下。
第一步,AI看到的是一串字符:A、I、正、在、改、变、我、们、的、生、活、方、式。
第二步,AI发现”AI”这两个字符经常一起出现,于是把”A”和”I”合并成一个Token。
第三步,”正在””改变””我们””的””生活””方式”这些词组在训练数据里出现频率很高,它们各自被合并成一个Token。
最终,”AI正在改变我们的生活方式”这句话可能被切成了6到7个Token,而不是13个。
但这里有个有趣的细节:如果AI从来没见过”生活方式”这个词组,它就会把它拆成”生活”和”方式”两个Token。如果连”方式”都没见过,就继续拆成”方”和”式”。
这就是为什么有时候你会发现AI对某些专业术语或生僻词的”理解”不太好——它在切分的时候就切错了,后面的理解自然跟着跑偏。说实话,我第一次发现这个问题的时候也挺意外的,没想到一个”切词”的环节就能这么影响最终的理解效果。
🦞虾说:AI的”词汇量”决定了它的”理解力”。BPE分词就像给AI编了一本词典,词典越大,它读得越顺。
Token的经济账:输入和输出为什么价格不一样?
聊完原理,我们来说点实在的——钱。
用AI是要花钱的,计费单位就是Token。但你可能没注意过,AI的定价分”输入”和”输出”两种价格,而且差距还不小。
以DeepSeek V4为例,2026年4月底刚刚降价,我们拿降价前后的价格对比一下:
V4-Flash版本,降价后输入每百万Token 2元,输出每百万Token 8元。而V4-Pro版本降价幅度更大,原价输入12元、输出24元,降价后输入3元、输出6元,直接打了四折。
也就是说,如果你在降价前用V4-Pro,输出价格是输入的2倍;降价后这个差距拉大到了输出是输入的4倍(Flash版本)。
这里有个时间节点要注意:上面说的V4-Pro原价是2026年4月初发布时的定价,降价是4月底的事。AI行业的价格变动非常快,今天看到的定价可能下个月就变了。所以如果你在做成本预算,一定记得去官网确认最新价格。
为什么差这么多?
我之前听到一个特别精准的比喻:输入Token就像做阅读理解,输出Token就像写作文。
做阅读理解的时候,文章已经给你了,你只需要理解它、分析它、从中提取信息。这个过程虽然也要动脑子,但大部分信息已经在纸上了,你的工作是”处理”已有信息。
写作文就不一样了。你得从零开始,一个字一个字地”创造”出新的内容。每一个字都是你”生成”的,每生成一个字都要消耗脑力去思考”下一个字该写什么”。
AI也是一样的。处理你输入的内容(阅读理解)相对”便宜”,因为它主要是在已有的文本上做模式匹配和信息提取。但生成回复内容(写作文)就”贵”多了,因为它每输出一个Token,都要经过一次完整的推理计算——根据前面所有的内容,预测下一个最合适的Token是什么。
而且这个”预测”不是简单的查表,是实时的、逐个Token的计算。你让它写一篇1000字的文章,它就要做大约1500次这样的预测(中文1000字大约对应1500个Token)。每一次预测都要调动模型庞大的参数网络进行运算,算力消耗可想而知。
🦞虾说:跟AI聊天,按降价后的V4-Flash算,你”说”的每百万Token花2块,AI”回”你的每百万Token花8块。所以,学会写精简的Prompt,不只是在提效,是在省钱。
算一笔真实的账
光说理论太虚了,我们来算一笔具体的账。
假设你做了一个AI客服机器人,每天处理1000次对话。每次对话平均用户输入50个字(约80个Token),AI回复200个字(约300个Token)。再加上系统提示词(System Prompt)每次消耗约200个Token。
一天的Token消耗量大约是:1000次 ×(80 + 300 + 200)= 58万个Token。
其中输入Token约28万,输出Token约30万。
按DeepSeek V4的定价来算,一天的Token成本大约是:28万 × 2元/百万 + 30万 × 8元/百万 = 0.56 + 2.4 = 2.96元。
一天不到3块钱,一个月不到90块。
听起来很便宜对吧?但别急着下结论,实际用起来可能没那么美好。
如果你的业务规模扩大到每天1万次对话呢?一个月就是900块。每天10万次?一个月9000块。而且这还只是DeepSeek降价后的价格,如果你用的是GPT-4o,同样的用量成本可能翻5到10倍。我算完这笔账的时候自己都吓了一跳。
更关键的是,这只是一个”平均”场景。如果你的客服机器人需要处理长对话——比如用户来投诉,一来一回聊了20轮,每轮都带着完整的历史记录——那Token消耗会指数级增长。因为AI每次回复都要”重新读一遍”之前所有的聊天记录,这些历史记录就是每次都要重复计费的输入Token。
所以你会看到做AI应用的人都在想办法”省Token”。不是抠门,是真金白银的成本。
我再给你算一个更极端的例子。有个做法律AI的朋友,他们的产品需要把整份合同(通常几万字)喂给AI做条款审查。一份3万字的合同,Token消耗可能超过5万。如果每天审10份合同,光输入Token就是50万,加上AI的分析输出,一天的成本可能就要几十块甚至上百块。一个月下来,Token账单轻轻松松过万。这种场景下,哪怕把Token消耗优化10%,省下来的都是真金白银。
那些你可能信了的Token误区
聊了这么多,最后来纠正几个特别常见的误区。
误区一:Token就是字数。
前面已经解释过了,Token和字数不是一回事。中文1到2个字大约1个Token,英文4到5个字符大约1个Token,但具体到每个词,差异很大。”ChatGPT”这7个字符可能只是1个Token,而”𪚥”这个生僻字可能要消耗好几个Token。所以千万别用字数去估算Token,误差可能大到离谱。
误区二:Emoji不费Token。
很多人觉得Emoji就是个图标,应该不占什么Token吧?恰恰相反。一个简单的”😊”通常消耗1到3个Token,一些复杂的Emoji组合可能消耗更多。如果你在Prompt里塞了一堆Emoji做装饰,不仅不会让AI回答得更好,还在白白烧钱。
误区三:缓存命中是噱头。
2024年下半年开始,各大AI厂商陆续推出了”Prompt缓存”功能——如果你连续多次发送相同的系统提示词,只有第一次需要完整计费,后面的调用可以享受缓存折扣,价格通常只有正常的10%甚至更低。
有人觉得这是厂商搞的营销噱头。不是的。对于大量使用相同System Prompt的场景——比如AI客服、批量内容生成——缓存命中能省下非常可观的成本。我见过一个做批量文案生成的团队,光靠优化缓存命中率,就把月度Token成本砍掉了40%。
🦞虾说:省Token就是省钱,省钱就是省算力,省算力就是省时间。这四样东西,说白了是一回事。
下期预告
Token是AI世界最底层的概念,也是理解一切AI应用的基础。搞懂了Token,你就能看懂AI的定价逻辑、理解为什么中文AI应用成本更高、知道怎么优化Prompt来省钱。
但Token只是”砖块”。有了砖块,还得有”图纸”和”施工队”才能盖楼。这个施工队就是大语言模型——LLM。
下一篇文章,我们就来聊:大模型到底是怎么训练出来的?为什么有的模型聪明有的”笨”?训练一个GPT-4级别的模型到底要花多少钱?
你平时用AI有没有算过Token这笔账?有没有遇到过什么” unexpectedly expensive”的时刻?来评论区聊聊。
关注老黄的虾说,带你从零看懂AI。
🦞 老黄的虾说 · 源自个人分享
夜雨聆风