
「词元(Token)是新的大宗商品。」
——英伟达 CEO 黄仁勋,GTC 2026 大会主题演讲,2026 年 3 月
作者 | 罗雅丽
最近一个月,Token 突然刷屏了。
国家数据局局长刘烈宏在中国发展高层论坛上公布:
今年 3 月,中国日均 Token(词元)调用量已突破 140 万亿——这个数字背后,是一条几乎垂直拉升的增长曲线:2024 年初,这个数字还只是 1000 亿,两年时间,增长超过千倍。
这一定调,意味着谁也无法忽视,Token,正在成为这个时代的「度量衡」。
衡量智能的多少,定义算力的价值,划定话语权的边界。就像历史上每一次度量衡的统一,背后都是一套新秩序的确立,Token 的崛起,也从未只是一个技术故事。
若将时间拨回 2016 年,当 Sennrich 与同事将 BPE 算法引入神经机器翻译领域时,他们或许未曾想到,这个看似偏技术细节的选择,会在十年后引爆一场全球性的商业革命。
最初,Token 只是论文中的一个技术术语,是工程师们为破解「字符过于细碎、整词又过于冗余」的两难困境而做出的折中方案。
没人预料到,这份技术上的妥协,有朝一日会成为智能时代的「基本粒子」。
当 Token 走出技术文档,披上商业外衣,当越来越多人开始用 Token 衡量价值、计价成本、定义算力,一场围绕「谁来制定 Token 规则」的暗战,已在全球悄然打响。
Token,究竟是如何一步步走到今天的?

为什么是 Token?
要理解 Token 为什么成为 AI 世界的基本单位,我们得先回到一个看似简单却相当本质的问题:AI 处理语言,最小的处理单元应该是什么?
最直觉的答案有两种:
一是「字符」——把每个字母、数字、标点都拆开处理;
二是「词」——把每个完整的单词作为一个单元。这两种方案在早期的 NLP 研究中确实都被广泛尝试过。但它们各自有无法绕开的硬伤。
以字符为单位,信息颗粒度极细。一句话会被拆成数十乃至数百个字符,序列长度急剧膨胀,更大的问题是,字符本身几乎不携带语义信息,「c」、「a」、「t」拆开来,任意一个都不知道它们拼在一起是「猫」。
以词为单位,情况刚好倒转:
词本身语义清晰,但单词量太多了。如果每个词都是独立的「ID」,模型的词汇表会无限膨胀。
尤其是「running」、「ran」、「runs」是同一动词的变形,以词为单位就需要分别学习,极大浪费了模型容量;而遇到一个词汇表里没见过的新词,模型就会直接「蒙圈」。
子词 Token 的出现,是对这两难困境的一次工程妥协。
1994 年,Philip Gage 提出了 BPE(Byte Pair Encoding)「字节对编码」算法——原本用于数据压缩,但它的逻辑同样契合语言的统计规律:
从单个字符出发,不断将最常出现的相邻字节对合并成新的「子词单元」,每个子词单元就是一个 Token,直到词汇表达到预设大小。
2016 年,Sennrich 等人将 BPE 正式引入神经机器翻译,效果显著。
因为 BPE 解决了早期「字符太碎」和「整词太多未知词」的两大痛点,而且算法简单、效果好。所以后来者基本都在这个框架上微调,而不是推倒重来。
比如,Google 的 SentencePiece、BERT 的 WordPiece、GPT 系列的 tiktoken,都是 BPE 的变体或同类思路。
当 2020 年 OpenAI 推出 GPT-3 时,Token 首次从技术层面的文本处理单元,跃升为连接模型、用户与商业化的核心「计量单位」,并在此后逐步成为大模型行业普遍采用的标准。
那些大模型团队们,为什么「心照不宣」地选择了 Token?
从效率上看,Token 在词汇表大小(通常 3 万到 15 万)与序列长度之间取得了平衡。
GPT-4 的词汇表约 10 万 Token,一段英文文本平均 4 个字符对应 1 个 Token——这个粒度,让 Transformer 的注意力机制既能充分捕捉语义关系,又不至于在太长的序列上失去焦点。
从语义上看,子词分词让模型能举一反三:见过「happy」,对「unhappy」、「happily」也不陌生,因为共享子词单元本身就携带了形态语义。
这种「词根共享」大幅降低了模型泛化所需的训练数据量。
从兼容性看,BPE 算法不需要预定义语言规则,任何语言的文本都可以通过同一套统计方法进行编码。
这种统计驱动的「语言无关性」,极大降低了构建多语言模型的难度,使得统一的跨语言模型成为现实。

Token,是最佳选项,
还是最小的坏选择?
然而,就在这个「不约而同的共识」正在全行业稳固的时候,有人选择了公开「泼冷水」。
OpenAI 创始团队核心成员、前特斯拉 AI 高级总监 Karpathy,以一句话定了性:Tokenization 是大模型最糟糕的部分。
2024 年 2 月,Karpathy 发布了一个长达两小时的视频教程《从头构建 GPT 分词器》,在开场就直接抛出了他的判断:
「Tokenization 是大语言模型中最糟糕的部分。」
他的批评条条命中要害。
由于 Token 是对字符的再次打包,模型实际上「看不见」字符,所以对拼写与字符级任务存在天然盲区。「strawberry」里有几个「r」?
早期的 GPT 系列其实经常答错。
此外,模型的数字运算存在天然缺陷。数字「677」可能被分词为「6」和「77」,而「978」被分成「97」和「8」——这种随机的切割方式,让模型在学习算术规律时要额外学习分词带来的噪声。
Karpathy 自己也承认,他对分词的批评是基于「更好的未来应该是什么样子」的判断,而不是「现在不应该用 Token」。
或许,正因为深知 Token 是现阶段「迫不得已」的选择,他才对每一个被浪费的 Token 格外敏感。
在 3 月的最新播客中,他反而因为使用 Token 而焦虑——他担忧的不再是 Token 该不该存在,而是如何把每一个 Token 都榨干用尽,从而驱动更多并行 Agent 的工作。
因此,在理想与现实之间,Token 仍是那条最短的妥协线。
毕竟没有更好的方案,在当前的计算范式内,Token 是代价最小的权宜之计。
字节级模型的问题在于序列爆炸。
同样一段英文,字节级表示的序列长度是 Token 级的 3 到 5 倍。而 Transformer 的计算复杂度是序列长度的平方——序列翻 4 倍,计算量翻 16 倍。
更重要的是,一旦基础设施、工程工具链、定价体系都围绕 Token 搭建起来,路径依赖就会形成巨大的护城河。
从理论物理的角度,Token 不是最优解;但从工程和生态的角度,它是此刻唯一能让整个行业协同运转的语言。
对于 Karpathy 而言,Token 是一个用来将就的工具,他清楚地知道它的天花板在哪里。而当我们把视角从计算机实验室转移到商业战场,Token 又成为了另一副面孔。

Token 计费:
AI 时代最精明的商业发明
「类 Token 付费」在 2020 年之前并非完全不存在。
在 GPT-3 之前,一些云服务商(如 Google、Amazon)提供的翻译、语音识别等 NLP API,已经采用了按「字符数」或「请求次数」等类似方式计费。
在 NLP 的学术传统里,模型是开放的。
GPT-1、GPT-2 的权重在发布后可以下载运行。直到 GPT-3 的横空出世,改变了一切——不仅是因为其能力的飞跃,更是因为它昂贵到无法再以开源形式开放。
训练 GPT-3 耗费了约 4500 万美元的算力成本,模型参数量达到 1750 亿。
高昂成本迫使 OpenAI 将「智能」封装成商品,并发明了「Token」这把尺子来衡量和售卖。
从 2020 年开始,OpenAI 以邀请制形式逐步开放 GPT-3 API,同时确立了以 Token 为核心的计价模式。
这标志着 AI 服务正式从「开源项目」迈向了「商业产品」时代,Token 也因此成为了智能时代可计量、可交易的核心单位。
选择 Token 计费,并不是一个随意的决定。在 Token 成为标准之前,业界曾探索过其他路径:
按调用次数计费虽然简单,但对长文本处理极不公平;而按时间计费则因受限于网络延迟和生成速度的波动,导致用户无法预测成本。
Token 计费的精妙之处,在于它实现了「用量与算力成本的精确对齐」——Token 数量乘以单 Token 成本,就是推理费用的直接估算。
以一个典型的中型大模型推理服务为例:
电力成本往往占据运营支出的大头,其次是 GPU 硬件的摊销与租赁,带宽与运维占比较小。其中,GPU 成本和电力成本都与 Token 生成量直接相关——Token 计费是 AI 公司与成本结构「最贴近」的定价方式。
此外,Token 计费的价值,远不止是让成本透明可算这么简单。大模型公司背后,还隐藏着一套更深的算盘。
Token 不像传统软件服务,其支持自助式即时调用,极大降低了开发者的试用与接入成本,也为 AI 服务的快速规模化落地铺平了道路。
同时,使用越深度的用户,越难迁移。
当一家企业已经围绕 GPT-4 的 Token 成本进行了系统设计和预算规划,切换到其他大模型就需要重新估算成本、测试输出质量、调整 Prompt 工程。
而最深壁垒在于,Token 将 AI 服务从「软件产品」重构为「数字能源」。
正如黄仁勋所言,谁掌握了 Token 的定义权,谁就掌握了智能时代的「电网公司」地位——无论上层应用如何百花齐放,所有的智能交互最终都必须通过 Token 这一接口进行结算。
这种「收租」模式比单纯的软件订阅制具有更深的护城河,因为它让厂商成为了整个行业不可或缺的价值结算中心。
两年前,Token「降价潮」记忆犹新。彼时的大模型行业尚处于激烈的价格战之中,并把竞争推向了极致的边际成本博弈。
然而,这种「成本博弈」却在近期迎来了拐点。智谱、阿里云、腾讯云等厂商纷纷上调 API 价格,涨幅高达 30% 以上。
这一轮涨价潮是 AI 行业的「成人礼」。它宣告了 Token 作为「度量衡」的地位正式确立。对于用户而言,红利期已经结束,真正的精细化运营时代才刚刚开始。
这是商业世界里的 Token,被定价、被买卖。但有一个问题,在这一套商业叙事里始终被有意无意地绕开:这套定价体系,是谁定的?

Token 真的带来了
AI 平权吗?
当我们正在为 Token 付费时,有一个问题鲜少被正面提出:不同语言的人,使用同一套 Token 体系,真的是在「平等」地使用 AI 吗?
从早期看,不是的。
以英文和中文为例,主流大模型的分词器处理英文时(以 GPT-4 的 tiktoken 为参考)平均 1 个 Token 对应约 4 个英文字符;
而处理中文时,1 个汉字可能对应 1 至 3 个 Token。这意味着,表达同等语义内容时,中文用户消耗的 Token 数量,可能是英文用户的 1.5 至 3 倍。
举个简单的例子。
英文:「Artificial intelligence is changing the world.」(7 个词,约 10 个 Token)
中文:「人工智能正在改变世界。」(9 个汉字,约 9-14 个 Token)
两者的语义基本对等,但 Token 消耗差距显著。在复杂的长文本场景中,这种差距更会被放大。
这不只是一个「成本高」问题——大模型公司对 Token 价格的定价权,最初牢牢掌握在以英语为核心的大模型训练数据体系中。这个标准对中文用户而言,价格不自觉偏贵。
面对这种系统性的「语言不平等」,国内大模型团队并没有「坐以待毙」。
国内大模型厂商在训练分词器时,通过大规模中文语料训练,将高频中文词汇直接作为完整 Token 纳入词汇表,提升中文表达效率。
换言之,如果能让分词器足够「理解」中文:更少的字符携带了更丰富的语义,被正确切分之后,那么中文反而是一种「Token 效率更高」的语言。
这一优势在 2024 年 OpenAI 升级 GPT-4o 时得到充分验证。
GPT-4o 更换了全新的分词器,以中文为例,同等文本 GPT-4o 的 Token 消耗比 GPT-4 减少约 1.4 倍。
这一升级显著提升了 GPT-4o 在中文市场的成本竞争力,也意味着,即便是 OpenAI,也必须承认此前的 Token 体系对中文用户并不公平。
这场「Token 平权」战争,在今年 3 月迎来了一个强有力的阶段性注脚。
当中国日均 Token 调用量突破 140 万亿,意味着什么?
当 Token 计费的市场规模足够大,足以支撑起一套自成体系的技术标准和定价体系。央视网的分析指出,中国模型的价格竞争力极其突出:
以 MiniMax M2.5 为例,达到同等能力水平的海外模型价格比中国模型高出十几倍。这个对比,让中国 AI 服务在全球市场形成了独特的价格洼地。
这种价格优势,建立在一套系统性的工程创新能力之上。
一方面,是架构设计上的「以少胜多」。
以 DeepSeek 为例,其 V3 模型总参数量达 671 亿,但得益于 MoE 稀疏激活架构,每次处理一个 Token,实际激活的参数不到总量的 6%。
相比之下,同等性能规模,成本不到 1/5。
另一方面,是推理系统的「极致压榨」。
月之暗面联合清华大学发布的 Mooncake 推理架构,提升 GPU 的有效利用率。不靠买更多 GPU,而是靠让每块 GPU 多干活,来降低单 Token 的边际成本。
类似的路径,在字节跳动豆包、百度文心等几乎所有国内主力模型的推理部署中都有体现。
国内厂商通过中文优化、规模、创新的三重合力,将 Token 经济的重心从大西洋两岸,拉向太平洋这一侧。
而当足够多的人以我国的 Token 计费标准来获取 AI 服务,那么中文世界在 AI 定价体系中的权重,就会从「溢价成本」,逐渐变成「规模优势」。

Token,新时代的游戏规则
在一群 AI 界大牛的演讲和观点中,有一个预判正在形成越来越强的共鸣:Token,将是下一个时代最核心的生产资料和价值尺度。
但聪明人却不总是一致的。
Token 真的能够「价值储藏」吗?
Token 价格在技术迭代的驱动下持续下降——GPT-4 刚发布时,每百万输入 Token 约 30 美元;两年后,降至不足 10 美元;
中国国产大模型的价格更已不足 1 元人民币。这种近乎断崖式的价格下跌,让 Token 很难成为「储值」手段。
Token 在功能上是「消耗品」而非「储备品」,这一特性与货币的核心功能「价值储藏」、「交换媒介」存在根本冲突。
尽管 Karpathy 在实践中深度使用 Token,但他从未放弃对更好替代方案的期待。
他认为,字节级模型代表着更纯粹的端到端智能,一旦计算成本问题得到解决,Token 这个「历史妥协」就应该被抛弃。
这个观点并非孤立。早在 2023 年,Meta AI 就发布了 MegaByte 架构,尝试绕开分词器,直接让模型预测原始字节序列。
到了 2024 年 12 月,Meta 联合华盛顿大学、芝加哥大学发表论文,推出了 Byte Latent Transformer(BLT)。
据研究,BLT 在字符级任务上优于 Token-based 模型。
有评价称:「Meta 刚刚杀死了 Tokenization。」这当然是夸张的说法——Token 体系今天还活得好好的,还在被大规模商业化,如今甚至被当作国家级数据指标。
但这句话如果放在更长远的历史来看:
有人已经证明了不用 Token 也能跑通,而且跑得并不差。当然,一个计量范式被取代,从来不是突然死亡,而是先被证明可以绕开,然后慢慢失去垄断,再被更好的东西替代。
Token 从技术选择到度量衡、从语言单位到商业发明的整个演变历程,有一件事变得清晰:Token 不只是一种技术方案。
它是一种时代的选择,折射出一个时代对「什么是智能的最小单元」的理解。
它之所以成立,是因为它在理想与现实之间找到了一条窄缝;
它之所以扩张,是因为商业逻辑给了它比技术更强的推力;
它之所以正在演变为一种竞争维度,是因为当智能被计量化,生产智能的能力就成了新的国力。
这些并行发生的故事,讲的不是不同的事,而是同一件事的不同侧面。
黄仁勋看到了 Token 的量——它是石油,是可以开采、定价、交易的新大宗商品;
Karpathy 看到了 Token 的质——它是妥协,是工程现实与理想的最小公约数;
国内大模型厂商看到了 Token 的权——它是规则,是谁来定义智能计量标准的话语权争夺。
无论如何,一个以 Token 为度量衡的智能时代,已经真实到来。
而在 Token 可能被取代之前,谁能用它积累足够多的工程能力、足够大的数据飞轮、足够深的产业根基,这些,才是跨越范式切换的真正底牌。
而这个过渡期的先手,我们一直在争取。



夜雨聆风