Token,AI 的“度量衡”

「词元（Token）是新的大宗商品。」

——英伟达 CEO 黄仁勋，GTC 2026 大会主题演讲，2026 年 3 月

作者 | 罗雅丽

最近一个月，Token 突然刷屏了。

国家数据局局长刘烈宏在中国发展高层论坛上公布：

今年 3 月，中国日均 Token（词元）调用量已突破 140 万亿——这个数字背后，是一条几乎垂直拉升的增长曲线：2024 年初，这个数字还只是 1000 亿，两年时间，增长超过千倍。

这一定调，意味着谁也无法忽视，Token，正在成为这个时代的「度量衡」。

衡量智能的多少，定义算力的价值，划定话语权的边界。就像历史上每一次度量衡的统一，背后都是一套新秩序的确立，Token 的崛起，也从未只是一个技术故事。

若将时间拨回 2016 年，当 Sennrich 与同事将 BPE 算法引入神经机器翻译领域时，他们或许未曾想到，这个看似偏技术细节的选择，会在十年后引爆一场全球性的商业革命。

最初，Token 只是论文中的一个技术术语，是工程师们为破解「字符过于细碎、整词又过于冗余」的两难困境而做出的折中方案。

没人预料到，这份技术上的妥协，有朝一日会成为智能时代的「基本粒子」。

当 Token 走出技术文档，披上商业外衣，当越来越多人开始用 Token 衡量价值、计价成本、定义算力，一场围绕「谁来制定 Token 规则」的暗战，已在全球悄然打响。

Token，究竟是如何一步步走到今天的？

为什么是 Token？

要理解 Token 为什么成为 AI 世界的基本单位，我们得先回到一个看似简单却相当本质的问题：AI 处理语言，最小的处理单元应该是什么？

最直觉的答案有两种：

一是「字符」——把每个字母、数字、标点都拆开处理；

二是「词」——把每个完整的单词作为一个单元。这两种方案在早期的 NLP 研究中确实都被广泛尝试过。但它们各自有无法绕开的硬伤。

以字符为单位，信息颗粒度极细。一句话会被拆成数十乃至数百个字符，序列长度急剧膨胀，更大的问题是，字符本身几乎不携带语义信息，「c」、「a」、「t」拆开来，任意一个都不知道它们拼在一起是「猫」。

以词为单位，情况刚好倒转：

词本身语义清晰，但单词量太多了。如果每个词都是独立的「ID」，模型的词汇表会无限膨胀。

尤其是「running」、「ran」、「runs」是同一动词的变形，以词为单位就需要分别学习，极大浪费了模型容量；而遇到一个词汇表里没见过的新词，模型就会直接「蒙圈」。

子词 Token 的出现，是对这两难困境的一次工程妥协。

1994 年，Philip Gage 提出了 BPE（Byte Pair Encoding）「字节对编码」算法——原本用于数据压缩，但它的逻辑同样契合语言的统计规律：

从单个字符出发，不断将最常出现的相邻字节对合并成新的「子词单元」，每个子词单元就是一个 Token，直到词汇表达到预设大小。

2016 年，Sennrich 等人将 BPE 正式引入神经机器翻译，效果显著。

因为 BPE 解决了早期「字符太碎」和「整词太多未知词」的两大痛点，而且算法简单、效果好。所以后来者基本都在这个框架上微调，而不是推倒重来。

比如，Google 的 SentencePiece、BERT 的 WordPiece、GPT 系列的 tiktoken，都是 BPE 的变体或同类思路。

当 2020 年 OpenAI 推出 GPT-3 时，Token 首次从技术层面的文本处理单元，跃升为连接模型、用户与商业化的核心「计量单位」，并在此后逐步成为大模型行业普遍采用的标准。

那些大模型团队们，为什么「心照不宣」地选择了 Token？

从效率上看，Token 在词汇表大小（通常 3 万到 15 万）与序列长度之间取得了平衡。

GPT-4 的词汇表约 10 万 Token，一段英文文本平均 4 个字符对应 1 个 Token——这个粒度，让 Transformer 的注意力机制既能充分捕捉语义关系，又不至于在太长的序列上失去焦点。

从语义上看，子词分词让模型能举一反三：见过「happy」，对「unhappy」、「happily」也不陌生，因为共享子词单元本身就携带了形态语义。

这种「词根共享」大幅降低了模型泛化所需的训练数据量。

从兼容性看，BPE 算法不需要预定义语言规则，任何语言的文本都可以通过同一套统计方法进行编码。

这种统计驱动的「语言无关性」，极大降低了构建多语言模型的难度，使得统一的跨语言模型成为现实。

Token，是最佳选项，

还是最小的坏选择？

然而，就在这个「不约而同的共识」正在全行业稳固的时候，有人选择了公开「泼冷水」。

OpenAI 创始团队核心成员、前特斯拉 AI 高级总监 Karpathy，以一句话定了性：Tokenization 是大模型最糟糕的部分。

2024 年 2 月，Karpathy 发布了一个长达两小时的视频教程《从头构建 GPT 分词器》，在开场就直接抛出了他的判断：

「Tokenization 是大语言模型中最糟糕的部分。」

他的批评条条命中要害。

由于 Token 是对字符的再次打包，模型实际上「看不见」字符，所以对拼写与字符级任务存在天然盲区。「strawberry」里有几个「r」？

早期的 GPT 系列其实经常答错。

此外，模型的数字运算存在天然缺陷。数字「677」可能被分词为「6」和「77」，而「978」被分成「97」和「8」——这种随机的切割方式，让模型在学习算术规律时要额外学习分词带来的噪声。

Karpathy 自己也承认，他对分词的批评是基于「更好的未来应该是什么样子」的判断，而不是「现在不应该用 Token」。

或许，正因为深知 Token 是现阶段「迫不得已」的选择，他才对每一个被浪费的 Token 格外敏感。

在 3 月的最新播客中，他反而因为使用 Token 而焦虑——他担忧的不再是 Token 该不该存在，而是如何把每一个 Token 都榨干用尽，从而驱动更多并行 Agent 的工作。

因此，在理想与现实之间，Token 仍是那条最短的妥协线。

毕竟没有更好的方案，在当前的计算范式内，Token 是代价最小的权宜之计。

字节级模型的问题在于序列爆炸。

同样一段英文，字节级表示的序列长度是 Token 级的 3 到 5 倍。而 Transformer 的计算复杂度是序列长度的平方——序列翻 4 倍，计算量翻 16 倍。

更重要的是，一旦基础设施、工程工具链、定价体系都围绕 Token 搭建起来，路径依赖就会形成巨大的护城河。

从理论物理的角度，Token 不是最优解；但从工程和生态的角度，它是此刻唯一能让整个行业协同运转的语言。

对于 Karpathy 而言，Token 是一个用来将就的工具，他清楚地知道它的天花板在哪里。而当我们把视角从计算机实验室转移到商业战场，Token 又成为了另一副面孔。

Token 计费：

AI 时代最精明的商业发明

「类 Token 付费」在 2020 年之前并非完全不存在。

在 GPT-3 之前，一些云服务商（如 Google、Amazon）提供的翻译、语音识别等 NLP API，已经采用了按「字符数」或「请求次数」等类似方式计费。

在 NLP 的学术传统里，模型是开放的。

GPT-1、GPT-2 的权重在发布后可以下载运行。直到 GPT-3 的横空出世，改变了一切——不仅是因为其能力的飞跃，更是因为它昂贵到无法再以开源形式开放。

训练 GPT-3 耗费了约 4500 万美元的算力成本，模型参数量达到 1750 亿。

高昂成本迫使 OpenAI 将「智能」封装成商品，并发明了「Token」这把尺子来衡量和售卖。

从 2020 年开始，OpenAI 以邀请制形式逐步开放 GPT-3 API，同时确立了以 Token 为核心的计价模式。

这标志着 AI 服务正式从「开源项目」迈向了「商业产品」时代，Token 也因此成为了智能时代可计量、可交易的核心单位。

选择 Token 计费，并不是一个随意的决定。在 Token 成为标准之前，业界曾探索过其他路径：

按调用次数计费虽然简单，但对长文本处理极不公平；而按时间计费则因受限于网络延迟和生成速度的波动，导致用户无法预测成本。

Token 计费的精妙之处，在于它实现了「用量与算力成本的精确对齐」——Token 数量乘以单 Token 成本，就是推理费用的直接估算。

以一个典型的中型大模型推理服务为例：

电力成本往往占据运营支出的大头，其次是 GPU 硬件的摊销与租赁，带宽与运维占比较小。其中，GPU 成本和电力成本都与 Token 生成量直接相关——Token 计费是 AI 公司与成本结构「最贴近」的定价方式。

此外，Token 计费的价值，远不止是让成本透明可算这么简单。大模型公司背后，还隐藏着一套更深的算盘。

Token 不像传统软件服务，其支持自助式即时调用，极大降低了开发者的试用与接入成本，也为 AI 服务的快速规模化落地铺平了道路。

同时，使用越深度的用户，越难迁移。

当一家企业已经围绕 GPT-4 的 Token 成本进行了系统设计和预算规划，切换到其他大模型就需要重新估算成本、测试输出质量、调整 Prompt 工程。

而最深壁垒在于，Token 将 AI 服务从「软件产品」重构为「数字能源」。

正如黄仁勋所言，谁掌握了 Token 的定义权，谁就掌握了智能时代的「电网公司」地位——无论上层应用如何百花齐放，所有的智能交互最终都必须通过 Token 这一接口进行结算。

这种「收租」模式比单纯的软件订阅制具有更深的护城河，因为它让厂商成为了整个行业不可或缺的价值结算中心。

两年前，Token「降价潮」记忆犹新。彼时的大模型行业尚处于激烈的价格战之中，并把竞争推向了极致的边际成本博弈。

然而，这种「成本博弈」却在近期迎来了拐点。智谱、阿里云、腾讯云等厂商纷纷上调 API 价格，涨幅高达 30% 以上。

这一轮涨价潮是 AI 行业的「成人礼」。它宣告了 Token 作为「度量衡」的地位正式确立。对于用户而言，红利期已经结束，真正的精细化运营时代才刚刚开始。

这是商业世界里的 Token，被定价、被买卖。但有一个问题，在这一套商业叙事里始终被有意无意地绕开：这套定价体系，是谁定的？

Token 真的带来了

AI 平权吗？

当我们正在为 Token 付费时，有一个问题鲜少被正面提出：不同语言的人，使用同一套 Token 体系，真的是在「平等」地使用 AI 吗？

从早期看，不是的。

以英文和中文为例，主流大模型的分词器处理英文时（以 GPT-4 的 tiktoken 为参考）平均 1 个 Token 对应约 4 个英文字符；

而处理中文时，1 个汉字可能对应 1 至 3 个 Token。这意味着，表达同等语义内容时，中文用户消耗的 Token 数量，可能是英文用户的 1.5 至 3 倍。

举个简单的例子。

英文：「Artificial intelligence is changing the world.」（7 个词，约 10 个 Token）

中文：「人工智能正在改变世界。」（9 个汉字，约 9-14 个 Token）

两者的语义基本对等，但 Token 消耗差距显著。在复杂的长文本场景中，这种差距更会被放大。

这不只是一个「成本高」问题——大模型公司对 Token 价格的定价权，最初牢牢掌握在以英语为核心的大模型训练数据体系中。这个标准对中文用户而言，价格不自觉偏贵。

面对这种系统性的「语言不平等」，国内大模型团队并没有「坐以待毙」。

国内大模型厂商在训练分词器时，通过大规模中文语料训练，将高频中文词汇直接作为完整 Token 纳入词汇表，提升中文表达效率。

换言之，如果能让分词器足够「理解」中文：更少的字符携带了更丰富的语义，被正确切分之后，那么中文反而是一种「Token 效率更高」的语言。

这一优势在 2024 年 OpenAI 升级 GPT-4o 时得到充分验证。

GPT-4o 更换了全新的分词器，以中文为例，同等文本 GPT-4o 的 Token 消耗比 GPT-4 减少约 1.4 倍。

这一升级显著提升了 GPT-4o 在中文市场的成本竞争力，也意味着，即便是 OpenAI，也必须承认此前的 Token 体系对中文用户并不公平。

这场「Token 平权」战争，在今年 3 月迎来了一个强有力的阶段性注脚。

当中国日均 Token 调用量突破 140 万亿，意味着什么？

当 Token 计费的市场规模足够大，足以支撑起一套自成体系的技术标准和定价体系。央视网的分析指出，中国模型的价格竞争力极其突出：

以 MiniMax M2.5 为例，达到同等能力水平的海外模型价格比中国模型高出十几倍。这个对比，让中国 AI 服务在全球市场形成了独特的价格洼地。

这种价格优势，建立在一套系统性的工程创新能力之上。

一方面，是架构设计上的「以少胜多」。

以 DeepSeek 为例，其 V3 模型总参数量达 671 亿，但得益于 MoE 稀疏激活架构，每次处理一个 Token，实际激活的参数不到总量的 6%。

相比之下，同等性能规模，成本不到 1/5。

另一方面，是推理系统的「极致压榨」。

月之暗面联合清华大学发布的 Mooncake 推理架构，提升 GPU 的有效利用率。不靠买更多 GPU，而是靠让每块 GPU 多干活，来降低单 Token 的边际成本。

类似的路径，在字节跳动豆包、百度文心等几乎所有国内主力模型的推理部署中都有体现。

国内厂商通过中文优化、规模、创新的三重合力，将 Token 经济的重心从大西洋两岸，拉向太平洋这一侧。

而当足够多的人以我国的 Token 计费标准来获取 AI 服务，那么中文世界在 AI 定价体系中的权重，就会从「溢价成本」，逐渐变成「规模优势」。

Token，新时代的游戏规则

在一群 AI 界大牛的演讲和观点中，有一个预判正在形成越来越强的共鸣：Token，将是下一个时代最核心的生产资料和价值尺度。

但聪明人却不总是一致的。

Token 真的能够「价值储藏」吗？

Token 价格在技术迭代的驱动下持续下降——GPT-4 刚发布时，每百万输入 Token 约 30 美元；两年后，降至不足 10 美元；

中国国产大模型的价格更已不足 1 元人民币。这种近乎断崖式的价格下跌，让 Token 很难成为「储值」手段。

Token 在功能上是「消耗品」而非「储备品」，这一特性与货币的核心功能「价值储藏」、「交换媒介」存在根本冲突。

尽管 Karpathy 在实践中深度使用 Token，但他从未放弃对更好替代方案的期待。

他认为，字节级模型代表着更纯粹的端到端智能，一旦计算成本问题得到解决，Token 这个「历史妥协」就应该被抛弃。

这个观点并非孤立。早在 2023 年，Meta AI 就发布了 MegaByte 架构，尝试绕开分词器，直接让模型预测原始字节序列。

到了 2024 年 12 月，Meta 联合华盛顿大学、芝加哥大学发表论文，推出了 Byte Latent Transformer（BLT）。

据研究，BLT 在字符级任务上优于 Token-based 模型。

有评价称：「Meta 刚刚杀死了 Tokenization。」这当然是夸张的说法——Token 体系今天还活得好好的，还在被大规模商业化，如今甚至被当作国家级数据指标。

但这句话如果放在更长远的历史来看：

有人已经证明了不用 Token 也能跑通，而且跑得并不差。当然，一个计量范式被取代，从来不是突然死亡，而是先被证明可以绕开，然后慢慢失去垄断，再被更好的东西替代。

Token 从技术选择到度量衡、从语言单位到商业发明的整个演变历程，有一件事变得清晰：Token 不只是一种技术方案。

它是一种时代的选择，折射出一个时代对「什么是智能的最小单元」的理解。

它之所以成立，是因为它在理想与现实之间找到了一条窄缝；

它之所以扩张，是因为商业逻辑给了它比技术更强的推力；

它之所以正在演变为一种竞争维度，是因为当智能被计量化，生产智能的能力就成了新的国力。

这些并行发生的故事，讲的不是不同的事，而是同一件事的不同侧面。

黄仁勋看到了 Token 的量——它是石油，是可以开采、定价、交易的新大宗商品；

Karpathy 看到了 Token 的质——它是妥协，是工程现实与理想的最小公约数；

国内大模型厂商看到了 Token 的权——它是规则，是谁来定义智能计量标准的话语权争夺。

无论如何，一个以 Token 为度量衡的智能时代，已经真实到来。

而在 Token 可能被取代之前，谁能用它积累足够多的工程能力、足够大的数据飞轮、足够深的产业根基，这些，才是跨越范式切换的真正底牌。

而这个过渡期的先手，我们一直在争取。