五分钟技术趣谈 | “词元”来了:AI对话到底在“花”什么?

2026年3月23日，国家数据局正式官宣：人工智能领域的“Token”，中文标准名称定为“词元”。

这一命名不仅终结了“代币”“通证”等跨场景译名的混乱，更标志着AI核心概念从技术“黑盒”走向了标准化的全民表达。今天，我们用五分钟时间，以“词元”为钥匙，读懂大模型最底层的运行逻辑。

作者 : 何颖

单位：中国移动杭州研发中心

专业课程体系化设计，夯实平台应用根基

正名：为什么是“词元”？

在此之前，Token 在不同领域译法各异：区块链中常译作 “代币”，网络安全中多称 “令牌”，但在人工智能自然语言处理场景中，这些译法均不适用。

“词元” 的命名精准贴合AI技术本质：

“词”：点明其语言文本属性，是大模型处理语言信息的载体；

“元”：代表基本处理单元，如同计算机的 “字节”、化学的 “元素”，是模型处理语言时的基础计量颗粒。

这一译名，首次用中文清晰定义了 AI 处理语言时的 “基础粒子”，让科研、产业与大众沟通有了统一术语。

深潜：词元到底是什么？

要理解词元，首先要打破一个误区：词元≠字，词元≠词。很多人以为AI是直接读懂汉字的，其实不然。

人类视角：看到的是连贯语句、语义情感与真实需求。

机器视角：无法直接理解文字符号，只能对数字进行运算。

文字转为数字的核心环节，就是词元化（Tokenization）。

图1 词元化示意图

可以把这个过程比作“过安检”：你输入的文字是待检行李，模型自带的分词器（Tokenizer）是安检机，它会将整段文字按模型预设规则拆分、编码，转换成一个个词元，再映射为数字编号。大模型的所有推理、计算，都基于这些数字编号完成；输出时，再将数字反向还原为文字，呈现到你的屏幕上。

纠偏：为什么词元数不等于字数？

这是最令用户困惑的地方：为什么我只发了几百字，系统却提示消耗了上千个词元？

核心逻辑在于：词元的切分是为了计算效率，而非人类语法。

英文中：高频词（如 the）通常是1个词元；而复杂词汇（如 unbreakable）可能会被拆解为 un+break+able 多个词元；

中文中：无天然空格分隔，切分逻辑更灵活。1个汉字通常对应 1–2 个词元，但并非固定对应关系。

简单来说：词元是模型为高效计算 “自定义” 的颗粒。同样的句子，用不同模型处理，生成的词元数量也会有差异。

本质：智能时代的“结算单位”

词元是大模型的 “基本运算工时”，也因此成为 AI 产业的价值计量与结算标尺，国家数据局将其定义为 “智能时代的价值锚点”，具备三类核心计量属性：

1、算力计量：直接反映AI算力与资源消耗。我国日均词元调用量已突破140万亿，是衡量AI产业活跃度的核心指标；

2、服务计价：主流模型均以词元计费。你提问、它回答，本质上你买的是“词元加工服务”；

3、性能上限：模型上下文窗口长度、推理速度、对话记忆能力，最终都受限于词元的处理与承载能力。

图景：像使用水电一样使用AI

未来的 AI 生态中，词元将成为全民熟知的基础计量单位，如同 “电表的度数、水表的立方”。行业关注点也会从 “模型参数规模”，转向 “词元服务供给能力”。

随着技术成熟与产业规模化，词元的使用成本会持续下降，获取方式将像水电一样便捷普惠。企业与个人无需关心底层模型的训练细节，只需像缴纳水电费一样，按需使用、按量结算 AI 服务。

总结

“ Token” 正式定名 “词元”，看似只是一次术语规范，实则是中国AI产业从野蛮生长走向标准化发展的重要里程碑。

它终结了跨场景术语混用的乱象，让科研、教学、商业协作拥有统一语言；更标志着我国在AI领域，逐步掌握核心术语定义权与产业规则话语权。

日均140万亿词元的调用规模背后，是一个以数据为燃料、以词元为度量、以智能为核心的全新数字经济形态，正加速成型。

— end —

供稿 | 中国移动杭州研发中心

编辑 | 王思博

初审 | 陈童童

复审 | 边瑞