乐于分享
好东西不私藏

每日AI知识点:Token(词元)

每日AI知识点:Token(词元)

上一篇文章我们介绍了 OpenClaw(“小龙虾” )的 Skill(技能),让 AI 拥有了 “动手干活” 的能力。在使用“小龙虾”的过程中,经常听到说很烧钱、烧了多少“Token”。据国家数据局相关部门披露,2026年3月,中国日均Token调用量已突破140万亿,两年增长超千倍。
那么,Token到底是什么呢?今天我们来聊一聊。
1、Token是什么?
一句话总结:Token 就是 AI 处理文本时的”最小计量单位”——它不是字,也不是词。
人类说话、写字靠汉字和单词,组合成一句话,而AI大模型理解世界,靠的是一个个最小的语义单元——也就是Token。
一个Token可以是一个汉字、一个英文单词、一个标点符号,甚至是一个常见词组的一部分。

在很长一段时间里,Token没有一个统一的中文翻译——搞区块链的人叫它“代币”,做网络安全的人叫它“令牌”,编译器开发者叫它“标记”,同一个英文词在不同的圈子里各叫各的。

2026年3月,国家数据局局长刘烈宏在中国发展高层论坛2026年年会上正式宣布,大模型处理信息的最小可计量单元(Token)的中文标准译名确定为“词元”

全国科学技术名词审定委员会随后发布公告,面向全社会发布试用。

2、Token 是怎么切出来的?
Token 不是随便切的,背后有一套叫 Tokenizer(分词器) 的算法。最常见的算法是 BPE(Byte Pair Encoding,字节对编码)

用通俗语言解释BPE的原理,你有一本超级词典,编词典的过程是这样的:

第一步:初始化把文本拆成最小的单元——单个字符。比如”苹果”变成 ["苹", "果"]

第二步:找高频组合统计所有文本中,哪两个字符经常粘在一起出现。发现”苹果”这个词出现了 100 万次,那就把”苹果”合并成一个新 Token。

第三步:不断合并反复执行:找出现频率最高的相邻组合 → 合并成新Token。

为什么这样设计?

  • 高频词直接整存:”苹果”、”人工智能”、”中国”这种常见组合,可能就是一个Token,节省空间

  • 生僻词拆开存:”饕餮”这种罕见词,可能拆成["饕", "餮"] 两个Token

  • 英文优势:英文常用词如 “the”、”and” 通常各是一个Token,所以英文更”省Token”

3、Token长什么样?

很多平台现在提供了Token可视化工具,你可以直观看到一句话被切成几块。

举个例子,输入:“AI正在改变世界”,不同模型的切法可能不同:

GPT-4 的视角:["AI""正在""改变""世界"]Llama 3的视角:["A""I""正在""改变""世界"]DeepSeek-V3 的视角:["AI""正在""改变""世界"]
不同模型的Tokenizer不一样,所以同样的文本,在GPT-4、Llama 3DeepSeek-V3里算出来的token数可能不同。
  • 海外大模型(如Gemini、GPT系列):平均1个汉字约消耗1.4~1.6个Token
  • 国产大模型(如DeepSeek、GLM、通义千问等):平均1个汉字约消耗0.55~0.6个Token(国产大模型对中文进行了深度”整词压缩”)。
4、Token 是怎么算钱的?

为什么 AI 聊天有”字数限制”,为什么长对话会越用越贵?

因为 AI 的计费核心就是Token数 × 单价

计费公式:

总费用=(输入token数 + 输出token数) × 每token单价
输入 token:你发给AI大模型的所有内容(包括你的问题 + 历史对话 + 系统提示)
输出 token:AI大模型回复你的内容
截至2026 年 4 月,国内外主流大模型的 Token 收费价格对比如下表:(单位:元 / 百万 Token,按 1 美元≈7.2 元换算,均为官方 API 公开价,不含代理 / 中转溢价)
模型系列
具体版本
输入价格
输出价格
出品方
备注
海外模型
OpenAI
GPT-4o
10.8 元
43.2 元
OpenAI
全能旗舰,适合复杂推理、多模态场景
OpenAI
GPT-4o Mini
0.72 元
2.88 元
OpenAI
轻量版,适合简单对话、批量处理
Anthropic
Claude Opus 4.6
36 元
180 元
Anthropic
企业级旗舰,超长文档处理能力强
Anthropic
Claude Sonnet 4.6
21.6 元
108 元
Anthropic
平衡性能与成本,适合企业级通用场景
Google
Gemini 2.5 Pro
18 元
90 元
Google
多模态旗舰,代码 / 逻辑推理表现突出
Google
Gemini 2.5 Flash
2.16 元
18 元
Google
高性价比轻量版,适合高频调用
国内模型
DeepSeek
DeepSeek-V3.2
2.02 元
8.06 元
深度求索
极致性价比,缓存命中可低至 0.5 元 / 百万输入 Token
通义千问
Qwen 3.5 Flash
0.2 元
2 元
阿里云
超低价普惠版,适合批量文本处理
通义千问
Qwen 3.5 Plus
0.8 元
4.8 元
阿里云
旗舰级性能,价格仅为海外同档的 1/10
文心一言
ERNIE 4.5 Turbo
0.8 元
3.2 元
百度
国内主流商用模型,免费额度友好
豆包
Doubao 3.5
0.8 元
3.2 元
字节跳动
个人开发者友好,轻量场景成本极低
MiniMax
M2.5
0.3 元
1.2 元
MiniMax
国内性价比高,支持 1M 上下文
5、怎么省 Token?

既然Token=钱,那怎么在日常使用大模型中省Token?

技巧一:精简提示词(Prompt)

  • 删掉废话和客套话

  • 用英文写技术类提示词(通常更省Token)

  • 避免重复描述

技巧二:控制上下文长度

  • 长对话定期”新开窗口”或总结历史

  • 不要把整本书直接贴进去,先分段处理

技巧三:利用系统提示(System Prompt)

  • 把固定要求写在系统提示里,不需要每次重复

  • 系统提示只算一次 token,不会随对话累积

技巧四:选择合适的模型

  • 简单任务用小模型(省Token且更快)

  • 复杂任务再用大模型