你以为在用AI,其实你在花钱买"数字电"
先说一个你可能不知道的事:
你每次跟AI对话,都在花一笔小到几乎看不见的钱。
这笔钱叫Token。
它不是比特币那种虚拟币。它是AI世界的最小计量单位——一段文字、一张图片、一段代码,拆成碎片之后,每一片就是一个Token。
处理1000个汉字,大约消耗600个Token。
生成1分钟AI视频,大约烧掉百万级Token。
一部AI漫剧?上亿Token。
这些Token背后,是真实的GPU算力在跑,是真实的电力在燃烧。
所以Token到底是什么?
一句话:Token就是AI时代的新货币。
模型厂商把抽象的AI能力,切成了最小单位卖给你。就像水电公司把电切成一度度卖给用户一样。
只不过这个"一度电",能帮你写代码、画图、做视频、分析财报、辅导孩子写作业。
为什么现在突然爆发了?
以前AI就是一问一答,你问一句"今天天气怎么样",消耗几个Token,成本几分钱,感觉不到。
但2026年不一样了。有三个东西同时炸开,把Token消耗量推到了一个前所未有的量级。
第一颗炸弹:AI Agent(智能体)
以前的AI是个客服窗口——你问它答,你不问它等着。
现在的AI Agent是一个会自己干活的员工。
以Openclaw小龙虾为代表,2026年开始全民"养龙虾"。你给AI一个任务,它会自己分解步骤、调用工具、反复尝试、自己检查结果。这个过程不是一次对话,而是几十次上百次的自我循环。
消耗的Token是以前的数百倍。
以前跟AI聊10分钟,消耗几千Token。现在一个Agent跑一小时任务,可能消耗几万甚至几十万Token。
这是量级的跃升。
第二颗炸弹:多模态
文字只是信息的一种形式。
图片比文字复杂几十倍,视频又比图片复杂几百倍。当AI开始处理图像、音频、视频的时候,Token消耗直接上了两个台阶。
一张高清图片 = 几千个Token。
1分钟AI视频 = 百万级Token。
一部AI漫剧 = 上亿Token。
而且多模态不只是"生成",还包括"理解"。你扔给AI一张医学影像让它诊断,或者丢一段监控视频让它分析异常,每一步都在疯狂烧Token。
第三颗炸弹:行业全面渗透
以前用AI的是程序员和极客。现在是教育、医疗、金融、制造、法律……几乎所有行业都在往里冲。
大模型从"可选玩具"变成了"必需工具"。
当一个行业的日常工作流程全部接入AI,Token消耗就不再是偶尔的支出,而是像电费一样稳定持续的月度固定成本。
三个炸弹叠加在一起,Token经济不是在增长,是在爆炸。
一个Token从键盘到GPU,到底经历了什么?
前面说了Token是什么、为什么爆发。但很多人还有一个根本问题没搞明白:
我打的字,是怎么变成算力消耗的?钱到底是花在哪里的?
这就要拆开AI的"黑盒子",看看一个Token的完整生命周期。
先分清两个概念:训练 vs 推理
很多人把这两个混为一谈,其实它们是完全不同的生意。
|---|---|---|
简单说:训练是造车,推理是开车。 车厂花几十亿把车造出来(训练),然后你每开一公里都要烧油(推理/Tokens)。你付的Token费用,全花在"推理"上。
而且推理有一个残酷的数学事实——训练一个大模型的算力,大约等于用它生成3倍于训练数据量的Token。 听起来很抽象?换个说法:
训练一个70B参数的大模型,烧掉的算力相当于用这个模型连续生成4.2万亿个Token。如果每天都有大量用户在使用,不到两年,推理的总花费就会超过当初的训练成本。
所以模型厂商不是做慈善低价卖Token给你——他们赌的是长期推理量会大到让规模效应覆盖一切。
推理的两个阶段:Prefill 和 Decode
当你按下发送键,你的问题进入AI大脑,其实经历了两个完全不同的阶段:
#### 第一阶段:Prefill(预填充)——"读懂你的问题"
你输入的一段文字,比如"帮我分析一下茅台2025年的财报",会被一次性全部送入模型。
这个过程叫Prefill。
它的特点是高度并行——GPU可以同时处理你输入的所有文字。就像一个人一眼扫完整段话,而不是逐字阅读。所以Prefill阶段的计算效率很高,GPU跑得很欢。
但它的算力消耗也不小——你输入越长,Prefill越费算力。这就是为什么很多AI产品对"上下文长度"有限制的原因之一。
#### 第二阶段:Decode(解码)——"逐字生成回答"
Prefill完成后,模型开始生成回答。
这里有个反直觉的事实:模型是一个字一个字往外蹦的。
它不是像人一样"想好了一大段再说",而是每生成一个字,都要重新计算一遍所有参数,结合前面所有的内容,决定下一个字是什么。
这个过程叫Decode。
它的特点是严格串行——下一个字必须等上一个字生成完毕才能开始。无法并行,没有捷径。
这就导致了一个关键的效率问题:
单用户请求时,GPU绝大部分时间在"等数据",而非在"计算"。
具体来说,模型每生成一个Token,需要从显存里把所有参数读一遍(假设70B参数的模型),执行的计算量其实很小。GPU的算力峰值可能达到每秒312万亿次运算,但单请求推理时实际利用率只有峰值的千分之一左右。
剩下的时间呢?在等数据从显存搬运出来。
这也是为什么批处理(同时服务多个用户)能大幅降低成本——把多个用户的请求打包一起处理,GPU就不需要闲着等了。
一张图总结Token的消费链路
```
你在键盘打字 → 文字切分成Tokens → [Prefill阶段] 并行理解你的问题
↓
[Decode阶段] 逐字生成回答
↓
每个生成的Token = 一次完整的前向计算
↓
前向计算 = GPU算力 + 显存读写 + 电力消耗
↓
所有消耗汇总 → 你的Token账单
```
你看,Token不是一个抽象概念。它是实打实的GPU运转次数,是实实在在的电表转动。
那具体是多少钱?
华泰证券2025年2月对DeepSeek做过一次实测——24小时内,DeepSeek的V3和R1推理系统处理了7760亿个Token,总成本87072美元(含GPU租赁、电力、运维全部)。
折算下来:每百万Token的实际总成本,只有约0.11美元(0.8元人民币)。
拆开看:
|--------|----------|------|
电力这块,按当前大模型推理的能效水平估算,每百万Token耗电仅0.03~0.3度。
0.8元的成本,DeepSeek卖你1~2元,运营商卖9.9元/1000万(≈0.99元/百万)。它们不亏吗?
不亏。而且赚得还不错。
DeepSeek的成本为什么能压到这么低?五个原因:
1. MoE架构(混合专家模型)
DeepSeek V4不是所有参数都参与每次计算。它有万亿级参数,但每次推理只激活其中一小部分。就像一个公司1万名员工,每次项目只调动200人。算力需求大幅下降。
2. 批处理效应
前面说了单请求时GPU利用率只有峰值的千分之一。但日均处理7760亿Token意味着同一时刻海量用户在用,成千上万个请求打包处理,GPU利用率拉到50%以上。单位成本直接降两个数量级。
3. 量化压缩
FP8甚至INT4精度代替FP16,精度损失很小,计算速度提升数倍、显存占用减半。"够用就好"代替"精益求精"。
4. 自研推理框架
DeepSeek开源了DeepEP推理引擎,专门优化跨节点通信和负载均衡。软硬件协同优化,效率不是通用方案能比的。
5. 规模效应
日均7760亿Token的处理量,固定成本摊薄到几乎忽略。多服务一个用户,边际成本趋近于零。
所以Flash每百万Token收1块钱,毛利率可能在20%~150%之间。华泰证券测过一个更夸张的数据——只要15%的用户付费,就能覆盖全部推理成本。
运营商呢?9.9元1000万Token,看起来差不多甚至更贵?
别忘了运营商有三样DeepSeek没有的东西:自有数据中心、自有带宽网络、几亿存量用户分摊固定成本。 无论批量采购API转售还是自建推理集群复用现有IDC,都有利润空间。
一年前人们还在讨论"AI太贵用不起",今天百万Token已经不到一块钱。再过一年呢?
成本下降的速度,就是行业爆发的加速度。
现在再回看那个价目表——DeepSeek每百万Token收你1块钱。你觉得贵还是便宜?
Token到底多少钱?看看价目表
不同模型的收费差很多。以当前主流价格为例:
|------|------------------------|----------|------|
注意那个差距——多模态模型的价格是DeepSeek的10倍以上。为什么?因为处理一张图片的算力消耗,相当于处理几千字文本。
这意味着什么?
意味着谁能在多模态上把成本压下来,谁就能赢。
也意味着,中国模型厂商有一个巨大的价格优势。
真正的机会在哪?
很多人听到Token经济的第一反应是:"那我买英伟达股票就行了。"
不全是。
Token经济的产业链远比"买显卡"长得多。我把它分成四层机会:
第一层:卖铲子的(算力层)
这一层最确定,但也是竞争最激烈的。
• 英伟达 — GPU垄断者,但估值已经很高了
• 中际旭创/新易盛/天孚通信 — 光模块,AI数据中心必备,业绩已经在兑现
• 华为海思/寒武纪 — 国产算力芯片,政策红利+国产替代双驱动
这层的机会在于:只要Token消耗还在增长,算力就有持续需求。但风险是估值已经被充分定价,甚至透支了未来两三年的预期。
第二层:卖水的(模型层)
这层的核心逻辑是规模效应 + 价格战。
• DeepSeek(深度求索) — 已经证明了中国AI公司的技术能力,V4系列价格打到地板,目的是抢占市场份额
• 智谱AI/月之暗面/MiniMax — 各有特色赛道,在应用端快速铺开
• 百度文心/阿里通义 — 云生态绑定优势
这层的关键看点:谁能用最低的成本提供最好的模型能力,谁就能成为Token经济的"自来水公司"。
DeepSeek的Flash版本每百万Token只收1块钱,这个价格已经低到让很多中小企业和个人开发者毫无门槛地接入AI。这不是慈善,这是战略——先用低价占领生态位,再通过规模效应赚钱。
第三层:最被低估的一层——应用层
这层才是真正的金矿,但目前也是最不确定的。
为什么?因为现在还没有出现真正的AI超级应用。
什么叫AI超级应用?就是那种一旦用了就回不去、每天都要用、愿意为它持续付费的应用。
微信是社交的超级应用。淘宝是购物的超级应用。抖音是短视频的超级应用。
AI领域目前最接近的可能是:
• AI编程助手(Cursor/Windsurf类)— 程序员已经开始离不开
• AI教育产品 — 家长愿意为孩子付费,刚需且高频
• AI医疗辅助 — 医生需要第二意见,医院需要提效
• AI内容创作工具 — 自媒体/营销/设计行业正在快速采用
但这些都还不够"超级"。
真正的超级应用应该具备三个特征:大众化(不只专业人士用)、高频率(每天用)、高黏性(不用就不舒服)。
目前还没有任何一个AI应用同时满足这三点。
这就是最大的机会所在——下一个万亿级公司,大概率诞生在这一层。
第四层:Token出海
这是一个大多数人还没意识到,但可能改变全球格局的方向。
什么意思?
中国有两样东西很便宜:绿电和高效AI模型。
把它们组合起来,就能生产出全球最具性价比的Token,然后卖到全世界。
想象一下:东南亚的一个小创业公司想用AI,它有两个选择——用OpenAI的API,贵;用一个中国的API服务,便宜一半以上,效果还差不多。
选哪个?显而易见。
这就是Token出海的本质:用中国的算力+中国的模型+中国的廉价电力,生产Token商品,出口全球。
未来全球的Token消费市场,中国厂商有机会分走很大一块蛋糕。
第五层:最被忽视的玩家——运营商的Token生意
如果说前面四层是"明牌",那这一层是大多数人还没注意到的暗线。
2026年5月中旬,发生了中国AI史上一个标志性事件——三大运营商在同一周内集体推出了Token套餐。
你没看错。卖手机话费的移动联通电信,开始卖Token了。
具体怎么回事?
#### 上海电信(5月17日推出)
面向个人和家庭用户,直接出了三档Token套餐:
|------|------|-----------|----------|
北京还有个更狠的方案——天翼龙虾云电脑,免费送2500万Tokens,用完后50块钱买一年,再给2500万。
注意那个支付方式:话费账单直接扣。
#### 北京移动(4月21日率先推出)
中国移动走得最早:
|------|------|------|
关键是它的云电脑融合套餐——内置了OpenClaw小龙虾智能体,开机就能用AI,不用自己部署任何东西。
#### 上海联通(5月16日率先推出)
最激进的是联通:
• 每位用户免费领3000万Tokens测试额度(6月底截止)
• 推出Token + AI云桌面 + Uniclaw(联通自研智能体)融合套餐
• 面向"一人公司"群体——自由职业者、自媒体人、小创业者
#### 运营商为什么要干这件事?
表面看,运营商的定价跟DeepSeek差不多,甚至没有明显价格优势。但它们打的不是价格战,是另一张牌——渠道和支付。
想一下:
你用DeepSeek的API,需要注册开发者账号、绑定银行卡或支付宝、理解API调用方式……对普通用户来说,门槛不低。
但你用运营商的Token套餐呢?你已经有手机号了,话费账户已经有了,每月交钱已经是习惯动作。 9.9元买个Token包,跟你买个流量包没有任何区别。
这就是运营商的核心优势:把Token从"开发者的工具"变成了"大众消费品"。
更深层的逻辑是——运营商正在经历一场从"流量经营"到"算力经营"的历史性转型。
回顾历史:
• 第一阶段:卖语音通话(按分钟计费)
• 第二阶段:卖流量(按GB计费)
• 第三阶段:卖算力(按Token计费)
中国移动在集团工作会议上已经明确三大主业:连接服务、算力服务、智能服务。2025年算力服务收入达898亿元,同比增长11.1%,占主营收入的20.2%。
中国联通2026年资本开支约500亿元,其中算力投资占比超过35%。
这不是试水,是all in。
#### 运营商的机会在哪?
我认为有三个:
第一,多模型通用。 你买DeepSeek的Token只能用DeepSeek的模型。但运营商的Token是"算力额度",可以对接多个模型——今天用DeepSeek写代码,明天用智谱画图,后天用月之暗面做搜索。类似你买流量包不关心用的是移动基站还是联通基站。
第二,政企市场入口。 政府机构、国企、学校要大规模使用AI,走运营商采购是最自然的路径。这些机构的IT系统本来就在运营商手上。
第三,下沉市场。 三四线城市、县城、农村的普通人可能从来没听过DeepSeek,但他们都有手机号。运营商的线下营业厅+话费渠道,能把AI能力触达到互联网公司覆盖不到的人群。
当然,运营商也有短板——技术基因弱、产品体验粗糙、响应速度慢。但别忘了,当年它们做宽带和流量包的时候也被吐槽过同样的问题,结果呢?照样赚得盆满钵满。
有时候,慢一点的人反而能赢到最后——因为它们有最大的用户基数和最强的收费管道。
中美各有什么底牌?
这个问题很关键,因为决定了长期竞争格局。
美国的优势
• 底层技术领先 — Transformer架构、训练方法、算法创新,美国仍然走在最前面
• 生态系统成熟 — 开源社区、开发者生态、工具链,几十年积累的优势
• 高端芯片垄断 — 英伟达GPU仍然是训练大模型的标配
• 资本效率高 — VC体系成熟,好项目容易拿到钱快速迭代
中国的优势
• 数据体量巨大 — 14亿人产生的数据,是训练模型的天然富矿
• 场景丰富 — 支付、物流、社交、制造……每一个垂直领域都是海量真实应用场景
• 工程化能力强 — 从0到1做创新可能不如美国,但从1到100的工程落地能力世界一流
• 成本控制极致 — DeepSeek能把价格打到这么低,不是偶然,是中国整个供应链的成本优势
• 电力基础设施 — 西北的风光发电、西部的数据中心集群,绿电成本低
一句话总结
美国赢在从0到1的创新,中国赢在从1到100的规模化。
而Token经济恰恰是一个规模游戏——谁的单位成本低,谁的用户基数大,谁就能赢。
风险是什么?别光看热闹
任何投资都有风险,Token经济也不例外。我看重三个:
风险一:价格战无底线
模型价格已经在打了,而且打得越来越狠。DeepSeek Flash每百万Token 1块钱,这个价格对很多小厂商来说已经是亏损边缘。
如果价格继续往下打,只有头部几家能撑住,中小模型公司会被洗出局。这对投资者来说是好事(赢家通吃),但对从业者来说是血海。
风险二:技术路线突变
现在所有的预测都基于Transformer架构和当前的 Scaling Law(缩放定律)。但如果出现了全新的架构呢?如果不需要这么多Token了呢?
科技史上这种事发生过无数次——你以为的趋势,可能一夜之间被新技术颠覆。保持敬畏。
风险三:监管不确定性
Token出海听起来美好,但数据跨境、内容审核、各国AI法规,这些都是实实在在的障碍。欧洲已经有AI Act了,各国都会跟进。
中国的AI产品要出海,合规成本不低。
普通人怎么理解这件事?
最后回到你最关心的问题:这跟我有什么关系?
三层理解:
第一层:作为用户。
你现在用的每一个AI工具,背后都在消耗Token。了解Token的概念,至少让你知道自己在为什么付费,哪些用法更划算。
第二层:作为投资者。
Token经济是一条长长的产业链,从芯片到模型到应用到出海,每一层都有机会。但不要all in某一层——分散布局,关注那些真正有护城河的公司。
第三层:作为时代观察者。
AI不是风口,是海啸。它的量级远超30年前的IT互联网浪潮。
而上一次互联网浪潮,造就了多少财富神话?
这一次,只会更大。
Token是新货币。算力是新石油。电力是新黄金。
夜雨聆风