你以为AI免费?有人靠你的每一次对话赚钱

你以为在用AI，其实你在花钱买"数字电"

先说一个你可能不知道的事：

你每次跟AI对话，都在花一笔小到几乎看不见的钱。

这笔钱叫Token。

它不是比特币那种虚拟币。它是AI世界的最小计量单位——一段文字、一张图片、一段代码，拆成碎片之后，每一片就是一个Token。

处理1000个汉字，大约消耗600个Token。

生成1分钟AI视频，大约烧掉百万级Token。

一部AI漫剧？上亿Token。

这些Token背后，是真实的GPU算力在跑，是真实的电力在燃烧。

所以Token到底是什么？

一句话：Token就是AI时代的新货币。

模型厂商把抽象的AI能力，切成了最小单位卖给你。就像水电公司把电切成一度度卖给用户一样。

只不过这个"一度电"，能帮你写代码、画图、做视频、分析财报、辅导孩子写作业。

为什么现在突然爆发了？

以前AI就是一问一答，你问一句"今天天气怎么样"，消耗几个Token，成本几分钱，感觉不到。

但2026年不一样了。有三个东西同时炸开，把Token消耗量推到了一个前所未有的量级。

第一颗炸弹：AI Agent（智能体）

以前的AI是个客服窗口——你问它答，你不问它等着。

现在的AI Agent是一个会自己干活的员工。

以Openclaw小龙虾为代表，2026年开始全民"养龙虾"。你给AI一个任务，它会自己分解步骤、调用工具、反复尝试、自己检查结果。这个过程不是一次对话，而是几十次上百次的自我循环。

消耗的Token是以前的数百倍。

以前跟AI聊10分钟，消耗几千Token。现在一个Agent跑一小时任务，可能消耗几万甚至几十万Token。

这是量级的跃升。

第二颗炸弹：多模态

文字只是信息的一种形式。

图片比文字复杂几十倍，视频又比图片复杂几百倍。当AI开始处理图像、音频、视频的时候，Token消耗直接上了两个台阶。

一张高清图片 = 几千个Token。

1分钟AI视频 = 百万级Token。

一部AI漫剧 = 上亿Token。

而且多模态不只是"生成"，还包括"理解"。你扔给AI一张医学影像让它诊断，或者丢一段监控视频让它分析异常，每一步都在疯狂烧Token。

第三颗炸弹：行业全面渗透

以前用AI的是程序员和极客。现在是教育、医疗、金融、制造、法律……几乎所有行业都在往里冲。

大模型从"可选玩具"变成了"必需工具"。

当一个行业的日常工作流程全部接入AI，Token消耗就不再是偶尔的支出，而是像电费一样稳定持续的月度固定成本。

三个炸弹叠加在一起，Token经济不是在增长，是在爆炸。

一个Token从键盘到GPU，到底经历了什么？

前面说了Token是什么、为什么爆发。但很多人还有一个根本问题没搞明白：

我打的字，是怎么变成算力消耗的？钱到底是花在哪里的？

这就要拆开AI的"黑盒子"，看看一个Token的完整生命周期。

先分清两个概念：训练 vs 推理

很多人把这两个混为一谈，其实它们是完全不同的生意。

	训练（Training）	推理（Inference）

|---|---|---|

干什么的	教AI"学会"本事	AI用学会的本事"干活"
发生几次	一次（或偶尔迭代）	每次用户使用都在发生
谁花的钱	模型厂商（DeepSeek/OpenAI等）	用户（你和我）
成本特征	固定投入，一次性烧钱	随用量线性增长，持续花钱
算力公式	约6×参数量×训练Token数	约2×参数量（每个输出Token）

简单说：训练是造车，推理是开车。 车厂花几十亿把车造出来（训练），然后你每开一公里都要烧油（推理/Tokens）。你付的Token费用，全花在"推理"上。

而且推理有一个残酷的数学事实——训练一个大模型的算力，大约等于用它生成3倍于训练数据量的Token。 听起来很抽象？换个说法：

训练一个70B参数的大模型，烧掉的算力相当于用这个模型连续生成4.2万亿个Token。如果每天都有大量用户在使用，不到两年，推理的总花费就会超过当初的训练成本。

所以模型厂商不是做慈善低价卖Token给你——他们赌的是长期推理量会大到让规模效应覆盖一切。

推理的两个阶段：Prefill 和 Decode

当你按下发送键，你的问题进入AI大脑，其实经历了两个完全不同的阶段：

#### 第一阶段：Prefill（预填充）——"读懂你的问题"

你输入的一段文字，比如"帮我分析一下茅台2025年的财报"，会被一次性全部送入模型。

这个过程叫Prefill。

它的特点是高度并行——GPU可以同时处理你输入的所有文字。就像一个人一眼扫完整段话，而不是逐字阅读。所以Prefill阶段的计算效率很高，GPU跑得很欢。

但它的算力消耗也不小——你输入越长，Prefill越费算力。这就是为什么很多AI产品对"上下文长度"有限制的原因之一。

#### 第二阶段：Decode（解码）——"逐字生成回答"

Prefill完成后，模型开始生成回答。

这里有个反直觉的事实：模型是一个字一个字往外蹦的。

它不是像人一样"想好了一大段再说"，而是每生成一个字，都要重新计算一遍所有参数，结合前面所有的内容，决定下一个字是什么。

这个过程叫Decode。

它的特点是严格串行——下一个字必须等上一个字生成完毕才能开始。无法并行，没有捷径。

这就导致了一个关键的效率问题：

单用户请求时，GPU绝大部分时间在"等数据"，而非在"计算"。

具体来说，模型每生成一个Token，需要从显存里把所有参数读一遍（假设70B参数的模型），执行的计算量其实很小。GPU的算力峰值可能达到每秒312万亿次运算，但单请求推理时实际利用率只有峰值的千分之一左右。

剩下的时间呢？在等数据从显存搬运出来。

这也是为什么批处理（同时服务多个用户）能大幅降低成本——把多个用户的请求打包一起处理，GPU就不需要闲着等了。

一张图总结Token的消费链路

```

你在键盘打字 → 文字切分成Tokens → [Prefill阶段] 并行理解你的问题

↓

[Decode阶段] 逐字生成回答

↓

每个生成的Token = 一次完整的前向计算

↓

前向计算 = GPU算力 + 显存读写 + 电力消耗

↓

所有消耗汇总 → 你的Token账单

```

你看，Token不是一个抽象概念。它是实打实的GPU运转次数，是实实在在的电表转动。

那具体是多少钱？

华泰证券2025年2月对DeepSeek做过一次实测——24小时内，DeepSeek的V3和R1推理系统处理了7760亿个Token，总成本87072美元（含GPU租赁、电力、运维全部）。

折算下来：每百万Token的实际总成本，只有约0.11美元（0.8元人民币）。

拆开看：

成本项	约占比例	金额

|--------|----------|------|

GPU算力/硬件	~72%	~0.58元
电力+制冷	~13%	~0.10元
运维+网络	~15%	~0.12元
合计	100%	~0.8元/百万Token

电力这块，按当前大模型推理的能效水平估算，每百万Token耗电仅0.03~0.3度。

0.8元的成本，DeepSeek卖你1~2元，运营商卖9.9元/1000万（≈0.99元/百万）。它们不亏吗？

不亏。而且赚得还不错。

DeepSeek的成本为什么能压到这么低？五个原因：

1. MoE架构（混合专家模型）

DeepSeek V4不是所有参数都参与每次计算。它有万亿级参数，但每次推理只激活其中一小部分。就像一个公司1万名员工，每次项目只调动200人。算力需求大幅下降。

2. 批处理效应

前面说了单请求时GPU利用率只有峰值的千分之一。但日均处理7760亿Token意味着同一时刻海量用户在用，成千上万个请求打包处理，GPU利用率拉到50%以上。单位成本直接降两个数量级。

3. 量化压缩

FP8甚至INT4精度代替FP16，精度损失很小，计算速度提升数倍、显存占用减半。"够用就好"代替"精益求精"。

4. 自研推理框架

DeepSeek开源了DeepEP推理引擎，专门优化跨节点通信和负载均衡。软硬件协同优化，效率不是通用方案能比的。

5. 规模效应

日均7760亿Token的处理量，固定成本摊薄到几乎忽略。多服务一个用户，边际成本趋近于零。

所以Flash每百万Token收1块钱，毛利率可能在20%~150%之间。华泰证券测过一个更夸张的数据——只要15%的用户付费，就能覆盖全部推理成本。

运营商呢？9.9元1000万Token，看起来差不多甚至更贵？

别忘了运营商有三样DeepSeek没有的东西：自有数据中心、自有带宽网络、几亿存量用户分摊固定成本。 无论批量采购API转售还是自建推理集群复用现有IDC，都有利润空间。

一年前人们还在讨论"AI太贵用不起"，今天百万Token已经不到一块钱。再过一年呢？

成本下降的速度，就是行业爆发的加速度。

现在再回看那个价目表——DeepSeek每百万Token收你1块钱。你觉得贵还是便宜？

Token到底多少钱？看看价目表

不同模型的收费差很多。以当前主流价格为例：

模型	输入价格（每百万Token）	输出价格	定位

|------|------------------------|----------|------|

DeepSeek V4 Flash	1元	2元	性价比之王
DeepSeek V4 Pro	3元	6元	均衡型
主流多模态模型	30元+	60元+	图像/视频处理

注意那个差距——多模态模型的价格是DeepSeek的10倍以上。为什么？因为处理一张图片的算力消耗，相当于处理几千字文本。

这意味着什么？

意味着谁能在多模态上把成本压下来，谁就能赢。

也意味着，中国模型厂商有一个巨大的价格优势。

真正的机会在哪？

很多人听到Token经济的第一反应是："那我买英伟达股票就行了。"

不全是。

Token经济的产业链远比"买显卡"长得多。我把它分成四层机会：

第一层：卖铲子的（算力层）

这一层最确定，但也是竞争最激烈的。

• 英伟达 — GPU垄断者，但估值已经很高了

• 中际旭创/新易盛/天孚通信 — 光模块，AI数据中心必备，业绩已经在兑现

• 华为海思/寒武纪 — 国产算力芯片，政策红利+国产替代双驱动

这层的机会在于：只要Token消耗还在增长，算力就有持续需求。但风险是估值已经被充分定价，甚至透支了未来两三年的预期。

第二层：卖水的（模型层）

这层的核心逻辑是规模效应 + 价格战。

• DeepSeek（深度求索） — 已经证明了中国AI公司的技术能力，V4系列价格打到地板，目的是抢占市场份额

• 智谱AI/月之暗面/MiniMax — 各有特色赛道，在应用端快速铺开

• 百度文心/阿里通义 — 云生态绑定优势

这层的关键看点：谁能用最低的成本提供最好的模型能力，谁就能成为Token经济的"自来水公司"。

DeepSeek的Flash版本每百万Token只收1块钱，这个价格已经低到让很多中小企业和个人开发者毫无门槛地接入AI。这不是慈善，这是战略——先用低价占领生态位，再通过规模效应赚钱。

第三层：最被低估的一层——应用层

这层才是真正的金矿，但目前也是最不确定的。

为什么？因为现在还没有出现真正的AI超级应用。

什么叫AI超级应用？就是那种一旦用了就回不去、每天都要用、愿意为它持续付费的应用。

微信是社交的超级应用。淘宝是购物的超级应用。抖音是短视频的超级应用。

AI领域目前最接近的可能是：

• AI编程助手（Cursor/Windsurf类）— 程序员已经开始离不开

• AI教育产品 — 家长愿意为孩子付费，刚需且高频

• AI医疗辅助 — 医生需要第二意见，医院需要提效

• AI内容创作工具 — 自媒体/营销/设计行业正在快速采用

但这些都还不够"超级"。

真正的超级应用应该具备三个特征：大众化（不只专业人士用）、高频率（每天用）、高黏性（不用就不舒服）。

目前还没有任何一个AI应用同时满足这三点。

这就是最大的机会所在——下一个万亿级公司，大概率诞生在这一层。

第四层：Token出海

这是一个大多数人还没意识到，但可能改变全球格局的方向。

什么意思？

中国有两样东西很便宜：绿电和高效AI模型。

把它们组合起来，就能生产出全球最具性价比的Token，然后卖到全世界。

想象一下：东南亚的一个小创业公司想用AI，它有两个选择——用OpenAI的API，贵；用一个中国的API服务，便宜一半以上，效果还差不多。

选哪个？显而易见。

这就是Token出海的本质：用中国的算力+中国的模型+中国的廉价电力，生产Token商品，出口全球。

未来全球的Token消费市场，中国厂商有机会分走很大一块蛋糕。

第五层：最被忽视的玩家——运营商的Token生意

如果说前面四层是"明牌"，那这一层是大多数人还没注意到的暗线。

2026年5月中旬，发生了中国AI史上一个标志性事件——三大运营商在同一周内集体推出了Token套餐。

你没看错。卖手机话费的移动联通电信，开始卖Token了。

具体怎么回事？

#### 上海电信（5月17日推出）

面向个人和家庭用户，直接出了三档Token套餐：

档位	月费	Token额度	折合单价

|------|------|-----------|----------|

轻享版	9.9元	1000万/月	约1元/百万
畅享版	29.9元	4000万/月	约0.75元/百万
尊享版	49.9元	8000万/月	约0.62元/百万

北京还有个更狠的方案——天翼龙虾云电脑，免费送2500万Tokens，用完后50块钱买一年，再给2500万。

注意那个支付方式：话费账单直接扣。

#### 北京移动（4月21日率先推出）

中国移动走得最早：

类型	费用	说明

|------|------|------|

算力次包	5.99元	按次购买，已有云电脑的用户可用
月包	24.99元/月	1000万Tokens/月

关键是它的云电脑融合套餐——内置了OpenClaw小龙虾智能体，开机就能用AI，不用自己部署任何东西。

#### 上海联通（5月16日率先推出）

最激进的是联通：

• 每位用户免费领3000万Tokens测试额度（6月底截止）

• 推出Token + AI云桌面 + Uniclaw（联通自研智能体）融合套餐

• 面向"一人公司"群体——自由职业者、自媒体人、小创业者

#### 运营商为什么要干这件事？

表面看，运营商的定价跟DeepSeek差不多，甚至没有明显价格优势。但它们打的不是价格战，是另一张牌——渠道和支付。

想一下：

你用DeepSeek的API，需要注册开发者账号、绑定银行卡或支付宝、理解API调用方式……对普通用户来说，门槛不低。

但你用运营商的Token套餐呢？你已经有手机号了，话费账户已经有了，每月交钱已经是习惯动作。 9.9元买个Token包，跟你买个流量包没有任何区别。

这就是运营商的核心优势：把Token从"开发者的工具"变成了"大众消费品"。

更深层的逻辑是——运营商正在经历一场从"流量经营"到"算力经营"的历史性转型。

回顾历史：

• 第一阶段：卖语音通话（按分钟计费）

• 第二阶段：卖流量（按GB计费）

• 第三阶段：卖算力（按Token计费）

中国移动在集团工作会议上已经明确三大主业：连接服务、算力服务、智能服务。2025年算力服务收入达898亿元，同比增长11.1%，占主营收入的20.2%。

中国联通2026年资本开支约500亿元，其中算力投资占比超过35%。

这不是试水，是all in。

#### 运营商的机会在哪？

我认为有三个：

第一，多模型通用。 你买DeepSeek的Token只能用DeepSeek的模型。但运营商的Token是"算力额度"，可以对接多个模型——今天用DeepSeek写代码，明天用智谱画图，后天用月之暗面做搜索。类似你买流量包不关心用的是移动基站还是联通基站。

第二，政企市场入口。 政府机构、国企、学校要大规模使用AI，走运营商采购是最自然的路径。这些机构的IT系统本来就在运营商手上。

第三，下沉市场。 三四线城市、县城、农村的普通人可能从来没听过DeepSeek，但他们都有手机号。运营商的线下营业厅+话费渠道，能把AI能力触达到互联网公司覆盖不到的人群。

当然，运营商也有短板——技术基因弱、产品体验粗糙、响应速度慢。但别忘了，当年它们做宽带和流量包的时候也被吐槽过同样的问题，结果呢？照样赚得盆满钵满。

有时候，慢一点的人反而能赢到最后——因为它们有最大的用户基数和最强的收费管道。

中美各有什么底牌？

这个问题很关键，因为决定了长期竞争格局。

美国的优势

• 底层技术领先 — Transformer架构、训练方法、算法创新，美国仍然走在最前面

• 生态系统成熟 — 开源社区、开发者生态、工具链，几十年积累的优势

• 高端芯片垄断 — 英伟达GPU仍然是训练大模型的标配

• 资本效率高 — VC体系成熟，好项目容易拿到钱快速迭代

中国的优势

• 数据体量巨大 — 14亿人产生的数据，是训练模型的天然富矿

• 场景丰富 — 支付、物流、社交、制造……每一个垂直领域都是海量真实应用场景

• 工程化能力强 — 从0到1做创新可能不如美国，但从1到100的工程落地能力世界一流

• 成本控制极致 — DeepSeek能把价格打到这么低，不是偶然，是中国整个供应链的成本优势

• 电力基础设施 — 西北的风光发电、西部的数据中心集群，绿电成本低

一句话总结

美国赢在从0到1的创新，中国赢在从1到100的规模化。

而Token经济恰恰是一个规模游戏——谁的单位成本低，谁的用户基数大，谁就能赢。

风险是什么？别光看热闹

任何投资都有风险，Token经济也不例外。我看重三个：

风险一：价格战无底线

模型价格已经在打了，而且打得越来越狠。DeepSeek Flash每百万Token 1块钱，这个价格对很多小厂商来说已经是亏损边缘。

如果价格继续往下打，只有头部几家能撑住，中小模型公司会被洗出局。这对投资者来说是好事（赢家通吃），但对从业者来说是血海。

风险二：技术路线突变

现在所有的预测都基于Transformer架构和当前的 Scaling Law（缩放定律）。但如果出现了全新的架构呢？如果不需要这么多Token了呢？

科技史上这种事发生过无数次——你以为的趋势，可能一夜之间被新技术颠覆。保持敬畏。

风险三：监管不确定性

Token出海听起来美好，但数据跨境、内容审核、各国AI法规，这些都是实实在在的障碍。欧洲已经有AI Act了，各国都会跟进。

中国的AI产品要出海，合规成本不低。

普通人怎么理解这件事？

最后回到你最关心的问题：这跟我有什么关系？

三层理解：

第一层：作为用户。

你现在用的每一个AI工具，背后都在消耗Token。了解Token的概念，至少让你知道自己在为什么付费，哪些用法更划算。

第二层：作为投资者。

Token经济是一条长长的产业链，从芯片到模型到应用到出海，每一层都有机会。但不要all in某一层——分散布局，关注那些真正有护城河的公司。

第三层：作为时代观察者。

AI不是风口，是海啸。它的量级远超30年前的IT互联网浪潮。

而上一次互联网浪潮，造就了多少财富神话？

这一次，只会更大。

Token是新货币。算力是新石油。电力是新黄金。