一个人让 AI 写了一晚上代码,早上起来账单 2300 美元[1]。
Meta 内部有员工一个月烧了 2810 亿个 token,排行榜被火速关掉[2]。还有客户因为没给 Claude 设使用上限,单月账单砸出了五亿美元[2]。
这些数字看起来很疯,但它们指向的不是"AI 太贵了"——事实上 token 正在以每年 9 到 900 倍的速度降价[1]。它们指向的是一个更基本的问题:同样一个 token,在不同人手里做的生意完全不同。
NVIDIA 在 GTC 2026 上给出了一个框架,叫 Tokconomics——Token 经济学。它把 AI 行业的商业模式分成四种。不是按定价方式分,而是按"你把 token 变成了什么"来分。
这四种模式正在同时发生,它们之间的利润差距比任何人想象的都大。
第一种:直接把 token 当商品卖
最直白的生意:你建好 GPU 集群,跑着大模型,客户按 token 用量付费。Together AI、Fireworks、Deep Infra 就是这一行的典型。
这行的数据很夸张。Together AI 平台的 token 消耗量从每天 100 亿涨到了 5 万亿——一年翻了 500 倍[3]。
但利润极薄。
当前 AI API 市场最低价和最高价之间差了 300 倍:最便宜的是 Qwen 3.5 9B,每百万输入 token 只要 5 美分;最贵的 Claude Opus 4.7 要 15 美元[3]。Google 的 Gemini 2.0 Flash 把价格压到 0.1 美元。开源模型正在把底线推到趋近于零——DeepSeek V4 Flash 用 Apache 2.0 公开权重后,定价锚从"比 GPT-4 便宜多少"变成了"比自建推理贵多少"。
硬件端也在配合降价。NVIDIA 自己的数据显示,Blackwell 架构对比上一代 Hopper,每 Token 成本降至 1/35[6]。软件层同样在加速:vLLM 在 6 个月内实现了 8 倍性能提升[6]。
卖 token 的人面临的是一个残酷的算术:成本在降,但价格降得更快。这行的护城河不在模型,在于规模效应和运维效率——谁的 GPU 利用率更高、谁的散热更好、谁离便宜电力更近。它越来越像大宗商品生意,不像科技生意。
第二种:打造一个 AI原生 产品
不是卖 token 本身,而是把 token 包装成一个完整产品卖给用户。Perplexity 做 AI 搜索,Cursor 做 AI 编程——它们从第一天就围绕 AI 设计整个产品。
Cursor 是这条路上走得最远的。它最初只是一个套了 API 的代码编辑器,但今年 5 月发布的 Composer 2.5 暴露了它的真实野心:不换 Kimi K2.5 底座,把 85% 的计算量砸进后训练——用带文本反馈的定向 RL、25 倍合成数据、Sharded Muon 优化器三项技术,在 SWE-Bench Multilingual 上追平 Opus 4.7(79.8% vs 80.5%),成本只有对手的约 1/10[4]。每百万输入 Token 只要 0.5 美元,输出 2.5 美元。
Cursor 自研模型的动机很直白:它一边要和 Anthropic 的 Claude Code 竞争,一边还要向 Anthropic 付推理成本。自己训模型不是技术路线选择,是摆脱被动的必要动作。Cursor 内部 35% 的合并 PR 已由自主 Agent 创建,下一步是和 SpaceXAI 在 Colossus 2 上训练 10 倍计算量的大模型[4]。
这个方向的含义很深:AI 原生产品不只是"调 API + 写界面",它需要深入到模型训练层才能建立真正的壁垒。Cursor 的护城河不是前端体验,而是它对代码生成这个垂直任务的深度优化和成本控制。
Lovable 走了另一条路。这家成立不到两年的公司 ARR 突破了 4 亿美元,95% 的收入来自个人用户每月 20 美元的订阅[5]。146 名员工,人均年产出近 300 万美元。它卖的是"让不会写代码的人也能做应用"这个体验。
但 Lovable 也暴露了 AI 原生产品的一个原生矛盾:用户在为 AI 的失败迭代买单。Reddit 上最常见的抱怨是 AI 声称修好了 bug、花掉 20 个 credit,运行后 bug 还在。有经验的用户总结了一条逃生路线:30-50 个 prompt 做原型,导出 GitHub,转到 Cursor 或 Claude Code 继续开发。
AI 原生产品的护城河不是 token 成本,也不是模型能力——这两样都在快速商品化。护城河在于产品对特定工作流的理解深度。Cursor 理解程序员怎么 debug,Lovable 理解非技术用户怎么描述需求。这种理解一旦沉淀成产品细节,竞品抄起来比抄 API 定价慢得多。
第三种:往已有产品里灌 AI
Adobe 往 Photoshop 里塞了 Firefly。Shopify 和 Airbnb 在用 AI 优化推荐和搜索。它们不是在卖 AI,而是在用 AI 让已有的产品更好用——或者说,更难被替代。
这个模式看起来温和,但经济逻辑很硬。
Anthropic 的年化营收在 4 个月内从 90 亿涨到 300 亿[3]。1000 多家企业客户年消费超过 100 万美元。KPMG 27.6 万员工全员接入 Claude,ServiceNow 800 亿工作流跑在上面。这些企业不是在用 AI 做新产品,而是在用 AI 让现有系统跑得更快、更准、更不容易出错。
高端市场有不跟低端一起跌的理由。agent 工作负载的 token 消耗是传统聊天的 5 到 30 倍,agentic coding 任务甚至达到 1000 倍。Uber 把 Claude Code 采用率从 32% 推到 84%,4 个月烧完了年度 AI 预算。Anthropic 发现 agent 用户 3-4 轮对话就触达 session 上限,随后禁止个人 agent 用固定价格合同[3]。
这意味着:往已有产品里灌 AI 的公司,实际上是在用 token 来加固自己的护城河。客户用得越深,切换成本越高。a16z 的数据显示,2024 年企业还有意设计模型无关架构以保持切换灵活性,但 2025 年 agent workflow 普及后反转了——prompt 动辄几十页,换模型需要大量工程时间。Anthropic 的企业份额从 12% 涨到了 40%。
这行的真正竞争力不在 AI 功能本身,在于原有产品的用户基数和数据沉淀。Adobe 往 Photoshop 里加 Firefly,不是因为 Firefly 比 Midjourney 好,而是因为设计师的图层、笔刷、工作流已经在 Photoshop 里了。AI 是胶水,不是产品。
第四种:内部提效
Meta 内部那个烧了 2810 亿 token 的员工,不是在给客户跑任务——他在给自己干活[2]。
这是 Tokconomics 框架里最容易被忽视、但可能影响最大的一种模式。公司不面向客户卖 AI,而是用 AI 提高自己员工的生产力。省下来的钱就是利润。
Financial Times 给这种趋势起了个名字叫 tokenmaxxing——企业为证明 AI 基础设施投资值得,鼓励员工尽可能多用 AI,员工照做了,账单爆炸[2]。亚马逊紧跟着限制了团队级 AI 用量数据的可见性[2]。《华尔街日报》引用一位匿名 AI 顾问的说法:有家客户因为没有给 Claude 设使用上限,单月账单五亿美元[2]。
这里有个反直觉的事实:token 单价在降,但总花费在涨。Goldman Sachs 和 Metronome 的调研共同得出同一个结论——agentic workflow 的 token 消耗增速远超单价下降速度[5]。每 token 变便宜了,但每次交互烧掉的 token 成倍增长,净成本不降反升。
一位行业观察者说了一句很准的话:和 FinOps 对应的 FinTokens,迟早会成为显学[2]。他的预测是不超过两个月。
这种模式的挑战不在技术,在治理。你得回答:怎么知道员工是在用 AI 做有价值的事,还是在刷 token 消耗量充数?亚马逊和 Meta 关掉排行榜的动作本身就说明——当内部 AI 使用量成为一种"政治正确",数据本身就会被扭曲。
四种生意,一种逻辑
把这四种模式放在一起看:
| 模式 | 代表公司 | 卖什么 | 护城河 | 利润率 |
|---|---|---|---|---|
| 直接卖 token | Together AI, Fireworks | 算力 | 规模+电力成本 | 趋近于零 |
| AI 原生产品 | Cursor, Perplexity, Lovable | 完整体验 | 工作流理解深度 | 中等但不稳定 |
| 增强已有产品 | Adobe, ServiceNow | 锁定效应 | 用户基数+数据沉淀 | 高 |
| 内部提效 | Meta, Amazon | 省下来的钱 | 组织能力+治理水平 | 间接但巨大 |
利润率从第一种到第四种逐级上升。但门槛也在逐级上升。
卖 token 只需要 GPU。做 AI 产品需要产品能力。增强已有产品需要一个已经跑起来的业务。用 AI 提升内部效率需要一个足够复杂的组织和一套足够清醒的治理体系。
鸭哥之前写过一个判断:"认知是资产,代码是消耗品。"[1] 当代码生成成本趋近于零,真正能复利的是被捕获的认知——对业务的理解、对什么是"好"的定义、验收标准。
这个判断在四种模式里都成立。卖 token 的人拼的是电力和散热。卖产品的人拼的是对用户痛点的理解。增强产品的人拼的是几十年积累的行业 know-how。自己用的人拼的是组织管理能力。
四种生意的交集只有一个:知道把 token 花在哪儿。
token 的价格还会继续降。但这个判断力,会变得越来越贵。
参考资料
[1] Nevermined, "AI Agent Cost-Based Pricing"(token 推理成本每年下降 9-900 倍)。https://nevermined.ai/blog/ai-agent-cost-based-pricing ;"认知是资产,代码是消耗品"为鸭哥原创判断。
[2] Financial Times, "Meta's AI 'tokenmaxxing' push sparks internal tension"(Meta 内部 token 消耗排行榜);WSJ, "Corporate America Is Starting to Ration AI as Costs Skyrocket"(亚马逊限制用量数据、匿名顾问披露五亿美元月账单)。https://www.wsj.com/tech/ai/corporate-america-is-starting-to-ration-ai-as-cost-skyrockets-1eb99d7a
[3] a16z, "AI Enterprise 2025"(企业从模型无关架构转向深度锁定,Anthropic 份额 12%→40%)。https://a16z.com/ai-enterprise-2025 ;Gartner, "AI Agents Will Transform the Enterprise"(agent 工作负载 5-30 倍 token 消耗);Stanford Digital Economy Lab(agentic coding 消耗 1000 倍);Anthropic Series G 融资公告(年化营收 90 亿→300 亿);Menlo Ventures, "2025 State of GenAI in the Enterprise";Capstone DC, "The End of Cheap AI"。
[4] InfoQ(Tina),"不换 Kimi 底座,1/10 成本追平 Opus 4.7?Cursor 用 Composer 2.5 反击 Claude Code",2026年5月19日;Cursor 官方博客, "Composer 2.5"。https://cursor.com/cn/blog/composer-2-5
[5] Forbes, "AI Coding Startup Lovable In Talks To Raise Funding At $12 Billion Valuation"(95% 收入来自个人用户、ARR 突破 4 亿美元)。https://www.forbes.com/sites/rashishrivastava/2026/06/05/ai-coding-startup-lovable-in-talks-to-raise-funding-at-a-12-billion-valuation ;Goldman Sachs, "AI Agents Forecast to Boost Tech Cash Flow as Usage Soars"(agentic workflow token 消耗增速远超单价下降);Sacra(Lovable 独立财务数据确认)。
[6] NVIDIA GTC 2026, Blackwell vs Hopper 对比数据 / Tokconomics 框架。
夜雨聆风