AI 补贴时代终结,按量计费成常态

微软取消内部 Claude Code 许可、Uber 四个月烧光全年 AI 预算、GitHub 取消 flat-rate 定价，头部厂商集体退出 AI 功能补贴模式，AI 行业的补贴时代正在落幕。推理成本未如预期下降，按 token 计费正从模型层蔓延至应用层。

一、按量计费为何成为常态

AI 行业的"诱导需求"效应显著。每个新发明出的 AI 能力都会创造新的需求。更低的推理成本并不会降低账单，而是扩大了用户调用 AI 的范围和深度。

现在我的推理查询需要超过 4 分钟，而旧方案仅需 2 分钟。代理工作流需要 50 次调用，而旧工作流只需要一次。单位成本虽然下降，但单位数量爆炸式增长，总体支出反而增加。

AI 推理成本的上升还有另一重原因——供应侧不再配合。

显存成本暴涨 4 倍：前沿训练和推理运行在 Nvidia 加速器和高带宽显存上。Morgan Stanley 估计，新一代 NVIDIA VR200 的物料清单（BOM）成本将高 95%，其中显存 alone 增长 435%。

GPU 成本上涨 95% 以上：最先进的 GPU 和 TPU 和其他类型的加速器，成本几乎是上一代的 2 倍。高带宽显存（HBM）价格在 18 个月内暴涨 4 倍。

产能瓶颈：TSMC 的 CoWoS 封装产线曾是加速器供应的瓶颈。SK 海力士垄断 HBM 市场，三星落后，美光更远，都无人能一夜之间增加产能。这些都是 18 至 36 个月的长期承诺，当初是按需规划的，但需求被高估了一个数量级。

每次 API 调用、每次生成、每个代理步骤都有明确的价格。收入与成本按同一事件索引。Twilio 从 2008 年就开始运行这种模式，AWS 也从 2006 年开始运行某种形式的按动作计费。

优势：毛利率不取决于猜测重度用户会如何滥用系统。

劣势：透明度双刃剑。客户看到计量表，会进行价格谈判。

预付额度桶。客户购买 10 万额度，在任何地方消耗，然后补充。信用额度平滑现金流，允许以单一单位混合模型成本，这是处理路由到五个不同推理提供器的产品的唯一合理方式。

陷阱：断裂风险。Snowflake 的信用额度是基础设施，客户理解他们购买的是什么。

基础席位加包含额度，超出部分按量计费。大多数企业销售模式接受这种模式，因为席位号（或"扁平平台费"）仍然锚定合同，计量表是安全阀。

这是设计最 AI 原生产品在第一个重新定价周期内收敛到的模式。

定价重构意味着产品策略的转变。它不再是"我们可以在哪里添加 AI？"，而是"哪些用例值得燃烧推理成本？"。

这是一条更难的路线图。同时也改变了定价表面，这是大多数产品团队尚未内化的部分。

如果定价无法随成本移动，就只能在两个选项中做选择：

如果你的产品核心价值建立在"无限量 AI 调用"上，现在需要立刻拆分基础功能与 AI 增值功能的成本结构，否则毛利率会在用户增长的同时反向坍塌。

参考 Notion 和 Linear 的做法，把 AI 用量显式量化给用户，这是过渡期的最优解。

不要假设用户行为不会改变。它总是改变。重新思考你的单位经济模型，将 AI 成本与收入按同一事件索引。

AI 补贴时代的终结是残酷的现实。推理成本没有如预期般下降，反而因显存和 GPU 成本上涨而上升。按量计费从模型层蔓延至应用层，是生存与发展的必然选择。

对于 AI 创业者来说，这是一个残酷的筛选器。只有那些能重新设计定价架构、将收入与成本索引到同一事件的产品，才能在新的经济环境中生存下来。

未来的 AI 产品必须诚实面对成本，将 AI 用量显式化，让用户为实际消耗付费。这不仅是商业可持续性的需要，也是对用户透明的尊重。

关注我，获取更多 AI 科技资讯和实用技巧！点击"推荐"，让更多朋友看到这个消息！

参考资料：https://arnon.dk/the-current-ai-pricing-was-always-going-to-go-away/