微软取消内部 Claude Code 许可、Uber 四个月烧光全年 AI 预算、GitHub 取消 flat-rate 定价,头部厂商集体退出 AI 功能补贴模式,AI 行业的补贴时代正在落幕。推理成本未如预期下降,按 token 计费正从模型层蔓延至应用层。
一、按量计费为何成为常态
诱导需求的现实
AI 行业的"诱导需求"效应显著。每个新发明出的 AI 能力都会创造新的需求。更低的推理成本并不会降低账单,而是扩大了用户调用 AI 的范围和深度。
现在我的推理查询需要超过 4 分钟,而旧方案仅需 2 分钟。代理工作流需要 50 次调用,而旧工作流只需要一次。单位成本虽然下降,但单位数量爆炸式增长,总体支出反而增加。
供应链成本急剧上升
AI 推理成本的上升还有另一重原因——供应侧不再配合。
显存成本暴涨 4 倍:前沿训练和推理运行在 Nvidia 加速器和高带宽显存上。Morgan Stanley 估计,新一代 NVIDIA VR200 的物料清单(BOM)成本将高 95%,其中显存 alone 增长 435%。
GPU 成本上涨 95% 以上:最先进的 GPU 和 TPU 和其他类型的加速器,成本几乎是上一代的 2 倍。高带宽显存(HBM)价格在 18 个月内暴涨 4 倍。
产能瓶颈:TSMC 的 CoWoS 封装产线曾是加速器供应的瓶颈。SK 海力士垄断 HBM 市场,三星落后,美光更远,都无人能一夜之间增加产能。这些都是 18 至 36 个月的长期承诺,当初是按需规划的,但需求被高估了一个数量级。
二、定价策略的三种新架构
1. 按动作计费(Per-action)
每次 API 调用、每次生成、每个代理步骤都有明确的价格。收入与成本按同一事件索引。Twilio 从 2008 年就开始运行这种模式,AWS 也从 2006 年开始运行某种形式的按动作计费。
优势:毛利率不取决于猜测重度用户会如何滥用系统。
劣势:透明度双刃剑。客户看到计量表,会进行价格谈判。
2. 信用额度(Credits)
预付额度桶。客户购买 10 万额度,在任何地方消耗,然后补充。信用额度平滑现金流,允许以单一单位混合模型成本,这是处理路由到五个不同推理提供器的产品的唯一合理方式。
陷阱:断裂风险。Snowflake 的信用额度是基础设施,客户理解他们购买的是什么。
3. 混合模式(Hybrid)
基础席位加包含额度,超出部分按量计费。大多数企业销售模式接受这种模式,因为席位号(或"扁平平台费")仍然锚定合同,计量表是安全阀。
这是设计最 AI 原生产品在第一个重新定价周期内收敛到的模式。
三、产品策略的转变
定价重构意味着产品策略的转变。它不再是"我们可以在哪里添加 AI?",而是"哪些用例值得燃烧推理成本?"。
这是一条更难的路线图。同时也改变了定价表面,这是大多数产品团队尚未内化的部分。
如果定价无法随成本移动,就只能在两个选项中做选择:
吃利润,每季度随着客户用量增长而压缩利润率
从便宜层级中剥离 AI 功能,导致使用漏斗底层的激活率下降
四、给创业者建议
拆分成本结构
如果你的产品核心价值建立在"无限量 AI 调用"上,现在需要立刻拆分基础功能与 AI 增值功能的成本结构,否则毛利率会在用户增长的同时反向坍塌。
参考成功模式
参考 Notion 和 Linear 的做法,把 AI 用量显式量化给用户,这是过渡期的最优解。
思考单位经济
不要假设用户行为不会改变。它总是改变。重新思考你的单位经济模型,将 AI 成本与收入按同一事件索引。
结语
AI 补贴时代的终结是残酷的现实。推理成本没有如预期般下降,反而因显存和 GPU 成本上涨而上升。按量计费从模型层蔓延至应用层,是生存与发展的必然选择。
对于 AI 创业者来说,这是一个残酷的筛选器。只有那些能重新设计定价架构、将收入与成本索引到同一事件的产品,才能在新的经济环境中生存下来。
未来的 AI 产品必须诚实面对成本,将 AI 用量显式化,让用户为实际消耗付费。这不仅是商业可持续性的需要,也是对用户透明的尊重。
关注我,获取更多 AI 科技资讯和实用技巧!点击"推荐",让更多朋友看到这个消息!
参考资料:https://arnon.dk/the-current-ai-pricing-was-always-going-to-go-away/
夜雨聆风