全球AI收费模式:为何快速从Tokens向PTU转变?

朋友们，你们还记得2G时代吗？那时候用手机上网，看一张图片要犹豫半天，因为运营商按0.01元/KB收费。一个月下来，流量费比房租还贵的恐怖故事比比皆是。直到4G时代"无限流量包"出现，大家才真正敢放开刷视频、看直播。

现在的AI行业，正在上演一模一样的剧本。

2025年初，某金融机构的CTO向我吐槽：他们的AI客服系统接入了某大模型的API，按Token计费。结果一个季度下来，账单数字长得像电话号码——单轮合规文档分析的交互，Token量轻松突破10万+，按当时的后付费标准，单次成本超过80元。更可怕的是，随着AI Agent（智能体）的爆发，这种消耗呈指数级增长，预算完全失控。

这不是个案。当OpenClaw等智能体应用的日均词元调用量在2026年突破140万亿时，整个行业的计费模式迎来了历史性的转折点——从按量计费的Tokens，快速转向预留容量的PTU（Provisioned Throughput Units，预配吞吐量单位）。

一、从"话费恐怖故事"说起

现在的AI行业，正在上演一模一样的剧本。

二、Tokens模式：为什么企业"不敢用"？

2.1 成本黑盒：算力与价值的错配

Tokens作为大模型处理信息的最小单元，本质上就是"智能时代的流量费"。中文每字对应1-2个Token，你问得越长、模型答得越多，掏钱越多。这听起来很公平，对吧？

但问题在于，相同Token量下，复杂任务与简单任务的算力消耗差距可达10倍以上。比如你让AI写个"你好"和让它写一份完整的商业计划书，虽然最终输出的Token数量可能只差5倍，但背后的推理计算量完全不是一个量级。Tokens计费无法区分这种差异，导致企业用着用着就发现——预算变成了薛定谔的猫。

更坑的是价格波动。2025年DeepSeek结束优惠期后，未缓存输出Token价格从体验期的0.5元/百万飙升至8元/百万，涨幅达15倍。企业财务部门直接崩溃：这预算怎么编？按上个月编，这个月爆仓；按这个月编，下个月降价又亏。

2.2 场景受限：重度应用被"卡脖子"

想象一下，你开发了一个AI编程助手，本来想让程序员们敞开了用。结果一看Token账单，程序员每生成一段代码，公司就要支付几毛钱。团队规模一大，一个月下来费用能买辆特斯拉。于是你只能让大家"省着点用"——这就像是给员工配了台法拉利，但油箱只给加一升油。

政企客户更是痛苦。政府和大企业的采购体系要求固定预算、可预测支出，但Tokens的"按量付费"模式跟这种体系天然冲突。OpenAI和Anthropic后来推出的"1美元年费套餐"（面向美国联邦机构的无限使用权），本质上就是对Tokens模式的妥协和补丁。

2.3 生态割裂：工具链各自为政

还有一个让人头疼的问题：第三方工具与基础模型的Token计费是分离的。比如你用Anthropic的Claude，再想调用OpenClaw等第三方工具，得额外购买按需付费套餐。这就好比你办了手机流量包，但发现用微信要另交费、刷抖音还要再交费。这种"模型+工具"的一体化体验被打破，用户转化率直接下降30%以上。

三、PTU模式：AI计费的"无限流量包"时代

3.1 什么是PTU？

PTU（Provisioned Throughput Units，预配吞吐量单位），通俗理解就是"算力包月"。用户预先购买一定数量的PTU，云厂商为其分配专属的计算资源（包括GPU、模型实例等），按年/月/季固定收费，与实际Token消耗量无关。

微软Azure OpenAI的PTU服务起步价约为每月2,448美元，但如果选择年付，可以享受30%到50%的折扣。华为昇腾等国产芯片也在推类似的PTU模式，以"每芯片核心秒"为基础单位，直接关联实际算力消耗。

这种模式的核心特征有三点：

第一，成本可预测。就像你办了宽带包年，不管每天刷20小时还是2小时，费用固定。企业终于可以安心做财务规划了。

第二，资源有保障。购买PTU后，你获得的是专属计算资源，不用跟其他人抢算力。这意味着稳定的响应时间和吞吐量，不会出现高峰期"服务器繁忙，请稍后再试"的尴尬。

第三，深度绑定。PTU通常要求签订1-3年的长期合同，这大大增强了客户与云厂商的合作稳定性。对企业来说，这降低了未来的不确定性；对云厂商来说，这锁定了长期收入，可以更有信心地投资基础设施。

3.2 PTU的技术支撑

PTU模式的兴起，离不开底层技术的成熟。2025-2026年，随着MoE（混合专家）架构的普及和推理效率的大幅提升，云厂商有能力将算力切分成标准化的"单元"进行售卖。

更重要的是，新一代AI芯片（如华为昇腾960/970、英伟达H200等）开始集成硬件级的计费认证模块，实现"芯片-计费"的深度绑定。这就像智能电表可以直接读取你的用电量，不需要人工抄表，计费更加精准透明。

四、为什么是现在？三大推手加速变革

4.1 AI Agent的Token消耗爆炸

如果说ChatGPT时代的AI是"一问一答"的轻度使用，那么2025年AI Agent的爆发则是"全自动化"的重度使用。AI Agent可以连续调用工具、执行多步骤任务、生成长篇内容，单次会话的Token消耗量可能是传统交互的100倍。

国信证券的研究报告显示，超大型客户（A3级别以上）的Token账单已经彻底失控。这时候，按Token计费就像是用滴滴打车从纽约去洛杉矶——虽然单价透明，但总价会让你怀疑人生。而PTU模式相当于直接包车，虽然看起来前期投入高，但长途旅行反而更划算。

4.2 企业级市场的成熟

AI应用正在从"开发者玩具"转向"企业核心生产力工具"。当AI成为客服系统、代码助手、合规审查的关键组件时，稳定性比灵活性更重要。企业宁愿多付一点钱，也要确保系统7×24小时稳定运行，不能出现高峰期排队延迟的情况。

微软Azure的文档明确指出，PTU模式适合"生产工作负载需要评估期"和"可预测的高容量生产工作负载"。也就是说，当你的AI应用从"试试水"变成"正经生意"时，就必须切换到PTU模式。

4.3 云厂商的"降本增效"压力

2025年，全球主要云厂商的资本开支都创下了历史新高。微软2025年Q4资本开支达375亿美元，同比增长96.52%；谷歌同期资本开支278.51亿美元，同比增长91.43%。这么多钱砸进去建数据中心，如果还是按Tokens按需计费，资源利用率很难保证。

PTU模式让云厂商可以提前锁定客户需求，进行"平滑式"的精准投资，而不是"脉冲式"的盲目扩容。长期合同让CAPEX（资本支出）有了明确的ROI（投资回报）预期，资产周转率也大幅提升。

五、Tokens vs PTU：一场新旧势力的博弈

虽然PTU势头凶猛，但Tokens模式并不会完全消失。未来的市场格局将是"分层分工"：

Tokens（按量付费）

• 计费方式：按实际消耗的Token数量

• 适用场景：实验性开发、低频调用、不可预测负载

• 成本特点：灵活但不可预测，适合中小客户

• 性能保障：无保障，高峰期可能限流

• 合同期限：即用即付

PTU（预配吞吐量）

• 计费方式：按预留的算力容量（月/年）

• 适用场景：生产环境、高频调用、延迟敏感应用

• 成本特点：固定且可预测，适合大型企业

• 性能保障：独享资源，吞吐量 guaranteed

• 合同期限：通常1-3年长期承诺

对于开发者和小团队，Tokens模式依然是试水的好选择。但对于年调用量超过一定阈值（通常月费用超过1,800美元）的企业，PTU的性价比优势就会显现。

六、国产厂商的跟进与差异化

值得一提的是，在这场全球计费模式变革中，国产AI厂商并没有落后。阿里云的模型服务已经支持按模型单元（PTU）计费，提供后付费按小时、预付费按天等多种灵活方式。智谱AI的GLM-4.5在2025年7月发布时，不仅价格极具竞争力（输入0.8元/百万Token），还提供了完整的PTU预留方案。

更值得关注的是，PTU模式正在推动国产AI芯片的架构创新。华为昇腾提出的"算力时间单元"概念，将计费锚点从"数据量"转向"算力价值"，这不仅是一种商业创新，更是技术话语权的体现。

七、未来展望：从"卖电"到"卖变压器"

回顾历史，这种计费模式的转变有着清晰的商业逻辑。2G时代，运营商按流量计费，因为带宽是稀缺资源；4G/5G时代，运营商卖的是"连接服务"，因为基础设施已经普及，规模效应摊薄了边际成本。

AI行业正在走同样的路。Tokens模式是基础设施不够成熟时的过渡方案，PTU模式才是AI成为"水电煤"式基础服务的标准形态。未来，我们可能还会看到更精细化的计费方式——比如按任务复杂度计费、按结果质量计费等。

但无论如何，这场从Tokens到PTU的变革，标志着AI产业正在从"技术驱动"转向"商业驱动"，从"野蛮生长"转向"精耕细作"。对于企业来说，理解并适应这种变化，是在AI时代降本增效的关键；对于开发者来说，这也意味着AI应用的商业化路径变得更加清晰和可持续。

就像我们从"省着用流量"到"敞开用Wi-Fi"的转变一样，AI的"无限流量包"时代，才刚刚开始。