朋友们,你们还记得2G时代吗?那时候用手机上网,看一张图片要犹豫半天,因为运营商按0.01元/KB收费。一个月下来,流量费比房租还贵的恐怖故事比比皆是。直到4G时代"无限流量包"出现,大家才真正敢放开刷视频、看直播。
现在的AI行业,正在上演一模一样的剧本。
2025年初,某金融机构的CTO向我吐槽:他们的AI客服系统接入了某大模型的API,按Token计费。结果一个季度下来,账单数字长得像电话号码——单轮合规文档分析的交互,Token量轻松突破10万+,按当时的后付费标准,单次成本超过80元。更可怕的是,随着AI Agent(智能体)的爆发,这种消耗呈指数级增长,预算完全失控。
这不是个案。当OpenClaw等智能体应用的日均词元调用量在2026年突破140万亿时,整个行业的计费模式迎来了历史性的转折点——从按量计费的Tokens,快速转向预留容量的PTU(Provisioned Throughput Units,预配吞吐量单位)。
一、从"话费恐怖故事"说起
朋友们,你们还记得2G时代吗?那时候用手机上网,看一张图片要犹豫半天,因为运营商按0.01元/KB收费。一个月下来,流量费比房租还贵的恐怖故事比比皆是。直到4G时代"无限流量包"出现,大家才真正敢放开刷视频、看直播。
现在的AI行业,正在上演一模一样的剧本。
2025年初,某金融机构的CTO向我吐槽:他们的AI客服系统接入了某大模型的API,按Token计费。结果一个季度下来,账单数字长得像电话号码——单轮合规文档分析的交互,Token量轻松突破10万+,按当时的后付费标准,单次成本超过80元。更可怕的是,随着AI Agent(智能体)的爆发,这种消耗呈指数级增长,预算完全失控。
这不是个案。当OpenClaw等智能体应用的日均词元调用量在2026年突破140万亿时,整个行业的计费模式迎来了历史性的转折点——从按量计费的Tokens,快速转向预留容量的PTU(Provisioned Throughput Units,预配吞吐量单位)。
二、Tokens模式:为什么企业"不敢用"?
2.1 成本黑盒:算力与价值的错配
Tokens作为大模型处理信息的最小单元,本质上就是"智能时代的流量费"。中文每字对应1-2个Token,你问得越长、模型答得越多,掏钱越多。这听起来很公平,对吧?
但问题在于,相同Token量下,复杂任务与简单任务的算力消耗差距可达10倍以上。比如你让AI写个"你好"和让它写一份完整的商业计划书,虽然最终输出的Token数量可能只差5倍,但背后的推理计算量完全不是一个量级。Tokens计费无法区分这种差异,导致企业用着用着就发现——预算变成了薛定谔的猫。
更坑的是价格波动。2025年DeepSeek结束优惠期后,未缓存输出Token价格从体验期的0.5元/百万飙升至8元/百万,涨幅达15倍。企业财务部门直接崩溃:这预算怎么编?按上个月编,这个月爆仓;按这个月编,下个月降价又亏。
2.2 场景受限:重度应用被"卡脖子"
想象一下,你开发了一个AI编程助手,本来想让程序员们敞开了用。结果一看Token账单,程序员每生成一段代码,公司就要支付几毛钱。团队规模一大,一个月下来费用能买辆特斯拉。于是你只能让大家"省着点用"——这就像是给员工配了台法拉利,但油箱只给加一升油。
政企客户更是痛苦。政府和大企业的采购体系要求固定预算、可预测支出,但Tokens的"按量付费"模式跟这种体系天然冲突。OpenAI和Anthropic后来推出的"1美元年费套餐"(面向美国联邦机构的无限使用权),本质上就是对Tokens模式的妥协和补丁。
2.3 生态割裂:工具链各自为政
还有一个让人头疼的问题:第三方工具与基础模型的Token计费是分离的。比如你用Anthropic的Claude,再想调用OpenClaw等第三方工具,得额外购买按需付费套餐。这就好比你办了手机流量包,但发现用微信要另交费、刷抖音还要再交费。这种"模型+工具"的一体化体验被打破,用户转化率直接下降30%以上。
三、PTU模式:AI计费的"无限流量包"时代
3.1 什么是PTU?
PTU(Provisioned Throughput Units,预配吞吐量单位),通俗理解就是"算力包月"。用户预先购买一定数量的PTU,云厂商为其分配专属的计算资源(包括GPU、模型实例等),按年/月/季固定收费,与实际Token消耗量无关。
微软Azure OpenAI的PTU服务起步价约为每月2,448美元,但如果选择年付,可以享受30%到50%的折扣。华为昇腾等国产芯片也在推类似的PTU模式,以"每芯片核心秒"为基础单位,直接关联实际算力消耗。
这种模式的核心特征有三点:
第一,成本可预测。就像你办了宽带包年,不管每天刷20小时还是2小时,费用固定。企业终于可以安心做财务规划了。
第二,资源有保障。购买PTU后,你获得的是专属计算资源,不用跟其他人抢算力。这意味着稳定的响应时间和吞吐量,不会出现高峰期"服务器繁忙,请稍后再试"的尴尬。
第三,深度绑定。PTU通常要求签订1-3年的长期合同,这大大增强了客户与云厂商的合作稳定性。对企业来说,这降低了未来的不确定性;对云厂商来说,这锁定了长期收入,可以更有信心地投资基础设施。
3.2 PTU的技术支撑
PTU模式的兴起,离不开底层技术的成熟。2025-2026年,随着MoE(混合专家)架构的普及和推理效率的大幅提升,云厂商有能力将算力切分成标准化的"单元"进行售卖。
更重要的是,新一代AI芯片(如华为昇腾960/970、英伟达H200等)开始集成硬件级的计费认证模块,实现"芯片-计费"的深度绑定。这就像智能电表可以直接读取你的用电量,不需要人工抄表,计费更加精准透明。
四、为什么是现在?三大推手加速变革
4.1 AI Agent的Token消耗爆炸
如果说ChatGPT时代的AI是"一问一答"的轻度使用,那么2025年AI Agent的爆发则是"全自动化"的重度使用。AI Agent可以连续调用工具、执行多步骤任务、生成长篇内容,单次会话的Token消耗量可能是传统交互的100倍。
国信证券的研究报告显示,超大型客户(A3级别以上)的Token账单已经彻底失控。这时候,按Token计费就像是用滴滴打车从纽约去洛杉矶——虽然单价透明,但总价会让你怀疑人生。而PTU模式相当于直接包车,虽然看起来前期投入高,但长途旅行反而更划算。
4.2 企业级市场的成熟
AI应用正在从"开发者玩具"转向"企业核心生产力工具"。当AI成为客服系统、代码助手、合规审查的关键组件时,稳定性比灵活性更重要。企业宁愿多付一点钱,也要确保系统7×24小时稳定运行,不能出现高峰期排队延迟的情况。
微软Azure的文档明确指出,PTU模式适合"生产工作负载需要评估期"和"可预测的高容量生产工作负载"。也就是说,当你的AI应用从"试试水"变成"正经生意"时,就必须切换到PTU模式。
4.3 云厂商的"降本增效"压力
2025年,全球主要云厂商的资本开支都创下了历史新高。微软2025年Q4资本开支达375亿美元,同比增长96.52%;谷歌同期资本开支278.51亿美元,同比增长91.43%。这么多钱砸进去建数据中心,如果还是按Tokens按需计费,资源利用率很难保证。
PTU模式让云厂商可以提前锁定客户需求,进行"平滑式"的精准投资,而不是"脉冲式"的盲目扩容。长期合同让CAPEX(资本支出)有了明确的ROI(投资回报)预期,资产周转率也大幅提升。
五、Tokens vs PTU:一场新旧势力的博弈
虽然PTU势头凶猛,但Tokens模式并不会完全消失。未来的市场格局将是"分层分工":
Tokens(按量付费)
• 计费方式:按实际消耗的Token数量
• 适用场景:实验性开发、低频调用、不可预测负载
• 成本特点:灵活但不可预测,适合中小客户
• 性能保障:无保障,高峰期可能限流
• 合同期限:即用即付
PTU(预配吞吐量)
• 计费方式:按预留的算力容量(月/年)
• 适用场景:生产环境、高频调用、延迟敏感应用
• 成本特点:固定且可预测,适合大型企业
• 性能保障:独享资源,吞吐量 guaranteed
• 合同期限:通常1-3年长期承诺
对于开发者和小团队,Tokens模式依然是试水的好选择。但对于年调用量超过一定阈值(通常月费用超过1,800美元)的企业,PTU的性价比优势就会显现。
六、国产厂商的跟进与差异化
值得一提的是,在这场全球计费模式变革中,国产AI厂商并没有落后。阿里云的模型服务已经支持按模型单元(PTU)计费,提供后付费按小时、预付费按天等多种灵活方式。智谱AI的GLM-4.5在2025年7月发布时,不仅价格极具竞争力(输入0.8元/百万Token),还提供了完整的PTU预留方案。
更值得关注的是,PTU模式正在推动国产AI芯片的架构创新。华为昇腾提出的"算力时间单元"概念,将计费锚点从"数据量"转向"算力价值",这不仅是一种商业创新,更是技术话语权的体现。
七、未来展望:从"卖电"到"卖变压器"
回顾历史,这种计费模式的转变有着清晰的商业逻辑。2G时代,运营商按流量计费,因为带宽是稀缺资源;4G/5G时代,运营商卖的是"连接服务",因为基础设施已经普及,规模效应摊薄了边际成本。
AI行业正在走同样的路。Tokens模式是基础设施不够成熟时的过渡方案,PTU模式才是AI成为"水电煤"式基础服务的标准形态。未来,我们可能还会看到更精细化的计费方式——比如按任务复杂度计费、按结果质量计费等。
但无论如何,这场从Tokens到PTU的变革,标志着AI产业正在从"技术驱动"转向"商业驱动",从"野蛮生长"转向"精耕细作"。对于企业来说,理解并适应这种变化,是在AI时代降本增效的关键;对于开发者来说,这也意味着AI应用的商业化路径变得更加清晰和可持续。
就像我们从"省着用流量"到"敞开用Wi-Fi"的转变一样,AI的"无限流量包"时代,才刚刚开始。
夜雨聆风