我们这次讨论的起点,是一个很强的投资命题:AI的第一性原理,是Token消耗量几乎每隔几个月翻倍,由此催生AI硬件需求的指数级增长。这个判断最有价值的地方在于,它没有从“概念热度”出发,而是试图从AI使用量的底层计量单位出发。Token不是股吧情绪,不是产业故事,也不是券商标题。Token是模型实际处理的信息单位,是AI被调用、被使用、被消耗的直接痕迹。从公开数据看,Token爆发并不是虚构。Google CEO Sundar Pichai在2026年I/O公开披露,Google旗下AI产品和API月处理Token量,已经从2024年的约9.7万亿,增长到2025年的约480万亿,再增长到2026年的超过3.2千万亿。按这个口径测算,2024到2025年约增长49倍,相当于约每2.1个月翻倍;2025到2026年约增长6.7倍,相当于约每4.4个月翻倍;两年累计约330倍,相当于平均约每2.9个月翻倍。这个量级足以说明,AI使用量不是正常互联网产品的稳态增长,而是处在典型的非线性扩张阶段。Google也明确把Token称为理解AI采用规模的一个重要代理指标。这就是AI硬件投资逻辑的第一块地基:需求侧不是温和复苏,而是使用量爆炸。它和传统硬件周期最大的区别在于,传统电子硬件很多时候由换机周期、库存周期、消费景气决定;而AI硬件的底层需求来自模型训练、模型推理、智能体调用、企业API、搜索重构、代码生成、多模态生成、视频生成、办公自动化、广告系统、推荐系统、机器人系统等多重场景叠加。只要AI能力继续提升,使用门槛继续下降,应用场景继续扩散,Token消耗就会继续放大。但这里必须冷静:Token是非常重要的需求信号,但它不是最终利润。它说明AI使用量在爆发,说明计算需求在扩张,说明AI基础设施有长期投资必要;但它不能直接推出“所有AI硬件公司都会赚钱”,更不能推出“任何带AI硬件概念的股票都应该上涨”。Token是第一层证据,不是最后一层结论。把Token爆发理解成“硬件收入必然同比例增长”,是把需求指标误读成利润指标;把Token爆发理解成“所有硬件环节都能获得高估值”,则是把产业景气误读成公司竞争力。AI硬件投资时:不能把Token增长、CSP资本开支、认证门槛、供应短缺、公司盈利、投资风险全部混在一个画面里。真正有效的分析,必须把它们拆开。第一层看需求是否真实;第二层看需求如何传导;第三层看资本开支是否落地;第四层看高端硬件壁垒;第五层看利润流向;第六层看风险和估值。否则,最后得到的不是研究,而是口号。所以,这篇文章的第一个结论是:AI硬件投资的起点,确实可以从Token爆发开始;但严谨的投资分析,不能停在Token爆发。Token证明的是需求强度,不证明利润归属。
二、Token增长不等于硬件需求同比增长
中间还有效率、模型结构和单位成本
如果只看Token增长,很容易得到一个过度乐观的结论:Token两年增长约330倍,那么AI硬件需求也会爆炸式增长,相关公司自然迎来ESP、ASP、利润率全面上行。这个推理方向有道理,但中间缺少一个关键变量:效率提升。更严谨的表达应该是:AI硬件需求,大致取决于Token总量、单Token计算强度、访存强度、网络通信强度、并发要求、低时延要求,再除以硬件效率、算法效率、模型压缩效率和系统利用率。换句话说,Token增长会拉动硬件需求,但硬件需求不会机械地按Token同比例增长。因为在AI产业中,需求在爆炸,效率也在爆炸。Stanford HAI《2025 AI Index Report》指出,达到GPT-3.5级别能力的系统,其推理成本在2022年11月至2024年10月之间下降超过280倍;硬件层面,成本每年下降约30%,能效每年提升约40%;开源权重模型与闭源模型在部分基准上的差距也快速收敛。这些事实说明,AI不是一个简单的“用量越多、硬件越多”的线性系统,而是一个同时发生需求爆炸和效率爆炸的动态系统。这意味着,投资AI硬件不能只问“Token涨了多少”,还必须问四个问题。第一,Token增长来自什么场景?如果增长主要来自轻量问答、摘要、低复杂度聊天,那么单Token计算强度可能较低;如果增长来自长上下文、代码生成、复杂推理、多模态视频、智能体多步调用,那么单Token的计算、显存、网络、存储压力都会显著提高。后者对硬件的拉动远强于前者。第二,增长发生在训练端还是推理端?训练端更强调大规模GPU/TPU集群、HBM、互连、网络、供电、液冷、先进封装;推理端更强调成本、延迟、吞吐、并发、显存利用率和部署密度。随着AI应用落地,推理Token占比会快速提高,但推理硬件的竞争也更容易从“性能极限”转向“性价比极限”。第三,模型结构是否改变?MoE架构、量化、蒸馏、小模型、KV Cache优化、投机解码、专用推理芯片,都会改变单位Token所需硬件资源。效率提升不是AI硬件的敌人,因为成本下降会释放更多需求;但效率提升会改变利润分配,迫使硬件公司不断升级,否则就会被成本曲线吞噬。第四,硬件利用率是否提高?同样的Token量,如果通过更好的调度、更高的集群利用率、更优的软件栈、更成熟的编译器和通信库实现,就不一定需要同比例新增硬件。这也是为什么AI硬件真正的壁垒不仅在芯片本身,还在软硬件协同、系统架构、网络拓扑、集群调度和生态绑定。因此,Token增长对硬件需求的传导不是简单乘法,而是一个竞争中的动态平衡:需求爆发向上拉,效率提升向下压;只有当需求增长强度持续超过效率提升速度,硬件需求才会继续扩张。当前阶段,从CSP资本开支、GPU收入、数据中心建设、HBM紧缺、先进封装扩产、高速互连需求看,需求侧仍然明显强于效率抵消。但这并不意味着未来所有环节都能持续享受暴利。这里要特别警惕一种错误:把“效率提升”理解成AI硬件利空。事实上,短期未必如此。推理成本下降,反而可能像通信行业的带宽降价一样,释放更大的使用量。单位成本下降以后,原来不经济的AI应用会变得经济,原来不愿意频繁调用模型的业务会开始大规模调用。成本下降不是需求消失,而是需求弹性释放。但是,最终受益的是那些能不断降低单位Token成本、同时仍保有技术壁垒和客户绑定的公司,而不是所有硬件供应商。第二个结论是:Token爆发是AI硬件需求的上游驱动力,但硬件需求的真实增幅,取决于Token增长与效率提升之间的赛跑。投资不能只看需求增速,还要看单位成本曲线和技术替代路径。