AI算力的下一轮预期差,可能不在模型,而在电力和基础设施瓶颈
副标题:模型可以按周迭代,电力、并网、液冷和高密度机房不会按周交付。
【WebX新资产系列|AI算力 04】
先看一个项目现场,不看概念。
一笔 AI 基础设施预算已经批下来,服务器到了,GPU 板卡到了,机柜也排好了。外部看到的,是设备进场;现场真正等的,是这批设备能不能稳定跑起来。
这中间有一张很慢的工程表:变电站排期、配电冗余、单机柜功率、液冷调试、网络联调、客户负载迁移、调度系统磨合。哪一项卡住,交付节奏都会被拉长。
所以这一篇我想从一个更笨、更真实的问题开始:模型需求已经很强,设备也在进场,但这些投入最后能不能落成可持续服务?
我的判断比较简单。AI 基础设施真正难的地方,可能不是买到设备,而是让设备在电力、冷却、网络和运营系统里长期稳定地工作。
这个判断不热闹。
但基础设施本来就不是靠热闹运行的。
这里不是某个真实案例,而是一个分析模型。它要看的不是某家公司花了多少钱,而是一笔 AI 基础设施投入从预算到可用服务,中间会被哪些慢变量拦住。
这句话听起来没那么兴奋。
但基础设施本来就不是靠兴奋运行的。
市场喜欢看快变量。模型更新很快,芯片迭代很快,订单传闻也很快。可电力接入、并网节奏、液冷改造、机房承载和客户迁移,都是慢变量。慢变量不太适合当标题,却常常决定一轮建设热潮最后留下的是优质资产,还是一批很贵的设备。

最先被低估的,通常是那些慢东西
AI 行业的叙事节奏太快了。
一个新模型出来,大家会立刻讨论推理成本、上下文窗口、多模态能力和应用场景。一个 GPU 供给变化出来,市场会很快把它传导到服务器、光模块、CPO、整机厂和云厂商预算里。
这些都重要。
但如果把 AI 算力只放进这两类框架,容易漏掉一张更笨的表:工程表。
工程表里没有太多漂亮词。它写的是电力容量有没有批下来,并网窗口排到什么时候,变压器和配电设备能否跟上,液冷方案是否完成验证,高密度机柜能不能稳定满载,客户什么时候迁移负载,运维团队能不能把故障、温度、能耗和网络延迟压住。
这张表不性感。
但它很诚实。
它会告诉我们,一座算力中心从“规划容量”到“可用资源”,中间隔着多少物理世界的约束。纸面上的 MW、机柜数和 GPU 数量,是前半段;客户可以持续调用、收入可以覆盖电费和折旧,是后半段。
中间如果接不上,前半段越大,后半段的压力也越大。
这也是我对 AI 算力第四篇最想强调的判断:模型需求确实在推动基础设施扩张,但基础设施扩张不是一个同步发生的魔法。芯片可以按订单交付,机房和电网不一定按同样速度交付;服务器可以进场,客户负载不一定马上跑满;液冷可以写进方案,现场工程不一定立刻成熟。
研究这条线,不能只看谁被需求照到。
还要看谁能把需求接住。
这里有一个容易被忽略的差别:建设能力和运营能力不是同一件事。
建设能力解决“有没有”的问题,运营能力解决“能不能长期用”的问题。前者靠采购、施工、项目管理;后者靠电力稳定、散热冗余、客户排程、故障响应和成本控制。AI 机房如果只完成前者,还只是一个投入项目;只有后者跑顺了,它才开始接近一类可研究的基础设施资产。
这也是为什么我不太愿意把这条线写成“缺什么就买什么”。买设备是动作,稳定交付是能力。一个是订单新闻,一个是经营系统。
电力不是一个词,是三道门
写到电力,最容易偷懒。
一句“AI 算力缺电”,看起来很有力量,但其实太粗。真正的电力问题至少有三层。
第一层是容量。
AI 机房和传统机房的功率密度不是一回事。高密度 GPU 集群上架以后,单机柜功率、配电冗余、散热路径、UPS、变压器容量都会被重新审视。一个园区有土地、有楼、有机柜,不代表它立刻具备承载 AI 负载的能力。
第二层是节奏。
电力不是想接就接。并网、变电站、配电系统、施工、验收、消防、客户导入,都有自己的周期。模型可以几周迭代一次,电力工程不会按周交付。这里的时间差,可能会把一部分“已经规划的算力”卡在上线前。
第三层是稳定性。
训练任务和推理任务的负载形态不同。训练更像一段高强度的大项目,推理更像持续调用的服务。机房要承受的不只是峰值功率,还有波动、冗余、冷却、调度和 SLA。电接上只是开始,接上以后长期稳定运行,才是更难的部分。
所以我更愿意把 AI 机房的电力问题拆成三句话:
有没有足够的容量。
能不能按客户节奏接入。
接入以后能不能长期稳定地跑。
这三道门都过了,电力才不只是配套。它会变成算力交付的一部分。
这里也能解释为什么不同公司在这条链里的位置差异很大。
微软、Alphabet、Meta、Amazon、Oracle,以及国内的阿里云、腾讯云、火山引擎,更接近需求和预算的发起端。它们要回答的是:AI 需求能不能转成云资源、客户收入和可持续服务。
英伟达、AMD、Intel、华为昇腾、寒武纪、沐曦、壁仞等,更多在芯片和加速卡供给端。它们决定计算能力的入口,也决定设备更新速度。
戴尔、慧与、Supermicro、联想、浪潮信息、工业富联、超聚变等,则偏向服务器整机、系统集成和集群交付。它们要把芯片、主板、网络、电源、散热和机柜工程变成可部署系统。
但到了电力和机房这一步,主角开始往后移。
Vertiv、施耐德电气、Eaton、台达电子,更多出现在 UPS、配电、热管理、机柜、电源系统和数据中心基础设施环境里。英维克、科华数据等公司,则更多和冷却、电源、数据中心基础设施场景相关。Equinix、Digital Realty、万国数据、世纪互联、润泽科技这类数据中心承载和运营侧公司,要把电力容量、机房空间、网络连接和客户上架组织成可运营资源。
这不是在列名单。
名单没有意义,位置才有意义。
同样被放进 AI 算力链,有的公司卖设备,有的做工程,有的经营机房,有的承接客户负载。它们面对的账本完全不同。设备交付方看订单和毛利,电源与冷却厂商看工程导入和项目节奏,IDC 运营方看电价、上架率、客户结构和长期合同,算力服务商则更直接面对利用效率、客户续约、融资成本和折旧。
概念会把它们揉成一团。
经营账会把它们重新拆开。
比如同样面对高密度机柜,设备公司关心的是订单能不能按期交付、材料和供应链成本能不能控制;供配电和冷却公司关心的是方案能不能进入客户工程标准、项目验收能不能顺利;IDC 运营方关心的是电价、上架速度、客户结构和合同周期;专业算力云则更直接面对客户调用是否连续、价格是否下行、融资成本和折旧能不能被服务收入覆盖。
这些差异写得越清楚,文章越不容易滑向“概念受益”。我希望读者看到的是位置,而不是名单;看到的是账本,而不是热词。
公开数据已经把数据中心推到电网面前
这件事不能只靠感觉。
IEA 在 2025 年发布的《Energy and AI》里给过一组估算:2024 年全球数据中心用电约 415 TWh,占全球用电约 1.5%;到 2030 年,基准情形下这个数字预计会增至约 945 TWh。IEA 还提醒,如果电网和接入风险处理不好,约 20% 规划中的数据中心项目可能面临延迟。
这组数字有用,不是因为它看起来大。
它有用,是因为它把 AI 算力从科技公司的预算表,推到了电网规划、地方基础设施、能源调度和产业承载能力的讨论里。
再看 LBNL 给美国能源部做的《2024 United States Data Center Energy Usage Report》。报告估算,美国数据中心用电在 2023 年达到 176 TWh,占美国全年用电约 4.4%;到 2028 年,不同情景下可能达到 325-580 TWh,对应美国用电的 6.7%-12.0%。
这个区间很宽。
宽区间本身就是提醒:未来不是由“AI 需求强不强”单独决定。它还取决于 GPU 加速服务器部署节奏、机房效率、冷却路线、电力接入和客户负载结构。
换成更直白的话,AI 算力已经从一个 IT 支出问题,变成基础设施协同问题。
它不再只和芯片、服务器、云厂商有关,也和电网、土地、冷却、供配电、IDC 运维坐到同一张桌子上。
这一步很重要。
当一个技术方向开始要求更多物理世界配合,它的资产属性会变得更复杂。它不再只看谁技术更强,也要看谁能把技术需求接成稳定服务。没有稳定服务,设备再贵也只是设备;能被持续调用、能覆盖成本、能形成长期客户关系,才有资格进入资产研究。

微软那组披露,提醒我们别把资产寿命混在一起
大厂投入仍然要看,但不能只看总额。
微软在 2025 年 4 月 30 日披露 FY25 Q3 财报电话会内容。
注:这里的 FY25 Q3 指的是微软 2025 财年第三财季,对应截至 2025 年 3 月 31 日的季度,不是自然年 2025 年三季度。
微软当季资本性支出含融资租赁为 214 亿美元,现金支付的物业和设备支出为 167 亿美元。更有意思的是,公司把云和 AI 相关投入拆成两类:大约一半投向可支持 15 年及以上商业化的长寿命资产,另一部分则与 GPU、CPU 等更短寿命资产有关。公司还提到,FY26 相关支出增速预计低于 FY25,并且短寿命资产占比会更高,这类资产和收入更直接相关。
这段披露的价值,不是告诉我们微软花了很多钱。
市场早就知道大厂在花钱。
它真正有用的地方,是把 AI 基础设施拆成了两种寿命:一种是数据中心、土地、电力和机房底座,周期更长;另一种是 GPU、CPU 等计算设备,更新更快,折旧更快,和收入兑现更贴近。
这两类东西不能混在一起看。
设备先到,电力没有接好,资源用不起来。
机房先建好,客户负载没有上来,资产会闲着。
客户需求很强,但网络、冷却、调度和运维跟不上,收入也不能完整释放。
Meta 的披露也在提示同一件事。公司在 2025 年二季报中把全年相关支出指引收窄至 660-720 亿美元,并说明 2026 年费用增长的重要驱动来自基础设施成本,包括折旧增长和更高运营成本。
Alphabet 在 2024 年四季度财报中也提到,预计 2025 年资本性支出约 750 亿美元,用于加速 AI 和云基础设施投入。
这些数字不能被简单理解成“投得越多越好”。
投入越大,后面的成本结构越不能含糊。设备寿命、机房寿命、电力成本、折旧节奏、客户负载和收入确认,会把 AI 基础设施从一个故事拉回一张经营账。
我更关心的也是这张账。
大厂预算往下走以后,哪些环节只是阶段性吃到项目,哪些环节能形成持续服务能力;哪些资产会被长期使用,哪些设备会快速折旧;哪些公司能把工程交付变成客户粘性,哪些公司只是被一轮建设周期带起来。
这些问题比“投了多少钱”更靠近资产质量。
如果从这个角度看,AI 基础设施的研究顺序会变一下。过去很多讨论先问需求有多强,再问设备够不够。现在还要加一层:这笔投入进入物理世界以后,哪一部分能被摊到更长周期,哪一部分会很快进入折旧,哪一部分会随着客户负载直接影响收入确认。
这个拆法会让判断更慢,但也更接近现实。
液冷和高密度机柜,最后都要回到现场
液冷这几年被写得太多。
很多文章一写液冷,就开始讲冷板、浸没式、CDU、管路、冷却液、PUE。名词越写越多,读者越看越累。
我更愿意把它放回机房现场。
高密度 GPU 集群上架以后,传统风冷能力会遇到边界。单机柜功率提高,散热就不再是装修问题,而是上架、满载、稳定运行、故障责任和客户验收的问题。
液冷如果成熟,可能提高同样空间下的承载效率,让机房接住更高密度的负载。
液冷如果不成熟,问题也很现实:改造成本高,运维复杂,故障责任难划分,客户接受度不稳定。任何一个细节处理不好,都会拖慢资产效率。
所以液冷不能只看渗透率。
它要看工程经验,要看客户导入,要看后续维护,要看能耗改善是不是真的能被运营账吸收。
这里的公司生态位也要拆开。做冷却部件、换热系统或机房环境设备的公司,更多面对项目交付和技术路线选择;做数据中心运营的公司,要承担更长周期的电力、客户、折旧和运维压力;做算力云服务的公司,则要把客户调用、价格、资源调度和融资成本一起装进账本。
同样叫“液冷受益”,账本完全不同。
如果不拆清楚,就会把一个工程问题写成概念问题。
这也是我对 AI 算力后半段更谨慎的原因。它不是没有机会,相反,它可能比前端设备更能体现基础设施属性。但也正因为如此,它不能只靠叙事。工程能力、交付经验、客户结构、运维体系和成本控制,都要逐步验证。
还有一个小细节:液冷不是孤立升级。它会牵动机房设计、管路布置、维护流程、备件体系、客户验收和保险责任。一个方案在实验室里成立,不代表在多客户、多批次、多负载的机房里也能顺滑运行。这里面任何一环不顺,都会从技术问题变成经营问题。
风险反证要提前写:瓶颈会筛资产,也会放大错误
“瓶颈”这个词很诱人。
一旦某个方向被称作瓶颈,市场很容易自动把它理解成稀缺、涨价、景气、好资产。
研究不能这么省事。
电力紧张确实可能提高优质机房、低成本电力、快速并网能力和高密度承载资源的稀缺性。但它也会放大错误投入的代价:电价上行、并网排队、设备闲置、客户迁移、折旧压力,都可能同时出现。
瓶颈不是天然利好。
它只会把好资产和差资产拆得更开。
我会用三个条件看它是不是值得继续跟踪。
先看它有没有真的卡住交付。电力接入不够,客户资源就不能按计划上线;冷却能力不足,高密度机柜就很难稳定运行。这个卡点如果只是概念,意义不大;如果已经影响交付节奏,重要性会提高。
再看它能不能被快速替代。有些问题加班扩产能解决,有些问题要靠并网、工程经验、资质、客户验证和长期运维,节奏完全不同。
最后看它能不能变成商业结果。一个环节不能只停留在“很重要”,还要能变成订单、服务收入、长期合同、成本优势或客户粘性。
伪瓶颈也不少。
有些只是短期供给错配,产能上来后很快缓解。有些是概念先行,真实订单还没跟上。有些是客户愿意试用,但还没有形成稳定付费。有些是技术路线还在摇摆,资产投入过早反而容易被下一代方案替代。
电力、液冷、IDC、光互联、算力调度,都可能出现真瓶颈,也都可能被写成伪叙事。
关键不在名词。
关键在验证。
我会把验证拆得更具体一点。
第一,看电力是不是从规划口径进入可用口径。很多项目早期会讲规模、园区、机柜和远期容量,但真正能决定客户上架的,是可以在什么时间接入、能承受多大负载、冗余设计是否足够。
第二,看冷却是不是从样板间进入日常运维。示范项目跑通不难,难的是多客户、多批次、多负载下还能稳定维护。液冷系统一旦进入日常机房,就不只是设备效率问题,也会影响责任划分、备件体系、现场团队和客户验收。
第三,看客户是不是从试用进入持续使用。AI 基础设施最后不是卖给新闻稿,而是卖给训练任务、推理调用、企业客户和开发者工作流。客户使用越稳定,电费、折旧和运维成本越容易被账本吸收;客户使用越摇摆,前面的建设动作越容易变成压力。
所以这一篇最后落到一件慢事:把叙事放回工程和运营现场。
电能不能接上,机柜能不能稳定跑,液冷能不能从示范走到规模交付,IDC 能不能把客户上架组织成稳定服务,这些问题听起来慢,但它们会决定一轮建设热潮最后留下什么。
AI 算力的下一轮预期差,不一定来自更大的模型发布,也不一定来自更强的 GPU 供给,而可能来自谁能把模型需求稳定落到电力、机房、冷却、网络和持续运营上。
这句话不刺激。
但资产研究本来也不该只追刺激。
这也是我会继续盯这条线的原因。
慢并不等于没有变化。它只是提醒我们,AI 算力后半段的研究,不能只跟着新闻节奏走,还要跟着工程节点、交付验收、客户迁移和运营账本走。热度会把所有环节都推到台前,但最后能留下来的,往往不是最会讲故事的环节,而是那些能把电力、冷却、机房、客户和运维长期组织起来的公司与资产。
慢,才是基础设施的性格。
AI 算力不是跑在云上的抽象能力,它最后要落在电、机房、冷却和运营里。
落不下来,再大的模型需求也是悬在空中的预算。
本文仅作为产业研究、商业模式研究、公开信息整理和资产化路径分析,不构成任何证券、基金、虚拟货币或其他金融产品的投资建议,不构成买卖依据,不涉及交易撮合、账户开立、产品销售、收益承诺或投资顾问服务。文中涉及的公司、项目、协议或资产类别,仅作为公开信息研究样本,不代表推荐。
夜雨聆风