AI的瓶颈是电力..
大家都在说 AI 缺 GPU。
英伟达这一轮涨了五倍,HBM 供不应求,服务器交货排到半年以后——这套故事讲得太顺了,顺到没人去问下一个问题。
GPU 买到了,然后呢?
先把一件事说清楚:AI 数据中心的功耗,已经到了什么量级
单张 H100 满载功耗700W。
一台 DGX H100 服务器,插 8 张 H100,满载运行时整机功耗约10 kW——这还只是服务器本身,不含散热。
这是什么概念?
一个 AI 数据中心,用电量甚至跟一个县城相当。
这不是比喻,是物理现实。
国内不缺电,但缺”能放 AI 的地方”
这句话必须先说清楚:
中国的发电装机全球第一,电量总体充足,不是缺电的问题。
真正的问题是三件事叠加:
第一:一线城市的能耗配额,用完了
AI 数据中心最好建在哪里?靠近用户、网络延迟低——也就是北上广深周边。
但问题是:这些地方的能耗指标,已经非常紧张了。
以上海为例,新建高能耗数据中心审批越来越严。深圳、北京类似。
不是没电,是”在这里用电”的配额,用完了。
第二:PUE 这道硬杠,把很多老数据中心判了死刑
PUE = 数据中心总耗电 / IT 设备耗电
PUE = 1.5,意味着每 1 度电用于算力,还要额外 0.5 度电用于散热、供电损耗。
国家的硬要求:
一线城市新建数据中心:PUE < 1.25
西部可适当放宽,但也在收紧
现在很多老数据中心的 PUE 还在 1.8~2.0,根本达不到新标准。
结果:存量数据中心大规模淘汰,合规机柜变成稀缺品。
第三:推理规模爆炸,电费正在变成 AI 公司最大的运营成本
过去两年,大模型的核心矛盾是”能不能训出来”。
现在开始变成:”能不能低成本、大规模地跑起来。”
推理跟训练不一样——训练是一次性的,推理是持续、指数级扩张的。
DeepSeek 爆火之后,国内大模型推理请求量增长了几十倍。每一次用户提问,都要消耗算力、消耗电。
当推理规模足够大,电费会超过芯片采购成本,成为 AI 业务最大的单笔运营成本。
海外已经开始卡了
2024 年 8 月,谷歌在爱尔兰申请新建数据中心,被拒了——理由是电网容量不够。
爱尔兰就这么大,现有数据中心已经吃掉全国 22% 的电力,电网真的顶不住了。
北弗吉尼亚——全球数据中心密度最高的地区——新建项目也在排队等并网。
国外卡的是”电网容量”,国内卡的是”能耗审批 + PUE 约束 + 区域布局”。
表现形式不同,本质是一样的:AI 扩张正在撞上能源基础设施的硬约束。
真正被低估的,是”电力约束”重新定价的方式
现在市场给英伟达 30 倍 PE,给电网设备公司 15 倍 PE。
这个定价关系,可能在未来几年被重新梳理。
首先,AI 数据中心的功耗还在快速上升
H100 单卡 700W,B200 已经超过 1000W,下一代还会继续往上走。
芯片越先进,功耗越高。这是物理规律,不是工程选择。
然后,国内的电力约束是”结构性”的,不是周期性的
一线城市能耗配额紧张,这不是暂时现象,是长期政策导向(双碳目标)。
“东数西算”要把算力往西部迁,但网络延迟、数据传输成本、人才配套,都是现实约束。
能合规、经济地建 AI 数据中心的地方,其实是稀缺资源。
推理时代,电费占比会持续上升
训练是一次性的,推理是持续扩张的。
用户量越大、调用越频繁,电费在运营成本里的占比越高。
从产业趋势看,这几个方向值得关注
以下内容仅为产业趋势观察,不构成投资建议。
液冷散热
传统风冷,PUE 做到 1.4 已经很吃力。液冷可以把 PUE 压到 1.15 以下,是满足新国标的关键路径。
国内液冷渗透率目前不足 15%,但新建 AI 数据中心基本都要求上液冷。
特高压和西部电网配套
“东数西算”要成立,先把西部的电低成本送到东部,同时把西部的算力基地接入全国电网。
特高压建设强度在未来 3 年处于高位,这条线上的设备商订单饱满。
高效能 AI 芯片(ASIC / 国产 GPU)
如果电是有限的,那单位 Token 的能耗就变成核心竞争力。
这也是为什么华为昇腾、阿里平头哥(真武系列)的自研芯片,除了”国产替代”逻辑,还有一层”能效比”的逻辑。
西部算力枢纽的配套机会
贵州、内蒙古、新疆——这些地方都在建大规模 AI 算力基地。
配套机会包括:本地绿电消纳、算力网络调度系统、西部数据中心专用设备。
说在最后
过去两年,AI 的竞争是”训练军备竞赛”——谁 GPU 多,谁模型强。
未来的几年,AI 的竞争是”推理运营效率竞赛”——谁单位 Token 成本低,谁跑得远。
这两件事,对基础设施的要求完全不同。
AI 的下一个战场,可能不是芯片,而是”能放芯片的地方”——以及”用芯片的电”。
本文为投资观察,不构成投资建议。市场有风险,入市需谨慎。
夜雨聆风