为什么AI缺芯片、缺内存、还缺电?揭秘算力瓶颈的传导链条
当我们试图理解 AI 算力产业链的演变时,最重要的不是记住每一个技术名词,而是看清楚支配这个系统的底层规律。这个规律很简单:在一个由多个互补要素构成的系统中,瓶颈永远会转移到下一个最稀缺的环节。这不是偶然,而是经济学中列昂惕夫生产函数的必然结果——当你的产出取决于多个必需投入的最小值时,解决一个瓶颈只会让下一个瓶颈浮出水面。
一、为什么瓶颈会按顺序传导
AI 算力不是单一商品,而是一个复杂系统的输出。要让一个大规模 AI 集群运转起来,你需要:计算芯片(GPU)、高带宽内存(HBM)、互连网络(铜缆或光纤)、充足电力、以及能把热量带走的冷却系统。这五个要素缺一不可,它们之间是互补关系,不是替代关系。
这意味着什么?意味着即使你有10万张最先进的 GPU,如果没有足够的 HBM 内存与之匹配,这些 GPU 就无法发挥作用;即使 GPU 和内存都齐备,如果没有足够的带宽把它们连接起来,算力依然无法规模化;即使前面所有硬件都到位,如果没有电力供应和冷却能力,机柜根本无法上架运行。
这就是为什么过去四年里,我们看到瓶颈像接力赛一样,从 GPU 传导到 HBM,再传导到光互连,最后传导到电力和液冷。每一次资本和工程资源集中解决一个环节,就会立即把压力推向下一个环节。这不是规划失误,而是系统性约束的自然演化。
二、瓶颈传导的四个阶段
第一阶段:GPU 计算瓶颈(2022-2024)
故事从最显而易见的地方开始——计算本身。当 ChatGPT 引爆全球 AI 热潮时,所有人都在抢夺同一样东西:NVIDIA 的 H100 GPU。问题不仅在于芯片设计的复杂性,更在于制造端的物理约束。
台积电的4nm 和3nm 工艺是全球仅有的几条能生产这种高端逻辑芯片的产线,而更关键的是后端封装——CoWoS(Chip-on-Wafer-on-Substrate)技术。这种2.5D 和3D 封装工艺能把逻辑芯片和 HBM 内存堆叠在一起,但产能极其有限。即使前端晶圆产能充足,后端封装跟不上,整张 GPU 就出不来。
台积电在2024到2025年间大力扩充 CoWoS 产能,几乎翻倍。NVIDIA 的 Blackwell 架构 GPU 开始大规模出货。这个瓶颈被缓解了,但这只是解锁了“计算”这一个维度。系统立刻暴露出下一个更深层的问题。
第二阶段:存储瓶颈(2024-2025)
当 GPU 算力上去了,模型参数却在爆炸式增长——从千亿参数到万亿、甚至十万亿参数。这时候真正的限制不再是计算速度,而是数据搬运速度,也就是所谓的“内存墙”。
传统的 DDR 内存带宽完全无法满足 AI 训练和推理的需求。HBM(高带宽内存)应运而生,它紧邻逻辑芯片,通过硅通孔(TSV)技术实现垂直堆叠,每秒可传输数 TB 数据,比常规内存快20倍以上,同时大幅降低能耗。
但问题在于,HBM 的制造难度极高,全球只有 SK 海力士、三星和美光三家公司能规模化生产。一张 Blackwell B200 GPU 需要192GB 以上的 HBM3e,单个 NVL72机柜的 HBM 总量就达到30-40TB。2025年,这三家厂商的 HBM 产能已经全部卖光,2026年依然供不应求,价格同比暴涨246%。
这意味着什么?意味着即使 GPU 芯片已经 ready,没有 HBM 就无法组装交付,整个 AI 集群的部署都会延期。存储从过去的“商品”变成了战略级的卡脖子环节,在数据中心资本开支中的占比可以达到30%。
第三阶段:光互连瓶颈(2025-2026)
当 GPU 和 HBM 的供应逐渐跟上节奏,新的物理极限又出现了——铜缆。
在单机柜内,几十张 GPU 之间还可以用铜缆(NVLink/NVSwitch)互连。但当 AI 集群扩展到数千张甚至数万张 GPU 时,铜缆的物理限制就无法回避了:在1.8TB/s 的带宽下,铜缆的有效传输距离不到1米;一个 NVL72机柜需要超过5000根铜缆,总重量达到1.36吨;功耗高、信号衰减严重、散热困难。
解决方案只有一个:转向光互连。通过 CPO(共封装光学)和硅光子技术,把光引擎直接封装在 GPU 或 ASIC 旁边,用光纤实现大规模 Scale-Out。光互连的带宽密度更高、每比特功耗更低、传输距离更远,能够支撑真正的超大规模集群。
NVIDIA 在2026年的 GTC 大会上大力押注光互连,已经投资多家光学公司。800G 和1.6T 光模块的需求正在爆发式增长。Lumentum、Broadcom、Coherent、Ayar Labs 等光学厂商成为新的赢家。铜缆已经走到了物理极限,光互连正在从“可选项”变成“必选项”。
第四阶段:电力与液冷瓶颈(2026年至今)
当前面所有硬件问题都逐步解决后,最终的物理约束浮出水面:能量。
每张 GPU 的功耗从300W 飙升到700-1200W,单机柜的功耗从传统 CPU 时代的10-20kW 暴增到120-200kW 甚至更高。传统风冷的物理上限只有20-50kW,噪音、风量、能耗都已经不可接受。数据中心必须切换到直接芯片液冷(Direct-to-Chip)或浸没式液冷,结合微流控和冷板技术。台积电已经在 CoWoS 平台上演示了硅基液冷方案,支持超过2.6kW 的 TDP。
但更大的问题在电力供应侧。数据中心需要 GW 级别的供电能力,而电网并网的排队时间可以长达数年。摩根大通的报告显示,美国未来5年的电力规划从101GW 飙升到230GW,44%的新项目并网等待时间超过4年。变压器、固态变压器等设备的交付周期已经拉长到100周。微软 CEO 曾经直言:“我们有 GPU,但没有地方插电。”
这是真正的终极约束。即使前面所有环节都解决了,没有电力和冷却能力,机柜就无法上架运行。PUE(电能利用效率)必须控制在1.2以下,余热回收、核电和新型能源并网都成为新的议题。Vertiv 等液冷和热管理厂商成为基础设施的新核心。
三、数据揭示的需求量级跃迁
这不是理论推演,而是正在发生的现实。最近几个月,多家顶级投行——摩根士丹利、摩根大通、美银、高盛、瑞银、花旗、伯恩斯坦、汇丰——密集发布 AI 相关更新报告,它们的数据来自不同研究路径,却指向同一个结论:AI 需求的量级已经突破了所有传统预测模型的区间。
摩根士丹利的全球主题研究显示,全球每周大语言模型的 token 消耗量在3个月内从6.4万亿个飙升到22.7万亿个,增幅达到2.5倍。美国2025-2028年数据中心的电力缺口为55吉瓦。
摩根大通的数据中心高性能计算项目债首次覆盖报告直接给出“未来5年122吉瓦待融资”的缺口数字。
美银给 Alphabet 的最新目标价报告中,2026年资本支出被直接上修到1815亿美元,同比翻倍,而自由现金流同比下降62%。
这三组数据不是同一套框架的输出,而是三家独立机构在不同研究路径上的独立画像。它们共同证明:AI 的需求量级已经突破了传统电力规划、半导体设备产能、存储价格模型和机器人装机假设的所有预测区间。
四、投资逻辑的重构
理解瓶颈传导的底层逻辑,就能理解为什么投资机会在不断迁移。
在2022到2023年,市场的焦点在 NVIDIA 和台积电——它们控制着 GPU 的设计和制造。但当 GPU 供应逐渐缓解后,价值开始向上游转移:SK 海力士、三星、美光这三家 HBM 巨头成为新的稀缺资源控制者。它们的股价在2024到2025年间大幅上涨,因为没有它们的 HBM,再多的 GPU 也无法交付。
现在,随着光互连和电力/液冷成为新瓶颈,投资逻辑再次迁移:Lumentum、Coherent 等光学厂商,Vertiv 等液冷和电力基础设施公司,正在成为新的价值捕获者。
这背后的原则很简单:在一个由互补要素构成的系统中,谁控制了当前的最稀缺环节,谁就能攫取最大的价值。而最稀缺的环节,往往是那些产能不易快速扩张、具有极高护城河的领域——无论是 HBM 的制造工艺壁垒,还是光模块的技术积累,又或是电网并网的漫长周期。
五、效率优化的巨大空间
但故事还有另一面。当供给侧的瓶颈在逐个突破时,需求侧的效率优化空间依然巨大。
在推理端,蒸馏、量化、MoE(混合专家模型)、专用芯片等技术正在快速发展。这些技术的目标是把单位算力的能耗和成本再降低10到100倍。液体冷却技术的进步可以大幅提升散热效率,降低 PUE。更远期的核聚变等新型能源,可能从根本上改变数据中心的能源结构。
这意味着,即使供给侧的瓶颈依然存在,需求侧的技术进步也在不断降低对资源的绝对消耗。这两股力量的博弈,将决定未来几年 AI 算力产业链的真实走向。
六、结语:看清系统,而非孤立的点
AI 算力产业链的瓶颈传导,本质上是一个系统性问题。它不是某个公司或某项技术的失误,而是当需求量级发生数量级跃迁时,所有互补要素必须同步扩张的必然结果。
每一次瓶颈的转移,都在重塑整个半导体和数据中心产业链的价值分配。理解这个传导逻辑,就能理解为什么投资机会在不断迁移——从 GPU 到 HBM,从 HBM 到光互连,从光互连到电力和液冷。
未来可能还会出现新的瓶颈——激光器、光纤材料、电网变压器,甚至是我们现在还没有预见到的环节。但“计算→存储→光→电/冷”这条链条已经成为行业公认的路径。
在这个系统中生存和获利的关键,不是押注某个单一环节,而是理解整个系统的运作规律,识别当前和下一个最稀缺的环节,并在价值转移之前提前布局。这不是预测未来,而是理解因果——当你看清楚了系统的约束条件和传导机制,所谓的“未来”只是逻辑的必然展开。
夜雨聆风