走进AI 数据中心6: 三个瓶颈——供电、通信与散热的互相制约

本文是”AI之旅”合集走进AI 数据中心系列的第 6 篇。

GPU 越做越强，但”加 GPU”不是”加椅子”——每加一颗，对供电、通信、散热的压力都不是线性增长，而是互相叠加、互相放大。PCB 供不上电就跑不满，数据搬不动就算力浪费，热量带不走就被迫降频。这三个物理瓶颈中最弱的那个，决定了整个系统的算力天花板。

图片制作：Nano Banana 2

为什么不能”无限堆 GPU”

前面四篇，我们一层一层拆开了 AI 数据中心：芯片怎么装上去（第 2 篇走进AI 数据中心2：芯片怎么”站稳”——GPU、PCB 与先进封装）、数据怎么搬（第 3 篇走进AI 数据中心3：数据怎么搬——光互联与 CPO）、热量怎么带走（第 4 篇走进AI 数据中心4：热量怎么带走——从风冷到液冷）、电从哪来（第 5 篇走进AI 数据中心5: 电从哪来——供电与能源）。每一层单独看都有物理极限。

但这些极限不是各自独立的——它们之间存在一种互相牵制的关系。

先建立一个直觉：加 GPU 不是加椅子。

在一间教室里加椅子很简单：搬进来就行，一张椅子不影响另一张。但在一个 AI 集群里加 GPU，情况完全不同：

每多一颗 GPU，PCB 要多供几百瓦的电——电流要穿过铜层，产生 I²R 热损耗
每多一颗 GPU，它需要和所有其他 GPU 交换数据——通信量不是线性增长，而是近似平方增长
每多一颗 GPU，它产生的热量要被冷却液带走——热量密度上升，冷板压力增大

三个压力同时增大，而且互相放大：供电增加 → 发热增加 → 散热压力增大；通信带宽增加 → 光模块/CPO 本身也耗电产热 → 进一步加重供电和散热的负担。

用一个比喻来说：这不是木桶效应那么简单——不是”最短的板子决定水位”就完了。这更像是三条互相拉扯的绳子：你拉长一条（比如提升 PCB 的供电能力），另外两条（散热和通信）就会被拉紧。系统的天花板不取决于任何一个单独的极限，而是取决于三者之间的动态平衡点。

瓶颈一：PCB 供电——板子能喂多少电

第 2 篇（走进AI 数据中心2：芯片怎么”站稳”——GPU、PCB 与先进封装）详细讲过 PCB 怎么给芯片供电。这里只回顾关键数字，然后看它作为瓶颈的意义。

电流在飙升

芯片的工作电压很低——只有 0.7-0.9 伏特。功率 = 电压 × 电流。当 GPU 功耗不断攀升：

GPU	年份	功耗（TDP）	在 0.8V 下的电流
H100	2023	700 W	~875 A
B200	2024	1,000 W	~1,250 A
B300	2025	1,400 W	~1,750 A
Vera Rubin	2026	~2,300 W（供应链数据，未官方确认）	~2,875 A

从 H100 到 Vera Rubin，短短三四年时间，电流翻了三倍多。而行业标准 IPC-2152 的测试数据只覆盖到 30 安培——当前的 GPU 供电设计已经在标准覆盖范围之外几十倍了。

为什么 PCB 供电有天花板

电流越大，问题越大：

第一，I²R 损耗。 电流在 PCB 铜线里传输会产生热量，损耗和电流的平方成正比。第 2 篇提过，据 Empower Semiconductor 的测算，在 Grace Hopper 超级芯片中仅 PCB 传输损耗每颗 H200 GPU 就浪费了约 80 瓦。当电流翻三倍，这个损耗会翻九倍——如果不改变架构，光是”送电过程中的浪费”就可能超过几百瓦。

第二，电压抖动。 第 2 篇也讲过，大量晶体管同时切换会导致瞬间电流浪涌，供电电压突然下降。为了应对抖动，不得不给电压加安全余量——但动态功耗和电压的平方成正比（P ∝ V²），多加 0.1V 就意味着多 30% 的功耗。

第三，物理空间。 第 2 篇提到，AI 服务器 PCB 上 75% 的面积已经给了供电组件（DC-DC 转换器、电感、电容）。当 GPU 功耗继续翻倍，供电组件的面积和数量也要跟着涨——但 PCB 的总面积是有限的。

行业怎么推这个天花板

两个主要方向：

垂直供电（Vertical Power Delivery）——把电压转换器从 PCB 表面移到芯片下方，从底部直接垂直供电。缩短电力传输距离，减少 I²R 损耗和电压抖动。Vicor 等厂商的”Power-on-Package”方案可将供电网络损耗降低高达 95%，同时释放芯片四周 100% 的空间给 I/O 接口。

800V 直流配电——第 5 篇提到，NVIDIA 正在推动用 800V 直流取代传统交流配电。从建筑外围直接送 800V 直流到机架，可以减少多级转换损耗，让同样粗细的电缆多传输 85% 的电力。

但这些都是”把天花板往上推”，天花板本身不会消失。只要 GPU 功耗继续按每代翻倍的速度增长，PCB 供电就会持续是一个紧约束。

瓶颈二：通信带宽——数据搬不搬得动

第 3 篇（走进AI 数据中心3：数据怎么搬——光互联与 CPO）讲过，AI 训练需要上万颗 GPU 不停地互相交换数据（梯度同步）。通信带宽决定了”多少颗 GPU 能真正一起算”。

通信开销怎么增长

一个关键的直觉：GPU 数量翻倍，通信开销不止翻倍。

在最常见的分布式训练方案（数据并行 + AllReduce）中，每颗 GPU 每一步都要把自己的梯度发给所有其他 GPU，同时接收所有其他 GPU 的梯度。通信量和 GPU 数量大致成正比——但通信占总训练时间的比例会随 GPU 数量增加而上升，因为计算可以完美并行，通信却有不可避免的同步等待。

当 GPU 数量达到上万颗时，如果通信带宽跟不上，GPU 大量时间在”等数据”——算力花了钱但没干活。这叫通信瓶颈（communication bottleneck）。

从铜到光：带宽在追赶

AI 集群的通信基础设施经历了从铜缆到光纤再到 CPO 的演进：

NVLink
（同一服务器内 GPU 直连）：从第 4 代的 900 GB/s 提升到第 5 代的 1.8 TB/s——每一代翻倍
InfiniBand
（跨服务器通信）：从 NDR 的 400 Gbps 到 XDR 的 800 Gbps
CPO（共封装光学）
把光模块直接封装在交换芯片旁边，减少光电转换的延迟和功耗

第 3 篇（）详细讲过 CPO 的原理和优势。但这里要强调一个经常被忽视的事实：通信基础设施本身也消耗大量的电和产生大量的热。

通信的隐性成本：功耗和发热

传统的可插拔光模块（如 OSFP 和 QSFP-DD800）本身就是耗电大户。一个 800G 的光模块功耗约 13-18 瓦（早期架构可达 25-30 瓦）。一个大型 AI 集群里有成千上万个这样的光模块——光模块本身的总功耗可以达到整个机柜功耗的 10-15%。

CPO 通过缩短电信号传输距离来降低功耗——据行业分析，CPO 可以把光互联的功耗降低 30-65%（NVIDIA 声称其 CPO 平台相比可插拔架构功耗降低约 3.5 倍）。但即便降低了，CPO 模块仍然产热，而且它们被封装在交换芯片旁边——这些热量需要和芯片的热量一起被液冷系统带走。

换句话说：你提升了通信带宽（解决了瓶颈二），但作为副作用，加重了散热系统的负担（收紧了瓶颈三）。

瓶颈三：散热——热量带不带得走

第 4 篇（走进AI 数据中心4：热量怎么带走——从风冷到液冷）详细讲过液冷的工作原理和各方案的 PUE。这里聚焦一个问题：液冷的天花板在哪。

冷板式液冷的极限

冷板式液冷是当前 AI 数据中心的主流方案。第 4 篇提到，先进冷板的散热能力已经可以处理 600 W/cm² 的热流密度——刚好追上当前一代 AI 芯片（GB200）。

但 GPU 功耗还在继续攀升。Dell’Oro Group 2026 年液冷市场报告预测，到 2029 年单颗 GPU 的功率可能超过 4,000 瓦。这意味着热流密度也会继续攀升——冷板需要处理的热量密度将远超当前水平。

冷板的散热能力受几个物理因素约束：

冷板和芯片之间的接触热阻
再精密的冷板也无法做到和芯片表面完美贴合——接触面之间的微小空气间隙是散热的”最后一公里”瓶颈
冷却液的流量和温差
散热量 = 流量 × 比热容 × 温差。要带走更多热量，要么加大流量（增加水泵功耗），要么提高出水温度（受管道和材料耐温限制）
CDU 和冷却塔的总散热速率
即使冷板能把热量带走，最终还是要通过 CDU 和冷却塔散到环境中——这个”出口”的容量也有上限

一个具体的例子

GB200 NVL72 机柜的总功率是 120 kW，液冷系统的进水温度约 45°C、出水温度约 65°C。也就是说，冷却液在流过机柜的过程中温度升高了 20°C。

如果下一代机柜的功率翻倍到 240 kW，要维持同样的进出水温差，冷却液的流量也要翻倍——这意味着更大的管径、更强的水泵、更多的电力消耗——而这些额外的电力消耗又会产生热量，需要被散出去。

如果提高出水温度到 80°C 来维持流量不变？管道、接头、密封材料都需要升级来承受更高温度——成本上升，可靠性风险增大。

这就是散热瓶颈的本质：不是找不到办法散热，而是散热的成本和复杂度随功率增长是超线性的。

浸没式液冷是解药吗

第 4 篇（走进AI 数据中心4：热量怎么带走——从风冷到液冷）讨论过浸没式液冷——把整个服务器板泡进不导电液体里。它的散热能力比冷板强得多（两相浸没的热流密度可达 1,500 W/cm²），PUE 可以逼近理论极限。

但浸没式液冷面临的 PFAS 环保争议（“永久化学品”）、高成本、维护不便等问题，使得大规模普及预计要等到 2028-2035 年。在此之前，冷板式液冷需要独自扛住越来越大的散热压力。

三个瓶颈怎么互相制约

前面分别讲了三个瓶颈各自的极限。现在把它们放在一起看——这才是这篇文章的核心。

链式反应一：芯片更强 → 全链路同时承压

假设 NVIDIA 推出了一款新 GPU，功耗从 1,400 瓦跳到 2,300 瓦。这一颗芯片的变化，会在三个方向同时引爆：

PCB 承压。 电流从 ~1,750A 跳到 ~2,875A。PCB 需要更厚的铜层、更多的供电组件、更宽的走线——但 PCB 面积没有变大。I²R 损耗按电流平方增长，仅传输损耗可能从 ~80 瓦跳到几百瓦。

散热承压。 多出来的 900 瓦全部变成热。冷板要处理更高的热流密度，冷却液流量可能要增加——水泵更大、管道更粗、CDU 容量更大。而供电环节的 I²R 损耗也是热量——散热系统不仅要冷却 GPU 本身，还要冷却因为喂电给 GPU 而产生的废热。

通信承压。 更强的 GPU 意味着更快的计算速度，但如果通信带宽没有同比提升，GPU 花更多时间等数据。为了匹配，NVLink 和 InfiniBand 也要升级——但更高带宽的光模块/CPO 本身功耗更高、产热更多，再次加重供电和散热的负担。

一颗芯片的变化，牵动了整个系统。

链式反应二：解决一个瓶颈，加重另一个

这是更隐蔽也更有趣的互动。

你提升了通信带宽——散热和供电变紧了。 比如从可插拔光模块升级到 CPO，通信瓶颈缓解了。但 CPO 模块被封装在交换芯片旁边，它的废热和交换芯片的废热叠加，局部热流密度上升——冷板需要同时冷却更多的热源。同时，CPO 本身也需要供电，增加了 PCB 的供电负担。

你提升了散热能力——空间变紧了。 比如用更粗的冷却液管道、更大的冷板来提高散热容量。但管道和冷板占物理空间——PCB 的布局空间被挤压，可用于走线和供电组件的面积减少。液冷管路还可能影响光纤的布线路径，增加光互联的物理距离——而距离越长，信号衰减越大，能效越低。

你提升了 PCB 供电能力——散热压力增大了。 比如用更厚的铜层（6 盎司甚至 18 盎司）来传输更大的电流。铜层越厚，PCB 越重、加工难度越大——而且铜层本身也是热的导体，更大的电流意味着更多的 I²R 废热直接产生在 PCB 内部，液冷系统不仅要冷却芯片表面，还要把 PCB 内部的废热也带走。

一个真实的案例：GB200 NVL72

NVIDIA 的 GB200 NVL72 机柜是目前能看到的三个瓶颈平衡得最好的设计之一。看看它怎么同时应对三个挑战：

供电
要求 480V 三相输入（比传统 208V 高了一倍多），每回路约 300 安培——大幅降低了电流和 I²R 损耗。如果数据中心维持传统的 208V 配电，同等功率则需要高达 600 安培，这对配电系统是全新的挑战
通信
72 颗 GPU 通过 NVLink 5.0 全互联，机柜内部通信不需要走外部网络。跨机柜通信通过 InfiniBand XDR 或 NVLink 交换机完成
散热
液冷是强制要求（mandatory），不是可选配置。120 kW 的功率密度让风冷完全没有可能

即便如此，GB200 NVL72 的设计仍然在多个维度上逼近极限。TrendForce 的分析指出，该机柜的实际 TDP 约为 125-130 kW——已经接近当前冷板液冷技术在标准机柜尺寸下的散热上限。

而下一代（Vera Rubin），单颗 GPU 功耗可能跳到 2,300 瓦——单个机柜的总功率可能超过 200 kW。届时，三个瓶颈都需要大幅升级，任何一个跟不上都会成为整个系统的”短板”。

不是公式，是动态平衡

一个重要的澄清：三个瓶颈之间的关系不是一个简单的公式。

你不能写出”算力上限 = f(PCB 供电, 通信带宽, 散热能力)“这样的等式——因为每一个变量的改变都会影响其他两个变量，而且影响的方式取决于具体的架构设计、物理布局、冷却介质、封装技术等无数工程细节。

更准确的理解是：这是一个动态平衡。在任何给定的技术节点上，三个瓶颈中总有一个是”最紧”的——它决定了当前的算力天花板。工程师们的工作就是找到这个最紧的瓶颈，想办法把它推开一点——然后另一个瓶颈变成了新的”最紧”的那个。

过去五年的历史大致是这样的：

2020-2022（H100 之前）
主要瓶颈是通信——GPU 算力够强但数据搬不动，AllReduce 同步成为分布式训练的最大开销
2023-2024（H100/B200）
通信通过 NVLink 4.0/5.0 和 InfiniBand NDR 大幅改善，散热成为新瓶颈——风冷无法应对，液冷成为刚需
2025-2026（B200/Vera Rubin）
液冷铺开解决了散热，供电逐渐成为最紧的约束——800V DC、垂直供电等新技术开始被催生
2027+（Vera Rubin Ultra 及之后）
三个瓶颈可能同时逼近极限——NVIDIA 提出的 Kyber 平台（800V DC + 新一代液冷 + CPO）就是试图同时推开三面墙

天花板一直在，但一直在被推高

回到开头的问题：为什么不能”无限堆 GPU”？

因为物理定律画了三道线：

PCB 能供的电有上限
——电流再大，板子会过热、信号会失真、空间会不够
数据能搬的速度有上限
——带宽再高，光电转换有延迟、光模块有功耗、通信同步有开销
热量能带走的速度有上限
——冷却液有极限温差、管道有极限流量、冷却塔有极限散热速率

这三道线互相牵制：推开一道，另外两道会收紧。一个系统的算力天花板，不取决于最强的那个环节，而取决于最弱的那个——但哪个是最弱的，会随着技术进步不断变化。

好消息是：这些天花板不是”固定不动的墙”。每一代技术迭代——更先进的封装、更高效的光互联、更强的液冷——都在把天花板往上推。GPU 的功耗从五年前的 400 瓦涨到了今天的 1,400 瓦，涨了三倍多，但系统并没有”撞墙停下来”——因为 PCB、光互联和液冷也在同步进化。

只是进化的速度能不能一直跟上芯片功耗的增长速度——这个问题没有人能确定地回答。

到这里，我们已经把 AI 数据中心的所有核心层面都拆完了，也看清了它们之间的制约关系。现在终于可以回答这个系列一开始就隐含的终极问题了：训练一个前沿大模型，到底要花多少钱？钱都花在了哪里？

下一篇，我们来算总账。