本文是”AI之旅”合集 走进AI 数据中心 系列的第 6 篇。
GPU 越做越强,但”加 GPU”不是”加椅子”——每加一颗,对供电、通信、散热的压力都不是线性增长,而是互相叠加、互相放大。PCB 供不上电就跑不满,数据搬不动就算力浪费,热量带不走就被迫降频。这三个物理瓶颈中最弱的那个,决定了整个系统的算力天花板。

图片制作:Nano Banana 2
为什么不能”无限堆 GPU”
前面四篇,我们一层一层拆开了 AI 数据中心:芯片怎么装上去(第 2 篇 走进AI 数据中心2:芯片怎么”站稳”——GPU、PCB 与先进封装)、数据怎么搬(第 3 篇 走进AI 数据中心3:数据怎么搬——光互联与 CPO)、热量怎么带走(第 4 篇 走进AI 数据中心4:热量怎么带走——从风冷到液冷)、电从哪来(第 5 篇 走进AI 数据中心5: 电从哪来——供电与能源)。每一层单独看都有物理极限。
但这些极限不是各自独立的——它们之间存在一种互相牵制的关系。
先建立一个直觉:加 GPU 不是加椅子。
在一间教室里加椅子很简单:搬进来就行,一张椅子不影响另一张。但在一个 AI 集群里加 GPU,情况完全不同:
每多一颗 GPU,PCB 要多供几百瓦的电——电流要穿过铜层,产生 I²R 热损耗 每多一颗 GPU,它需要和所有其他 GPU 交换数据——通信量不是线性增长,而是近似平方增长 每多一颗 GPU,它产生的热量要被冷却液带走——热量密度上升,冷板压力增大
三个压力同时增大,而且互相放大:供电增加 → 发热增加 → 散热压力增大;通信带宽增加 → 光模块/CPO 本身也耗电产热 → 进一步加重供电和散热的负担。
用一个比喻来说:这不是木桶效应那么简单——不是”最短的板子决定水位”就完了。这更像是三条互相拉扯的绳子:你拉长一条(比如提升 PCB 的供电能力),另外两条(散热和通信)就会被拉紧。系统的天花板不取决于任何一个单独的极限,而是取决于三者之间的动态平衡点。
瓶颈一:PCB 供电——板子能喂多少电
第 2 篇(走进AI 数据中心2:芯片怎么”站稳”——GPU、PCB 与先进封装)详细讲过 PCB 怎么给芯片供电。这里只回顾关键数字,然后看它作为瓶颈的意义。
电流在飙升
芯片的工作电压很低——只有 0.7-0.9 伏特。功率 = 电压 × 电流。当 GPU 功耗不断攀升:
从 H100 到 Vera Rubin,短短三四年时间,电流翻了三倍多。而行业标准 IPC-2152 的测试数据只覆盖到 30 安培——当前的 GPU 供电设计已经在标准覆盖范围之外几十倍了。
为什么 PCB 供电有天花板
电流越大,问题越大:
第一,I²R 损耗。 电流在 PCB 铜线里传输会产生热量,损耗和电流的平方成正比。第 2 篇提过,据 Empower Semiconductor 的测算,在 Grace Hopper 超级芯片中仅 PCB 传输损耗每颗 H200 GPU 就浪费了约 80 瓦。当电流翻三倍,这个损耗会翻九倍——如果不改变架构,光是”送电过程中的浪费”就可能超过几百瓦。
第二,电压抖动。 第 2 篇也讲过,大量晶体管同时切换会导致瞬间电流浪涌,供电电压突然下降。为了应对抖动,不得不给电压加安全余量——但动态功耗和电压的平方成正比(P ∝ V²),多加 0.1V 就意味着多 30% 的功耗。
第三,物理空间。 第 2 篇提到,AI 服务器 PCB 上 75% 的面积已经给了供电组件(DC-DC 转换器、电感、电容)。当 GPU 功耗继续翻倍,供电组件的面积和数量也要跟着涨——但 PCB 的总面积是有限的。
行业怎么推这个天花板
两个主要方向:
垂直供电(Vertical Power Delivery)——把电压转换器从 PCB 表面移到芯片下方,从底部直接垂直供电。缩短电力传输距离,减少 I²R 损耗和电压抖动。Vicor 等厂商的”Power-on-Package”方案可将供电网络损耗降低高达 95%,同时释放芯片四周 100% 的空间给 I/O 接口。
800V 直流配电——第 5 篇提到,NVIDIA 正在推动用 800V 直流取代传统交流配电。从建筑外围直接送 800V 直流到机架,可以减少多级转换损耗,让同样粗细的电缆多传输 85% 的电力。
但这些都是”把天花板往上推”,天花板本身不会消失。只要 GPU 功耗继续按每代翻倍的速度增长,PCB 供电就会持续是一个紧约束。
瓶颈二:通信带宽——数据搬不搬得动
第 3 篇(走进AI 数据中心3:数据怎么搬——光互联与 CPO)讲过,AI 训练需要上万颗 GPU 不停地互相交换数据(梯度同步)。通信带宽决定了”多少颗 GPU 能真正一起算”。
通信开销怎么增长
一个关键的直觉:GPU 数量翻倍,通信开销不止翻倍。
在最常见的分布式训练方案(数据并行 + AllReduce)中,每颗 GPU 每一步都要把自己的梯度发给所有其他 GPU,同时接收所有其他 GPU 的梯度。通信量和 GPU 数量大致成正比——但通信占总训练时间的比例会随 GPU 数量增加而上升,因为计算可以完美并行,通信却有不可避免的同步等待。
当 GPU 数量达到上万颗时,如果通信带宽跟不上,GPU 大量时间在”等数据”——算力花了钱但没干活。这叫通信瓶颈(communication bottleneck)。
从铜到光:带宽在追赶
AI 集群的通信基础设施经历了从铜缆到光纤再到 CPO 的演进:
- NVLink
(同一服务器内 GPU 直连):从第 4 代的 900 GB/s 提升到第 5 代的 1.8 TB/s——每一代翻倍 - InfiniBand
(跨服务器通信):从 NDR 的 400 Gbps 到 XDR 的 800 Gbps - CPO(共封装光学)
把光模块直接封装在交换芯片旁边,减少光电转换的延迟和功耗
第 3 篇()详细讲过 CPO 的原理和优势。但这里要强调一个经常被忽视的事实:通信基础设施本身也消耗大量的电和产生大量的热。
通信的隐性成本:功耗和发热
传统的可插拔光模块(如 OSFP 和 QSFP-DD800)本身就是耗电大户。一个 800G 的光模块功耗约 13-18 瓦(早期架构可达 25-30 瓦)。一个大型 AI 集群里有成千上万个这样的光模块——光模块本身的总功耗可以达到整个机柜功耗的 10-15%。
CPO 通过缩短电信号传输距离来降低功耗——据行业分析,CPO 可以把光互联的功耗降低 30-65%(NVIDIA 声称其 CPO 平台相比可插拔架构功耗降低约 3.5 倍)。但即便降低了,CPO 模块仍然产热,而且它们被封装在交换芯片旁边——这些热量需要和芯片的热量一起被液冷系统带走。
换句话说:你提升了通信带宽(解决了瓶颈二),但作为副作用,加重了散热系统的负担(收紧了瓶颈三)。
瓶颈三:散热——热量带不带得走
第 4 篇(走进AI 数据中心4:热量怎么带走——从风冷到液冷)详细讲过液冷的工作原理和各方案的 PUE。这里聚焦一个问题:液冷的天花板在哪。
冷板式液冷的极限
冷板式液冷是当前 AI 数据中心的主流方案。第 4 篇提到,先进冷板的散热能力已经可以处理 600 W/cm² 的热流密度——刚好追上当前一代 AI 芯片(GB200)。
但 GPU 功耗还在继续攀升。Dell’Oro Group 2026 年液冷市场报告预测,到 2029 年单颗 GPU 的功率可能超过 4,000 瓦。这意味着热流密度也会继续攀升——冷板需要处理的热量密度将远超当前水平。
冷板的散热能力受几个物理因素约束:
- 冷板和芯片之间的接触热阻
再精密的冷板也无法做到和芯片表面完美贴合——接触面之间的微小空气间隙是散热的”最后一公里”瓶颈 - 冷却液的流量和温差
散热量 = 流量 × 比热容 × 温差。要带走更多热量,要么加大流量(增加水泵功耗),要么提高出水温度(受管道和材料耐温限制) - CDU 和冷却塔的总散热速率
即使冷板能把热量带走,最终还是要通过 CDU 和冷却塔散到环境中——这个”出口”的容量也有上限
一个具体的例子
GB200 NVL72 机柜的总功率是 120 kW,液冷系统的进水温度约 45°C、出水温度约 65°C。也就是说,冷却液在流过机柜的过程中温度升高了 20°C。
如果下一代机柜的功率翻倍到 240 kW,要维持同样的进出水温差,冷却液的流量也要翻倍——这意味着更大的管径、更强的水泵、更多的电力消耗——而这些额外的电力消耗又会产生热量,需要被散出去。
如果提高出水温度到 80°C 来维持流量不变?管道、接头、密封材料都需要升级来承受更高温度——成本上升,可靠性风险增大。
这就是散热瓶颈的本质:不是找不到办法散热,而是散热的成本和复杂度随功率增长是超线性的。
浸没式液冷是解药吗
第 4 篇(走进AI 数据中心4:热量怎么带走——从风冷到液冷)讨论过浸没式液冷——把整个服务器板泡进不导电液体里。它的散热能力比冷板强得多(两相浸没的热流密度可达 1,500 W/cm²),PUE 可以逼近理论极限。
但浸没式液冷面临的 PFAS 环保争议(“永久化学品”)、高成本、维护不便等问题,使得大规模普及预计要等到 2028-2035 年。在此之前,冷板式液冷需要独自扛住越来越大的散热压力。
三个瓶颈怎么互相制约
前面分别讲了三个瓶颈各自的极限。现在把它们放在一起看——这才是这篇文章的核心。
链式反应一:芯片更强 → 全链路同时承压
假设 NVIDIA 推出了一款新 GPU,功耗从 1,400 瓦跳到 2,300 瓦。这一颗芯片的变化,会在三个方向同时引爆:
PCB 承压。 电流从 ~1,750A 跳到 ~2,875A。PCB 需要更厚的铜层、更多的供电组件、更宽的走线——但 PCB 面积没有变大。I²R 损耗按电流平方增长,仅传输损耗可能从 ~80 瓦跳到几百瓦。
散热承压。 多出来的 900 瓦全部变成热。冷板要处理更高的热流密度,冷却液流量可能要增加——水泵更大、管道更粗、CDU 容量更大。而供电环节的 I²R 损耗也是热量——散热系统不仅要冷却 GPU 本身,还要冷却因为喂电给 GPU 而产生的废热。
通信承压。 更强的 GPU 意味着更快的计算速度,但如果通信带宽没有同比提升,GPU 花更多时间等数据。为了匹配,NVLink 和 InfiniBand 也要升级——但更高带宽的光模块/CPO 本身功耗更高、产热更多,再次加重供电和散热的负担。
一颗芯片的变化,牵动了整个系统。
链式反应二:解决一个瓶颈,加重另一个
这是更隐蔽也更有趣的互动。
你提升了通信带宽——散热和供电变紧了。 比如从可插拔光模块升级到 CPO,通信瓶颈缓解了。但 CPO 模块被封装在交换芯片旁边,它的废热和交换芯片的废热叠加,局部热流密度上升——冷板需要同时冷却更多的热源。同时,CPO 本身也需要供电,增加了 PCB 的供电负担。
你提升了散热能力——空间变紧了。 比如用更粗的冷却液管道、更大的冷板来提高散热容量。但管道和冷板占物理空间——PCB 的布局空间被挤压,可用于走线和供电组件的面积减少。液冷管路还可能影响光纤的布线路径,增加光互联的物理距离——而距离越长,信号衰减越大,能效越低。
你提升了 PCB 供电能力——散热压力增大了。 比如用更厚的铜层(6 盎司甚至 18 盎司)来传输更大的电流。铜层越厚,PCB 越重、加工难度越大——而且铜层本身也是热的导体,更大的电流意味着更多的 I²R 废热直接产生在 PCB 内部,液冷系统不仅要冷却芯片表面,还要把 PCB 内部的废热也带走。
一个真实的案例:GB200 NVL72
NVIDIA 的 GB200 NVL72 机柜是目前能看到的三个瓶颈平衡得最好的设计之一。看看它怎么同时应对三个挑战:
- 供电
要求 480V 三相输入(比传统 208V 高了一倍多),每回路约 300 安培——大幅降低了电流和 I²R 损耗。如果数据中心维持传统的 208V 配电,同等功率则需要高达 600 安培,这对配电系统是全新的挑战 - 通信
72 颗 GPU 通过 NVLink 5.0 全互联,机柜内部通信不需要走外部网络。跨机柜通信通过 InfiniBand XDR 或 NVLink 交换机完成 - 散热
液冷是强制要求(mandatory),不是可选配置。120 kW 的功率密度让风冷完全没有可能
即便如此,GB200 NVL72 的设计仍然在多个维度上逼近极限。TrendForce 的分析指出,该机柜的实际 TDP 约为 125-130 kW——已经接近当前冷板液冷技术在标准机柜尺寸下的散热上限。
而下一代(Vera Rubin),单颗 GPU 功耗可能跳到 2,300 瓦——单个机柜的总功率可能超过 200 kW。届时,三个瓶颈都需要大幅升级,任何一个跟不上都会成为整个系统的”短板”。
不是公式,是动态平衡
一个重要的澄清:三个瓶颈之间的关系不是一个简单的公式。
你不能写出”算力上限 = f(PCB 供电, 通信带宽, 散热能力)“这样的等式——因为每一个变量的改变都会影响其他两个变量,而且影响的方式取决于具体的架构设计、物理布局、冷却介质、封装技术等无数工程细节。
更准确的理解是:这是一个动态平衡。在任何给定的技术节点上,三个瓶颈中总有一个是”最紧”的——它决定了当前的算力天花板。工程师们的工作就是找到这个最紧的瓶颈,想办法把它推开一点——然后另一个瓶颈变成了新的”最紧”的那个。
过去五年的历史大致是这样的:
- 2020-2022(H100 之前)
主要瓶颈是通信——GPU 算力够强但数据搬不动,AllReduce 同步成为分布式训练的最大开销 - 2023-2024(H100/B200)
通信通过 NVLink 4.0/5.0 和 InfiniBand NDR 大幅改善,散热成为新瓶颈——风冷无法应对,液冷成为刚需 - 2025-2026(B200/Vera Rubin)
液冷铺开解决了散热,供电逐渐成为最紧的约束——800V DC、垂直供电等新技术开始被催生 - 2027+(Vera Rubin Ultra 及之后)
三个瓶颈可能同时逼近极限——NVIDIA 提出的 Kyber 平台(800V DC + 新一代液冷 + CPO)就是试图同时推开三面墙
天花板一直在,但一直在被推高
回到开头的问题:为什么不能”无限堆 GPU”?
因为物理定律画了三道线:
- PCB 能供的电有上限
——电流再大,板子会过热、信号会失真、空间会不够 - 数据能搬的速度有上限
——带宽再高,光电转换有延迟、光模块有功耗、通信同步有开销 - 热量能带走的速度有上限
——冷却液有极限温差、管道有极限流量、冷却塔有极限散热速率
这三道线互相牵制:推开一道,另外两道会收紧。一个系统的算力天花板,不取决于最强的那个环节,而取决于最弱的那个——但哪个是最弱的,会随着技术进步不断变化。
好消息是:这些天花板不是”固定不动的墙”。每一代技术迭代——更先进的封装、更高效的光互联、更强的液冷——都在把天花板往上推。GPU 的功耗从五年前的 400 瓦涨到了今天的 1,400 瓦,涨了三倍多,但系统并没有”撞墙停下来”——因为 PCB、光互联和液冷也在同步进化。
只是进化的速度能不能一直跟上芯片功耗的增长速度——这个问题没有人能确定地回答。
到这里,我们已经把 AI 数据中心的所有核心层面都拆完了,也看清了它们之间的制约关系。现在终于可以回答这个系列一开始就隐含的终极问题了:训练一个前沿大模型,到底要花多少钱?钱都花在了哪里?
下一篇,我们来算总账。
夜雨聆风