从12V到48V直流母线,AI数据中心供电系统的革命
2024年初,一家主要服务超大型数据中心的电源供应商发了一封内部备忘录,内容是关于他们接到的一个新订单的技术规格。备忘录里有一句话让工程师们颇为感慨,大意是「客户要求的供电密度,已经超过了我们现有12V方案的物理极限」。
2024年初,一家主要服务超大型数据中心的电源供应商发了一封内部备忘录,内容是关于他们接到的一个新订单的技术规格。备忘录里有一句话让工程师们颇为感慨,大意是「客户要求的供电密度,已经超过了我们现有12V方案的物理极限」。
这不是这家公司独有的困境。事实上,整个数据中心供电行业在过去两年里都在面对同一个现实,那就是GPU功耗的增长速度,已经把沿用了将近二十年的12V供电架构逼到了墙角。
先说一个基础的物理常识。电功率等于电压乘以电流。如果你需要传输1000瓦的功率,用12V的话需要约83安培的电流,用48V的话只需要约21安培的电流。
电流大小的差异在工程上意味着很多事情。导线里通过的电流越大,产生的热量越多(这叫做焦耳热,和电流的平方成正比)。电流越大,导线必须越粗才能保证安全,重量和成本都会上去。电流越大,在转换环节的损耗也越大。
当一块GPU的功耗还在200瓦、300瓦的时候,这些问题都是可以接受的。12V架构虽然不完美,但足够好用,而且全行业的标准都是围绕它建立的,从主板到电源供应器到机柜设计,都已经高度成熟。
但现在的旗舰GPU功耗是多少?英伟达H100单卡TDP是700瓦,H200是1000瓦。一个机架如果装满8块H100,光GPU的功耗就是5600瓦,加上CPU、内存、网卡、散热等其他部件,整个机架的功耗轻松超过10000瓦。
在这个功耗水平下,12V供电的电流要求已经到了让工程师头皮发麻的程度。主板上的供电轨需要承载数百安培的电流,VRM(电压调节模块)的损耗变得非常显著,整个供电路径上的热管理难度急剧上升。
坦率的讲,48V直流母线这个概念在数据中心领域已经讨论了很多年,谷歌和Facebook(现在叫Meta)在十年前就开始测试48V供电架构,但真正大规模推广一直比较缓慢。原因很简单,12V的生态太成熟了,没有足够强的动力去颠覆它。
现在这个动力来了,就是GPU功耗的飙升。
迁移到48V架构的好处是相当实质性的。首先是效率,同等功率下电流减小到原来的四分之一,导线损耗降低到原来的十六分之一(因为损耗和电流平方成正比)。这直接体现在PUE(电能利用效率)指标上,现代顶级数据中心的PUE已经压到1.1以下,每提升零点零几个百分点都意味着巨大的年度电费节省。
其次是响应速度。这一点很多人意识不到,但对AI推理任务来说非常关键。GPU在执行推理任务时,功耗变化非常快,可能在几十微秒内从低负载跳到满负载。供电系统需要在极短时间内响应这种变化,否则供电电压会出现波动,影响芯片的稳定运行。48V架构在这个维度上的表现明显优于12V架构,主要原因是更低的电流意味着供电路径的电感效应更小,瞬态响应更快。
第三是密度。48V架构允许把同等算力塞进更小的物理空间里,因为供电部件的尺寸可以缩小。这在数据中心寸土寸金的环境里,不是一个可以忽视的优势。
说真的,48V迁移这件事现在已经不是「要不要做」的问题,而是「怎么做」和「做多快」的问题。
英特尔、AMD和英伟达的旗舰产品都已经明确支持48V供电接口。服务器领域,超微(Supermicro)、戴尔、惠普企业都在推出支持48V母线的新平台。电源供应商里,Flex、Murata等公司的48V产品线已经相当完整。
这里有一个有趣的生态系统问题。数据中心供电架构的迁移,从来不是单个厂商能独立推动的,需要芯片商、服务器商、电源供应商、机柜设计商、数据中心运营商协同推进。每个环节都要对应的产品,否则整个链条就断了。
目前的状态是,新建数据中心和大规模扩容项目,基本上都会选择48V架构。但存量设施的改造是一个缓慢的过程,毕竟把一个运行中的数据中心的电源架构改掉,成本和风险都很高。所以未来几年会是12V和48V长期共存的局面,这给了电源管理芯片厂商一个特殊的机会,就是做能兼容两种架构的转换模块。
你想想看,十年前的数据中心,一个标准机架的功耗大概是3到5千瓦。现在一个AI训练集群的机架功耗轻松超过30到50千瓦,高密度机架甚至到了100千瓦级别。这是真正的指数级增长,而且短期内没有减速的迹象。
这个增长对数据中心的物理基础设施提出了全新要求。传统的风冷方案在30千瓦以内还勉强够用,超过这个密度就必须考虑液冷。直接接触液冷(Direct Liquid Cooling)、浸没式液冷(Immersion Cooling)这些技术,在五年前还是少数顶尖研究机构才会用的「黑科技」,现在已经进入主流数据中心的标准配置讨论范围。
供电和散热这两个维度正在同步发展,而且互相影响。48V架构本身能降低电能向热能的转换损耗,这减轻了散热系统的负担;而更高效的散热系统又允许在同等面积里塞入更多算力,进一步推高机架功耗密度,又对供电提出更高要求。这是一个互相促进的正反馈循环。
这里有一些有趣的商业逻辑值得梳理。
电源管理芯片(PMIC)领域的公司,比如德州仪器、Monolithic Power Systems、英飞凌,在这波48V迁移里是相对确定性的受益者。每一个需要从48V降压到芯片实际工作电压(通常是1V左右)的地方,都需要高效的降压芯片,而这类芯片的复杂度和价值量都在提升。
浸没式液冷领域的公司,比如Submer、Green Revolution Cooling,以及传统冷却巨头如Vertiv和Schneider Electric,也会因为机架功耗密度的持续上升而受益。
相对不那么受益的,是传统数据中心基础设施里专门做风冷系统的公司。不是说他们的生意会消失,但增长最快的那部分市场,正在往他们不擅长的方向走。
最后说一个经常被忽视的维度,就是电网基础设施的压力。
数据中心的用电需求增长速度,已经开始让电网运营商感到紧张。美国很多地区的电网运营商公开表示,收到的数据中心接入申请所需的总用电量,已经超过了现有电网的扩容计划。欧洲一些地区出现了数据中心因为电力接入申请被拒而无法按期投产的情况。
从12V到48V的迁移,可以把数据中心内部的用电效率提升几个百分点,但这远不足以抵消算力需求增长带来的电力需求增量。供电系统的革命,其实只是这场更大变革的一部分,真正的挑战在于如何让整个电力供应链跟上AI时代的算力需求节奏。
本文核心观点仅代表作者个人分析,欢迎讨论交流
夜雨聆风