乐于分享
好东西不私藏

AI算力爆发下,两相液冷如何破解高密度机柜的热管理瓶颈?

AI算力爆发下,两相液冷如何破解高密度机柜的热管理瓶颈?

摘要:AI算力爆发使单机柜功率突破120kW,单相液冷在瞬时负载波动下导致GPU频繁降频,有效算力损失达15%-25%。两相液冷利用相变潜热换热,实现芯片级±1.5℃精准控温,响应速度远超单相系统,热降频减少90%以上。航天级技术下放,支持新建120kW+机柜与存量机房在线改造,某老旧机房改造后PUE从1.8降至1.3,释放近40%算力。系统级交付贯通芯片、机柜、站级三层协同,结合物联网平台实现主动温控。液冷竞争正从“降温”进入“控温”深水区。

一、行业变了:AI算力爆发,热管理正成为算力兑现的瓶颈

1 AI训练集群功率密度飙升,传统冷却方式逼近极限

2024年起,主流AI训练机柜功率普遍突破30kW,部分已达到60~120kW。据DCD调研,全球超过40%的新建智算中心单机柜设计功率超过40kW。而三年前,这一数值还集中在5~15kW区间。

这意味着什么?一台服务器的局部热流密度,已经堪比小型电炉。风冷早已无力应对,单相液冷虽能带走热量,但在瞬时负载波动、芯片功耗剧烈变化的AI推理场景下,温度波动频繁,导致GPU频繁降频——算力纸面强大,实际释放受限。

已关注

关注

重播 分享

2.行业的真实痛点:不是能不能开机,而是能不能稳跑

一位数据中心运维负责人坦言:我们不怕设备贵,怕的是买了高价算力卡,却因散热跟不上,每天下午三点自动降频30%这并非个例。在多地实测中,高密度机柜在连续训练任务中,因局部过热触发保护机制,导致有效算力损失达15%-25%

更深层的问题是:客户采购的从来不是冷却系统,而是稳定释放算力的能力。当AI模型训练周期动辄数周,任何中断或性能波动都将直接影响研发进度与商业回报。

3. 行业趋势升级:液冷竞争已进入控温深水区

如果说过去五年是有没有液冷的普及期,那么未来三年将是液冷够不够稳、够不够精的升级期。Gartner指出,2025年后,超过60%的高密度部署将要求冷却系统具备±2℃以内的温度控制能力。

这也解释了为何头部云厂商和AI企业纷纷押注两相液冷——它们真正争夺的,不是更低的温度,而是更稳定的温区

二、技术跃迁:从降温控温,两相液冷重构热管理逻辑

1两相液冷的本质,是用相变潜热替代显热换热

传统单相液冷依赖液体升温带走热量,属于显热传递。而两相液冷则利用液体在微通道内汽化吸热、外部冷凝放热的循环过程,充分调动潜热效应。

以水为例,其汽化热为2260kJ/kg,远高于比热容4.2kJ/kg·℃。这意味着,带走同等热量,两相系统所需的冷却剂流量仅为单相系统的1/5~1/9,大幅降低泵组能耗与系统复杂度。

2精准控温:芯片级±1.5℃动态调节,消除热波动

两相系统的另一个优势在于温度恒定性。在沸腾过程中,只要压力稳定,液体汽化温度几乎不变。结合泵驱压力动态调节技术,可在25℃~85℃范围内,以±1.5℃精度控制芯片表面温度。

实测数据显示,在负载从200W突增至600W时,两相冷板可通过气化量自适应调节,无需改变流量即可维持温区稳定,响应速度远超单相系统。

3航天级验证:极端工况下的可靠性背书

该技术并非实验室产物。早在上世纪90年代,两相流控温系统已被广泛应用于卫星红外探测器、机载雷达等航天设备中,历经真空、失重、剧烈震动等极端环境考验,具备天然的高可靠基因。

如今,这项技术正被迁移至地面高密度算力场景,成为支撑AI基础设施长期稳定运行的关键底座。

三、方案落地:不止于硬件,更构建可管、可控、可运营的热管理生态

1新建与改造双线并进:兼顾未来上限与当下兑现

对于新建智算中心,两相液冷可支持120kW+机柜部署,为未来3~5年算力升级预留充足余量,避免二次改造。

而对于存量机房,模块化背板级两相散热系统支持在线部署。在一个老旧机房,通过加装两相背板,将PUE1.8降至1.3,未新增电力与空间,却释放出近40%的潜在算力容量。

2系统级交付:从芯片、机柜到冷站的三层协同

真正有竞争力的方案,不是单一冷板或CDU,而是一套贯通芯片机柜站级的系统能力:

芯片级:泵驱两相冷板,实现定点高效散热;

机柜级:两相背板换热系统,处理整柜排气热负荷;

站级:集成冷站+液冷CDU,提供高效输配与自然冷却切换。

在某项目中,1430kW机柜采用微通道两相背板,全年PUE稳定在1.1以下,且实现WUE≈0(无水患风险),验证了系统级交付的可行性。

3物联网赋能:从被动散热走向主动温控

所有硬件接入统一物联网SaaS平台后,冷却系统不再是安装即遗忘的静态设施,而是具备感知、分析与调节能力的智能体:

实时监测每块冷板的温度、流量、相变状态;

AI算法动态优化泵速与压力设定;

故障预警前置至潜在风险阶段,而非事后报警。

这不是简单的设备联网,而是将热管理从辅助系统,升级为影响算力质量的核心运营环节。

四、价值闭环:控温的背后,是算力、成本与可持续性的全面优化

1稳算力:热降频减少90%AI任务连续性大幅提升

精准控温直接减少芯片因高温触发的降频行为。某航空研究院实测显示,采用两相液冷后,GPU热降频事件下降超90%,模型训练任务中断率趋近于零。

2TCO:泵耗降低、部署密度提升,总拥有成本显著优化

由于系统流量小、泵组功耗低,冷却侧能耗下降30%以上;同时,高密度部署能力使单位面积算力提升50%,摊薄机房建设与租赁成本。

3绿算力:助力双碳目标,支撑更低pPUE考核

集团新建机房项目中,两相液冷系统设计PUE1.2,局部pPUE可达1.05~1.10,远优于国家对新建数据中心PUE≤1.25的要求。

4盘活存量:让装不满、跑不稳的老机房重获新生

大量已建机房受限于空调制冷能力,机柜装载率不足60%。通过热管理升级,无需改电、改楼,仅替换散热路径,即可激活闲置资源。

在某期改造项目中,15kW机柜在加装两相背板后,PUE1.5降至1.196CLF(制冷负载系数)仅0.036,证明了改造路径的现实可行性。

真正的热管理竞争,不是谁更,而是谁能让算力更。当行业从追求算力峰值转向保障算力持续释放,冷却系统的角色也必须从后勤保障跃迁为运行中枢。未来的高密度算力基础设施,需要的不只是一个降温工具,而是一套集精准控温、智能运维、系统集成与可持续发展于一体的综合解决方案。而这条路径,早已超越单一产品维度,指向一个更系统、更长效的技术方法论——这正是两相液冷所定义的新一代热管理范式。

想进一步对接需求、获取完整方案?点击:联系我们

扫码咨询

微信号:tnserv
如有侵权请联系删除)
(声明:部分内容和图片由AI生成)
推荐阅读
勤源FinOps解决方案:
智能化运维团队的财务运营优化策略

      若您需要了解两相液冷改造及新建方案、城市智慧照明、隧道智能照明、地铁照明等物联网精准节能方案,以及高架构钢体受损预警系统方案,及代理合作咨询,可通过以下通道沟通:

点击公众号私信服务,或点菜单获取塔能科技产品方案联系方式,或点击底端左下角“阅读原文查看完整的联系方式与资料

塔能(江苏)科技有限公司(简称 “塔能科技”),是聚焦 “物联网精准节能” 领域的创新者,秉持 “用软件定义硬件,让物联运维更简捷更节能” 的愿景,构建核心业务方向 —— 两相液冷/冷站-节能散热方案、城市照明 / 隧道照明 / 地铁照明/地下车库照明等智慧照明解决方案、高架构钢体受损预警系统方案,以及 “工程产品化” 创新服务,全方位赋能多场景绿色低碳发展。