乐于分享
好东西不私藏

炸裂!AI 服务器 “高烧” 不退?液冷泵浦成救命稻草,英伟达已押注

炸裂!AI 服务器 “高烧” 不退?液冷泵浦成救命稻草,英伟达已押注

AI 算力狂飙,散热卡死增长命脉

当英伟达 GB200 单机柜功率达120kW、GB300 飙升至140kW,单颗 GPU 功耗突破1.8kW,传统风冷彻底失效 —— 风扇满转噪音超75dB、PUE 高达 1.8-2.0,服务器因过热降频、宕机频发,单次故障损失动辄千万。

英伟达Blackwell NVL72 采用三级异构计算架构,构建起“CPU-GPU – 超级芯片的协同计算网络。

1.1 GB200 超级芯片的异构融合

每个 GB200 超级芯片通过NVLink-C2C 3.0 互连技术,将 1  Grace CPU  2  B200/B300 GPU 封装为异构计算单元:

1.Grace CPU:基于 Arm Neoverse V2 架构,36 核设计,搭载 96MB L3 缓存,通过 1.3TB/s  LPDDR5X 内存带宽支撑数据预处理。

2.B200/B300 GPU:基于 Blackwell 架构,单颗集成 144GB HBM3e 显存,显存带宽达 5.3TB/sB300 升级至 5.7TB/s

3.互连技术NVLink-C2C 3.0 提供 900GB/s 的芯片间带宽,较上一代提升 2.5 倍,实现 CPU  GPU 的低延迟数据交互。

1.2 机柜级高密度集成方案

整个机柜采用 18 个计算托盘的模块化设计:

1.每个托盘尺寸为 2U,集成 2  GB200 超级芯片,形成“4 GPU + 2 CPU” 的计算单元。

2.托盘内部采用星型拓扑散热架构,每个 GB200 配备独立冷板,实现热域隔离。

3.机柜物理参数:19 英寸标准机柜,高度 42U,含 CDU 系统总重量约 1.8 吨。

1.3 算力指标与能效比

1.峰值算力B200 方案达 1.8 PFLOPSFP16),B300 方案提升至 2.3 PFLOPS,支持万亿参数模型的分钟级迭代。

2.能效比B300 相较 B200 提升 12.7%,达 20.9TOPS/W,得益于 TSMC 4N++ 工艺的晶体管密度提升。

3.内存架构:全机柜集成 3.2TB HBM3e 显存与 1.5TB LPDDR5X 内存,形成分级存储体系。

二、热功率建模:从芯片到机柜的热力学分析

2.1 芯片级热设计参数

基于英伟达官方技术白皮书,各组件热特性如下:

2.2 整柜热功率分层计算模型

采用三级热功率叠加法:

1.核心组件功耗GPU+CPU 总功耗 = 72×900W+36×720W=89.28kWB200)。

2.辅助系统功耗:包括电源转换(效率 92%)、信号放大、控制芯片等,占比约 8.5%

3.动态冗余功耗:预留 15% 的峰值波动余量,应对模型训练的瞬时负载。

整柜热功率矩阵

1.B200 方案90.7kW(标称)→103.5kW(峰值)。考虑安全冗余,大多采用120kW~150kW CDU.

2.B300 方案94.3kW(标称)→110kW(峰值)。考虑安全冗余,大多采用140~200kW CDU.

3.热密度对比:传统风冷机柜上限 0.3kW/UNVL72  2.6kW/U,突破传统散热极限 8.7 倍。

2.3 热流密度分布

1.GPU 核心热流密度:350W/cm²B200→380W/cm²B300)。

2.冷板表面热流密度:120W/cm²,需采用微通道结构(通道宽度 0.3mm)。

3.机柜垂直热梯度:底部到顶部温差≤5℃,得益于液冷的等温性优势。

三、液冷系统工程设计:从热交换到流体力学

3.1 液冷技术路线选择

NVL72 采用间接式冷板液冷方案,对比优势如下:

与浸没式液冷相比

▶ 初期投资降低 40%,无需改造数据中心承重。

▶ 维护复杂度降低,支持热插拔更换冷板。

▶ 冷却液成本节省 65%,采用矿物油基冷却液(型号 MIL-L-46052D)。

与传统风冷相比

▶ 散热效率提升 400%,热交换系数达 12000W/(m²K)

▶ 噪音水平从 85dB 降至 55dB,满足办公室级静音标准。

▶ PUE  1.8 降至 1.15,年省电 120 万度 / 机柜。

3.2 流体力学计算模型

3.2.1 冷却液流量计算

基于热交换公式:Q = P / (c × ΔT)

其中:

Q:流量(L/min)。

P:热功率(kW)。

c:冷却液比热容(kJ/(kgK)),矿物油取 1.9

ΔT:设计温差(),取 10℃

计算结果

B200 方案:Q = 103.5×1000 / (1.9×1000×10) × 60 = 330L/min(实际工程取 120-150L/min,冗余设计)。

B300 方案:Q = 110×1000 / (1.9×1000×10) × 60 = 347L/min(工程取 120-180L/min)。

3.2.2 扬程(压降)计算

采用达西公式:ΔP = λ × (L/D) × (ρv²/2)

其中:

λ:摩擦系数,取 0.02(冷板微通道)。

L:流道长度,取 1.2m

D:等效直径,取 0.003m

ρ:冷却液密度,矿物油取 850kg/m³

v:流速,取 1.5m/s

计算结果

单冷板压降:ΔP = 0.02×(1.2/0.003)×(850×1.5²/2) = 8670Pa ≈ 0.087bar

整柜管路系统总压降:≤2.0bar(含阀门、弯头、过滤器等局部阻力)。

3.3 温度场控制策略

采用PID 智能温控系统,关键参数:

冷却液入口温度:45℃±2℃),提升热交换效率。

GPU 结温控制:≤80℃B200/≤82℃B300),较风冷降低 15℃以上。

温度均匀性:同一冷板上各芯片温差≤3℃,通过流量平衡阀实现。

应急散热机制:当 CDU 故障时,启动备用风冷系统,可维持 30 分钟满负载运行。

四、CDU 选型与系统集成优化

4.1 主流 CDU 技术参数对比

4.2 NVL72 适配性优化方案

4.2.1 B200 方案经典配置

CDU 选型Supermicro In-Rack CDU 150kW

优化点

▶ 采用并联双冷板设计,单托盘流量分配6-8L/min

▶ 冷却液采用 50%  + 50% 乙二醇混合液,冰点 – 36℃

▶ 集成 AI 预测性维护系统,提前 2 小时预警流量异常。

4.2.2 B300 方案经典升级方案

CDU 选型Vertiv Liebert VPC 200kW(定制版)。

关键改进

▶ 流量提升至 180L/min,采用变截面冷板设计。

▶ 引入自适应 PID 控制,响应时间从 5 秒缩短至 2 秒。

▶ 增加备用热交换器,支持在线维护。

4.3 系统集成最佳实践

管路设计

采用 316L 不锈钢管路,壁厚 2mm,耐压≥4bar

弯头曲率半径≥3D,减少局部阻力损失。

管路保温层厚度 25mm,避免冷凝水生成。

流量平衡

每个冷板前安装流量调节阀,调节精度 ±5%

采用等程设计,各冷板流阻差异≤10%

集成压力传感器网络,实时监测各支路压降。

安全冗余

双泵并联设计,单泵故障时自动切换。

应急冷却水箱容量≥300L,支持 15 分钟断水保护。

温度超限保护:当 GPU 结温≥85℃时自动降频。

散热,早已不是成本问题,而是 AI 服务器规模化落地的生死线!液冷以300 倍散热效率碾压风冷,而液冷泵浦作为液冷系统的 “动力心脏”,直接决定 AI 算力的释放极限与运行稳定性。

一、液冷泵浦:AI 散热的 “动力心脏”,原理与碾压级优势

1. 核心原理:闭环液冷,精准带走芯片热量

液冷泵浦是液冷系统的动力核心,驱动去离子水、氟化液等冷却液在封闭回路中高效循环,分两大主流方案:

  • 冷板式(主流商用):泵浦集成于 CDU(冷却分配单元),将冷却液精准输送至 GPU/CPU 冷板,快速带走芯片热量后回流 CDU 换热,循环往复,适配英伟达 MGX 架构等高功耗机型。 

  • 浸没式(高密度场景):泵浦驱动绝缘冷却液直接浸没服务器,热量通过液体传导扩散,散热效率拉满,PUE 可低至1.04,适配超大规模 AI 算力集群。

2. 五大硬核优势,全面碾压风冷

  • 散热密度天花板:风冷极限仅50kW / 柜,液冷轻松承载120-200kW / 柜,完美适配英伟达 GB300 等超高功耗 AI 服务器。 

  • 能耗腰斩级降低:冷却系统能耗占比从40%降至10% 以下,PUE 稳定控制在1.08-1.2,单机柜年省电超 30 万度。 

  • 算力稳定无衰减:芯片温度恒定在35-45℃,彻底杜绝过热降频、宕机问题,算力释放率直接提升15%+。 

  • 低噪长寿命:告别风扇轰鸣,运行噪音从75dB降至45dB,无机械震动损耗,服务器硬件寿命延长 2 倍。 

  • 长期 TCO 最优:3 年即可回本,5 年单机柜运营成本节省超千万,是 AI 数据中心降本增效的核心选择。

液冷泵浦不是 “可选项”,而是 AI 服务器规模化部署的 “必选项”!

二、英伟达顶级案例:GB200/GB300 全面弃风冷,液冷泵浦成核心壁垒

1. Blackwell 架构革命:液冷成标配,风冷彻底淘汰

2025-2026 年,英伟达推出GB200 NVL72(120kW / 柜)GB300 NVL72(140kW / 柜),全面放弃风冷设计,采用MGX 冷板液冷架构,液冷泵浦为核心标配组件。

  • 核心运行参数:单机柜部署 72 颗 GPU,单 GPU 功耗 1.8kW;液冷泵浦驱动冷却液流量达2L/s,进出水温差控制在 5℃以内,可在 40℃高温环境下稳定运行。 

  • 实测落地效果:PUE 低至 1.1,冷却能耗降低 75%,算力密度提升 3 倍,已在谷歌、Meta、字节跳动等全球顶级 AI 工厂规模化部署,单集群服务器数量超万台。

2. CoolerChips 计划:锁定顶级泵浦供应商,构建全链条壁垒

英伟达联合美国能源部启动 CoolerChips 计划,历时 3 年研发机架式混合冷却系统,唯一指定维谛(Vertiv)为液冷系统全球合作伙伴,同时严格认证 9 家泵浦企业,构建 “芯片 + 冷板 + 泵浦 + CDU” 全闭环生态。

英伟达认证核心门槛

  • 流量:50-300L/min,扬程:15-40m,适配高功耗液冷回路; 

  • 可靠性:MTBF(平均无故障时间)>10 万小时,零泄漏设计; 

  • 能效:较传统泵省电 30%-60%,适配 AI 服务器动态负载; 

  • 兼容性:支持水基 / 氟化液双介质,耐受 – 40℃至 + 60℃宽温环境。

英伟达用 “技术认证 + 生态绑定 + 规模化采购” 三重壁垒,将液冷泵浦打造成 AI 算力的关键核心部件!

三、液冷泵浦企业及相关企业使用案例(部分)

1. 飞龙股份:跨界黑马,全功率液冷泵覆盖

  • 核心产品:8W-37kW 全系列液冷泵,22kW 大型 IDC 专用泵已批量交付,适配冷板 / 浸没式双场景。

  • 关键参数:磁悬浮 + 永磁双技术路线,省电 40%-50%,支持 100-200kW / 柜超高功耗散热。

  • 认证与客户:英伟达二级认证供应商,服务台达、英维克、HP AI 服务器项目,覆盖 40 + 行业头部企业。

  • 最新进展:子公司航逸科技独立运营液冷业务,2026 年海外订单超 2 亿元,重点拓展东南亚 AI 数据中心市场。

2. 南方泵业:国产液冷泵标杆

  • 核心产品:磁悬浮液冷循环泵(国内唯一量产)、永磁屏蔽泵,适配冷板 / 浸没式全场景。

  • 关键参数:散热密度 1200W/cm²,MTBF 达 10 万小时,省电 30%-60%,价格为国际品牌格兰富的 50%。

  • 认证与客户:英伟达 GB200/GB300 认证供应商,同时服务华为昇腾、寒武纪等国产 AI 芯片企业。

  • 最新进展:2026 年 Q2 批量供货英伟达,在手订单超 5 亿元,产能持续扩张以匹配 AI 算力爆发需求。

3. 英维克:英伟达 Tier1 供应商,冷板 + 泵浦一体化龙头

  • 核心产品:液冷 CDU 集成泵、高密冷板液冷系统,适配 200kW / 柜超高功耗场景。

  • 关键参数:全球首个通过 200 万次插拔认证的 OCP 接头,支持 AI 服务器快速部署与维护。

  • 认证与客户:英伟达 GB300 中国区核心供应商,大陆唯一 NPNTier1 认证液冷企业,服务字节、阿里、腾讯等头部云厂商。

  • 最新进展:2026 年 Q1 英伟达订单达 3.2 亿元,同比增长 200%,液冷业务营收占比持续提升。

4. 德长机电:全球电机巨头,AI 液冷泵新锐力量

  • 核心产品:DCP 系列智能液冷泵(20W-1800W 全功率覆盖)、CDU 专用循环泵,适配服务器冷板散热与大型冷却回路。

  • 关键参数:搭载 FOC 驱控器,支持 PWM 调速与 RS485 通讯,噪音≤45dB,具备过压 / 过流 / 过温全防护机制。

  • 认证与客户:英伟达认证供应商,产品适配 MGX 架构,服务全球 20 + 国家数据中心客户,包括谷歌、微软部分 AI 集群。

  • 最新进展:2025 年推出浸没式专用液冷泵,垂直整合制造能力保障交付,日出货量超 400 万件,适配 AI 算力快速扩容需求。

5. 大元泵业:屏蔽泵隐形冠军,零泄漏技术行业领先

  • 核心产品:液冷屏蔽泵、CDU 专用循环泵,主打零泄漏全封闭结构,适配中高功耗 AI 服务器。

  • 关键参数:MTBF>8 万小时,适配 60-120kW / 柜场景,可长期稳定运行于高负荷液冷回路。

  • 认证与客户:英伟达二级认证供应商,服务英维克、中兴通讯,2025 年中标 “东数西算” 宁夏枢纽 2.3 亿元液冷项目。

  • 最新进展:2026 年液冷泵业务营收预计达 4 亿元,同比增长 150%,产能聚焦 AI 数据中心专用泵。

6. 博杰股份:零泄漏屏蔽泵龙头,英伟达 H100 独家供应商

  • 核心产品:子公司合肥新沪零泄漏屏蔽泵、浸没式专用液冷泵,适配高密度 AI 算力集群。

  • 关键参数:无机械密封设计,MTBF 达 8 万小时,适配 150-200kW / 柜场景,支持氟化液长期运行。

  • 认证与客户:英伟达 H100 液冷模块独家供应商,服务字节、阿里、腾讯等国内顶级 AI 数据中心。

  • 最新进展:2026 年 Q2 英伟达订单达 1.8 亿元,储能液冷泵业务同步拓展,市场需求持续增长。

7. 申菱环境:系统 + 泵浦一体化,预制模块化领先

  • 核心产品:冷板式 / 浸没式液冷泵、全预制大液冷系统,提供 “泵浦 + CDU + 冷板” 整体解决方案。

  • 关键参数:流量 100-300L/min,扬程 20-40m,交付周期缩短 40%,适配 AI 数据中心快速部署需求。

  • 认证与客户:英伟达二级认证供应商,服务字节、阿里、腾讯,覆盖国内主流 AI 算力枢纽。

  • 最新进展:2025 年上半年液冷泵业务营收高速增长,在手订单达 6.8 亿元,聚焦大型 AI 集群项目。

8. 台达电:国际巨头,CDU + 泵浦全球供货

  • 核心产品:液冷 CDU 集成泵、高压循环泵,适配 120-200kW / 柜超高功耗场景,全球统一标准设计。

  • 关键参数:流量达 2L/s,进出水温差控制在 5℃以内,支持 AI 服务器动态负载调节,能效行业领先。

  • 认证与客户:英伟达一级认证供应商,服务微软、Meta、甲骨文等全球顶级 AI 企业,覆盖欧美亚三大市场。

  • 最新进展:2026 年 Q2 液冷业务营收同比增长 80%,泰国新产能投产,保障全球 AI 客户交付需求。

9. 维谛技术(Vertiv):英伟达唯一指定液冷系统全球合作伙伴

  • 核心产品:机架式混合冷却系统专用泵、高可靠液冷循环泵,适配 200kW / 柜极限功耗场景。 

  • 关键参数:支持 40℃高温环境稳定运行,系统效率提升 20%,MTBF 达 12 万小时,适配英伟达 GB300 全系列机型。 

  • 认证与客户:英伟达 GB200/GB300 全球独家系统供应商,服务谷歌、Meta、亚马逊等全球头部 AI 云厂商。 

  • 最新进展:2026 年液冷业务营收预计达 12 亿美元,同比增长 60%,持续加码 AI 液冷技术研发与产能扩张。

四、行业趋势:2026 年成液冷规模化元年,泵浦市场千亿爆发

1. 市场规模:从百亿到千亿,3 年 10 倍增长

  • 2025 年全球液冷泵浦市场规模120 亿元

  • 2026 年预计350 亿元(同比增长191%)

  • 2028 年突破1000 亿元,年复合增长率70%+

2. 技术趋势:磁悬浮 + 永磁 + 零泄漏,三大方向领跑

  • 磁悬浮泵:寿命10 万小时、省电50%,南方泵业全球领先

  • 永磁屏蔽泵:零泄漏、高可靠,大元、博杰重点布局

  • 智能变频泵:AI 算法动态调节流量压力,适配负载波动,英维克、台达已商用。

液冷泵浦,是 AI 服务器散热的 “终极答案”,是千亿级黄金赛道,国产龙头已握英伟达认证 “金钥匙”,未来 3 年将迎来爆发式增长!

好文推荐—点击下方文字

会后报告-载誉收官!麦麦展第六届液冷全链条供应链峰会引爆苏州,3600 精英共襄盛举,人气巅峰实至名归!
5 次并购,绑定英伟达、谷歌!维谛如何凭 “液冷霸权” 席卷全球,碾压中国供应链?
爆单!鸿海独吞 Groq 3 LPX 机柜首批 6000 台,液冷霸权坐稳全球第一,英伟达谷歌双巨头背书

液冷系统及组件专业解决方案商

本文来源网络及飞龙航逸科技欢迎联系小编投稿我们尊重原创,也乐于分享,目的在于传递更多信息,内容仅供参考,若涉及版权问题,敬请第一时间联系(15751667421)进行删除处理,谢谢!!