AI基础设施学习(二)- 液冷技术最近 AI Infra 市场太热了,来点液冷降降温。
一、关于液冷的不可违背的物理和商业公理
公理一:千瓦级GPU的散热已超风冷物理极限,液冷是芯片级刚需。公理二:液冷控制权已由传统机房基础设施总包转移至芯片大厂QVL名单。公理三:客户的决策逻辑:安全信任>总成本>初始造价。公理四:精密防漏与微通道加工存在1至2年的良率爬坡壁垒。第一条线:技术与产业主权:这是纯粹的物理与工程逻辑,这一线的逻辑是:物理极限逼出了产业集权。不过需要长期需要注意的一条隐线,这条隐线的强弱取决于公理 3、4:北美四大云厂商正在拼命通过 OCP(开放计算项目)等标准试图夺回控制权。云厂商不想完全被芯片厂的 QVL 锁死,他们希望液冷部件能够解耦和通用化。公理一(热流密度)是事实:芯片热到风冷吹不动了,这是物理现实。公理二(芯片厂主权)是结果:既然散热要在芯片表面解决,机房施工队懂怎么设计水冷管道,但他不懂怎么在硅片和微通道(Microchannel)之间做热对流。芯片厂为了不让自己的芯片烧坏,必须强行把液冷设计收归己有,自己定标准。第二条线:商业与市场壁垒(公理三 + 公理四),这是并列的、用来防守的“两堵高墙”,它们共同解释了“为什么新玩家和新技术很难打进来”。这一线的逻辑是:极高的试错代价 + 巨大的既得利益,锁死了行业格局。公理三(信任壁垒)卡的是“商务与时间”:AI超算太贵,停机赔不起。哪怕新玩家技术再好、价格腰斩,没有头部大厂2-3年的真实运行背书,对不起,没人敢用。公理四(工艺与沉没成本)卡的是“制造与生态”:微通道焊接和防漏需要1-2年的良率爬坡;同时,冷板式液冷已经盖了这么多,生态已经定型。二、不能不知道的液冷知识
液冷知识推荐 B 站的一个up主《荒野芯智观察-服务器也要“泡澡”?数据中心液冷散热全技术解析!》,关于液冷讲的很清楚,下面的知识可以认为是他的视频的总结!
- 冷板式(绝对主流,占比 >90%):通过金属冷板紧贴芯片,液体在冷板内部流动带走热量(间接接触)。由于对现有服务器生态兼容性完美、基础设施的沉没成本保护最好,目前通过引入“相变冷板”技术,其解热上限被大幅拉高,牢牢占据统治地位。
- 浸没式(边缘化危险,占比 <10%):将服务器完全泡在特殊的绝缘冷却液里(直接接触)。虽然能效指标(PUE)极低(可达 1.02~1.05),但受限于欧盟及全球对 PFAS(永久化学物)的环保立法禁令,且运维极其复杂(俗称“在油锅里捞服务器”),正逐步被局限在特定超算中心。
- 喷淋式(基本淘汰):通过精准喷淋冷却液到发热部件上。因维护难度极高、管路逻辑过于复杂,在产业界已基本被战略性放弃。
主流冷板式液冷技术方案:热量的“4步微观循环”,冷板式液冷的核心逻辑,就是不让热量散发到空气中,而是用高导热的液体化身“热量搬运工”,通过两个相互独立的密闭循环(二次侧与一次侧),一步步将晶圆表面的高热剥离并排入大自然。高密度的铜制液冷板通过导热材料紧贴 GPU 表面。冷却液在冷板内部的微米级通道(Microchannel)内流过。2026年新技术演进: 在 1000W+ 的极高功耗下,技术正在从传统的“单相液冷(液体仅靠温升吸热)”向相变冷板演进——冷却液在冷板内发生微沸腾,利用“汽化潜热”在瞬间吸走极高热量。不过相变冷板在大幅拉高解热上限的同时,也大幅推高了二次侧管路的压力管理与密封难度,这进一步加高了公理四所述的工艺壁垒。液冷泵驱动温水在机柜内部的密闭管路中高速流动,将无数个冷板吸纳的热量汇集起来。一体化拦截: 在最新的一体化液冷机柜中,内部配有 Air-to-Liquid(风液热交换器)。它像一面液冷墙,把芯片表面、电感、电容散发到机柜空气中的最后 5%~10% 的“漏热”在机柜内部用液体彻底拦截,实现真正的**“机房零漏热”**。机柜内变热的冷却液流向整个系统的中枢——CDU(冷量分配单元)。CDU 内部装有极其高效的板式换热器。在这里,机柜内的液体(二次侧)与来自室外的液体(一次侧)进行“隔墙热交换”,热量被传递给室外循环,而变冷的二次侧液体重新流回机柜。核心作用: 保证机柜内部高昂、洁净的冷却液永远不和室外粗放的水系统混淆,做到绝对的物理隔离与防腐防垢。吸收了热量的室外一次侧液体被泵送到建筑物外部。室外系统利用干冷器(Dry Cooler)或冷却塔,最大化利用外界的自然冷空气进行对流换热,最终将 AI 芯片产生的热量彻底排入大气。三、什么样子的企业在这个行业有竞争优势
在AI液冷生态中具备长期价值与抗风险能力的企业,通常具备以下客观特征:这类企业不从事进入门槛较低的系统集成业务,而是深耕冷板、CDU(冷量分配单元)、快换接头等高价值、高毛利的部件环节。其核心优势在于直接通过了英伟达、AMD等头部芯片厂商的系统级供应链(QVL)认证,具备极高的生态准入门槛和不可替代性。液冷部件涉及微通道加工、精密焊接及严格的防漏密封工艺,通常需要 1~2 年的良率爬坡期。高价值企业不仅具备成熟的工程量产经验,且在技术路线上面临千瓦级(1000W~1500W+)芯片散热需求时,率先掌握了“相变冷板(两相流微沸腾)”等下一代前沿技术的量产能力。由于 AI 超算集群停机与漏液的经济损失巨大,客户对技术方案的安全性验证极为苛刻。真正具备竞争力的企业,其产品必然在头部云巨头(Hyperscalers)的数据中心内,拥有过 2~3 年以上高压、零故障的实际运行记录。这种时间累积的“信任资产”是新进入者难以通过低价策略攻破的。核心部件(尤其是快换接头 Quick Disconnect和防漏阀门)真正的壁垒是海外大厂(如 Staubli、Parker 等)几十年积累的精密机加工工艺与核心专利墙。国内新玩家进不去,往往是被专利和极端精密度卡死。- 需求端:紧盯芯片大厂下一代 GPU的单芯片功耗、热流密度设计指标;跟踪北美四大云厂商的季度 CapEx 资本开支指引。
- 供给端:密切跟踪核心部件(高密冷板、液冷泵、快接头)的出厂单价与毛利率走势(判断内卷是否蔓延至部件层);核心部件(快接头、相变冷板专用的氟化液介质)的国产化替代率与验证进度;最后观察铜价等大宗商品的波动。
- 标准端:英伟达最新发布的官方液冷机柜设计与接口规范白皮书(NVIDIA Design Guide);ODCC(开放数据中心委员会)最新版《数据中心液冷一体化机柜技术白皮书》
四、两家行业龙头的历史渊源
英维克、维谛,算得上温控行业实打实的同门渊源。英维克由艾默生老员工出走创立,更是业内知名的华电 - 艾默生创业派系企业。而如今英维克的头号液冷竞品维谛技术,前身本就是艾默生网络能源业务板块,后续股权更迭后独立更名。两家企业技术根基、工程理念与管理风格同出一脉,堪称师出同门。这段渊源要从 2001 年说起,彼时行业一桩重磅并购改写了行业人才格局。当年互联网泡沫寒冬来袭,华为为稳住经营,将盈利可观的华为电气全资出售给艾默生。原华为电气核心团队整体并入外企,组建艾默生网络能源,这群骨干兼具华为攻坚闯劲,又练就了国际化精工制造水准。英维克创始人齐勇,正是亲历这段历程的核心高管。2005 年前后,这批掌握核心技术的资深人才纷纷离职创业,齐勇顺势创办英维克,深耕数据中心与通信温控赛道,就此开启同门企业同台竞技的行业格局。结语:这个行业有机会,不过在这个被芯片大厂卡死规则的游戏里,讲再多的能效故事,都不如把工艺做到极致。谁能熬过验证、做到几年不漏一滴水,谁才是能笑到最后的隐形赢家。
⚠️ 免责声明 / Disclaimer
本报告/文章仅供个人产业研究之用,不构成任何形式的投资建议或投资依据。