当前AI大模型竞赛白热化,“算力=电力+淡水”的残酷现实浮出水面——散热,已不仅是技术问题,而是生存问题。
一、AI为何“高烧不退”:算力爆发的热量危机
AI的“热”,根源在芯片。
- 功耗飙升
传统服务器芯片功耗约300W,英伟达H100 AI芯片功耗达700W。即将到来的Vera Rubin平台GPU最大TDP将突破2300W,下一代VR300更预计达到3600W。 - 密度爆炸
传统数据中心单机柜功率≤10kW,AI集群飙升至50–750kW,相当于在一个衣柜里同时点燃数个“火炉”。 - 水耗黑洞
散热是耗水核心,水冷系统占数据中心总用水量70%–90%。2023年谷歌数据中心总耗水约212亿升(其中196亿升用于数据中心冷却),微软年耗水超60亿升,且微软34%的用水量增长与GPT-4等大模型训练直接相关。
高温不仅浪费水,更直接降性能、毁硬件:芯片每超温10℃,寿命减半;过热导致算力“跳水”,训练精度下降。降温=保算力=节水,已成行业共识。
二、散热技术进化史:从“吹风扇”到“泡冷水”
1. 风冷时代(2010–2020):低效的“电风扇模式”
原理:空调+服务器风扇,用空气流动带走热量。 局限:PUE(能源利用效率)1.6–2.0,单机柜仅支持≤15kW。面对AI高密算力,如同“用扇子给锅炉降温”,彻底不堪重负。
2. 液冷时代(2021–2028):主流的“水循环革命”
液体导热效率是空气的数十倍,PUE可降至1.05–1.15,成为AI散热绝对主力。
- 冷板式液冷(当前主流,占65%–86%)
冷却液通过贴合芯片的冷板循环,带走80%+热量。优势是改造简单、成本适中,适配500–1000W芯片,已规模化部署。 - 浸没式液冷(高速增长,约占34%)
服务器完全浸泡在绝缘冷却液中,散热效率是风冷的1000倍+,可支撑1500W+超高功耗芯片。中科曙光方案PUE低至1.04,节能30%,但成本高、运维复杂。 - 微通道液冷(前沿量产)
冷板流道缩至0.2–0.5mm,传热路径缩短50%,可应对2000W+芯片功耗,预计2027年规模化。
三、 节水&无水方案:告别“淡水依赖症”
空气降热 自然冷却:冬天或夜晚,直接把室外冷空气过滤后送进机房。谷歌在美国德克萨斯州半干旱地区的数据中心,全年超过50%的时间靠自然冷却就够了
干式冷却器:冷却液在芯片和室外散热器之间闭环循环,空气吹过散热片带走热量
间接蒸发冷却:室外空气不进入机房,而是通过热交换器间接带走热量。最热的时候只需极少喷淋水辅助蒸发,用水量比传统方式减少90%以上,PUE还能低到1.1左右。空气降热的代价是初期投资高(比冷却塔贵3–4倍),高温天还得靠机械制冷兜底,但对缺水地区来说,这是一条“不喝水也能退烧”的硬路子。
- 海水/苦咸水冷却
沿海数据中心直接用海水散热,淡化后循环,零淡水消耗。 - 废水零排放
处理后废水循环利用,补水量趋近于零,适合缺水地区。 - 水下数据中心(商业化落地中)
钢壳封装服务器充干燥氮气,沉至36米深海床,利用4–10℃低温海水全年自然冷却,制冷系统零耗水、极低能耗。微软Project Natick项目在苏格兰海域试运行2年,故障率仅为传统数据中心1/4,但因经济性及客户兴趣原因,微软已放弃大规模商用计划,仅保留为研究平台。 与此同时,中国海兰云于2025年启动了全球首个商用风电供电水下数据中心,标志着这一路线正式进入商业化探索阶段。
四、材料革命:从铜硅到金刚石,“从根上降温”
外围液冷逼近极限,芯片封装与材料成为破局关键,形成清晰升级路径:消费电子热管 → 传统数据中心冷却液 → AI冷板/浸没液冷 → 芯片级碳化硅/陶瓷基板 → 终极金刚石散热
1. 陶瓷基板:芯片的“隔热+导热底座”
替代传统树脂基板,氧化铝、氮化铝陶瓷导热系数提升5–10倍,热膨胀系数与硅匹配,快速导出芯片热量,已是中高端AI芯片标配。
2. 碳化硅(SiC):耐高温的“第三代半导体”
耐高温(200℃+)、热导率约400 W/(m·K)(接近500),尺寸稳定。 - Coherent
公司发布的金刚石增强碳化硅复合材料热导率突破800 W/(m·K),解决“超导热+尺寸稳定”核心矛盾。
3. 金刚石:终极散热“黑黄金”
天然/人造金刚石热导率1000–2200 W/(m·K),是铜的5倍、硅的15倍。 - 金刚石/石墨烯复合材料
(Coherent等公司)成为2025年市场关注焦点,已用于部分超算样机。 中科院宁波材料所研制的金刚石/铜复合材料热导率超过1000 W/(m·K),已在国家超算中心规模化应用,芯片传热能力提升80%、性能提升10%、温度降低5℃。 - 金刚石衬底技术
:将硅芯片减薄至20–30μm,背面键合600μm单晶金刚石,2500W超高功率芯片温降仅3℃,可适配5000W+未来芯片。
注:金刚石散热目前渗透率仍低,2025年在数据中心中仅约0.1%,预计2030年提升至12%左右。大规模取代碳化硅还需成本突破。
当前解决AI功耗与发热的另一条关键路径:光学互连与共封装光学(CPO)。
- 问题:
- 方案:
- 硅光子技术
:在芯片内部用光信号代替电信号传输,单通道带宽提升5–10倍,功耗降低30%–50%。 - CPO(共封装光学)
:将光引擎与计算芯片封装在一起,大幅缩短电光转换路径,减少串扰和热量。 - 全光互连
:未来可实现芯片间、机柜间甚至数据中心内的光互连网络,彻底消除电互连发热。 - 现状
:英伟达、台积电、英特尔、博通等厂商均在推进CPO技术。台积电预计2026–2027年量产CPO方案,英伟达已在部分原型产品中验证光互连效果。 - 与散热的协同
:光学互连可将I/O部分功耗降低约40%,间接减少总发热量,从而降低对液冷/金刚石散热的极端需求。两路并行——一面用光学降功耗,一面用新材料提散热——才是AI“冷静”的完整拼图。
结语:降温,是为了更可持续的“热”
AI的“热”,是技术进步的必然,也是资源约束的警钟。 从风冷→液冷→无水冷却→材料革命→光学互连,人类正用多维创新,平衡算力需求与地球资源。 未来,当金刚石散热、水下数据中心、CPO光学互连成为标配,AI或许能真正“冷静”下来——既保持算力的火热,又守住地球的绿水青山。
夜雨聆风