AI“热”,如何降温

前两天关注到AI算力会消耗掉大量淡水资源后，AI 巨头争夺未来时，远方的孩子们却失去了淡水自由便关注了一下如何给AI“降温”。

文中主要内容依旧由DeepSeek提供，仅做扩展知识面，内容未经查证，不过股票黄河旋风因材料突破已经连续三个涨停板，股市中CPO，光模块，液冷也是大幅上涨。

当前AI大模型竞赛白热化，“算力=电力+淡水”的残酷现实浮出水面——散热，已不仅是技术问题，而是生存问题。

一、AI为何“高烧不退”：算力爆发的热量危机

AI的“热”，根源在芯片。

功耗飙升
传统服务器芯片功耗约300W，英伟达H100 AI芯片功耗达700W。即将到来的Vera Rubin平台GPU最大TDP将突破2300W，下一代VR300更预计达到3600W。
密度爆炸
传统数据中心单机柜功率≤10kW，AI集群飙升至50–750kW，相当于在一个衣柜里同时点燃数个“火炉”。
水耗黑洞
散热是耗水核心，水冷系统占数据中心总用水量70%–90%。2023年谷歌数据中心总耗水约212亿升（其中196亿升用于数据中心冷却），微软年耗水超60亿升，且微软34%的用水量增长与GPT-4等大模型训练直接相关。

高温不仅浪费水，更直接降性能、毁硬件：芯片每超温10℃，寿命减半；过热导致算力“跳水”，训练精度下降。降温=保算力=节水，已成行业共识。

二、散热技术进化史：从“吹风扇”到“泡冷水”

1. 风冷时代（2010–2020）：低效的“电风扇模式”

2. 液冷时代（2021–2028）：主流的“水循环革命”

液体导热效率是空气的数十倍，PUE可降至1.05–1.15，成为AI散热绝对主力。

冷板式液冷（当前主流，占65%–86%）
冷却液通过贴合芯片的冷板循环，带走80%+热量。优势是改造简单、成本适中，适配500–1000W芯片，已规模化部署。
浸没式液冷（高速增长，约占34%）
服务器完全浸泡在绝缘冷却液中，散热效率是风冷的1000倍+，可支撑1500W+超高功耗芯片。中科曙光方案PUE低至1.04，节能30%，但成本高、运维复杂。
微通道液冷（前沿量产）
冷板流道缩至0.2–0.5mm，传热路径缩短50%，可应对2000W+芯片功耗，预计2027年规模化。

三、节水&无水方案：告别“淡水依赖症”

空气降热 自然冷却：冬天或夜晚，直接把室外冷空气过滤后送进机房。谷歌在美国德克萨斯州半干旱地区的数据中心，全年超过50%的时间靠自然冷却就够了

干式冷却器：冷却液在芯片和室外散热器之间闭环循环，空气吹过散热片带走热量

间接蒸发冷却：室外空气不进入机房，而是通过热交换器间接带走热量。最热的时候只需极少喷淋水辅助蒸发，用水量比传统方式减少90%以上，PUE还能低到1.1左右。空气降热的代价是初期投资高（比冷却塔贵3–4倍），高温天还得靠机械制冷兜底，但对缺水地区来说，这是一条“不喝水也能退烧”的硬路子。

海水/苦咸水冷却
沿海数据中心直接用海水散热，淡化后循环，零淡水消耗。
废水零排放
处理后废水循环利用，补水量趋近于零，适合缺水地区。
水下数据中心（商业化落地中）
钢壳封装服务器充干燥氮气，沉至36米深海床，利用4–10℃低温海水全年自然冷却，制冷系统零耗水、极低能耗。微软Project Natick项目在苏格兰海域试运行2年，故障率仅为传统数据中心1/4，但因经济性及客户兴趣原因，微软已放弃大规模商用计划，仅保留为研究平台。与此同时，中国海兰云于2025年启动了全球首个商用风电供电水下数据中心，标志着这一路线正式进入商业化探索阶段。

四、材料革命：从铜硅到金刚石，“从根上降温”

外围液冷逼近极限，芯片封装与材料成为破局关键，形成清晰升级路径：消费电子热管 → 传统数据中心冷却液 → AI冷板/浸没液冷 → 芯片级碳化硅/陶瓷基板 → 终极金刚石散热

1. 陶瓷基板：芯片的“隔热+导热底座”

替代传统树脂基板，氧化铝、氮化铝陶瓷导热系数提升5–10倍，热膨胀系数与硅匹配，快速导出芯片热量，已是中高端AI芯片标配。

2. 碳化硅（SiC）：耐高温的“第三代半导体”

3. 金刚石：终极散热“黑黄金”

天然/人造金刚石热导率1000–2200 W/(m·K)，是铜的5倍、硅的15倍。
金刚石/石墨烯复合材料
（Coherent等公司）成为2025年市场关注焦点，已用于部分超算样机。
中科院宁波材料所研制的金刚石/铜复合材料热导率超过1000 W/(m·K)，已在国家超算中心规模化应用，芯片传热能力提升80%、性能提升10%、温度降低5℃。
金刚石衬底技术
：将硅芯片减薄至20–30μm，背面键合600μm单晶金刚石，2500W超高功率芯片温降仅3℃，可适配5000W+未来芯片。

注：金刚石散热目前渗透率仍低，2025年在数据中心中仅约0.1%，预计2030年提升至12%左右。大规模取代碳化硅还需成本突破。

五、光学互连与CPO——被忽略的底层能耗革命

当前解决AI功耗与发热的另一条关键路径：光学互连与共封装光学（CPO）。

随着GPU功耗飙升至2000W+，传统铜互连的I/O功耗和发热占比急剧上升，高频信号衰减严重，成为新的“热瓶颈”。

现状
：英伟达、台积电、英特尔、博通等厂商均在推进CPO技术。台积电预计2026–2027年量产CPO方案，英伟达已在部分原型产品中验证光互连效果。
与散热的协同
：光学互连可将I/O部分功耗降低约40%，间接减少总发热量，从而降低对液冷/金刚石散热的极端需求。两路并行——一面用光学降功耗，一面用新材料提散热——才是AI“冷静”的完整拼图。

结语：降温，是为了更可持续的“热”

AI的“热”，是技术进步的必然，也是资源约束的警钟。从风冷→液冷→无水冷却→材料革命→光学互连，人类正用多维创新，平衡算力需求与地球资源。未来，当金刚石散热、水下数据中心、CPO光学互连成为标配，AI或许能真正“冷静”下来——既保持算力的火热，又守住地球的绿水青山。