散热,才是AI算力的真正天花板

来源：热能工匠

让我们回顾一下AI/HPC处理器的最大功耗（TDP：热设计功耗）随时间的变化。十年前，也就是2016年，处理器的TDP约为250W。2018年，这一数字增加到300W（AMD MI50）。此后，TDP迅速增长，2021年达到560W，2023年达到700W，2024年达到1000W，2025年达到1400W。

MI350X 可以看作是 AMD MI355X 的强制风冷版本，其 TDP 为 1000W，这表明目前风冷技术的极限约为 1000W。

AI/HPC处理器最大功耗（TDP）（2016-2025年实际数据）来源：台积电

接下来，我们将考虑如何散发 SoC（GPU 或 AI 处理器）和 HBM 在先进封装（例如 CoWoS）中产生的热量，这些封装将 SoC 和 HBM 安装在中介层（中间基板）上。

最常用的热传递阻力定量指标是“热阻（°C/W）”。它表示单位功率消耗（W）引起的温升（°C）。单位面积热阻（平方毫米·°C/W）也经常使用。例如，在散热设计中，温升是根据构成CoWoS的组件和材料的热阻和功耗来估算的。该估算使用了CoWoS中硅（作为热源）的热阻和功耗、连接硅表面和金属盖的导热界面材料（TIM1）的热阻、金属盖的热阻、连接金属盖和散热器的TIM2的热阻以及散热器的热阻。

散热设计的基本原则是将硅PN结温度保持在一定值以下（通常为70°C）。假设较冷表面（即环境温度）的温度为25°C，则可接受的温差为45°C。实际上，将环境温度降低到20°C或更低的情况并不少见，这样可接受的温升就扩大到50°C或更高。

先进封装的冷却机制（CoWoS）和元件的热阻来源：台积电

导热界面材料（TIM）和冷却方式（散热方式）是影响热阻的主要因素。TIM的热阻（平方毫米/摄氏度/瓦）因材料而异。聚合物的热阻较高，在10到50之间。当TIM变薄时，热阻会降至10以下；而对于金属，热阻会显著下降至5以下。然而，TIM所连接材料的表面并非完全平整，因此连接界面的热阻至关重要。

就冷却方式而言，传统的强制风冷方式常见且成本低廉。然而，其热阻并不低。高端系统正在采用热阻更低的改进型强制风冷方式，甚至液冷方式。

封装热阻（纵轴，从硅芯片的 pn 结到封装外壳）和系统热阻（横轴，从封装外壳到周围环境）来源：台积电

如前所述，其中一个问题是功耗增加。另一个问题是封装翘曲加剧。为了减少翘曲，封装外壳正从环形改为盖状。这一改变会影响散热设计。

封装尺寸（横轴）、功耗和温度（纵轴，左图）、封装翘曲（纵轴，右图）来源：台积电

将散热外壳从环形改为盖式通常会降低散热性能。环形散热时，散热器和硅芯片（热源）通过单一导热材料连接。而盖式散热时，除了连接硅芯片和盖体的导热材料外，还需要另一种导热材料连接盖体和散热器。导热材料的数量增加到两种。因此，理论上热阻会增加。换句话说，最大允许功耗（TDP）会降低。

作为应对措施，导热界面材料（TIM）不再均匀地散发整个硅芯片的热量，而是针对局部高热区域（热点）进行改进，以降低热阻。这样一来，即使采用盖式封装，其功率处理能力也比环形封装更高。

对封装（外壳）和散热器进行协同优化。左图比较了采用均匀散热路径的环形和盖板的功率处理能力。右图比较了采用局部散热路径的环形和盖板的功率处理能力。两种情况下，硅芯片（SoC）结温最高均为 100°C。来源：台积电

AI/HPC处理器的功率处理能力很大程度上受散热技术（冷却技术）的影响。然而，散热性能高的冷却技术通常价格昂贵，初始成本和运行成本都较高。

最具成本效益的散热技术是“自然对流空气冷却”，它利用空气的自然流动。对于没有散热片的塑料封装半导体芯片，这种方法适用于功耗不超过约1W的情况。

对于功耗达数瓦或以上的半导体芯片，散热器通常与“强制对流空气冷却”相结合，以强制促进空气对流。小型风扇（冷却风扇、鼓风机）用于促进空气对流。对于功耗更高的半导体芯片，则需要提高空气对流速度（风速）来解决这个问题。

能够处理高功耗的冷却方式是“自然对流液体冷却”，它利用液体的自然对流。液体的导热性通常优于空气（例如，水的传热系数约为空气的25倍）。如果自然对流液体冷却效果不佳，则采用强制对流液体冷却，强制促进液体中的对流。

各种散热技术（冷却技术）与热通量（纵轴）和传热系数（横轴）之间的关系。从左下到右上，散热技术依次为空气冷却、液体冷却和相变冷却（利用液气相变进行冷却）。来源：台积电

如果强制液体冷却不足以散热，则可采用“相变冷却”，即利用液体转变为气体时产生的潜热进行冷却。这种方法也称为“两相冷却”。

高端AI/HPC处理器强制液冷模块的演变。左图展示了当前模块的结构。中间图展示了下一代模块的结构，其特点是在顶盖内部设有液流通道（微通道）。右图展示了更具前瞻性的模块结构，将冷却板与封装一体化。来源：台积电

目前高端人工智能/高性能计算处理器通常采用强制液冷散热。冷却液（例如水或其他非导电液体）流经“冷板”或“散热器”，吸收处理器产生的热量。冷却板内部精密加工有许多薄鳍片，以增加液体与冷却板的接触面积，从而增强散热能力。

在下一代冷却模块中，液体也会流经顶盖，即封装的外壳。顶盖内包含称为微通道的细长通道。此外，未来预计冷却板和封装将集成在一起，从而无需单独的热成像模块（TIM）。

注：热设计尊重原创，转载文章的版权归原作者所有，如有侵权，请联系删除。

—感谢阅读—

热设计网长期为甲乙方企业提供热管理技术人才。如你有换工作或招聘的需求，请联系我们。

有从事芯片热仿真、消费电子类，手机、平板、无人机、液冷，数据中心等相关的热设计工程师，需要换工作的，可将简历发至：thermal@resheji.com

—热设计网服务范围—

【热设计网介绍】培训+人才对接，热设计工程师之家

【热设计网第26期】2025年11月20-22日深圳工程热设计培训纪实

【热设计网第25期】2025上海工程热设计培训纪实

【学习充电】【2024年12月】工程热设计培训纪实

【学习充电】【2024年8月】深圳工程热设计培训纪实

【软件】热仿真软件

【加入企业会员】热设计网企业会员！！

【人才招聘】精准匹配，高效对接

服务过的部分客户

热设计网事务

请添加微信：afjx919