乐于分享
好东西不私藏

散热,才是AI算力的真正天花板

散热,才是AI算力的真正天花板

来源:热能工匠

让我们回顾一下AI/HPC处理器的最大功耗(TDP:热设计功耗)随时间的变化。十年前,也就是2016年,处理器的TDP约为250W。2018年,这一数字增加到300W(AMD MI50)。此后,TDP迅速增长,2021年达到560W,2023年达到700W,2024年达到1000W,2025年达到1400W。

MI350X 可以看作是 AMD MI355X 的强制风冷版本,其 TDP 为 1000W,这表明目前风冷技术的极限约为 1000W。

AI/HPC处理器最大功耗(TDP)(2016-2025年实际数据)来源:台积电

接下来,我们将考虑如何散发 SoC(GPU 或 AI 处理器)和 HBM 在先进封装(例如 CoWoS)中产生的热量,这些封装将 SoC 和 HBM 安装在中介层(中间基板)上。

最常用的热传递阻力定量指标是“热阻(°C/W)”。它表示单位功率消耗(W)引起的温升(°C)。单位面积热阻(平方毫米·°C/W)也经常使用。例如,在散热设计中,温升是根据构成CoWoS的组件和材料的热阻和功耗来估算的。该估算使用了CoWoS中硅(作为热源)的热阻和功耗、连接硅表面和金属盖的导热界面材料(TIM1)的热阻、金属盖的热阻、连接金属盖和散热器的TIM2的热阻以及散热器的热阻。

散热设计的基本原则是将硅PN结温度保持在一定值以下(通常为70°C)。假设较冷表面(即环境温度)的温度为25°C,则可接受的温差为45°C。实际上,将环境温度降低到20°C或更低的情况并不少见,这样可接受的温升就扩大到50°C或更高。

先进封装的冷却机制(CoWoS)和元件的热阻  来源:台积电

导热界面材料(TIM)和冷却方式(散热方式)是影响热阻的主要因素。TIM的热阻(平方毫米/摄氏度/瓦)因材料而异。聚合物的热阻较高,在10到50之间。当TIM变薄时,热阻会降至10以下;而对于金属,热阻会显著下降至5以下。然而,TIM所连接材料的表面并非完全平整,因此连接界面的热阻至关重要。

就冷却方式而言,传统的强制风冷方式常见且成本低廉。然而,其热阻并不低。高端系统正在采用热阻更低的改进型强制风冷方式,甚至液冷方式。

封装热阻(纵轴,从硅芯片的 pn 结到封装外壳)和系统热阻(横轴,从封装外壳到周围环境) 来源:台积电

如前所述,其中一个问题是功耗增加。另一个问题是封装翘曲加剧。为了减少翘曲,封装外壳正从环形改为盖状。这一改变会影响散热设计。

封装尺寸(横轴)、功耗和温度(纵轴,左图)、封装翘曲(纵轴,右图) 来源:台积电

将散热外壳从环形改为盖式通常会降低散热性能。环形散热时,散热器和硅芯片(热源)通过单一导热材料连接。而盖式散热时,除了连接硅芯片和盖体的导热材料外,还需要另一种导热材料连接盖体和散热器。导热材料的数量增加到两种。因此,理论上热阻会增加。换句话说,最大允许功耗(TDP)会降低。

作为应对措施,导热界面材料(TIM)不再均匀地散发整个硅芯片的热量,而是针对局部高热区域(热点)进行改进,以降低热阻。这样一来,即使采用盖式封装,其功率处理能力也比环形封装更高。

对封装(外壳)和散热器进行协同优化。左图比较了采用均匀散热路径的环形和盖板的功率处理能力。右图比较了采用局部散热路径的环形和盖板的功率处理能力。两种情况下,硅芯片(SoC)结温最高均为 100°C。来源:台积电

AI/HPC处理器的功率处理能力很大程度上受散热技术(冷却技术)的影响。然而,散热性能高的冷却技术通常价格昂贵,初始成本和运行成本都较高。

最具成本效益的散热技术是“自然对流空气冷却”,它利用空气的自然流动。对于没有散热片的塑料封装半导体芯片,这种方法适用于功耗不超过约1W的情况。

对于功耗达数瓦或以上的半导体芯片,散热器通常与“强制对流空气冷却”相结合,以强制促进空气对流。小型风扇(冷却风扇、鼓风机)用于促进空气对流。对于功耗更高的半导体芯片,则需要提高空气对流速度(风速)来解决这个问题。

能够处理高功耗的冷却方式是“自然对流液体冷却”,它利用液体的自然对流。液体的导热性通常优于空气(例如,水的传热系数约为空气的25倍)。如果自然对流液体冷却效果不佳,则采用强制对流液体冷却,强制促进液体中的对流。

各种散热技术(冷却技术)与热通量(纵轴)和传热系数(横轴)之间的关系。从左下到右上,散热技术依次为空气冷却、液体冷却和相变冷却(利用液气相变进行冷却)。来源:台积电

如果强制液体冷却不足以散热,则可采用“相变冷却”,即利用液体转变为气体时产生的潜热进行冷却。这种方法也称为“两相冷却”。

高端AI/HPC处理器强制液冷模块的演变。左图展示了当前模块的结构。中间图展示了下一代模块的结构,其特点是在顶盖内部设有液流通道(微通道)。右图展示了更具前瞻性的模块结构,将冷却板与封装一体化。 来源:台积电

目前高端人工智能/高性能计算处理器通常采用强制液冷散热。冷却液(例如水或其他非导电液体)流经“冷板”或“散热器”,吸收处理器产生的热量。冷却板内部精密加工有许多薄鳍片,以增加液体与冷却板的接触面积,从而增强散热能力。

在下一代冷却模块中,液体也会流经顶盖,即封装的外壳。顶盖内包含称为微通道的细长通道。此外,未来预计冷却板和封装将集成在一起,从而无需单独的热成像模块(TIM)。

注:热设计尊重原创,转载文章的版权归原作者所有,如有侵权,请联系删除。
—感谢阅读—
热设计网长期为甲乙方企业提供热管理技术人才。如你有换工作或招聘的需求,请联系我们。
有从事芯片热仿真、消费电子类,手机、平板、无人机、液冷,数据中心等相关的热设计工程师,需要换工作的,可将简历发至:thermal@resheji.com

—热设计网服务范围—
  • 【热设计网第25期】2025上海工程热设计培训纪实
服务过的部分客户
热设计网事务
请添加微信:afjx919