一、先搞清楚故障的连锁逻辑:冷却液超温为什么会导致芯片降频?
首先要明确,液冷系统的设计温控阈值是和服务器芯片的功耗强绑定的:目前主流冷板式液冷系统的冷却液进液标准温度是 18-27℃,最高报警阈值通常设置在 35℃,当冷却液温度超过 32℃时,芯片散热效率会下降 40% 以上,核心温度很快会触碰到 85℃的降频红线,BMC 系统会自动降低 CPU/GPU 主频来控制发热量,算力直接缩水。
我见过很多运维工程师上来就换冷却液、拆冷板,其实第一步应该先通过两个指标确认故障关联:一是查看服务器 BMC 日志里的芯片核心温度曲线,是否和冷却液出液温度曲线走势完全同步;二是核对降频发生的时间点,是否和液冷系统的超温告警时间完全一致,排除芯片本身超频、散热硅脂干涸等硬件问题。

二、分级排查:从易到难定位冷却液超温的根因
确认故障关联后,按照「先外部后内部、先系统后部件」的顺序排查,90% 的问题都能在 40 分钟内定位到原因。
第一步:排查外部环境和系统层问题(20 分钟可完成)
首先看冷水机组的运行状态:很多超温故障都是冷水机组侧的问题,比如夏季环境温度过高导致冷水机组能效下降,或者冷机的冷凝器积灰、制冷剂泄漏,导致供水温度直接超过设定值。我去年在上海某 AI 算力中心遇到的故障就是梅雨季节空气湿度大,冷机蒸发器结霜,换热效率下降了 35%,冷却液进水温度直接升到了 38℃,导致 300 多片 A100 降频。
其次检查冷却液回路的压力和流量:如果供回水压差低于 0.15MPa,说明回路里有堵塞或者水泵扬程不足,流量不够的话哪怕冷水温度正常,也带不走芯片的发热量。可以在机柜进液口接流量计测流量,单机柜流量低于 80L/min 的话,优先排查水泵变频参数是否正确、主干管路阀门有没有被误关。

第二步:排查冷却液本身的性能问题(10 分钟可完成)
如果系统层参数都正常,接下来要检测冷却液的性能:
首先看外观:如果冷却液发黄、浑浊,或者底部有明显的沉淀,说明冷却液已经氧化变质,或者被微生物污染,导热系数会从原来的 0.45W/(m・K) 下降到 0.3W/(m・K) 以下,散热能力直接打对折。
其次测冰点和电导率:如果冰点高于 - 10℃,说明乙二醇含量不足,夏季高温下容易汽化产生气阻,影响换热;如果电导率超过 10μS/cm,说明冷却液里的离子含量超标,不仅会腐蚀冷板微通道,还会增加漏电风险。这些参数用便携式检测仪就能现场测。

第三步:排查冷板和内部回路问题(10 分钟可完成)
如果前两步都没问题,最后查机柜内部的冷板和支路:
一是查冷板的堵塞情况:冷板的微通道宽度只有 0.5-1mm,冷却液里的杂质很容易堆积,导致流量下降。可以用热成像仪扫冷板表面,如果出现明显的局部热点(温差超过 5℃),说明冷板已经堵塞。
二是查支路的截止阀:很多运维人员在更换服务器后会忘记把支路阀门完全打开,只开了 1/3 的话流量不够。我去年在深圳某 IDC 遇到的故障就是换服务器后阀门没开全,导致单个机柜 10 片 GPU 频繁降频,查了 3 天才

三、落地解决方案:不同根因对应不同处理方案
找到根因后,按优先级处理:
- 冷机侧问题
:优先清洗冷凝器、补充制冷剂,夏季高负载期开启备用冷机,供水温度设定值下调 2-3℃ - 管路流量问题
:调整水泵变频参数,供回水压差稳定在 0.2-0.25MPa;管路堵塞用专用清洗剂在线冲洗,12 小时完成 - 冷却液性能问题
:选长寿命丙二醇型环保冷却液(寿命 5 年 +),旧液完全排空,新液冲洗 2 次 - 冷板堵塞问题
:轻微堵塞用弱酸性清洗剂在线冲洗,严重堵塞拆下超声波清洗或更换,同时在主回水口加装 5μm 过滤器
✅ 行动建议:按照冷机→管路→冷却液→冷板的顺序排查,不要跳步骤,40 分钟内定位 90% 的故障
四、长效预防措施
根据我的经验,做好以下 3 件事,可以把冷却液超温故障发生率降低 90%:
- 建立冷却液季度检测制度
:每季度检测外观、pH 值、电导率、导热系数,性能下降及时更换 - 加装温度实时监控
:每个机柜进 / 出液口加装温度传感器,设置 30℃预警、32℃报警,比芯片降频提前 10-15 分钟发现问题 - 每年一次系统全面维护
:冷机清洗、管路压力测试、冷板热成像检测,提前排查隐患
✅ 行动建议:把预防措施做成月度巡检表格,贴在运维看板上,每项完成打勾
最后提醒大家,液冷系统的故障处置优先级远高于风冷系统,因为液冷是集中散热,一个节点的问题可能会影响整个机柜甚至整个集群的运行,平时一定要做好巡检和预维护,不要等业务受影响了再救火。
觉得有用的话,转发给你身边做 IDC 运维的朋友,帮他们少踩坑。

本文图片和部分内容由AI辅助生成,数据来源于网络,本文不构成任何投资建议。
夜雨聆风