摘要:空闲就把功耗拉到底,未必护卡。温度大起大落会伤焊点,限速和空闲保功能把摆幅压下来。

从一个反直觉的操作说起
机房交给守护进程托管之后,有同事看了我的配置,提了个很合理的疑问:你这空闲时为什么还把功耗压在六成多,不直接掉到最低?闲着就该最省电啊。
这是个特别普遍的直觉。一台卡没活干了,顺手把功耗墙拉到地板,电表转得慢,温度也凉,看起来既省钱又护卡,一箭双雕。我自己一开始也是这么想的。
但跑了一段时间、又把几台老机器的故障翻出来对照之后,我改了主意。空闲不掉到底,反而是我特意设的一道保护。因为在这些卡身上,我越来越确信一件事:
真正杀死显卡的,常常不是某一次高温,而是温度的反复横跳。
上一篇讲的是稳态高温怎么折寿,那是温度账的前半段。更隐蔽的后半段,藏在负载变化里:为什么温度来回大幅波动,会把一张本来好好的卡,活活"晃"散架。想清楚这件事,你就会明白,为什么"省电"不能简单等于"一闲就拉到最低"。
要讲清楚,得从一个中学物理就学过、却很容易被忽略的事实开始:热胀冷缩。
第一层:一颗芯片,其实是好几种材料叠在一起
我们平时说"一张显卡",好像它是一块匀质的东西。但在焊点这个尺度上,它是好几种完全不同的材料,被硬生生压在一起、焊在一起的三明治。
从上到下大致是这么几层:最上面是硅做的芯片本体(die);下面垫着一块基板(substrate),把芯片的密集引脚扇出成一圈焊球;基板底下是一排锡做的小焊球(BGA 焊球),像一床钉子把芯片整体焊到电路板上;最下面是电路板(PCB)本身,主要是树脂加铜。
问题出在:这几种材料的热胀冷缩程度,差得很远。工程上用一个指标来量它,叫热膨胀系数(CTE),通俗讲就是"温度每升一度,材料会胀多少"。硅胀得很少,PCB 胀得多,中间的基板和焊球又是另外的数,彼此都对不上。
于是每次温度一变,麻烦就来了。升温时,大家一起膨胀,但 PCB 想往外多撑一截,硅却几乎不动;降温时,大家一起收缩,PCB 又缩得最狠。而把这两层硬连在一起的,正是中间那排焊球。两层各胀各的、各缩各的,夹在缝里的焊球就被反复地往两边拉扯、剪切。打个比方,这有点像把一张纸和一块橡皮用胶点在一起,然后整体一会儿放进冰箱、一会儿拿出来烤——两者伸缩幅度不同,中间那些胶点就被来回撕扯,撕得多了就开。芯片里的焊球扮演的,就是那些胶点的角色,只不过它要承受的不是手动来回,而是负载变化带来的、一天几十上百次的冷热往返。
先用一张图把这层"材料不一条心"的关系理清楚:
图里要看的就一件事:芯片和电路板膨胀步调对不上,而它们之间唯一的"中间人"——焊球,替这场错位扛下了全部的剪切力。温度每动一次,焊球就被拧一次。

单看一次,这点形变小到肉眼无感;但卡是要常年开机的,一次又一次累加,故事就完全不一样了。
第二层:焊点是怎么被"晃"裂的
现在把镜头推到一颗焊球上,看它具体怎么死。
它不是被某一下"啪"地拉断的,而是被反复揉搓,慢慢揉出裂纹来的。每一次温度从满载掉到空闲、再从空闲冲到满载,焊球都经历一个完整的"剪切—回弹"循环。锡这种材料还有个特点:它在偏高的温度下会"蠕变",也就是受力之后会慢慢、永久地变形一点点,不会完全弹回去。一次循环留一点内伤,千百次循环之后,内伤攒到某处,微小的裂纹就萌生了。裂纹一旦出现,后面每一轮摆动都在它的尖端继续撕,裂口一点点扩展,直到把整颗焊球的连接彻底切断——电气上,这就是"开路"。
开路在你这边看到的,就是那些莫名其妙的故障:机器忽然掉卡、识别不到设备;屏幕花屏、出现彩色雪花;跑着跑着报个 ECC 或者掉总线;有时候敲一敲、热一热又好了——因为热胀让裂口暂时又接触上了。这种"时好时坏、一碰就变"的毛病,最折磨人:它不像烧毁那样一次性死透、好歹有个明确结论,而是断断续续地折腾你,重启一下、晾一会儿又能用,让你怀疑是驱动、是电源、是机柜里哪根线松了,排查半天才想到是焊点。十有八九,它就是焊点在闹脾气。
这里还有个反直觉的点值得记一笔:焊点疲劳属于"低周疲劳",也就是说,它要的不是上亿次的高频小抖动,而是几千、几万次幅度够大的冷热循环就能见效。一台天天满载、夜里又被脚本反复拉到空闲的卡,一天可能就攒下几十上百个大循环,几年下来,数量级正好落在这个危险区间里。这也是为什么这类故障往往不在出厂头一年暴露,而是熬到第二三年才集中冒头——它是被时间和循环次数一点点喂出来的。
这套机制里,有两条规律对我们做工程的特别重要。
第一条:寿命跟温度摆幅强相关,而且是非线性的。决定焊点折寿快慢的,不是温度有多高,而是每次来回摆动的幅度有多大——我们记成 ΔT,也就是这一轮里最高温减最低温。更要命的是,寿命随 ΔT 下降不是匀速的,而是接近一条幂律曲线(疲劳领域经典的 Coffin-Manson 关系大致如此):ΔT 翻一倍,能扛的循环次数可能掉到原来的几分之一。摆幅越大,寿命掉得越陡。
这条规律直接戳破了开头那个直觉。"空闲掉到地板"省的那点电很有限,代价却是把每一轮的 ΔT 撑到最大——从满载的高温一路砸到空闲的低温。你以为在护卡,其实在亲手把疲劳循环的幅度拉满。
用一张示意表感受一下这个"非线性":
表里的数字只是示意量级、不必当真,但那个趋势是真的:摆幅从小变大,寿命不是慢慢减,而是越掉越快。这意味着"把 ΔT 压小一点"的收益,远比直觉上大。
第二条:不是所有焊球同等危险,角上的先死。把整颗芯片想成一块会胀缩的板子,它总有一个几乎不动的"中性点",大致在几何中心。离中性点越远,同样一度温差带来的相对位移就越大,焊球被拉扯得就越狠。所以最外圈、尤其是四个角上的焊球,承受的应变最大,几乎总是最先裂开的那几颗。这也是为什么这类故障常常表现为"某一路信号先出问题",而不是整片一起坏。
把这两条放进一张图,失效顺序就很直观了:
这套机制不是纸上谈兵。历史上很有名的那批笔记本和显卡"虚焊门",根子就在这儿:某些芯片功率密度高、温度摆得猛,加上无铅焊料和封装工艺的问题,焊点在反复冷热里疲劳开裂,表现成大面积的花屏、黑屏、识别不到显卡。很多人误以为是芯片本身烧坏了,其实芯片好好的,死的是它脚底下那几颗被晃断的焊球。
功率密度越高、温度摆得越凶,这件事就越严重。而新一代训练卡,恰恰是功率密度一路飙升的极端户。这就把我们逼到了第三层:既然摆幅这么伤,工程上能做的,就是想办法把摆幅压下来。
第三层:守护进程怎么把摆幅压下去
明白了"伤卡的是 ΔT"之后,守护进程里有两个设计就不再是凭感觉,而是直接冲着焊点寿命去的。
第一招:给功率变化限速。卡的功耗一变,芯片温度就跟着变;功耗变得越急,温度冲得越猛,焊点上的应力尖峰也越尖。所以守护进程在调功耗时,不允许它一步到位,而是限制每秒钟能改多少。代码里写死了两个上限:功率往上加,每秒最多约 50 瓦;往下减,每秒最多约 100 瓦。升得慢一点,是为了避免负载一来、功耗瞬间灌满,把芯片"热激"一下;降的余地留得大些,是因为温度往下走时焊点的危险小于往上冲。本质上,限制功率的变化速率(dP/dt),就是在限制温度的变化速率(dT/dt),把那些瞬态的应力尖峰削平。这一招针对的是"每一次摆动陡不陡"。
需要说一句:这个限速只是控制环里的一个保护性约束,真正怎么算出该给多少功耗,是另一篇要讲的闭环控制的事,这里只点到"为什么要限速"为止。
第二招:空闲时不把功耗掉到底,保持中等水平。这就是开头那个疑问的答案。守护进程在卡空闲时,不会把功耗砸到地板,而是按一个比例稳在中等档位——配置里这个比例是 0.65,也就是约六成多。为什么?因为空闲功耗压得越低,空闲温度就越低,而它和满载高温之间的差,正是那个要命的 ΔT。把空闲温度托高一点,满载到空闲的落差就被人为压窄了,每一轮疲劳循环的幅度直接变小。这一招针对的是"每一次摆动有多大"。
两招合起来,一个管摆动的陡峭程度,一个管摆动的幅度,正好从两个维度把焊点受的折腾都摁下去。再加上第三件顺手的事:尽量别让任务频繁大起大落。一个一秒钟启一次、停一次的脚本,制造的是高频小循环,日积月累也是疲劳。能合并的任务合并、能常驻的常驻,减少不必要的反复启停,本身就是护卡。

把两种空闲策略并排一比,取舍就清楚了:
看这张表你会发现,"拉到最低"省的那点电,和它换来的寿命损失根本不成比例。一张高端训练卡的身价,够付它好几年那点空闲电费的差额;真把焊点晃裂提前报废,这账怎么算都是亏的。
所以护焊点这件事,核心诉求是一个字:稳,而不是"冷到底"。这跟很多人朴素的省电直觉是拧着的——省电的极致是让卡尽量凉、尽量低;护寿命却要求你别让它在高低之间反复横跳,哪怕为此多花一点点电、让空闲时温度别那么好看。下面这张图,把"省电直觉"和"护卡真相"的分叉摆在一起:
这两条岔路,选哪边,取决于你把卡当成什么:当成跑分工具,怎么省怎么来;当成要服役好几年的生产资产,就得替它的焊点想想。
最后用一个直觉性的占比收个尾。这类温度波动导致的封装级失效,坏的位置高度集中——绝大多数都发生在最外圈、尤其是四个角的焊球上,中间区域反而相对安全。下面这个比例只是经验直觉、不是精确统计,但它传达的信号很清楚:风险是沿着"离中心的距离"分布的。
角上的焊球替整颗芯片扛下了最大的形变,所以它们最先累、最先裂。理解了这一点,你就会对"减小摆幅"这件事更有敬畏——你压下去的每一度 ΔT,首先救的就是这几颗角球。
结论:护卡的关键词是"稳",不是"低"
回到开头那个疑问:空闲为什么不掉到底?
因为伤卡的从来不只是温度的高度,还有温度的起伏。高温是慢性病,反复横跳是另一种慢性病,后者专挑芯片脚底下那几颗焊球下手。守护进程用两招回应它:给功率变化限速,削平每一次摆动的陡峭;空闲保住中等功耗,压窄每一次摆动的幅度。再加上少折腾、少频繁启停,就是在替焊点延寿。
说到底,这是一种观念的转弯。我们太习惯把"省电"和"护硬件"当成同一件事,以为越凉越省就越好。但在焊点这个尺度上,它们会打架:省电想让你尽量低,护寿命要你尽量稳。真正的工程,是知道什么时候该为"稳"花掉一点"省"。
稳住之后,新的问题也跟着冒出来:既然温度不能一味往低里压,功耗到底该定在哪个档位才合适?压太狠,白白浪费性能;压太松,又烧掉不该烧的电。这中间藏着另一笔账——能效曲线上那段"白捡的电费"。下一篇,我们就来算清楚:为什么把功耗往下压一档,常常是一顿几乎不花代价的午餐。
边界仍然不变。本系列讲的这些手段——自动调节显卡功耗、限制功率变化速率、在异常时强制关机——都只应该用在你自己有权管理的设备上。自动降功耗和强制断电这类操作,用得不当轻则丢数据,重则损硬件;技术本身中立,后果和责任都在使用者这边。请别把它用到不属于你的机器上,也别拿去干扰别人的系统。

夜雨聆风