AI+工业场景落地系列16:别等设备冒烟,先把“低烧”看出来
车间里最吓人的,很多时候不是「砰」的一声。
是设备还在转,产线也没停,值班的人看着一切正常,结果过了半小时,轴承抱死了,变压器局部过热扩大了,停机、排查、换件,一连串损失才真正开始。
工业设备的故障,很多不是突然坏,是先发了一阵“低烧”。这篇我就想讲清楚,怎么用红外热图把这个“低烧”提前看出来。
我自己摸索这类监测思路的时候,走了不少弯路。最开始容易盯着「有没有明显高温点」,后来才发现,真正有用的不是看见烫,而是在还没烫到冒烟之前,识别“不正常地变热”。
这俩不是一回事。
先说结论,异常热成像真正有用的地方,就三步
拆开来看其实不复杂。
第一步,先把红外热图稳定拿到。第二步,不是盯绝对温度,而是找异常模式。第三步,把预警放在“发烫瞬间”,而不是故障之后做事后分析。
听着像废话,对吧。但很多人搞反了,尤其第二步,表面上看是测温问题,其实是识别问题。
第一步,热图拿不稳,后面全是空谈
红外热成像不是拍张彩色图那么简单。
同一台设备,拍摄角度变一点,背景反射变一点,环境温度上来几度,热图读数就会飘。踩过这个坑的人都知道,你今天拍到的热点,明天可能就不是同一个样子了。不是设备好了,是图像条件变了。
所以我现在的做法是,先把采集条件尽量固定下来。
-
尽量固定相机位置和视角
-
给关键设备划定拍摄区域,比如轴承座、接线端子、变压器绕组外壳
-
同一类设备尽量在相近负载条件下比
-
连续采集,不看单帧,看趋势
这里有个小技巧很多人忽略了,先做区域对齐,再做温度分析。因为你要比较的不是整张图,而是那块轴承、那组线圈、那个接头。
如果你准备用 OpenCV 这套东西落地,像 github。com/opencv/opencv 里的基础图像处理能力,拿来做目标区域裁切、轮廓提取、配准、滤波,已经够你把第一步跑通了。不用一上来就想着多复杂的模型,先把图像位置和质量稳定下来,收益非常大。
今天看完先把这一步做了。找一台最常出问题的设备,连续拍一周同角度热图,别急着上算法,先把样本攒出来。
第二步,别只盯“高温”,要盯“反常”
这是花了真金白银换来的教训。
很多人拿到热图之后,第一反应是设个温度阈值,比如 80℃报警,90℃停机。这个思路不是不能用,但很容易漏掉早期故障。
为什么。
因为轴承异常、接触不良、绕组老化,早期未必会一下子冲到危险温度。它更常见的表现是这些:
-
左右同类部件温差突然拉开
-
某个热点面积在扩大
-
升温速度比平时快
-
局部温度分布变得不均匀
你想想看,一台电机两侧轴承,平时温差 3℃ 以内,某天变成 9℃,绝对温度也许还没高到吓人,但这已经很值得看了。变压器也一样,真正危险的往往不是整体热,而是局部异常热斑。
「异常热成像看的是“偏离正常”,不是只看“够不够热”。」
这时候自动分析就比人眼强了。
人眼看热图,能看出「这里有点红」。算法看热图,可以继续往下拆:
-
热点位置有没有漂移
-
热区面积是不是连续变大
-
与历史基线相比偏差多少
-
与同类设备相比是不是异常
OpenCV 这类库在这里就很顺手,图像分割、阈值处理、轮廓分析、区域统计这些基础活都能干。你先别嫌“基础”,工业现场很多问题,真不是输在模型不够新,是输在连热点区域都没切准。
说实话,很多教程不会告诉你的是,工业异常检测里,稳定的规则和基线模型,常常比花哨的端到端识别更早产生价值。
因为现场讲的是误报率、漏报率、维护成本,不是论文分数。
第三步,预警要卡在“发烫瞬间”
这一步没有捷径。
很多系统也会做热图分析,但只是把图存下来,出了事再回看。那不能叫预警,那是复盘。复盘当然也有用,可停机损失已经发生了。
真正有价值的,是在温升刚开始偏离的时候,把信号打出来。
我建议你把预警拆成两层。
第一层,轻预警
比如连续 5 分钟升温速度异常,或者同类部件温差超出历史波动区间,就先标黄。这时候不一定立刻停机,但建议安排点检。
第二层,强预警
如果热点面积继续扩大,或者局部高温叠加温升速度还在加快,再标红。这时就不是“有空看一眼”了,而是要介入处理。
这样做的好处很直接,现场不会被一堆误报烦死。
不瞒你说,我最早就吃过这个亏,阈值一设低,报警狂响,最后大家都学会无视它。系统还在报,现场已经麻了。你说这玩意儿有没有价值,有,但被自己设计废了。
所以大部分人卡在这一步,不是不会识别,是不会让预警真正进入维护流程。
轴承和变压器,为什么特别适合先做
如果你刚开始做,不用全厂铺开,建议你先拿这两类设备试试。
轴承
轴承异常通常会先体现在摩擦升温、润滑失效、偏载引起的局部发热。它的好处是位置明确,ROI 好圈,历史趋势也比较容易建立。
你可以今晚就试试这个最小动作,针对同型号设备做一组热图对比,看左右轴承、同工位设备之间有没有温差异常。
变压器
变压器更典型,接点松动、绕组问题、铁芯异常,很多都会先形成热斑。而且这类设备一旦拖到肉眼都能看出不对劲,通常就已经不轻了。
所以热成像在这里,不只是「看温度」,更像是在看电气故障留下的体温痕迹。这个比喻有点土,但确实好记,就是这样。
真正难的地方,不在算法,在标准
回到这块,最重要的一步其实是建立“正常长什么样”。
同样一台设备,夏天和冬天不一样,空载和满载不一样,新设备和老设备也不一样。所以不要上来就追求一个万能阈值。我的做法是,先做设备分组,再做各自基线。
一开始你甚至可以先用很朴素的方法:
-
每类设备采一段正常工况热图
-
给关键部位建立温度区间和波动范围
-
再叠加热点面积、温差、升温速率三个指标
够用了,真的。
先把一个小场景跑通,比一开始想做全能系统靠谱得多。
如果你今天就想开始,建议按这个顺序
先找一台最关键、也最容易出热问题的设备。连续采集热图。用 OpenCV 把固定区域切出来。别急着判断故障,先建立一份「正常时候的热分布档案」。
等你手里有了连续样本,再去做异常规则,心里就不慌了。
这事急不来,得慢慢磨。可一旦跑通,你会很明显地感觉到,维护思路变了。以前是等故障冒头,再追着火跑。现在是设备刚开始发热,系统已经先抬手提醒你了。
车间还是那个车间,风扇照样响,机器照样转。
只是有些看不见的“低烧”,终于被看见了。
大家好,欢迎大家点赞关注~
夜雨聆风