清华团队提出TFA-Net,用模板特征聚合破解工业异常检测中的捷径学习难题
Engineering Applications of Artificial Intelligence | 清华大学、华中科技大学

0. 核心洞察
重建类异常检测方法有一个隐藏的顽固缺陷:模型学会了"捷径学习"。理想情况下,模型应该只重建正常特征,使异常区域在重建前后产生差异。但实际上,模型可能直接复制输入特征——包括异常部分——导致缺陷被完美重建而无法被检测。
这是因为现有特征重建方法存在两个缺陷:
平凡解问题:模型走捷径,直接复制输入特征,使得异常区域也被完美重建 像素级差异无意义:在特征空间中,输入和重建之间的像素级差异不一定承载语义信息,可能产生大量假阳性
TFA-Net的解决方案:引入一张固定的正常模板图像,将输入特征向模板特征聚合,而非直接重建输入。由于异常特征与正常模板特征的相似度低,聚合过程有效地过滤掉了异常信息。
1. 方法介绍

TFA-Net的整体架构包含四个阶段:
阶段一:多层级融合特征提取
使用预训练的Wide-ResNet50作为特征提取器,取第1至第4层的特征图。不同层的特征图具有不同的感受野:
浅层特征包含更多细节但较少语义信息 深层特征则相反
将各层特征图统一缩放至相同空间尺寸,在通道维度拼接,得到维度为1856的多层级融合特征。
阶段二:模板特征聚合机制(TFAM)
这是TFA-Net的核心创新。选择一张固定的正常图像作为模板,同样提取融合特征。
TFAM基于Vision Transformer的自注意力机制:
将输入特征和模板特征分别通过投影头转换为patch embedding 拼接两组embedding 送入12层Transformer Block进行自注意力聚合 聚合后丢弃输入特征部分,仅保留模板特征部分
关键机制:
正常输入特征与正常模板特征相似度高 → 能有效聚合(高聚合度) 异常输入特征与正常模板特征相似度低 → 难以聚合(低聚合度)
因此,TFAM通过将输入信息向模板特征聚合,有效地过滤了异常信息,将原本平凡的特征复制任务转化为有意义的特征聚合任务。
阶段三:特征细节精炼模块(FDRM)
经过TFAM后,模板特征已融合了来自正常输入的信息。但TFAM存在边界情况:少量异常特征可能因与模板特征在潜空间中的相似性而被部分聚合。
FDRM使用8层Transformer Block对TFAM输出进行进一步精炼,修复这些残留的异常痕迹,生成最终的重建特征图。
阶段四:双模式异常分割
最终异常分数同时使用欧几里得距离和余弦相似度:
两种度量的element-wise乘积能同时捕捉特征幅值差异和方向差异,提升定位精度。
2. 实验结果

MVTec AD数据集结果
TFA-Net在15个类别上的平均性能:
图像级AU-ROC: 98.7% 像素级AU-ROC: 98.3%
均超过次优方法!
五个类别达到100%图像级检测:
Leather、Tile、Bottle、Hazelnut、Toothbrush
在较难的Transistor类别上:
TFA-Net: 99.8% / 97.7%(图像/像素级) 领先次优方法: +2.0% / +0.7%
MVTec LOCO AD数据集结果
该数据集包含逻辑异常和结构异常,检测难度更高:
| 异常类型 | TFA-Net | 次优方法 |
|---|---|---|
| 结构异常 | 85.4% | 82.0% (PatchCore) |
| 逻辑异常 | 77.2% | 86.0% (GCAD) |
TFA-Net在结构异常检测上领先次优方法**+3.4%**。在逻辑异常上排名第二,说明TFAM的特征聚合机制在处理需要高级语义推理的逻辑异常时仍有提升空间。
消融实验关键发现
移除TFAM后的性能下降:
Cable: -6.8% Screw: -5.6% Transistor: -9.6%
这些类别的共同特点是需要检测全局性缺陷(如物体缺失),说明TFAM学习到的语义丰富的全局信息对此类缺陷的检测至关重要。
模板图像选择的鲁棒性: 在具有姿态多样性的类别上使用10张不同的正常图像作为模板进行测试,性能波动均在1%以内(Hazelnut仅0.09%)。
双模式分割的优势: 相比仅用欧几里得距离,双模式分割提升了+1.0%图像级AU-ROC和+0.5%像素级AU-ROC。
3. 总结与展望
TFA-Net通过引入模板特征聚合机制(TFAM),将重建类异常检测中容易陷入的平凡特征复制任务转化为有意义的跨图像特征聚合任务,有效解决了捷径学习问题。
配合FDRM精炼和双模式分割,在MVTec AD上达到了**98.7%/98.3%**的图像/像素级AU-ROC。
值得进一步思考的点
逻辑异常检测的局限性:TFA-Net在逻辑异常上的表现(77.2%)明显低于结构异常(85.4%)。逻辑异常需要理解物体间的组合关系,这超出了基于特征相似度聚合的能力范围。
模板选择的鲁棒性:虽然不同模板图像在外观上差异较大,但经过ViT分割为patch后,不同位置的patch之间仍然能建立对应关系——这正是ViT缺乏平移等变性的特点在此场景下的优势。
推理速度与精度的权衡:WideResNet50作为特征提取器时FPS为15.3,切换到MobileNet可提升至23.4 FPS,但图像级AU-ROC从98.7%降至94.5%。论文最终选择WideResNet50作为精度与效率的平衡点。
论文信息
标题:Template-Based Feature Aggregation Network for Industrial Anomaly Detection 作者:Wei Luo, Haiming Yao, Wenyong Yu 机构:清华大学、华中科技大学 论文链接:https://arxiv.org/abs/2603.22874[1] 代码链接:https://github.com/tlov23/TFA-Net[2]
本文仅做学术分享,如有侵权,请联系删除。
关注 视觉龙哥,获取更多前沿技术解读
引用链接
[1]https://arxiv.org/abs/2603.22874
[2]https://github.com/tlov23/TFA-Net
夜雨聆风