🏭 零样本工业缺陷检测一直被“固定提示词”的僵化问题所困扰:人工设计的模板既费时又缺乏普适性,静态可学习的Token也无法应对千变万化的异常形态。CVPR 2026 Findings最新录用论文CoPS,提出Conditional Prompt Synthesis框架,让模型“看图画Prompt”,动态捕捉正常与异常状态,在工业与医疗场景中全面超越现有SOTA!📈
📌 论文基本信息
论文题目:CoPS: Conditional Prompt Synthesis for Zero-Shot Anomaly Detection
发表会议/年份:CVPR 2026 Findings
所属机构:中国科学院自动化研究所、清华大学、湖南大学、华中科技大学
开源代码:https://github.com/cqylunlun/CoPS
🎯 一、研究背景:为什么零样本异常检测需要“会思考的”提示词?
📦 工业缺陷检测的痛点
在工业质检流水线上,缺陷类型(划痕、凹坑、脏污、毛刺等)层出不穷,且每个产品批次都可能出现新的缺陷模式。传统的监督学习方法依赖大量标注缺陷样本,成本高、周期长,且无法泛化到未见缺陷。因此,零样本异常检测(ZSAD) 成为工业界迫切需要的技术。
近年来,视觉-语言模型(如CLIP)凭借其强大的跨模态对齐能力,为零样本异常检测带来了希望。其核心思想是:设计一组文本提示词(如 “a photo of a defective {}”),计算图像与文本的相似度,从而判断是否存在缺陷。
⚠️ 现有提示词方法的两大缺陷
工业图像中,正常样本的背景纹理、光照、角度变化剧烈;异常样本的形态更是千变万化。静态提示词本质上是一个“平均”描述,无法捕捉这种多样性。
✨ 二、核心贡献:三大创新点驱动动态提示合成
CoPS提出了一个全新的范式:让文本提示词“长眼睛”——根据当前输入图像,实时合成条件化的提示向量。
🔬 三、方法详解:CoPS如何让CLIP“看图写Prompt”?
图像 → 视觉编码器 → 原型提取 + VAE调制 → 提示合成 → 文本编码器 → 对比损失 + 空间对齐损失。
🧱 3.1 显式状态建模:从Patch中抽取“原型”
CoPS的第一步是从图像的局部Patch特征中提取两种原型:
正常原型:代表图像中最常见的背景纹理和结构模式。
异常原型:代表图像中偏离正常的区域特征(即使是没有标注的零样本场景,也可以通过对比全局与局部差异自动挖掘)。
具体地,令视觉编码器输出的特征图为。通过一个可学习的原型记忆库,计算每个位置特征与每个原型的相似度,然后通过软分配加权求和得到聚合的原型向量:
解释:是全局池化后的图像特征,为余弦相似度,为温度系数。的提取类似,但使用与正常原型差异最大的特征位置。
随后,这些原型被显式地拼接到可学习的基线提示词中,形成视觉条件化的提示:
直观理解:如果图像是一个带有划痕的金属零件,会编码“金属拉丝纹理”,会编码“划痕的线性边缘”,拼接后的提示词相当于让CLIP知道:“请基于‘金属纹理’和‘线性划痕’这两个视觉线索判断异常”。
🎭 3.2 隐式语义扩散:破解稀疏类别标签难题
工业数据集(如MVTec AD)的类别标签往往非常宽泛(如“bottle”“cable”),但同一类别下的物体在颜色、材质、形状上仍有巨大差异(如透明玻璃瓶 vs 磨砂塑料瓶)。直接使用稀疏的类别标签会导致模型过拟合。
CoPS引入变分自编码器(VAE) 来建模图像语义的不确定性。对于全局特征,VAE输出均值和对数方差,通过重参数化采样得到隐变量:
然后,被用来调制类别Token 原本来自词嵌入):
解释:是一个可学习的缩放系数。这样,对于同一“bottle”类别,不同的输入图像会采样到不同的,从而生成不同的、更具适应性的类别提示。这使得模型在训练时能够覆盖更大的语义空间,避免死记硬背少数固定表征。
📐 3.3 空间感知对齐:炼就“火眼金睛”
标准的CLIP对比损失只关心图像-文本的全局匹配,对于像素级的异常定位(哪里出现缺陷)几乎无能为力。CoPS设计了空间感知对齐损失。
核心思想:利用一个轻量级学生网络(或特征金字塔)来重构教师的特征,并通过逐像素的差异图来构建空间约束。
令教师特征为,学生预测为。空间对齐损失定义为:
其中是一个空间注意力掩码,由原型注意力图生成,用于强调可能存在异常的区域。
解释:这相当于强制模型在空间上区分正常与异常位置。与现有方法不同的是,CoPS并不需要真实的异常掩码(零样本),而是利用原型差异自动产生伪注意力权重,实现自监督的空间对齐。
⚖️ 总损失函数CoPS的整体损失包含三部分:
:标准的图像-文本对比损失,保证分类能力。 :空间感知对齐损失,提升定位精度。 :VAE的KL散度项,防止隐变量崩塌到确定性分布。
解释:和在论文中分别设为0.5和0.01,平衡各项贡献。
📊 四、实验结果:全面覆盖工业与医疗13大数据集
🏆 4.1 定量对比——刷新零样本SOTA
图像级分类(I-AUROC / I-AP)
CoPS在全部5个工业数据集上均达到最优或次优,平均I-AUROC提升1.4%,平均I-AP提升1.7%。
在MVTec-AD上,CoPS比最强基线WinCLIP提升3.2个百分点;在DTD-Synthetic上达到97.6%,刷新纪录。
医学数据集上,CoPS同样全面领先,如在Br35H上I-AUROC高达98.7%,接近专家水平。
像素级分割(P-AUROC / P-AP)
CoPS在分割任务上平均提升1.9% P-AUROC和4.2% P-AP。
在MPDD数据集上,P-AUROC达到97.5%,显著超越所有对比方法。
医学息肉分割任务中,P-AUROC稳定在85%~89%,展现极强的跨领域定位能力。
🔬 4.2 消融实验——每个模块都贡献显著

ESTS(显式状态词合成)贡献最大,单独添加可使I-AUROC提升2.1%。
SAGA(空间感知对齐)主要提升分割指标,P-AUROC提升约0.5%~1%。
ICTS(隐式类别采样)提供语义多样性,与ESTS协同效果最佳。
完整CoPS三模块协同达到最优,验证了设计的必要性。
🧪 4.3 超参数分析与效率

默认采样次数 R=10 时,性能和推理速度达到最佳平衡(I-AUROC 95.0%,168ms/图)。
R继续增大收益饱和,推理时间线性增加。
🖼️ 4.4 可视化分析——定位更准,假阳性更少

工业域(MVTec-AD等) :CoPS的热力图精准覆盖缺陷真实掩码(如缺角、划痕),背景几乎无噪点,而对比方法(AdaCLIP、AnomalyCLIP)存在边缘分散响应或过度检测问题。
医学域(ISIC、CVC-ColonDB等) :CoPS能够抑制正常结构(如痣、毛发)的干扰,对息肉、肿瘤的边界分割清晰,假阳性率显著降低。
📈 4.5 结果总结
CoPS通过 ESTS(状态感知)+ ICTS(语义丰富)+ SAGA(空间对齐) 三位一体的设计,在零样本异常检测任务上实现了全面的性能突破,且跨工业、医疗两个差异巨大的领域均表现优异,证明了动态提示合成范式的强大泛化能力。
🧩 五、应用延伸:不止于工业,也是医疗影像的利器
CoPS在工业缺陷和医疗病变两种数据上同时取得SOTA,证明了其强大的跨领域适应性。

💎 六、总结与展望
📌 核心贡献回顾
CoPS提出了 条件提示合成(Conditional Prompt Synthesis) 的概念,从根本上改变了CLIP在零样本异常检测中的使用方式:
不再依赖人工模板或静态可学习向量,而是根据输入图像动态生成提示词。
通过原型提取、VAE调制、空间对齐损失三管齐下,同时提升了分类和定位性能。
🔮 未来方向
更高效的原型记忆库:目前的原型数量K是超参数,未来可以研究自适应确定原型数量或层次化原型。
扩展到视频异常检测:工业流水线上的时序信息(如连续帧间的运动异常)有待挖掘。
轻量化部署:CoPS目前依赖CLIP双编码器,推理速度较慢。可探索蒸馏或剪枝后的学生模型。
💌 互动与支持
如果您觉得这篇文章对您有帮助,欢迎:
👍 点赞、在看、转发,让更多做异常检测、工业质检、医学图像分析的朋友看到!
📢 关于我们:本公众号持续关注计算机视觉、工业AI前沿论文解读,助您紧跟顶会动态。
夜雨聆风