CVPR 2026 | CoPS:告别模板提示词,让CLIP学会“看图说话”,动态合成工业缺陷检测指令!

🏭 零样本工业缺陷检测一直被“固定提示词”的僵化问题所困扰：人工设计的模板既费时又缺乏普适性，静态可学习的Token也无法应对千变万化的异常形态。CVPR 2026 Findings最新录用论文CoPS，提出Conditional Prompt Synthesis框架，让模型“看图画Prompt”，动态捕捉正常与异常状态，在工业与医疗场景中全面超越现有SOTA！📈

📌 论文基本信息

论文题目：CoPS: Conditional Prompt Synthesis for Zero-Shot Anomaly Detection

发表会议/年份：CVPR 2026 Findings

所属机构：中国科学院自动化研究所、清华大学、湖南大学、华中科技大学

开源代码：https://github.com/cqylunlun/CoPS

🎯 一、研究背景：为什么零样本异常检测需要“会思考的”提示词？

📦 工业缺陷检测的痛点

在工业质检流水线上，缺陷类型（划痕、凹坑、脏污、毛刺等）层出不穷，且每个产品批次都可能出现新的缺陷模式。传统的监督学习方法依赖大量标注缺陷样本，成本高、周期长，且无法泛化到未见缺陷。因此，零样本异常检测（ZSAD） 成为工业界迫切需要的技术。

近年来，视觉-语言模型（如CLIP）凭借其强大的跨模态对齐能力，为零样本异常检测带来了希望。其核心思想是：设计一组文本提示词（如 “a photo of a defective {}”），计算图像与文本的相似度，从而判断是否存在缺陷。

⚠️ 现有提示词方法的两大缺陷

策略	代表方法	局限性
📝 人工固定模板	WinCLIP	模板依赖专家经验，对不同工业品（如金属齿轮 vs 透明玻璃）泛化能力极差
🔧 静态可学习提示词	CPL, AnomalyCLIP	所有输入图像共享同一组提示Token，无法适应图像间巨大的外观差异，容易过拟合到特定语义

工业图像中，正常样本的背景纹理、光照、角度变化剧烈；异常样本的形态更是千变万化。静态提示词本质上是一个“平均”描述，无法捕捉这种多样性。

✨ 二、核心贡献：三大创新点驱动动态提示合成

CoPS提出了一个全新的范式：让文本提示词“长眼睛”——根据当前输入图像，实时合成条件化的提示向量。

创新点	解决的问题	实现方式
🧠 细粒度原型提取与注入	静态Token难以描述多样化的局部状态	从Patch级特征中提取正常/异常原型，显式注入Prompt
🎭 隐式类别标记融合	类别标签稀疏，易过拟合	引入变分自编码器（VAE）建模语义分布，隐式融合类别信息
📐 空间感知对齐机制	传统CLIP空间定位能力弱	设计空间感知对齐损失，强化像素级定位

🔬 三、方法详解：CoPS如何让CLIP“看图写Prompt”？

图像 → 视觉编码器 → 原型提取 + VAE调制 → 提示合成 → 文本编码器 → 对比损失 + 空间对齐损失。

🧱 3.1 显式状态建模：从Patch中抽取“原型”

CoPS的第一步是从图像的局部Patch特征中提取两种原型：

正常原型：代表图像中最常见的背景纹理和结构模式。
异常原型：代表图像中偏离正常的区域特征（即使是没有标注的零样本场景，也可以通过对比全局与局部差异自动挖掘）。

具体地，令视觉编码器输出的特征图为。通过一个可学习的原型记忆库，计算每个位置特征与每个原型的相似度，然后通过软分配加权求和得到聚合的原型向量：

解释：是全局池化后的图像特征，为余弦相似度，为温度系数。的提取类似，但使用与正常原型差异最大的特征位置。

随后，这些原型被显式地拼接到可学习的基线提示词中，形成视觉条件化的提示：

直观理解：如果图像是一个带有划痕的金属零件，会编码“金属拉丝纹理”，会编码“划痕的线性边缘”，拼接后的提示词相当于让CLIP知道：“请基于‘金属纹理’和‘线性划痕’这两个视觉线索判断异常”。

🎭 3.2 隐式语义扩散：破解稀疏类别标签难题

工业数据集（如MVTec AD）的类别标签往往非常宽泛（如“bottle”“cable”），但同一类别下的物体在颜色、材质、形状上仍有巨大差异（如透明玻璃瓶 vs 磨砂塑料瓶）。直接使用稀疏的类别标签会导致模型过拟合。

CoPS引入变分自编码器（VAE）来建模图像语义的不确定性。对于全局特征，VAE输出均值和对数方差，通过重参数化采样得到隐变量：

然后，被用来调制类别Token 原本来自词嵌入）：

解释：是一个可学习的缩放系数。这样，对于同一“bottle”类别，不同的输入图像会采样到不同的，从而生成不同的、更具适应性的类别提示。这使得模型在训练时能够覆盖更大的语义空间，避免死记硬背少数固定表征。

📐 3.3 空间感知对齐：炼就“火眼金睛”

标准的CLIP对比损失只关心图像-文本的全局匹配，对于像素级的异常定位（哪里出现缺陷）几乎无能为力。CoPS设计了空间感知对齐损失。

核心思想：利用一个轻量级学生网络（或特征金字塔）来重构教师的特征，并通过逐像素的差异图来构建空间约束。

令教师特征为，学生预测为。空间对齐损失定义为：

其中是一个空间注意力掩码，由原型注意力图生成，用于强调可能存在异常的区域。

解释：这相当于强制模型在空间上区分正常与异常位置。与现有方法不同的是，CoPS并不需要真实的异常掩码（零样本），而是利用原型差异自动产生伪注意力权重，实现自监督的空间对齐。

⚖️ 总损失函数CoPS的整体损失包含三部分：

：标准的图像-文本对比损失，保证分类能力。
：空间感知对齐损失，提升定位精度。
：VAE的KL散度项，防止隐变量崩塌到确定性分布。

解释：和在论文中分别设为0.5和0.01，平衡各项贡献。

📊 四、实验结果：全面覆盖工业与医疗13大数据集

🏆 4.1 定量对比——刷新零样本SOTA

图像级分类（I-AUROC / I-AP）

CoPS在全部5个工业数据集上均达到最优或次优，平均I-AUROC提升1.4%，平均I-AP提升1.7%。

在MVTec-AD上，CoPS比最强基线WinCLIP提升3.2个百分点；在DTD-Synthetic上达到97.6%，刷新纪录。

医学数据集上，CoPS同样全面领先，如在Br35H上I-AUROC高达98.7%，接近专家水平。

像素级分割（P-AUROC / P-AP）

CoPS在分割任务上平均提升1.9% P-AUROC和4.2% P-AP。
在MPDD数据集上，P-AUROC达到97.5%，显著超越所有对比方法。
医学息肉分割任务中，P-AUROC稳定在85%~89%，展现极强的跨领域定位能力。

🔬 4.2 消融实验——每个模块都贡献显著

ESTS（显式状态词合成）贡献最大，单独添加可使I-AUROC提升2.1%。
SAGA（空间感知对齐）主要提升分割指标，P-AUROC提升约0.5%~1%。
ICTS（隐式类别采样）提供语义多样性，与ESTS协同效果最佳。

完整CoPS三模块协同达到最优，验证了设计的必要性。

🧪 4.3 超参数分析与效率

默认采样次数 R=10 时，性能和推理速度达到最佳平衡（I-AUROC 95.0%，168ms/图）。

R继续增大收益饱和，推理时间线性增加。

🖼️ 4.4 可视化分析——定位更准，假阳性更少

工业域（MVTec-AD等）：CoPS的热力图精准覆盖缺陷真实掩码（如缺角、划痕），背景几乎无噪点，而对比方法（AdaCLIP、AnomalyCLIP）存在边缘分散响应或过度检测问题。
医学域（ISIC、CVC-ColonDB等）：CoPS能够抑制正常结构（如痣、毛发）的干扰，对息肉、肿瘤的边界分割清晰，假阳性率显著降低。

📈 4.5 结果总结

评价维度	平均提升（vs SOTA）	说明
I-AUROC	+1.4%	13个数据集综合表现
I-AP	+1.7%	工业+医学分类精度
P-AUROC	+1.9%	像素级定位能力
P-AP	+4.2%	微小缺陷/病灶敏感性

CoPS通过 ESTS（状态感知）+ ICTS（语义丰富）+ SAGA（空间对齐）三位一体的设计，在零样本异常检测任务上实现了全面的性能突破，且跨工业、医疗两个差异巨大的领域均表现优异，证明了动态提示合成范式的强大泛化能力。

🧩 五、应用延伸：不止于工业，也是医疗影像的利器

CoPS在工业缺陷和医疗病变两种数据上同时取得SOTA，证明了其强大的跨领域适应性。

领域	典型应用	CoPS优势
🏭 工业	表面划痕、凹坑、脏污检测	无需采集缺陷样本，适应产线快速换型
🏥 医疗	CT/MRI中的微小肿瘤、出血点	低对比度下仍能精准定位，减少假阳性

💎 六、总结与展望

📌 核心贡献回顾

CoPS提出了条件提示合成（Conditional Prompt Synthesis）的概念，从根本上改变了CLIP在零样本异常检测中的使用方式：

不再依赖人工模板或静态可学习向量，而是根据输入图像动态生成提示词。

通过原型提取、VAE调制、空间对齐损失三管齐下，同时提升了分类和定位性能。

🔮 未来方向

更高效的原型记忆库：目前的原型数量K是超参数，未来可以研究自适应确定原型数量或层次化原型。
扩展到视频异常检测：工业流水线上的时序信息（如连续帧间的运动异常）有待挖掘。
轻量化部署：CoPS目前依赖CLIP双编码器，推理速度较慢。可探索蒸馏或剪枝后的学生模型。

💌 互动与支持

如果您觉得这篇文章对您有帮助，欢迎：

👍 点赞、在看、转发，让更多做异常检测、工业质检、医学图像分析的朋友看到！

📢 关于我们：本公众号持续关注计算机视觉、工业AI前沿论文解读，助您紧跟顶会动态。