零样本计数新突破,西工大&电信TeleAI提出QICA!(附论文及源码)-夜雨聆风

零样本计数新突破,西工大&电信TeleAI提出QICA!(附论文及源码)

以下文章来源于微信公众号：我爱计算机视觉

作者：CV君

链接：https://mp.weixin.qq.com/s/SglSioJMFvpq2Jhvms4YJg

本文仅用于学术分享，如有侵权，请联系后台作删文处理

导读

零样本对象计数要求模型仅凭类别名称准确统计数量，但现有方法存在“数量盲区”和微调导致的特征扭曲。本文分享的QICA框架，通过协同提示策略注入数量感知先验，再用代价聚合解码器在相似度空间进行噪声抑制与空间细化，在多个基准上实现了零样本计数的SOTA性能！

在计算机视觉的众多任务中，“数数”看似简单，实则暗藏玄机。尤其是当我们要求模型在完全没见过某个类别、也没有任何视觉参考（Exemplar）的情况下，仅仅凭借一句“帮我数数图里有多少个草莓”就能给出准确答案时，这就是所谓的“零样本对象计数（Zero-Shot Object Counting, ZSOC）”。

近日，来自西北工业大学、中国电信人工智能研究院（TeleAI）、中国科学技术大学以及复旦大学的研究团队，针对这一领域提出了一个具启发性的新框架：QICA，是 Quantity perception with robust spatial Cast Aggregation 的缩写，意在强调其结合了“数量感知”与“鲁棒的空间代价聚合”能力。它不仅在标准的计数基准上表现出色，更在极高密度的人群计数场景中展现了良好的泛化能力。

论文地址: https://arxiv.org/abs/2603.16129
代码仓库: https://github.com/zhangda1018/QICA (将开源)
录用会议: CVPR 2026

为什么现在的模型“数不清”？

目前的通用做法通常是利用像 CLIP 这样的预训练视觉-语言模型（Vision-Language Models, VLMs）。模型接收图像和文本，计算两者的相似度图，然后交给一个解码器去预测密度图。听起来很完美，但实际操作中存在两个“痛点”：

数量盲区（Quantity Blindness）：现有的模型大多只学习了“语义对齐”，即模型知道什么是草莓，但它并不真正理解“1个草莓”和“10个草莓”在视觉特征上的细微差别。文本提示往往只包含类别名，缺乏对数量的显式监督。
特征空间扭曲（Feature Space Distortion）：为了让模型学会计数，开发者通常会微调 VLM。但直接微调往往会破坏 CLIP 原有的通用特征空间，导致模型在训练集里数得很好，一遇到没见过的类别就“抓瞎”了（即过拟合）。

QICA 与标准 ZSOC 方法的对比。QICA 通过引入数值条件协同提示和代价聚合解码，解决了现有方法在数量感知和空间敏感性上的不足。

为了解决这些问题，QICA 另辟蹊径，从“感知”和“解码”两个维度进行了重构。

QICA 的核心：协同提示与代价聚合

QICA 的架构设计主要由三个核心组件构成：协同提示策略（SPS）、代价聚合解码器（CAD）以及多级数量对齐损失（）。

QICA 的整体架构图。左侧 (a) 展示了 SPS 如何通过耦合函数将数量感知文本提示映射到视觉提示；右侧 (b) 展示了 CAD 如何在相似度图上进行空间聚合和上采样。

1. 协同提示策略（SPS）：给模型装上“数量秤”

研究团队认为，要让模型懂数量，就得在提示（Prompt）阶段下功夫。协同提示策略（Synergistic Prompting Strategy, SPS） 不再孤立地处理视觉和文本分支。

数值条件化：它首先将离散的数量值转换为连续的嵌入向量。在训练时，模型不仅会看到真实的数量（如“16个草莓”），还会通过一种 区间分箱策略（Interval-based binning strategy） 动态生成一些“反事实”的错误数量（如“13个”或“19个”）。
双向协同：最巧妙的地方在于，这些文本提示会通过一个耦合函数（Coupling Function, ）直接映射到视觉编码器的提示中。这种双向的梯度流动让视觉和语言编码器能够协同工作，共同理解“数量”这个概念。

Input/Output 流程：

Input：原始图像、类别文本描述、 ground-truth 数量及生成的反事实数量。
Output：注入了数量信息的文本嵌入和视觉特征。

2. 代价聚合解码器（CAD）：拒绝“特征污染”

为了避免微调导致的特征扭曲，QICA 提出了 代价聚合解码器（Cost Aggregation Decoder, CAD）。不同于以往直接处理高维视觉特征的方法，CAD 直接在“视觉-文本相似度图（Similarity Map）”上操作。

CAD 流程的可视化。从原始图像到相似度图，再到空间聚合和最终融合，可以看到模型如何一步步抑制噪声并精准定位目标。

通过 Swin Transformer 块进行 空间聚合（Spatial Aggregation），模型能够利用图像的结构信息来细化这些粗糙的相似度激活。CAD 就像是一个精细的过滤器，它能够识别出相似度图中的孤立噪声并予以剔除，同时增强那些符合物体空间分布的区域。

Input/Output 流程：

Input：密集视觉特征、仅含类别的文本嵌入。
Output：精细化的预测密度图。

3. 多级数量对齐损失：严苛的“排序”监督

为了确保模型真的学到了数量逻辑，团队设计了 多级数量对齐损失（Multi-level Quantity Alignment Loss, ）。

在编码器级别，它引入了一个排序约束：真实数量的提示与图像的相似度必须最高，且数值越接近真实值的提示，其相似度得分也应该越高。

这种约束强迫模型在潜空间中建立起清晰的数值序关系。而在解码器级别，模型需要对每一个数量假设都预测一个密度图，并确保预测的总数与该假设的数值一致。

实验结果：全线飘红的 SOTA

研究团队在多个极具挑战性的数据集上验证了 QICA 的实力。

1. FSC-147：通用计数的标杆

在包含 147 个类别的 FSC-147 数据集上，QICA（基于 ViT-L/14）在测试集上达到了 12.41 MAE 和 97.28 RMSE。相比于之前的 CLIP-Count 等方法，性能提升了 27% 以上。即便与一些需要视觉参考（Few-shot）的方法相比，QICA 依然具竞争力。