Token Contrast for Weakly-Supervised Semantic Segmentation
摘要
目的:
- 使用图像级标签的弱监督语义分割(WSSS)通常利用类激活映射(CAM)生成伪标签。
- 受CNN局部结构感知的限制,CAM通常不能识别整体目标区域。
- 虽然最近的视觉转换器(ViT)可以弥补这一缺陷,但我们观察到它也带来了过度平滑的问题,即最终的补丁令牌倾向于均匀。
- 进一步探索ViT在WSSS中的优点
解决办法:
- patch token对比模块( PTC):
PTC使用从中间层派生的伪标记关系来监督最终的补丁标记,允许它们对齐语义区域,从而产生更准确的CAM。 - 类token对比模块(CTC):
为了进一步区分CAM中的低置信区域,CTC通过对比不确定局部区域和全局对象的类标记,促进了它们之间的表示一致性。
代码链接
论文链接
方法
在看本文方法之前需要了解CAM和VIT
ToCo使用ViT编码器中的辅助分类层来生成辅助CAM,辅助CAM随后用于生成辅助伪标签并指导PTC模块。同时,它还用于为CTC模块提供裁剪正、负局部图像的建议。使用分类层获得最终的CAM,并用于生成最终的伪标签
PTC(Patch Token Contrast)
目标是解决最终的patch token过度平滑问题,由于中间层仍然可以保持补丁令牌的语义多样性,在PTC中,利用中间层的知识,来监督最终的patch token。
在辅助分类头中,首先通过全局最大池化(GMP)聚合patch token得到Fm,然后用θm参数化的全连接层进行投影,计算辅助分类损失Lcls。因此,辅助CAM计算为
然后使用两个背景阈值βl、βh (0 < βl < βh < 1)将Mm分割到由可靠的前景、背景和不确定区域组成的伪令牌标签Ym。
生成的令牌标签Ym用于派生可靠的成对关系,用于监督最终的patch token。具体来说,如果两个token共享相同的语义标签,则它们被标记为正对;否则,它们被标记为负对。此外,为了保证可靠性,我们只考虑两个都属于可靠的前景或背景区域的令牌,忽略不确定区域。为了弥补过度平滑的问题,我们最大化两个最终补丁标记的相似性,它们属于正对,并最小化相似性。设F∈Rn×d为最终层补丁令牌,则PTC模块的损失函数构造为
然而,最小化原始余弦相似度并不能保证多样性,因为负余弦相似度的令牌对(例如−1)可能是高度相关的。
因此,在实践中,在公式3中,使用绝对余弦相似度代替原来的形式。通过最小化公式3,鼓励正符号的表示更一致,而负符号对更有区别,这样就可以很好地解决过平滑问题。
Class Token Contrast
设计了类令牌对比(class Token Contrast, CTC)模块,以促进局部非显著区域与全局对象之间的表示一致性,从而进一步强制CAM中激活更多的对象区域。
给定一幅图像,首先从其辅助CAM指定的不确定区域中随机裁剪局部图像。由于ViT中的类令牌捕获了语义对象的信息,因此全局图像和局部图像的类令牌分别聚合了全局和局部对象的信息。通过最小化全局和局部类标记之间的差异,整个对象区域的表示可以更加一致
为了应对裁剪的局部图像可能包含很少或没有前景对象的情况,如图3所示,我们还从背景区域裁剪了一些局部图像
通过最大化全局图像和局部背景区域的类标记之间的差异,也可以促进前景背景的差异。在实践中,我们随机裁剪固定数量的局部图像,并在伪标签Ym的指导下将其分配为正的(来自不确定区域)或负的(来自背景区域)
全局和局部类令牌首先分别通过投影头Pg和Pl,它们由线性层和L2归一化-组成
假设p表示投影的全局类令牌,Q+/Q−表示从不确定/背景区域中截取的投影局部类令牌集,CTC的目标是最小化/最大化p与Q+/Q−中局部类令牌之间的差异。这里我们使用InfoNCE损失作为目标,即
值得注意的是,CTC旨在加强局部视图表示来对齐全局视图。因此,我们停止投影头Pg的梯度。为了更新Pg,我们使用指数移动平均(EMA),即θg←ρθg +(1−ρ)θl,其中ρ是动量因子,θg和θl分别是来自Pg和Pl的参数。
训练目标为:
此外,将提议的ToCo插入到单阶段WSSS框架中。具体来说,由ToCo生成的伪标签然后使用像素自适应细化模块(PAR)进行细化,以对齐低级语义边界。改进后的伪标签将被用来监督分割解码器。我们使用常见的交叉熵损失作为分割损失Lseg。
因此,总体培训目标应包括Lseg,即。
L = Ltoco + λ3Lseg。
继之前的单阶段WSSS工作之后,我们还使用了一个额外的正则化损失项来加强预测分割mask的空间一致性
实验结果
消融实验:
总结
设计了一个patch token对比模块(PTC)。PTC将最终的patch表示与从中间层提取的知识进行对比,经验证明该方法可以很好地解决过平滑问题。根据ViT中类标记可以捕捉高层次语义的观察,我们进一步提出了类标记对比模块(class token Contrast module, CTC),对局部图像和全局图像的类标记进行对比,以促进整体对象区域的表示一致性。将ToCo插入单阶段WSSS框架,并在VOC和COCO数据集上进行了广泛的实验。实验结果表明,ToCo的性能明显优于其他竞争者。