摘要
https://arxiv.org/pdf/2011.13256
知识蒸馏(KD)已被证明是训练紧凑密集预测模型的简单有效工具。通过从大型教师网络转移而来的额外监督来训练轻量级学生网络。大多数先前的针对密集预测任务的KD变体都在空间域中对学生网络和教师网络的激活图进行对齐,通常是通过在每个空间位置标准化激活值并最小化逐点和/或成对差异来实现的。与先前的方法不同,我们提出对每个通道的激活图进行标准化以获得软概率图。通过简单地最小化两个网络的通道概率图之间的Kullback-Leibler(KL)散度,蒸馏过程更关注于每个通道的最显著区域,这对于密集预测任务来说是非常有价值的。
我们在一些密集预测任务上进行了实验,包括语义分割和对象检测。实验表明,我们提出的方法在性能上显著优于最先进的蒸馏方法,并且在训练过程中需要的计算成本更低。特别地,我们在COCO数据集上将RetinaNet检测器(ResNet50主干)的mAP提高了3.4%,在Cityscapes数据集上将PSPNet(ResNet 18主干)的mIoU提高了5.81%。代码可在以下网址获取:
https://git.io/Distiller
1、引言
密集预测任务是计算机视觉中的一组基础任务,包括语义分割[48,6]和对象检测[21,30]。这些任务需要在像素级别上学习强大的特征表示,以实现对复杂场景的理解。因此,最先进的模型通常需要高计算成本,这使得它们难以部署到移动设备上。因此,针对密集预测任务设计的紧凑网