摘要
温度标度作为logit匹配和概率分布匹配的bridge技术,在知识蒸馏(KD)中起着至关重要的作用。传统上,在蒸馏中,温度标度适用于教师的logits和学生的logits。在本文中,受到最近一些研究成果的启发,我们放弃了学生方面的温度缩放,并系统地研究了KD的结果变体,称为转化教师匹配(TTM)。通过将温度标度重新解释为概率分布的幂变换,我们发现与原始KD相比TTM在其目标函数中具有固定的Renyi熵项,该熵项作为额外的正则化项。大量的实验结果表明,由于这种固有的正则化,TTM使训练后的学生比原始KD具有更好的泛化能力。为了进一步提高学生对教师权力转换概率分布的匹配能力,我们在TTM中引入了一个样本自适应加权系数,得到了一种新的加权TTM方法(WTTM)。
介绍
在文献中,KD通常被表述为最小化后续损失:
其中,为标签y对应的one-hot概率分布与学生输出概率分布q之间的交叉熵损失,即ERM的典型损失。为教师的温度标度输出概率分布与学生的温度标度输出概率分布之间的KL散度,T是蒸馏温度,是平衡权值。注意和,给定教师的logits v 和学生的logits z,其中表示softmax函数。
温度T以上的使用是KD的一个关键特征。一方面,它提供了在类概率分布匹配和logits匹配之间建立bridge的方法。实际上,Hinton表明,当T趋于无穷时,KD等于他的logits匹配前代。另一方面,它也将KD与logits匹配方法区分开来,因为在实践中,温度T的经验最优值通常是相当适中的。此外,对温度T的作用以及公式(1)中的KD为什么能帮助学生更好的学习的理解很少。特别是,自然会产生以下问题:
1、为什么温度T必须同时应用于学生和教师呢?
2、只对教师施加温度,而不对学生施加温度T,会不会更好?
到目前为止,上述问题的答案充其量是难以琢磨的。
本文的目的是解决上述问题。首先,我们从理论和实验两方面证明,上述问题2的答案是肯定的,最好是在学生方面完全降低温度T——KD的结果变体被称为转化教师匹配(TTM),并将其表述为最小化以下目标:
是一个平衡权值。具体而言,我们证明(1)logits的温度标度相当于概率分布的幂变换。(2)与KD相比,TTM在其目标函数(2)中具有固有的Renyi熵项。正是这种固有的Renyi熵,作为一个额外的正则化项,因此改进了KD。大量的实验结果进一步证实了这一理论分析。大量的实验表明,由于这种固有的正则化,TTM导致训练后的学生具有更好的泛化能力。其次,为了进一步提高学生对教师power转换概率分布的匹配能力,我们在TTM中引入了样本自适应加权系数,得到了一种新的加权TTM(WTTM)方法。WTTM很简单,其计算复杂度与KD几乎相同。然而,他是非常有效的。大量的实验表明,该方法在准确率方面明显优于KD,在TTM的基础上有所改进,达到了最先进的准确率性能。例如,从ResNet34提取的ResNet18,WTTM在ImageNet上的分类准确率可以达到72.19%,由于大多数高度复杂的基于特征的蒸馏方法。
温度T下降完全在学生方面,TTM和WTTM,连同KD的标准观点和新成立的上限错误率的交叉熵之间的事实,但往往给定一个输入样本x的标签y的未知条件概率分布和输出q模型的响应输入x。Yang等人对为什么KD有用提供了新的解释。首先,KD中教师的目的是为未知的真条件概率分布提供一个适当的估计,是对应于标签y的one-hot向量与幂变换之后的教师概率分布的线性组合。其次,温度T对教师的作用是提高这一估计。第三,用变换后的教师的估计值替换,KD中的学习过程是简单地最小化错误率的交叉熵上界,这改进了标准深度学习过程,其中交叉熵上界中的初步近似于与标签y对应的one-hot向量。
背景和相关工作
CONFIDENCE PENALTY
在多分类设置中,神经网络响应输入样本的输出是一个有K个条目的概率向量和分布q,其中K是所有可能类别的数量,概率最高的类别是神经网络对该特定样本的预测。通常,如果相应的q将其大部分概率质量集中在被预测的类别上,则预测被认为是可信的。Szegedy指出,如果一个模型对其预测过于自信,那么它往往会遭受到过拟合。为了避免过拟合和提高泛化,Pereyra等人提出对自信预测进行惩罚。由于自信预测通常对应于低熵的q,他们通过在学习过程的目标函数中引入负熵正则化器来实施信息惩罚(CP),表示为:
其中控制置信度惩罚的强度。由于熵正则化,学习模型被鼓励输出具有更大熵的更平滑的分布,从而导致更不自信的预测,最重要的是,更好的泛化。
RENYI ENTROPY(Renyi熵)
Renyi熵是Shannon熵的广义版本,已成功应用于许多机器学习主题,如查分隐私、理解神经网络和表示蒸馏。给定一个离散随机变量X和相应的概率,则其Renyi熵定义为:
其中为Renyi熵阶。当时,Renyi熵的极限就是著名的香农熵。
标签平滑对KD的观点
在文献中,已经发展了不同的观点来理解KD。其中一种是Yuan和Zhang提出的标签平滑(LS)的观点。
LS是一种通过最小化学习过程中的以下目标函数来鼓励模型做出不太自信预测的技术
其中u是所有K个可能类的平均分布,而控制平滑效果的强度。与ERM的对应模型(见A.1)相比,使用LS训练的模型往往具有明显较低的自信预测和具有较大香农熵的输出概率分布。
如果我们使用(5)中教师的输出替换U,那么我们有,这相当于T=1的,因为熵不取决于学生。因此,当T=1时,KD确实可以看作是样本自适应LS。然而,当T>1时,这种观点不再成立,因为温度缩放也适用于学生模型。A.1所示的实证分析证实了这一点。虽然与ERM相比,T=1的KD能够增加输出概率分布q的Shannon熵,但与ERM相比,T=4的KD实际上会导致Shannon熵降低,表现出与LS相反的效果。
自蒸馏也提倡样本自适应LS视角,为了方便学生,降低了温度T。然而,没有提供系统的处理来证明学生方面温度T的下降。事实上,在预测精度方面,结果是喜优参半的:为学生放弃温度T可能会降低或提高准确性。
统计观点与交叉熵上界
另一种理解KD的视角是Menon等人倡导的统计视角。其中的一个关键观察结果是,Bayes蒸馏风险的方差小于标准经验风险,这实际上是方差总概率定律的直接结果。由于标签上的贝叶斯类概率分布,即给定输入样本x的标签y的条件概率,在实践中是未知的,因此KD中教师的作用被认为是使用其输出概率分布或温度缩放的输出概率分布来估计学生的。这反过来又提供了一些解释,为什么提高教师的准确性有时会损害蒸馏性能,因为提高教师的准确性和提供更好的估计是两个不同的任务。从这个角度看,学生的温度T也降低了。同样,没有理解把T放在学生这边。此外,为什么最小化Bayes-蒸馏风险或teacher-蒸馏风险可以提高学生的准确率表现也没有得到回答。
最近,Yang等人表明,对于任何分类神经网络,其错误率的上界为。因此,为了降低其错误率,可以通过最小化来训练神经网络。由于实际中通常无法获得真实的条件分布,因此对于学生来说,温度T下降的KD基本上可以视为单向近似求解最小化的问题,其中首先由标签y对应的one-hot概率分布和教师的温度缩放输出概率分布的线性组合近似。当应用于KD时,这一观点确实为完全降低学生方面的温度T以及最小化贝叶斯蒸馏风险或教师蒸馏风险提供了理由。当然,KD随温度T的下降对学生来说不一定是最小化的有效方法。其他最近的相关工作见附录A.7.
相比之下,在本文中,我们通过理论和实验上的TTM与KD的比较,更直接地表明,最好在KD中完全降低学生侧的温度T。
转型教师匹配
在本节中,我们从理论上比较了TTM和KD,表明TTM相当于KD加上Renyi熵正则化。为此,我们首先提出了输出分布的功率变换的一般概念。然后,我们证明了温度缩放和功率变换之间的等价性。在此基础上,给出了一个简单的推导,将TTM分解为KD加Renyi熵正则化器。考虑到CP,很明显,由于对置信度输出分布的惩罚,TTM可以比KD产生更好的泛化。
概率分布的幂变换
在KD中,模型输出分布通过温度缩放进行变换以提高其平滑性。然而,这样的转换并不是唯一的。还有许多其他的变换也可以平滑峰值概率分布。下面我们将介绍一个广义变换。
考虑一个逐点映射。对于任意概率分布,我们可以对p的每个分量应用f来定义一个广义变换,其中,和
在上面的例子中,用于将向量归一化为概率简单性。有了这个广义框架,任何特定的变换都可以用它的关联映射f来描述。在所有可能的映射f中,我们最感兴趣的是指数为y的幂函数。若选取f为指数为y的幂函数,则得到的概率分布变换,称为概率分布幂变换。因此,功率变换后的分布由公式给出:
接下来,我们将证明功率变换等同于温度缩放。确实,设p为logits的soft最大值:
然后,
因此,是温度时标度对数的soft最大值。
从KD到TTM
基于功率变换和温度标度之间的等价性,我们现在可以揭示KD和TTM之间的联系。
设,回到(1)和(2)。鉴于(9),我们有:
那么我们可以将分解为:
其中(11)是幂变换(7)的后续,(12)中的是y阶的Renyi熵,(14)是由(10)得到的。重新排列,我们得到:
将(15)代入(2)得到
当选择时,
其中(16)是由于香农熵不依赖于学生模型,(17)遵循(19),(18)可归因于(1)。
因此,我们已经证明TTM确实可以分解为KD加Renyi熵正则化器。由于Renyi熵是Shannon熵的广义版本,它在TTM中的作用类似于Shannon熵在CP中的作用。有了这个,我们有理由相信它可以带来更好的泛化,这在后面的第5节的大量实验中得到了证实。
从TTM和KD各自的梯度角度进行比较也具有一定的指导意义。中蒸馏组分相对于对数的梯度为:
其中,分别为学生模型的第i对数和第i类概率。相比之下,KD对应的梯度为:
从式(20)中我们可以看到,梯度下降学习过程会推动qi向幂变换教师概率分布移动,从而鼓励学生表现得像幂变换教师,由此产生了TTM(转化教师匹配)这个名称。
由于幂变换后的教师分布p t t在t > 1时更加平滑,所以经过TTM训练的学生将输出一个同样平滑的分布q,导致置信度低、熵大。另一方面,在式(21)中,转化后的学生分布qT被推向转化后的教师分布p t t。即使qT的平滑度与p t t相似,原始学生分布q仍然可以达到相当的峰值,因此具有高置信度和低熵。