KNOWLEDGE DISTILLATION BASED ON TRANSFORMED TEACHER MATCHING

摘要

温度标度作为logit匹配和概率分布匹配的bridge技术,在知识蒸馏(KD)中起着至关重要的作用。传统上,在蒸馏中,温度标度适用于教师的logits和学生的logits。在本文中,受到最近一些研究成果的启发,我们放弃了学生方面的温度缩放,并系统地研究了KD的结果变体,称为转化教师匹配(TTM)。通过将温度标度重新解释为概率分布的幂变换,我们发现与原始KD相比TTM在其目标函数中具有固定的Renyi熵项,该熵项作为额外的正则化项。大量的实验结果表明,由于这种固有的正则化,TTM使训练后的学生比原始KD具有更好的泛化能力。为了进一步提高学生对教师权力转换概率分布的匹配能力,我们在TTM中引入了一个样本自适应加权系数,得到了一种新的加权TTM方法(WTTM)。

介绍

在文献中,KD通常被表述为最小化后续损失:

image-20240505190458616

其中,image-20240505190802900为标签y对应的one-hot概率分布与学生输出概率分布q之间的交叉熵损失,即ERM的典型损失。image-20240505190912537为教师的温度标度输出概率分布与学生的温度标度输出概率分布之间的KL散度,T是蒸馏温度,image-20240505190945100是平衡权值。注意image-20240505191107138image-20240505191119151,给定教师的logits v 和学生的logits z,其中image-20240505191132652表示softmax函数。

温度T以上的使用是KD的一个关键特征。一方面,它提供了在类概率分布匹配和logits匹配之间建立bridge的方法。实际上,Hinton表明,当T趋于无穷时,KD等于他的logits匹配前代。另一方面,它也将KD与logits匹配方法区分开来,因为在实践中,温度T的经验最优值通常是相当适中的。此外,对温度T的作用以及公式(1)中的KD为什么能帮助学生更好的学习的理解很少。特别是,自然会产生以下问题:

1、为什么温度T必须同时应用于学生和教师呢?

2、只对教师施加温度,而不对学生施加温度T,会不会更好?

到目前为止,上述问题的答案充其量是难以琢磨的。

本文的目的是解决上述问题。首先,我们从理论和实验两方面证明,上述问题2的答案是肯定的,最好是在学生方面完全降低温度T——KD的结果变体被称为转化教师匹配(TTM),并将其表述为最小化以下目标:

image-20240505192640709

是一个平衡权值。具体而言,我们证明(1)logits的温度标度相当于概率分布的幂变换。(2)与KD相比,TTM在其目标函数(2)中具有固有的Renyi熵项。正是这种固有的Renyi熵,作为一个额外的正则化项,因此改进了KD。大量的实验结果进一步证实了这一理论分析。大量的实验表明,由于这种固有的正则化,TTM导致训练后的学生具有更好的泛化能力。其次,为了进一步提高学生对教师power转换概率分布的匹配能力,我们在TTM中引入了样本自适应加权系数,得到了一种新的加权TTM(WTTM)方法。WTTM很简单,其计算复杂度与KD几乎相同。然而,他是非常有效的。大量的实验表明,该方法在准确率方面明显优于KD,在TTM的基础上有所改进,达到了最先进的准确率性能。例如,从ResNet34提取的ResNet18,WTTM在ImageNet上的分类准确率可以达到72.19%,由于大多数高度复杂的基于特征的蒸馏方法。

温度T下降完全在学生方面,TTM和WTTM,连同KD的标准观点和新成立的上限错误率的交叉熵image-20240505194328672之间的事实,但往往给定一个输入样本x的标签y的未知条件概率分布image-20240505194544281和输出q模型的响应输入x。Yang等人对为什么KD有用提供了新的解释。首先,KD中教师的目的是为未知的真条件概率分布image-20240505194802637提供一个适当的估计,是对应于标签y的one-hot向量与幂变换之后的教师概率分布image-20240505194925151的线性组合。其次,温度T对教师的作用是提高这一估计。第三,用变换后的教师的估计值替换image-20240505200010444,KD中的学习过程是简单地最小化错误率的交叉熵上界,这改进了标准深度学习过程,其中交叉熵上界中的image-20240505200119805初步近似于与标签y对应的one-hot向量。

背景和相关工作

CONFIDENCE PENALTY

在多分类设置中,神经网络响应输入样本的输出是一个有K个条目的概率向量和分布q,其中K是所有可能类别的数量,概率最高的类别是神经网络对该特定样本的预测。通常,如果相应的q将其大部分概率质量集中在被预测的类别上,则预测被认为是可信的。Szegedy指出,如果一个模型对其预测过于自信,那么它往往会遭受到过拟合。为了避免过拟合和提高泛化,Pereyra等人提出对自信预测进行惩罚。由于自信预测通常对应于低熵的q,他们通过在学习过程的目标函数中引入负熵正则化器来实施信息惩罚(CP),表示为:

image-20240506135749774

其中image-20240506140601823控制置信度惩罚的强度。由于熵正则化,学习模型被鼓励输出具有更大熵的更平滑的分布,从而导致更不自信的预测,最重要的是,更好的泛化。

RENYI ENTROPY(Renyi熵)

Renyi熵是Shannon熵的广义版本,已成功应用于许多机器学习主题,如查分隐私、理解神经网络和表示蒸馏。给定一个离散随机变量Ximage-20240506141254196和相应的概率image-20240506141322196,则其Renyi熵定义为:

image-20240506141340974

其中image-20240506141619414为Renyi熵阶。当时image-20240506141626593,Renyi熵的极限就是著名的香农熵。

标签平滑对KD的观点

在文献中,已经发展了不同的观点来理解KD。其中一种是Yuan和Zhang提出的标签平滑(LS)的观点。

LS是一种通过最小化学习过程中的以下目标函数来鼓励模型做出不太自信预测的技术

image-20240506142539637

其中u是所有K个可能类的平均分布,而控制平滑效果的强度。与ERM的对应模型(见A.1)相比,使用LS训练的模型往往具有明显较低的自信预测和具有较大香农熵的输出概率分布。

如果我们使用(5)中教师的输出image-20240506142830314替换U,那么我们有image-20240506143027493,这相当于T=1的image-20240506143050110,因为熵image-20240506143208519不取决于学生。因此,当T=1时,KD确实可以看作是样本自适应LS。然而,当T>1时,这种观点不再成立,因为温度缩放也适用于学生模型。A.1所示的实证分析证实了这一点。虽然与ERM相比,T=1的KD能够增加输出概率分布q的Shannon熵,但与ERM相比,T=4的KD实际上会导致Shannon熵降低,表现出与LS相反的效果。

自蒸馏也提倡样本自适应LS视角,为了方便学生,降低了温度T。然而,没有提供系统的处理来证明学生方面温度T的下降。事实上,在预测精度方面,结果是喜优参半的:为学生放弃温度T可能会降低或提高准确性。

统计观点与交叉熵上界

另一种理解KD的视角是Menon等人倡导的统计视角。其中的一个关键观察结果是,Bayes蒸馏风险的方差小于标准经验风险,这实际上是方差总概率定律的直接结果。由于标签上的贝叶斯类概率分布,即给定输入样本x的标签y的条件概率image-20240506144727256,在实践中是未知的,因此KD中教师的作用被认为是使用其输出概率分布image-20240506144818242或温度缩放的输出概率分布image-20240506144824508来估计学生的image-20240506144833176。这反过来又提供了一些解释,为什么提高教师的准确性有时会损害蒸馏性能,因为提高教师的准确性和提供更好的估计是两个不同的任务。从这个角度看,学生的温度T也降低了。同样,没有理解把T放在学生这边。此外,为什么最小化Bayes-蒸馏风险或teacher-蒸馏风险可以提高学生的准确率表现也没有得到回答。

最近,Yang等人表明,对于任何分类神经网络,其错误率的上界为image-20240506150854515。因此,为了降低其错误率,可以通过最小化image-20240506150944880来训练神经网络。由于实际中通常无法获得真实的条件分布image-20240506151023943,因此对于学生来说,温度T下降的KD基本上可以视为单向近似求解最小化image-20240506151202371的问题,其中image-20240506151311117首先由标签y对应的one-hot概率分布和教师的温度缩放输出概率分布image-20240506153850913的线性组合近似。当应用于KD时,这一观点确实为完全降低学生方面的温度T以及最小化贝叶斯蒸馏风险或教师蒸馏风险提供了理由。当然,KD随温度T的下降对学生来说不一定是最小化的有效方法。其他最近的相关工作见附录A.7.

相比之下,在本文中,我们通过理论和实验上的TTM与KD的比较,更直接地表明,最好在KD中完全降低学生侧的温度T。

转型教师匹配

在本节中,我们从理论上比较了TTM和KD,表明TTM相当于KD加上Renyi熵正则化。为此,我们首先提出了输出分布的功率变换的一般概念。然后,我们证明了温度缩放和功率变换之间的等价性。在此基础上,给出了一个简单的推导,将TTM分解为KD加Renyi熵正则化器。考虑到CP,很明显,由于对置信度输出分布的惩罚,TTM可以比KD产生更好的泛化。

概率分布的幂变换

在KD中,模型输出分布通过温度缩放进行变换以提高其平滑性。然而,这样的转换并不是唯一的。还有许多其他的变换也可以平滑峰值概率分布。下面我们将介绍一个广义变换。

考虑一个逐点映射image-20240506161653902。对于任意概率分布image-20240506162138081,我们可以对p的每个分量应用f来定义一个广义变换image-20240506162249603,其中image-20240506162516949image-20240506162524499,和

image-20240506162533237

在上面的例子中,image-20240506162946391用于将向量image-20240506163054792归一化为概率简单性。有了这个广义框架,任何特定的变换都可以用它的关联映射f来描述。在所有可能的映射f中,我们最感兴趣的是指数为y的幂函数。若选取f为指数为y的幂函数,则得到的概率分布变换image-20240506163318850,称为概率分布幂变换。因此,功率变换后的分布由公式给出:

image-20240506163711076

接下来,我们将证明功率变换等同于温度缩放。确实,设p为logitsimage-20240506163910601的soft最大值:

image-20240506163956465

然后,

image-20240506164007867

因此,是温度image-20240506164107993时标度对数image-20240506164058329的soft最大值。

从KD到TTM

基于功率变换和温度标度之间的等价性,我们现在可以揭示KD和TTM之间的联系。

image-20240506164326101,回到(1)和(2)。鉴于(9),我们有:

image-20240506164337921

那么我们可以将image-20240506164423771分解为:

image-20240506164436060

其中(11)是幂变换(7)的后续,(12)中的image-20240506164616843是y阶的Renyi熵,(14)是由(10)得到的。重新排列,我们得到:

image-20240506164744359

将(15)代入(2)得到

image-20240506164811026

当选择image-20240506164856139时,

image-20240506164907445

其中(16)是由于香农熵image-20240506165049159不依赖于学生模型,(17)遵循(19),(18)可归因于(1)。

因此,我们已经证明TTM确实可以分解为KD加Renyi熵正则化器。由于Renyi熵是Shannon熵的广义版本,它在TTM中的作用类似于Shannon熵在CP中的作用。有了这个,我们有理由相信它可以带来更好的泛化,这在后面的第5节的大量实验中得到了证实。

从TTM和KD各自的梯度角度进行比较也具有一定的指导意义。image-20240506165811651中蒸馏组分相对于对数的梯度为:

image-20240506165817416

其中,image-20240506165911567分别为学生模型的第i对数和第i类概率。相比之下,KD对应的梯度为:

image-20240506165903454

从式(20)中我们可以看到,梯度下降学习过程会推动qi向幂变换教师概率分布移动,从而鼓励学生表现得像幂变换教师,由此产生了TTM(转化教师匹配)这个名称。

由于幂变换后的教师分布p t t在t > 1时更加平滑,所以经过TTM训练的学生将输出一个同样平滑的分布q,导致置信度低、熵大。另一方面,在式(21)中,转化后的学生分布qT被推向转化后的教师分布p t t。即使qT的平滑度与p t t相似,原始学生分布q仍然可以达到相当的峰值,因此具有高置信度和低熵。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/595208.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Leetcode—622. 设计循环队列【中等】

2024每日刷题(128) Leetcode—622. 设计循环队列 实现代码 class MyCircularQueue { public:MyCircularQueue(int k): q(k) {qSize k;}bool enQueue(int value) {if(isFull()) {return false;}q[rear] value;rear (rear 1) % qSize;deflag false;…

数据结构相关

数据结构相关 文章目录 数据结构相关[TOC](文章目录)前言一、数据结构介绍二、不同的逻辑结构的存储方案(Java实现)2.1 线性结构:线性表、数组2.2 线性结构:栈2.3 线性结构:队列2.4 树形结构:树 三、一些常见的3.1 布隆过滤器Bloo…

网络安全是否有需求

● 由于网络威胁数量不断增加,网络安全的需求很高。 ● 组织正在大力投资网络安全以保护其数据。 ● 就业市场缺乏熟练的网络安全专业人员。 ● 网络安全认证可以提升您在网络安全领域的职业前景。 ● 持续学习并了解最新的安全趋势在该领域至关重要。 网络安全重磅…

stm32f103zet6_串口实现-DHT11-tim1(定时)

1思路 1打开时钟 1.1使用定时器实现us级的计时 1.2在打开串口 1,3在DHT11驱动中修改引脚 stm32cudeMX 配置 1打开时钟 2打开串口 3打开tim1(定时器) 4生成代码 代码设置 1导入DHT11库(tim.h是定时器的文件系统自动生成的) DHT11.c #include "dht11.h" #inc…

鸿蒙内核源码分析(信号量篇) | 谁在负责解决任务的同步

基本概念 信号量(Semaphore) 是一种实现任务间通信的机制,可以实现任务间同步或共享资源的互斥访问。 一个信号量的数据结构中,通常有一个计数值,用于对有效资源数的计数,表示剩下的可被使用的共享资源数…

咖啡机定量出水的原理是什么

咖啡机实现定量出水的原理主要依赖于流量计的使用。流量计是一种能够测量液体或气体通过管道的速度和体积的装置。在咖啡机中,常用的小型流量计有霍尔式流量计和光电式流量计两种。 霍尔式流量计利用了霍尔效应的原理来实现流量测量。它包含一个带有两极磁铁的叶轮…

信创基础软件之操作系统

操作系统概述 操作系统是计算机系统软硬件资源的纽带。操作系统是连接硬件和数据库、中间件、应用软件的纽带,是承载各种信息设备和软件应用的重要基础软件。操作系统控制和管理整个计算机系统的硬件、软件资源,组织和调度计算机工作和资源,…

等保建设技术建议书(Word原件)

1信息系统详细设计方案 1.1安全建设需求分析 1.1.1网络结构安全 1.1.2边界安全风险与需求分析 1.1.3运维风险需求分析 1.1.4关键服务器管理风险分析 1.1.5关键服务器用户操作管理风险分析 1.1.6数据库敏感数据运维风险分析 1.1.7“人机”运维操作行为风险综合分析 1.2…

C语言结构体类型

C语言结构体类型 个人主页:大白的编程日记 个人主页:C语言学习之路 文章目录 C语言结构体类型前言一.结构体1.1结构体类型的声明1.2结构体变量的创建和初始化1.3结构成员访问操作符1.4结构的特殊声明1.5 结构的自引用 二.结构体内存对齐2.1对齐规则2.2内…

嵌入式linux学习第一天

参考正点原子Linux开发文档。记录下知识点。 Shell 基本操作 前面我们说 Shell 就是“敲命令”,那么既然是命令,那肯定是有格式的,Shell 命令的格式 如下: command -options [argument] command: Shell 命令名称。 options&…

27 JavaScript学习:异步编程

异步的概念 在JavaScript中,异步编程是一项重要的概念,特别在处理用户交互、网络请求和文件读写等场景下非常常见。JavaScript是一门单线程语言,因此需要通过异步编程来避免阻塞主线程,保证程序的流畅性和响应性。 在JavaScrip…

避雷!7.7分,新增1区TOP被标记On Hold,5本已被踢除!

本周投稿推荐 SSCI • 2/4区经管类,2.5-3.0(录用率99%) SCIE(CCF推荐) • 计算机类,2.0-3.0(最快18天录用) SCIE(CCF-C类) • IEEE旗下,1/2…

[入门] Unity Shader前置知识(5) —— 向量的运算

在Unity中,向量无处不在,我想很多人都使用过向量类的内置方法 normalized() 吧,我们都知道该方法是将其向量归一化从而作为一个方向与速度相乘,以达到角色朝任一方向移动时速度都相等的效果,但内部具体是如何将该向量进…

力扣每日一题109:有序链表转换二叉搜索树

题目 中等 给定一个单链表的头节点 head ,其中的元素 按升序排序 ,将其转换为 平衡 二叉搜索树。 示例 1: 输入: head [-10,-3,0,5,9] 输出: [0,-3,9,-10,null,5] 解释: 一个可能的答案是[0,-3,9,-10,null,5],它…

Java毕设之学院党员管理系统的设计与实现

运行环境 环境说明: 开发语言:java 框架:springboot,vue JDK版本:JDK1.8 数据库:mysql5.7(推荐5.7,8.0也可以) 数据库工具:Navicat11 开发软件:idea/eclipse(推荐idea) Maven包:Maven3.3.9 系统实现 管理员功能实现 党员管理 管理员进入指定功能操作…

一款开源高性能AI应用框架

前言 LobeChat 是一个基于 Next.js 框架构建的 AI 会话应用,旨在提供一个 AI 生产力平台,使用户能够与 AI 进行自然语言交互。 LobeChat应用架构 LobeChat 的整体架构由前端、EdgeRuntime API、Agents 市场、插件市场和独立插件组成。这些组件相互协作&a…

css实现上下左右对勾选中状态角标

🍥左上角 🍥右上角 🍥左下角 🍥右下角: 🍥左上角: .blueBackground {position: relative;border: 1px solid #91c7f3;background: #F0F8FF !important;&:after {content: "";position: absolute;top:…

7 人赚 960 亿美元,数字天才的首次独舞

巴菲特股东大会 一年一度的巴菲特股东大会如常召开,只不过这次坐在老爷子左手边的不再是老搭档查理芒格,而是钦点的未来继任者,格雷格阿贝尔。 随着芒格(99岁)的离开,巴菲特(93岁)也…

突破销量瓶颈:亚马逊,速卖通,国际站销量提升实战技巧

1、精心选品:选品是亚马逊销售的第一步,也是至关重要的一步。卖家应该进行市场调研,了解消费者的需求和喜好,选择有市场潜力的产品。要注意产品的差异化,避免与竞争对手的产品过于相似。 2、优化产品详情页&#xff1…

【SpringMVC 】什么是SpringMVC(二)?如何整合ssm框架以及使用mybatisPlus?

文章目录 SpringMVC第三章1、ssm整合1、基本步骤1-3步4-5步6步7步8-12步13步14-15步2、添加数据3、删除数据4、配置事务5、修改数据2、pageHelpe分页1、基本步骤第四章1、mybatisPlus1、基本步骤1-45-7892、基本方法的使用查询2、新ssm项目1、基本步骤1-5678-910-111213-15Spri…