Knowledge Distillation from A Stronger Teacher(NeurIPS 2022)论文解读

paper:Knowledge Distillation from A Stronger Teacher

official implementation:https://github.com/hunto/dist_kd

前言 

知识蒸馏通过将教师的知识传递给学生来增强学生模型的性能,我们自然会想到,是否教师的性能越强,蒸馏后学生的性能也会进一步提升?为了了解如何成为一个更强的教师模型以及它们对KD的影响,作者系统地研究了设计和训练深度神经网络的流行策略,并发现:

  • 除了扩大模型的尺寸,还可以通过更先进的训练策略例如标签平滑和数据增强来得到一个更强的教师模型。但是,当教师模型更强时,学生模型在KD上的性能会下降,甚至比不用KD从头训练更差。
  • 当使用更强的训练策略时,教师和学生模型之间的差异通常会变得更大,这种情况下通过KL散度精确地恢复预测非常有难度并有可能导致KD的失败。
  • 保持教师和学生之间的预测关系relation of predictions是有效的,当知识从教师传递到学生,我们真正关心的是教师的偏好(relative ranks of predictions)而不是精确的值。教师和学生之间的预测相关性可以放宽基于KL散度的精确匹配,从而提取本质的关系。

本文的创新点

  • 本文提出用皮尔森相关系数(Pearson correlation coefficient)作为一种新的匹配方法代替KL散度。
  • 除了预测向量中的类间关系,由于不同实例相对每个类别有不同的相似性,本文还提出蒸馏类内关系,以进一步提高性能。
  • 整合上面两点,本文提出了一种新的蒸馏方法,称为DIST,可以从更强的教师中得到更好的蒸馏效果。

方法介绍

如图2所示,作者分别用策略B1和B2训练ResNet-18和ResNet-50,然后用KL散度比较它们的差异,得到如下观察结果:

  • 与ResNet-50相比,ResNet-18的输出没有太大变化,这意味着表征能力限制了学生的表现,而且随着差异变大,学生要准确匹配教师的产出非常有挑战性。
  • 当用更强的策略训练时,教师和学生之间的差异会变大。这说明,当我们采用具有较强训练策略的KD时,KD损失和分类损失之间的偏差会更大,从而干扰学生的训练。

由于教师和学生之间的差异变大,基于KL散度的精确匹配难度也变大了,因此直觉上方法是开发一种更宽松的方式来匹配学生和教师的预测输出。

Relaxed match with relations

预测得分表示教师对所有类别的confidence,为了让教师和学生之间以一种更宽松的方式匹配,我们需要考虑教师模型的输出中我们真正关心的是什么。实际上在推理过程中,我们真正关心的是它们的relation,即预测的相对顺序,而不是具体的概率值。

对于某个距离度量 \(d(\cdot,\cdot)\),\(\mathbb{R}^{C}\times \mathbb{R}^{C}\to \mathbb{R}^{
+}\),精确匹配可以表述为只有 \(a=b\) 时 \(d(a,b)=0\)。

对于一个宽松的匹配,我们可以引入额外的映射 \(\phi(\cdot)\) 和 \(\psi(\cdot)\),从而有

这里 \(d(a,b)=0\) 不要求 \(a\) 和 \(b\) 一定相等,但是映射 \(\phi(\cdot)\) 和 \(\psi(\cdot)\) 应该是isotone的且不影响预测向量的语义信息和推理结果。一个简单有效的选择是正线性变换

其中 \(m_{1},m_{2},n_{1},n_{2}\) 都是常量且 \(m_{1}\times m_{2}>0\)。为了满足式(5),我们可以使用广泛使用的皮尔森距离

其中 \(\rho_{p}(u,v)\) 是两个随机变量 \(u,v\) 的皮尔森相关系数

其中 \(Conv(u,v)\) 是 \(u,v\) 的协方差,\(\bar{u}\) 和 \(Std(u)\) 分别是 \(u\) 的均值和标准差。

这样我们就可以把relation定义为correlation,原始KD中的精确匹配条件可以放宽,并通过最大化线性相关来保持教师和学生在每个实例的概率分布的relation,称之为类间关系inter-class relation。对于每对预测向量 \(\mathbf{Y}^{(s)}_{i,:}\) 和 \(\mathbf{Y}^{(t)}_{i,:}\),类间损失如下

Better distillation with intre-relations

 除了类间关系,即每个实例中多个类别之间的关系。多个实例在一个类别中的预测得分也是有用的信息。这个分数反映了多个实例与一个类别的相似性。比如,假设我们有三张分别包含猫、狗、飞机的图像,它们在猫这个类别上的预测分数分别为 \(e,f,g\),一般来说它们的关系应该是 \(e>f>g\),这种知识也可以传递给学生。即使是属于同一类别的不同图像,语义相似性的类内方差也是有用的信息,它表明教师的偏好,对于这个类别哪一张图像的置信度更高。

定义预测矩阵 \(\mathbf{Y}^{(s)}\) 和 \(\mathbf{Y}^{(t)}\),每一行表示为 \(\mathbf{Y}^{(s)}_{i,:}\) 和 \(\mathbf{Y}^{(t)}_{i,:}\),那么如图3所示,上述的类间关系就是沿行最大化相关性,相反,这里的类内关系就是沿列最大化相关性

最终完整的损失函数包括分类损失、类间蒸馏损失、类内蒸馏损失

实现代码

实验结果

如表2所示,在ImageNet上本文的方法大大优于之前的蒸馏方法,并且本文的方法是基于logits的,计算成本和原始KD相似,但效果却要比其它精心设计的基于feature和基于relation的方法更好。

由于更强的教师来自于更大尺寸的模型和更强的训练策略。这里首先比较在不同尺寸的resnet上本文提出的DIST与原始KD的效果。如表3所示,当教师变得更大时,学生ResNet-18的性能甚至比ResNet-50当教师时更差。而本文提出的DIST,则随着教师的尺寸越来越大,学生的性能越来越强。

如表4所示,在更强的训练策略下,本文提出的DIST在不同结构的学生模型上,效果都优于其它蒸馏方法。

在下游任务如目标检测和语义分割中,如表6、7所示,DIST的效果也都更好。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/245294.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

前端已死?别低估前端,他是互联网世界的核心!【这是一篇治愈系文章】

文章目录 💥 AI回答🦋 现状🦉 焦虑🐉 力量🦅 观点🐣 粗浅分析🦥 快乐的韭菜🏆 总结 💥 AI回答 前端已死? ai的答案是这样: 前端并没有死掉,它仍然…

Python FuckIt模块:代码的“不死鸟”

更多资料获取 📚 个人网站:ipengtao.com 在编程世界中,每个开发者都曾遇到过代码中的错误,有时这些错误可能让人崩溃。但是,有一天,听说了一个叫做"FuckIt"的模块,它声称可以帮助摆脱…

UE5 C++(四)— 容器(TArray,TMap,TSet)

文章目录 数组(TArray)TMapTSet 数组(TArray) TArray是虚幻c中的动态数组,TArray特点:速度快,内存消耗小,安全性高。并且TArray所有元素均完全为相同类型,不能进行不同元…

数字图像处理(实践篇)二十四 使用dlib实现人脸对齐

目录 1 安装依赖库 2 下载shape_predictor_68_face_landmarks.dat文件 3 人脸对齐方案 4 涉及的函数 5 实践 1 安装依赖库 使用如下命令即可安装dlib: pip install dlib 在使用

【Qt之QNetworkAccessManager】概述及示例

概述 QNetworkAccessManager类允许应用程序发送网络请求和接收应答 网络访问API是围绕一个QNetworkAccessManager对象构建的,该对象为它发送的请求保存通用配置和设置。它包含代理和缓存配置,以及与此类问题相关的信号,以及可用于监视网络操…

读书笔记-《数据结构与算法》-摘要5[归并排序]

归并排序 核心:将两个有序对数组归并成一个更大的有序数组。通常做法为递归排序,并将两个不同的有序数组归并到第三个数组中。 先来看看动图,归并排序是一种典型的分治应用。 public class MergeSort {public static void main(String[] ar…

Unity Mono加密解决方案

Unity Mono 是 Unity 引擎默认的脚本运行时环境,在游戏开发中扮演着重要的角色。Mono 由跨平台的开源 .NET 框架实现,它允许开发者使用 C# 等编程语言编写游戏逻辑。凭借简单易用的开发环境和高效的脚本编译速度,得到了众多游戏的青睐。 在 …

C语言数据结构-二叉树的入门

文章目录 0 碎碎念1 二叉树的概念和结构1.1 概念和特点1.2 结构1.3 特殊的二叉树1.4 二叉树的存储与性质1.5 前序、中序和后序 2 简单二叉树的实现2.1 定义数据结构类型2.2 前序、中序和后序接口的实现2.3 二叉树中节点的个数2.4 叶子节点的个数 3 完整代码块3.1 BinaryTree.h3…

Pycharm2023安装

PyCharm是一种Python IDE(集成开发环境),带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、项目管理、代码跳转、智能提示、自动完成、单元测试、版本控制。此外,该IDE提供了一些高…

亚马逊云科技发布企业生成式AI助手Amazon Q,助力企业迈向智能化时代

(声明:本篇文章授权活动官方亚马逊云科技文章转发、改写权,包括不限于在 亚马逊云科技开发者社区、知乎、自媒体平台、第三方开发者媒体等亚马逊云科技官方渠道) 一、前言 随着人工智能技术的快速发展和广泛应用,我们…

WTF ‘Questions‘

WTF ‘Tech Team Lead’ As a Tech Team Lead, your role is to oversee the technical aspects of a project or team, and to provide guidance, support, and leadership to your team members. Here are some key responsibilities and aspects of the role: Leadership …

ChatGLM大模型推理加速之Speculative Decoding

目录 一、推测解码speculative decoding 1、自回归解码 2、speculative decoding 3、细节理解 二、核心逻辑代码 1、算法流程代码 2、模型自回归代码 a、带缓存的模型自回归实现代码 b、优化版本带缓存的模型自回归实现代码 c、ChatGLM的past_key_values的回滚 三、…

C/C++: 数据结构之索引查找(分块查找)

画图举例&#xff1a; #include<bits/stdc.h> using namespace std; /** * * Author:HackerHao * Create:2023.12.14 * */ typedef struct {int Key;int Link; }indextype;//分块查找 int IndexSequelSearch(indextype ls[], int s[], int m, int Key) //关键字为Key, 索…

云原生架构总结-读书笔记

云原生架构进阶实战-读书笔记 云原生概念 云原生&#xff08;Cloud Native&#xff09;概念是由Pivotal的Matt Stine在2013年首次提出的。这个概念得到了社区的不断完善&#xff0c;内容越来越丰富&#xff0c;目前已经**包括了DevOps&#xff08;Development和Operations的组…

云计算:Vmware 安装 FusionCompute

目录 一、理论 1.FusionCompute 二、实验 1.Vmware 安装 FusionCompute&#xff08;CNA&#xff09; 2.Vmware 安装 FusionCompute&#xff08;VRM&#xff09; 三、问题 1. VRM-WEB登录失败 2.Windows cmd中无法ping通虚拟机 一、理论 1.FusionCompute &#xff08;…

LangChain(0.0.340)官方文档九:Retrieval——Text embedding models、Vector stores、Indexing

LangChain官网、LangChain官方文档 、langchain Github、langchain API文档、llm-universe 文章目录 一、Text embedding models1.1 Embeddings类1.2 OpenAI1.3 Sentence Transformers on Hugging Face1.4 CacheBackedEmbeddings1.4.1 简介1.4.2 与Vector Store一起使用1.4.3 内…

保障事务隔离级别的关键措施

目录 引言 1. 锁机制的应用 2. 多版本并发控制&#xff08;MVCC&#xff09;的实现 3. 事务日志的记录与恢复 4. 数据库引擎的实现策略 结论 引言 事务隔离级别是数据库管理系统&#xff08;DBMS&#xff09;中的一个关键概念&#xff0c;用于控制并发事务之间的可见性。…

TikTok与虚拟现实的完美交融:全新娱乐时代的开启

TikTok&#xff0c;这个风靡全球的短视频平台&#xff0c;与虚拟现实&#xff08;VR&#xff09;技术的深度结合&#xff0c;为用户呈现了一场全新的娱乐盛宴。虚拟现实技术为TikTok带来了更丰富、更沉浸的用户体验&#xff0c;标志着全新娱乐时代的开启。本文将深入探讨TikTok…

Tomcat部署(图片和HTML等)静态资源时遇到的问题

文章目录 Tomcat部署静态资源问题图中HTML代码启动Tomcat后先确认Tomcat是否启动成功 Tomcat部署静态资源问题 今天&#xff0c;有人突然跟我提到&#xff0c;使用nginx部署静态资源&#xff0c;如图片。可以直接通过url地址访问&#xff0c;为什么他的Tomcat不能通过这样的方…

持续集成交付CICD:Jenkins使用基于SaltStack的CD流水线下载Nexus制品

目录 一、理论 1.salt常用命令 二、实验 1.SaltStack环境检查 2.Jenkins使用基于SaltStack的CD流水线下载Nexus制品 二、问题 1.salt未找到命令 2.salt简单测试报错 3. wget输出日志过长 一、理论 1.salt常用命令 &#xff08;1&#xff09;salt 命令 该 命令执行s…