强化学习下的多教师知识蒸馏模型(学习笔记

对知识蒸馏的方法提出了一个新的方向

采用多个不同的教师模型同时训练一个学生模型

一个很明显的好处 就是

多个教师model可以减少单个教师模型它的bias

但是当我们有多个老师的时候

学生模型是否能够根据自己的能力选择和结合教师模型的特点

来选择性的向老师学习(根据老师的特点来主动学习)

这样的一个想法来自一个观察

一个厉害的老师不一定教出最优秀的学生

从这张图表当中我们可以看出这个假设

很显然 加了这个Ro 的 老师模型精度就是牛一点

学生模型选用了三层transformer  

可以看出的是 原始的Bert 模型教的会更好

这个也有了解释

: 因为往往复杂的模型

这种大的模型可以捕捉到数据分布当中比较细微的模式记在自己的参数里面

但是对于小模型来说 三层的transformer 的学习能力并没有那么强

模型参数没有那么多

所以未必能学会很多的局部数据分布的特点

一点启发 根据学生的特点去 选择老师

以前几乎所有的 运用多个教师模型的知识蒸馏方法中都采用了固定的权重

所有的老师都采用相同的 固定的权重

根据学生的状态动态的调整不同教师模型的权重

对于不同的样本以及在训练的不同阶段 给不同教师模型分配的权重是不一样的

解决方案的关键是什么

怎么从多个老师中间得到最优

采用了一个强化学习的框架 是一个必然的选择

目的: 在训练的过程当中选择最合适的老师  策略问题

选择的依据 是学生遇到问题给出的反馈 

我们想优化这个策略 又要根据学生的反馈机制  ------->强化学习

1.给定样本的时候  抽取一些特征 (比如1.样本的语义特征 

包括2.教师模型的输出 logits

3.根据GT的算出的教师模型的loss)

sj就是抽取特征的一个特征向量

aj 代表的是Action也就是Agent能采取的动作

对于每个老师来说呢 都有两个 action 当 action为1 的时候表示我们采纳这个教师的模型输出进入到知识蒸馏里面去(这力激发了我的一个ideal:在这里保存一下,action)(你们要是缺点子自取 我现在速度没有那么快,而且肯定可行)他这个太绝对了,怎么教的好 就学,教的不好就不学喽挺任性啊,其实每个老师都有自己的闪光点的,所以这里可是靠讲故事 再来一个hyper parameter)

当积累到一个batch 以后 我们用这个batch来训练学生模型它的学习情况

当答对的题目越高,这个Reward 就越高

然后就把这个reward作为一个反馈来训练我们的Agent

、换句话说 就是采用梯度的方法 来逐渐优化我们这样一个策略函数

最关键的部分就是策略函数的学习

学习好我们这个策略函数有几个关键点

1.我们应该抽取什么样的特征

2.如何来设定学生的Reward

3.策略函数的定义形式

 选了七个公开数据集 以及不同的三个任务

情感分类 paraphrase相似度匹配 自然语言推理

设置了六个基线的方法

 今晚就先到这吧 我要开始写paper了

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/5520.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Maven依赖管理

文章目录一、mvn依赖的特性1. 依赖的范围2. 依赖的传递3. 依赖的排除二、mvn中的继承和聚合1. 聚合2. 继承3. Demo1、首先创建一个父工程并且修改它的打包方式为 pom2、创建子模块工程3、依赖管理三、企业级知识扩展1. 属性2. 版本管理3. 资源配置4. 多环境开发配置Maven工程约…

SWAT模型(高阶)

SWAT模型高阶十七项案例分析实践应用 导师:刘老师【副教授】:来自国内双一流高校,长期从事数字流域建模、流域水土过程模拟、遥感及GIS技术应用等领域工作,发表多篇SCI论文暨完成多项科研项目,具有资深的技术底蕴和专…

Python 01 初识python

目录 一、编程是怎么来到我们这个世界的? 二、Python的由来? 三、什么是python? 3.1面向对象和面向过程 3.1.1面向对象 3.1.2 面向过程 3.2解释性 3.2.1 编译性 3.2.2 解释性 3.3交互式 四、Python3和Python2 五、python和其他…

基于LiFePO4和硅/还原氧化石墨烯纳米复合材料的锂离子电池

A lithium-ion battery based on LiFePO4 and silicon/reduced graphene oxide nanocomposite highlights: 硅纳米颗粒(nSi)和还原氧化石墨烯(RGO)作为阳极;微波辐射,对混合物进行热处理,合成nSi/RGO复合物;通过不同充…

Jsoup使用教程以及使用案例

文章目录1:什么是Jsoup1:Jsoup概述2:Jsoup能做什么2:Jsoup相关概念3:获取文档1:导入jsoup的jar包2:从URL中加载文档对象(常用)3:从本地文件中加载文档对象4&a…

2023 海外工具站 3 月复盘

3 月的碎碎念,大致总结了商业人生、付费软件、创业方向选择、创业感性还是理性、如何解决复杂问题及如何成长这几个方面的内容。 商业人生 商业人生需要试错能力和快速信息收集与验证校准; 商业逻辑需要试错能力,收集各种渠道信息后整理决…

手把手教你一步一步暴力破解密码,学不会来找我

目录 一、什么是暴力破解? 二、暴力破解弱口令实验 三、如何防御暴力破解攻击? 一、什么是暴力破解? 暴力破解也可称为穷举法、枚举法,是一种针对于密码的破译方法,将密码进行逐个推算直到找出真正的密码为止。设置长而…

[学习笔记] 3. C++ / CPP提高

本阶段主要针对C泛型编程和STL技术做详细讲解,探讨C更深层的使用。 [学习笔记] 3. C / CPP提高1. 模板1.1 模板的概念1.2 函数模板1.2.1 函数模板语法1.2.2 函数模板注意事项1.2. 3函数模板案例1.2.4 普通函数与函数模板的区别1.2.5 普通函数与函数模板的调用规则1.…

HTML标签

目录 1.注释标签 2.标题标签:h1-h6 3.段落标签 4.换行标签 5.转义字符 6.格式化标签 7.图片标签:img 8.超链接便签:a 9.表格标签 10.列表标签 11.表单标签 12.无语义标签:div&span 1.注释标签 <!-- 我是注释 --> ctrl/快捷键可以快速进行注释/取消注释 …

PVE虚拟机安装爱快/iKuai软路由(爱快软路由虚拟机系统安装教程)

上篇提到PVE后&#xff0c;装LINUX CENTOS8&#xff0c;现在装个爱快软路由. 一、软硬件要求 1、安装好PVE虚拟环境的X86系统&#xff0c;32位爱快系统需要512MB以上内存&#xff0c;64位爱快系统需要4GB以上。 2、双网口主板&#xff0c;如果是单网口要配置openwrt/LEDE为单…

【C语言编程练习】手撕扫雷

【C语言编程练习】手撕扫雷一、目标二、具体实现步骤1、棋盘的设计思路2、选定模式3、创建及初始化棋盘4、布置雷到棋盘5、打印棋盘6、排查雷7、递归版统计雷数8、判断是否胜出的函数三、完整代码逻辑展示1、Minesweeping.h2、Minesweeping.c3、test.c一、目标 之所以打算将扫…

板内盘中孔设计狂飙,细密间距线路中招

一博高速先生成员&#xff1a;王辉东大风起兮云飞扬&#xff0c;投板兮人心舒畅。赵理工打了哈欠&#xff0c;伸了个懒腰&#xff0c;看了看窗外&#xff0c;对林如烟说道&#xff1a;“春天虽美&#xff0c;但是容易让人沉醉。如烟&#xff0c;快女神节了&#xff0c;要不今晚…

AHP层次分析法分析流程

AHP层次分析法分析流程&#xff1a; 一、案例背景 当前有一项研究&#xff0c;想要构建公司绩效评价指标体系&#xff0c;将一级指标分为4个&#xff0c;分别是&#xff1a;服务质量、管理水平、运行成本、安全生产&#xff0c;现在想要确定4个指标的权重。 AHP层次分析法是一…

【MySQL】 SQL 执行顺序 OR 递增id用完了怎么办呢?哪个问题难回答

这里写目录标题写在前面基础概念SQL 执行顺序FROMONJOINWHEREGROUP BYHAVINGSELECTDISTINCTORDER BYMysql 自增 ID用完了1.有主键的情况解决方案2.没有主键解决方案&#xff1a;总结写在前面 三月已经结束了&#xff0c;不知道这个月你有没有被邀请面试&#xff0c;如果有面试…

【C++笔试强训】第二天

选择题 解析&#xff1a;考查printf&#xff0c;%后面-表示输出左对齐&#xff0c;输出左对齐30个字符格式为%-30f&#xff0c;.后面表示精度。%e字符以指数形势输出&#xff0c;可以认为是double类型&#xff08;也就是小数点后保留6位&#xff09;的指数。为%f字符表示输出格…

JVM问题(二) -- 内存泄漏

1. 什么是内存泄漏&#xff1a; 2. 内存泄漏的理解&#xff1a; 严格来说&#xff0c;只有对象不会再被程序用到了&#xff0c;但是GC又不能回收他们的情况&#xff0c;才叫内存泄漏。 但是实际情况很多时候一些不太好的实践&#xff08;或疏忽&#xff09;会导致对象的生命周…

2023年3月华为HCIA认证新增题库(H12-811)

850、 SNMP报文是通过 TCP来承载的。 A、对 B、错 试题答案&#xff1a;[["B"]] 试题解析&#xff1a; 851、 Trunk端口可以允许多个 VLAN通过,包括 VLAN4096。 A、对 B、错 试题答案&#xff1a;[["B"]] 试题解析&#xff1a; 852、 RADIUS是实…

【websocket消息推送】前端+后端实现websocket消息推送的整个生命周期(附源码详解)

【写在前面】写这篇文章的原因主要还是博主在工作的过程中遇到了一个困难&#xff0c;就是客户端开了两个一模一样的窗口&#xff08;A和B&#xff09;&#xff0c;然后A窗口触发一个请求&#xff0c;请求后是推送到前端的&#xff0c;但是推送的消息只推给了B&#xff0c;而A没…

【C++笔试强训】第三天

选择题 解析&#xff1a;字符数组里面的最后一个字符是0&#xff0c;说明里面本身就是一个字符串——"123456789"&#xff0c;数组名表示数组首元素的地址&#xff0c;那么p a i指向的就是字符数组中元素9&#xff0c;那么p - 3就是指向元素6的地址&#xff0c;%s打…

在VScode中配置Python开发环境----需要注意的一个点:settings.json

在VScode中配置Python开发环境&#xff08;可以参考这个博主的方法&#xff09;&#xff1a; http://t.csdn.cn/L1jux 1、安装python 官网下载地址&#xff1a;https://www.python.org/ftp/python/3.8.0/python-3.8.0-amd64.exe 双击打开.exe文件 勾选 Add Python 3.8 to Pat…