(模型蒸馏)MCC-KD: Multi-CoT Consistent Knowledge Distillation

论文链接:[2310.14747] MCC-KD: Multi-CoT Consistent Knowledge Distillation (arxiv.org)

背景

近年来,大型语言模型(LLMs)如GPT-3、BERT等在自然语言处理(NLP)领域取得了显著的进展。这些模型通过大规模数据训练,能够执行包括文本生成、推理、翻译等多种复杂任务。大型语言模型在复杂推理任务中表现出色,尤其是当使用链式思维(CoT)提示进行推理时。CoT方法是指模型在给出答案前,先生成一系列的中间步骤或理由,这有助于模型更好地处理复杂的推理任务。

挑战

尽管大型模型在性能上表现出色,但它们通常需要大量的计算资源,这限制了它们在资源受限的环境中的应用。因此,有一个持续的需求是将这些模型的能力转移到更小、更高效的模型上,这个过程被称为知识蒸馏。在知识蒸馏的过程中也存在着一些挑战,其中之一是保持推理的多样性和一致性。这意味着在蒸馏过程中,需要保持不仅是最终答案的一致性,还有推理步骤的多样性和一致性。而MCC-KD就是来应对这些挑战的。

方法

多思维链一致性知识蒸馏(MCC-KD)是一种提高知识蒸馏过程中学生模型的泛化和鲁棒性的方法。特别是,MCC-KD通过三个关键步骤加强了教师模型产生的不同思维链之间的一致性。

具体步骤:

理由提取:利用教师模型为每个问题生成多个基本推理

理由过滤:利用N-gram过滤策略把相似推理过滤掉,从而保证理由的多样性

多CoT一致性蒸馏:通过最小化不同理由的答案分布间的双向KL散度来保持一致性

结果

整体性能:

MCC-KD在所有数学推理任务(如GSM8K、ASDiv、SVAMP)中超过了当前的基线方法,并在相似规模的模型中表现出显著的改进。在常识推理任务上,MCC-KD不仅超过了基线方法,甚至超过了教师模型在CommonsenseQA数据集上的性能。这表明MCC-KD在处理常识推理任务方面的有效性。重要的是,经过MCC-KD处理的模型能够直接生成推理路径,无需任何CoT提示

理由的多样性对实验的影响

通过在ASDiv和SVAMP两个数据集上的测试均可以看出随着理由多样性的增加,Accuracy均在稳步增加

理由数量对实验的影响

随着理由数量的增多,前期性能有较大的提升,当理由数量超过5,提升效果就不明显了,因此综合计算效率考虑将实验中使用的理由数量设置为5

理由的正确性对实验的影响

当理由的正确率超过90%时,性能差异不大,但是如果正确率低于80%,那么模型性能会显著下降

总结

思维链的多样性和一致性一直是需要改进的方向,文章提出了MCC-KD方法,致力于为每个问题生成多个理由,强调理由需要在对应的预测中保持一致性,并通过实验验证了方法的有效性,也提到了一些潜在的局限性,如依赖于大型语言模型生成理由的成本,以及学生模型与教师模型在数学推理任务中的性能差距等。文章为知识蒸馏领域提供了一个新颖的视角,特别是在利用大型语言模型进行推理训练方面。通过多样性和一致性的双重关注,MCC-KD能够有效地将复杂推理能力转移到规模较小的模型上。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/512766.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Windows搭建Lychee图片管理系统结合内网穿透实现公网访问本地图床

文章目录 1.前言2. Lychee网站搭建2.1. Lychee下载和安装2.2 Lychee网页测试2.3 cpolar的安装和注册 3.本地网页发布3.1 Cpolar云端设置3.2 Cpolar本地设置 4.公网访问测试5.结语 1.前言 图床作为图片集中存放的服务网站,可以看做是云存储的一部分,既可…

c++的学习之路:9、STL简介与string(1)

一、STL 1、什么是STL STL(standard template libaray-标准模板库):是C标准库的重要组成部分,不仅是一个可复用的组件库,而且是一个包罗数据结构与算法的软件框架。 也就是说STL就是一个模板,这个模板就是整合了很多库让我们方…

166.乐理基础-五声性调式、宫商角徵羽

如果到这五线谱还没记住还不认识的话去看102.五线谱-高音谱号与103.五线谱-低音谱号这两个里,这里面有五线谱对应的音名,对比着看 如果不认识调号去看112.五线谱的调号(一)、113.五线谱的调号(二)、114.快…

java学习之路-类和对象

前言 本文内容: 类的定义及其使用 this的引用 对象的构造及初始化 封装 static成员 代码块讲解 内部类 文章目录 1.类定义和使用 1.1了解什么是面向对象 1.2简单认识类 1.3定义类 1.4栗子 2.类的使用-类的实例化 2.1什么是实例化 2.2类和对象的说明 3.this引…

力扣热门算法题 174. 地下城游戏,189. 轮转数组,198. 打家劫舍

174. 地下城游戏,189. 轮转数组,198. 打家劫舍,每题做详细思路梳理,配套Python&Java双语代码, 2024.03.31 可通过leetcode所有测试用例。 目录 174. 地下城游戏 解题思路 完整代码 Python Java 189. 轮转数…

Python中输出显示台的设置

效果: 前言 这种文字显示的方式很适合新手来学习,毕竟新手还学不到pygame做游戏的, Python入门我们一般都学的是输入输出的游戏,但是如果加上一些文字和背景的改善可能会更好. 如何改变字体颜色 字体颜色(跟他的变量名是一样的): #改变字体颜色 RED \033[91m GREEN \033…

kettle介绍-Step之加密及解密

加密 进入kettle的安装目录 cd /d D:\Application\pdi-ce-6.0.0.0-353\data-integration windows系统命令行执行:Encr.bat -kettle 123 cd /data/data-integration linux/mac系统命令行执行:encr.sh -kettle 123 可生成Encrypted 2be98afc86aa7f2e4cb79…

zabbix绑定钉钉进行通知,网页端添加JavaScript,无脑式操作

文章目录 前言一、编辑zabbix告警JavaScript脚本二、代码如下:编辑消息模板,自定义markdown格式的消息。总结前言 随着人工智能的不断发展,zabbix监控这门技术也越来越重要,一下进入正题。 一、编辑zabbix告警JavaScript脚本 没有没接可以新增媒介 其中URL是你的机器人地…

2024最新软件测试【测试理论+ 抓包与网络协议】面试题(内附答案)

一、测试理论 3.1 你们原来项目的测试流程是怎么样的? 我们的测试流程主要有三个阶段:需求了解分析、测试准备、测试执行。 1、需求了解分析阶段 我们的 SE 会把需求文档给我们自己先去了解一到两天这样,之后我们会有一个需求澄清会议, …

stm32 HAL中断GPIO——1

1选择引脚为中断 中断详细配置 1 模式选择 上拉下拉 再点击NVIC可进行分组 再勾选如图 总结步骤 1选择中断 2配置时钟//选择外部时钟 3配置模式 4勾选NVIC

Python实现【贪吃蛇大作战】+源码

文章目录 前言:一、游戏概述1.游戏玩法2.游戏特色 二、游戏规则三、工具选择四、主要技术pygame 库numpy 库cocos2d 五、源码分享六、项目地址 前言: 今天的GitHub小游戏分享,我们将聚焦于一个经典而又极富趣味性的游戏——贪吃蛇大作战。这…

【C++】二分查找算法(模板)

重点 只需要记住两点: 1.left right 时,一定就是最终结果(包括找不到目标值),无需再次判断,如果判断就会死循环 2.求中点如果是求左端点 mid left (right - left)/2 如果是求右端点 mid left (right -…

【Python项目】AI动物识别工具

目录 背景 技术简介 系统简介 界面预览 背景 成像技术在全球科技发展中扮演了关键角色。在科学研究领域,拍摄所得的图像成为了一种不可或缺的研究工具。特别是在生态学与动物学研究中,鉴于地球的广阔地域和多样的气候条件,利用图像技术捕…

关于我20系列显示安装cuda11.8版本一直还报找不到nvcc.exe的这档子事

这几天研究3d gaussian(3d高斯) 由于本人电脑还是五年前的20系列显卡,本身还是支持cuda的,就没想那么多,结果处处踩坑处处踩雷,在研究2天国内资料翻遍了的情况下,终于去外面看老外发了一个chec…

arm的状态寄存器

目录 一、arm 的 PSRs二、CPSR2.1 CPSR_cxsf 三、SPSR四、APSR 一、arm 的 PSRs arm 中有很多程序状态寄存器(Program Status Registers,PSRs)用于存储处理器的状态信息,包括 CPSR\SPSR\FPSR\APSR 等: CPSR&#xff…

九州金榜家庭教育孩子沉迷手机网络怎么办?

孩子沉迷于手机网络的问题,在当今社会已变得日益严重。手机网络的普及使得孩子们过早地接触到了虚拟世界,而长时间沉浸其中不仅影响他们的学业,还可能对他们的身心健康造成危害。那么,面对这一问题,家长应该如何应对呢…

数字人视频合成平台推荐

数字人讲解视频和全景作品的结合是一种全新的数字交互方式,可为用户提供更加直观和具有沉浸感的内容展示和交互体验,从而适用于诸如旅游、展览、博物馆、教育培训、泛房地产、以及娱乐和文化等应用场景。 当前数字人合成视频技术已经发展至日益成熟的阶…

Oracle基础-PL/SQL编程 备份

1、PL/SQL简介 PL/SQL块结构 约定:为了方便,本文后面把PL/SQL简称PL。 PL程序都是以块(BLOCK)为基本单位,整个PL块分三部分:声明部分(使用DECLARE开头)、执行部分(以BEGIN开头)和异…

武汉星起航:跨境电商优势尽显,引领全球贸易与文化交流新浪潮

在全球化日益加深的今天,跨境电商行业以其独特的优势和好处,逐渐超越了国内电商行业,成为了电商领域的新宠。跨境电商不仅拓展了企业的市场范围,还为消费者带来了更多选择和便利。武汉星起航认为与国内电商相比,跨境电…

5032温补晶振的一些常用型号和实例应用

5032晶振是常用的一种尺寸的晶振,而5032温补晶振因为其高精度高稳定性而被广泛应用。小尺寸封装5.0mm*3.2mm*1.45mm,非常节省空间,便于设计与使用。其实爱普生推出了一系列的5032温补晶振:以TG5032CAN、TG5032SAN、TG5032CDN、TG5032SDN&…