大模型融合方法-DARE

LLM在SFT之后会产生大量的冗余参数(delta参数),阿里团队提出DARE方法来消除delta参数,并将其合并到PRE模型中,从而实现多源模型能力的吸收。

DARE无需GPU重新训练,其思路非常简单,就跟dropout类似:
m t ∼ Bernoulli ⁡ ( p ) δ ~ t = ( 1 − m t ) ⊙ δ t δ ^ t = δ ~ t / ( 1 − p ) θ D A R E t = δ ^ t + θ P R E \begin{gathered} \boldsymbol{m}^t \sim \operatorname{Bernoulli}(p) \\ \widetilde{\boldsymbol{\delta}}^t=\left(\mathbf{1}-\boldsymbol{m}^t\right) \odot \boldsymbol{\delta}^t \\ \hat{\boldsymbol{\delta}}^t=\widetilde{\boldsymbol{\delta}}^t /(1-p) \\ \boldsymbol{\theta}_{\mathrm{DARE}}^t=\hat{\boldsymbol{\delta}}^t+\boldsymbol{\theta}_{\mathrm{PRE}} \end{gathered} mtBernoulli(p)δ t=(1mt)δtδ^t=δ t/(1p)θDAREt=δ^t+θPRE
两个步骤:

  1. drop:随机mask参数为0
  2. rescale:对保存的参数rescale,这样可以保证神经元期望值不变: E n o t m a s k = x , E m a s k = p ∗ x p E_{not_{mask}}=x,E_{mask}=\frac{p*x}{p} Enotmask=x,Emask=ppx

传统的模型融合只是对神经元进行加权求和,这样会导致模型能力骤降。DARE方法通过dropout避免了这种问题。

多源模型融合

θ D A R E t k = DARE ⁡ ( θ S F T t k , θ P R E ) ,  for  1 ≤ k ≤ K , θ M = θ P R E + λ ⋅ ∑ k = 1 K δ ^ t k = θ P R E + λ ⋅ ∑ k = 1 K ( θ D A R E t k − θ P R E ) . \begin{gathered} \boldsymbol{\theta}_{\mathrm{DARE}}^{t_k}=\operatorname{DARE}\left(\boldsymbol{\theta}_{\mathrm{SFT}}^{t_k}, \boldsymbol{\theta}_{\mathrm{PRE}}\right), \text { for } 1 \leq k \leq K, \\ \boldsymbol{\theta}_{\mathrm{M}}=\boldsymbol{\theta}_{\mathrm{PRE}}+\lambda \cdot \sum_{k=1}^K \hat{\boldsymbol{\delta}}^{t_k}=\boldsymbol{\theta}_{\mathrm{PRE}}+\lambda \cdot \sum_{k=1}^K\left(\boldsymbol{\theta}_{\mathrm{DARE}}^{t_k}-\boldsymbol{\theta}_{\mathrm{PRE}}\right) . \end{gathered} θDAREtk=DARE(θSFTtk,θPRE), for 1kK,θM=θPRE+λk=1Kδ^tk=θPRE+λk=1K(θDAREtkθPRE).
流程图:
procedure

实验结果

result


参考

  • 丢弃99%的参数!阿里团队提出语言模型合体术,性能暴涨且无需重新训练和GPU
  • MergeLM

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/502246.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

视频素材大全无水印哪里有?7个高清视频素材app推荐

在视频创作的领域里,获取可用的高质量素材是每位创作者追求的目标。全球各地的视频素材网站以其独特的资源和视角,为我们提供了丰富的选择。下面是一系列精选的网站,不仅提供可以自由使用的素材,还涵盖了从动态城市风光到壮丽自然…

知识竞赛中加时赛环节如何设计较好

加时赛是知识竞赛活动中要考虑的一个环节,尽管它很多时候可能用不到,但一般一定要有,除非你要其他方法再对重分的选手进行排名。下面介绍加时赛环节设计注意事项及具体方法。 第一:加赛题环节要干净利落 主办者一定要明白&#…

leetcode二叉树相关题目

目录 二叉树的建立整数数组转二叉树Object数组转二叉树 二叉树的遍历leetcode94.二叉树的中序遍历leetcode144.二叉树的前序遍历 二叉树的建立 整数数组转二叉树 下面只是一个简单的示例,没考虑某个子树为空的情况。把{1, 2, 3, 21, 22, 31, 32} 转变为一个二叉树…

如何制作Word模板并用Java导出自定义的内容

1前言 在做项目时会按照指定模板导出word文档,本文讲解分析需求后,制作word模板、修改模板内容,最终通过Java代码实现按照模板自定义内容的导出。 2制作word模板 2.1 新建word文档 新建word文档,根据需求进行编写模板内容,调整行间距和段落格式后将指定替换位置留空。…

18.8K星开源免费的跨平台密码管理器:KeePassXC

KeePassXC:您的跨平台密码守护神,安全存储,随心所欲,无论何处皆可信手拈来! - 精选真开源,释放新价值。 概览 当你面临一堆应用需要填写各种各样的密码的时候、当你需要记忆各种各样的密码或是需要保存保密文件或私密…

全国青少年软件编程(Scratch)等级考试二级考试真题2023年12月——持续更新.....

青少年软件编程(图形化)等级考试试卷(二级) 分数:100 题数:37 一、单选题(共25题,共50分) 1.在制作推箱子游戏时,地图是用数字形式储存在电脑里的,下图是一个推箱子地图,地图表示如下: 第一行(111111) 第二行(132231) 第三行(126621) 第四行( ) 第五行(152…

数独——拥有一定难度的回溯练习题,值得一看

数独相信大家都玩过,也都拥有不同的策略,那么放到C中又是怎样的呢?其实它就是回溯算法。话不多说,直接用例题来讲解: Description 数独是根据99盘面上的已知数字,推理出所有剩余空格的数字,并…

3-zookeeper之ZAB协议

Zookeeper ZAB协议 概述 ZAB(Zookeeper Automic Broadcast)是一套专门为Zookeeper设计的用于进行原子广播和崩溃恢复的协议ZAB协议主要包含了两个功能 原子广播:保证数据一致性崩溃恢复:保证集群的高可用 ZAB协议本身是基于2PC算法来进行的设计&#…

【js刷题:数据结构数组篇之有序数组的平方】

有序数组的平方 一、题目二、解题方法1、暴力解法2、双指针思路代码 一、题目 给你一个按 非递减顺序 排序的整数数组 nums,返回 每个数字的平方 组成的新数组,要求也按 非递减顺序 排序。 二、解题方法 1、暴力解法 class Solution {sortedSquares(…

数据结构与算法 双链表有序排列运算与循环单链表基本运算

一、实验内容 1.有一个带头结点的双链表L(至少有一个数据结点),设计一个算法使其元素递增有序排列。 2. 编写一个程序clinklist.cpp,实现循环单链表的各种基本运算和整体建表算法(假设循环单链表的元素类型ElemType为char&#…

OSCP靶场--Zipper

OSCP靶场–Zipper 考点(php zip:// rce[文件上传] CVE-2021-4034提权7z 通配符提权) 1.nmap扫描 ┌──(root㉿kali)-[~/Desktop] └─# nmap 192.168.249.229 -sV -sC -Pn --min-rate 2500 Starting Nmap 7.92 ( https://nmap.org ) at 2024-03-29 07:40 EDT …

11-设计模式:Go常用设计模式概述

设计模式是啥呢?简单来说,就是将软件开发中需要重复性解决的编码场景,按最佳实践的方式抽象成一个模型,模型描述的解决方法就是设计模式。使用设计模式,可以使代码更易于理解,保证代码的重用性和可靠性。 …

RIP环境下的MGRE 综合实验

实验题目及要求: 1.R5为ISP,只能进行IP地址配置,其所有地址均配为公有IP地址 2.R1和R5间使用PPP的PAP认证,R5为主认证方; R2于R5之间使用PPP的chap认证,R5为主认证方; R3于R5之间使用HDLC封装。 3.R1/…

基于javaweb宠物领养平台管理系统设计和实现

基于javaweb宠物领养平台管理系统设计和实现 博主介绍:多年java开发经验,专注Java开发、定制、远程、文档编写指导等,csdn特邀作者、专注于Java技术领域 作者主页 央顺技术团队 Java毕设项目精品实战案例《1000套》 欢迎点赞 收藏 ⭐留言 文末获取源码联…

媒体偏见从何而来?--- 美国MRC(媒体评级委员会)为何而生?

每天当我们打开淘宝,京东,步入超市,逛街或者逛展会,各种广告铺天盖地而来。从原来的平面广告,到多媒体广告,到今天融合AR和VR技术的数字广告,还有元宇宙虚拟世界,还有大模型加持的智…

SpringBoot使用Redis

1.Spring是如何集成Redis的&#xff1f; Spring Data Redis 引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-redis</artifactId></dependency><dependency><groupId&…

第十四届蓝桥杯JavaA组省赛真题 - 棋盘

解题思路&#xff1a; 暴力 棋盘类题目取反操作&#xff1a; f[a][b]^1; 或者f[a][b] 1 - f[a][b]; import java.util.Scanner;public class Main {public static void main(String[] args) {Scanner scan new Scanner(System.in);int n scan.nextInt();int m scan.nex…

MyEclipse10配置Tomcat7+Web项目发布

配置时&#xff0c;MyEclipse→Preference&#xff0c;在左边栏目中选择MyEclipse——Servers——Tomcat——Tomcat7.x&#xff0c;如下&#xff1a; 把Tomcat服务器设为可用&#xff0c;选择Tomcat的路径&#xff08;选择Tomcat路径的时候一定要选对&#xff0c;不要选Tomcat下…

STM32使用U盘进行固件更新

前面提过串口IAP升级可以方便的进行不拆机固件更新 STM32串口IAP-CSDN博客文章浏览阅读577次,点赞20次,收藏6次。那么有哪些便捷的升级方式呢,其实有很多,比较常见的比如手机软件更新,很典型的远程升级案例。前面说过“修改STM32链接脚本可以修改程序写入闪存的起始地址”…

位置_分布式处理和数据的MVA考虑——可持续架构(七)

前言 理解分布式进程和数据的影响&#xff0c;可以使团队尚在未具备处理分布式能力的时候&#xff0c;做出更好的MVA决策。云计算并不能消除分布式问题&#xff0c;反而它可能会使问题更难解决&#xff0c;因为它隐藏了底层基础设施。改变数据位置可能会对应用程序逻辑产生微妙…