LoRA微调系列笔记

系列文章目录

第一章:LoRA微调系列笔记
第二章:Llama系列关键知识总结
第三章:LLaVA模型讲解与总结


文章目录

  • 系列文章目录
  • LoRA:Low-Rank Adaptation of Large Language Models
    • 目的:
    • 依据:
    • 优势:
    • 方法
  • QLoRA: Efficient Finetuning of Quantized LLMs
    • 摘要:
    • 重点
    • QLoRA Finetuning
    • 4-bit NormalFloat Quantization
  • 引用


LoRA:Low-Rank Adaptation of Large Language Models

目的:

自然语言处理的一个重要范例是对一般领域数据进行大规模预训练pre-train,并经过微调(fine-tuning)适应特定的任务或领域。当我们fine-tuning较大的模型时,fine-tuning所有模型参数的完全微调变得不太可行。以GPT-3 175B为例,部署独立的微调模型实例,每个实例都有175B参数,这是非常昂贵的。我们提出了低秩自适应(Low-Rank Adaptation, LoRA),它冻结了预训练的模型权重,并将可训练的秩分解矩阵注入到Transformer架构的每一层,从而大大减少了下游任务的可训练参数的数量。与经过Adam微调的GPT-3 175B相比,LoRA可以将可训练参数的数量减少10,000倍,GPU内存需求减少3倍。

依据:

研究发现,pre-train得到的大模型往往存在过度参数化现象,即模型的权重矩阵的秩不是满秩的,且一般都较低,因此我们假设在fine-tuning过程中权重变化也具有较低的秩,从而提出了低秩适应(low - rank adaptation, LoRA)方法。LoRA允许我们通过优化密集层在适应过程中变化的秩分解矩阵来间接训练神经网络中的一些密集层,同时保持预训练的权值不变。

优势:

在这里插入图片描述

  1. 预先训练的模型可以共享,并用于为不同的任务构建许多小型LoRA模块。我们冻结共享模型,并通过替换图1中的矩阵A和B来fine-tuning模型实现有效地任务切换,从而显著降低存储需求和任务切换开销

  2. 当使用自适应优化器时,LoRA使训练更有效,并将硬件进入门槛降低了3倍,因为我们不需要计算梯度或维护大多数参数的优化器状态。相反,我们只优化注入的小得多的低秩矩阵。

  3. 我们简单的线性设计允许我们在部署时将可训练矩阵与冻结权重合并,通过构造与完全微调的模型相比,不会引入推理延迟

  4. LoRA与许多先前的方法正交,并且可以与其中的许多方法组合,例如前缀调优(prefix-tuning)。

方法

在适应特定任务时,研究表明,预训练的语言模型具有较低的“内在维度”(instrisic dimension),尽管随机投射到较小的子空间,但仍然可以有效地学习。对于预训练的权重矩阵 W 0 ∈ R d × k W_0\in\mathbb{R}^{d\times k} W0Rd×k,我们通过用低秩分解(low-rank decomposition)表示来约束其更新,
W 0 + Δ W = W 0 + B A {{W}_{0}}+\Delta W={{W}_{0}}+BA W0+ΔW=W0+BA
其中 B ∈ R d × r B\in\mathbb{R}^{d\times r} BRd×r , A ∈ R r × k A\in\mathbb{R}^{r\times k} ARr×k,秩 r ≪   m i n ( d , k ) r\ll \ min (d,k) r min(d,k),在训练期间, W 0 W_0 W0被冻结,不接收梯度更新,而 A A A B B B包含可训练参数。注意, W 0 W_0 W0 ∆ W = B A ∆W = BA W=BA都用相同的输入相乘,它们各自的输出向量按坐标求和。当 h = W 0 x h = {W_0} x h=W0x时,修正后的正向传播表示为:
h = W 0 x + Δ W x = W 0 x + B A x h={{W}_{0}}x+\Delta Wx={{W}_{0}}x+BAx h=W0x+ΔWx=W0x+BAx
我们在图1中说明了我们的重新参数化。我们对 A A A使用随机高斯初始化,对 B B B使用零初始化,因此 ∆ W = B A ∆W = BA W=BA在训练开始时为零。然后,我们将 ∆ W x ∆Wx Wx α / r α/r α/r进行缩放(scale),其中 α α α r r r中的常数。当使用Adam进行优化时,如果我们适当地缩放初始化,则调整 α α α与调整学习率大致相同。因此,我们简单地将 α α α设置为我们尝试的第一个 r r r,而不调整它。当我们改变 r r r时,这种缩放有助于减少重新调整超参数的需要。

QLoRA: Efficient Finetuning of Quantized LLMs

摘要:

QLoRA是一种有效的微调方法,它减少了内存使用,足以在单个48GB GPU上微调65B参数模型,同时保留完整的16位微调任务的性能。QLORA通过冻结的4位量化预训练语言模型将梯度反向传播到低秩适配器(Low Rank Adapters, LoRA)QLoRA推出了许多创新,在不牺牲性能的情况下节省内存:

  1. 4-bit NormalFloat (NF4),一种新的数据类型,它是正态分布权重的信息理论上最优的;
  2. Double Quantization(双量化)通过量化量化常量来减少平均内存占用
  3. Paged Optimizers 用分页优化器管理显存峰值

重点

虽然最近的量化方法可以减少llm的内存占用,但这些技术仅适用于推理,不适应于训练期间。我们首次证明了在没有任何性能下降的情况下微调量化4-bit模型是可能的。我们的方法QLoRA将预训练模型量化到4位,然后添加一组可学习的Low-rank Adapter权重,这些权重通过量化权重的反向传播梯度进行调整。
关键: 4-bit NormalFloat:一种信息理论上最优的正态分布数据量化数据类型,比4位整数和4位浮点数产生更好的经验结果。

QLoRA Finetuning

QLoRA通过提出的4-bit NormalFloat(NF4)量化和双量化两种技术实现了高保真的4-bit 微调。此外,我们引入了分页优化器,以防止梯度检查点期间的内存峰值导致内存不足错误,这些错误通常会使大型模型难以在单个机器上进行微调。

QLoRA有一种低精度存储数据类型,在我们的例子中通常是4-bit,还有一种计算数据类型通常是BFloat16。在实践中,这意味着每当使用QLoRA权重张量时,我们将张量反量化为BFloat16,然后执行16位矩阵乘法。

4-bit NormalFloat Quantization

TODO

引用

Modest Understandings on LLM
LoRA及其变体概述:LoRA, DoRA, AdaLoRA, Delta-LoRA

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/945121.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

khadas edge2安装ubuntu22.04与ubuntu20.04 docker镜像

khadas edge2安装ubuntu22.04与ubuntu20.04 docker镜像 一、资源准备1.1 镜像文件1.2 刷机工具1.3 ubuntu20.04 docker镜像(具备demon无人机所需各种驱动) 二、开始刷机(安装ubuntu22.04系统)2.1 进入刷机状态2.2 刷机 三、docker…

PhPMyadmin-cms漏洞复现

一.通过日志文件拿Shell 打开靶场连接数据库 来到sql中输入 show global variables like %general%; set global general_logon; //⽇志保存状态开启; set global general_log_file D:/phpstudy/phpstudy_pro/WWW/123.php //修改日志保存位置 show global varia…

FPGA流水线考虑因素

流水线考虑因素 另一种提升性能的方法是对拥有多个逻辑级数的长数据路径进行重新组织,并将其分配在多个时钟周期上。这种方法 以时延和流水线开销逻辑管理为代价,来达到加快时钟周期和提高数据吞吐量的目的。 由于 FPGA 器件带有大量的寄存器&#x…

语言模型的革命:大型概念模型(LCM)的崛起

在人工智能领域,Meta最近推出的一项重大突破正在引起研究人员和开发者的广泛关注:大型概念模型(Large Concept Models,简称LCM)。这一创新彻底改变了我们对语言模型的理解,并为未来AI技术的进展指明了新的方…

郴州年夜饭大数据分析:Python爬虫的美味之旅

在春节这个阖家团圆的日子里,年夜饭无疑是最具仪式感的一餐。郴州,这座美食之城,其年夜饭的餐桌上自然少不了那些让人垂涎三尺的地道美食。作为一名热爱美食的程序员,我决定用Python爬虫技术,为大家揭秘郴州年夜饭的必…

STM32-笔记17-PWM波型

一、介绍 PWM波形(Pulse Width Modulation,脉冲宽度调制波形)是一种占空比可变的脉冲波形。这种调制方式通过改变脉冲的宽度来控制电路中的信号强度和频率。具体来说,PWM波形中的高电平持续时间和低电平持续时间可以根据需要进行调…

HTML——16.相对路径

<!DOCTYPE html> <html><head><meta charset"UTF-8"><title></title></head><body><a href"../../fj1/fj2/c.html" target"_blank">链接到c</a><!--相对路径&#xff1a;-->…

【学生管理系统】整合JWT(完)

目录 5. 整合JWT 5.1 生成Token 5.2 携带Token 5.2.1 保存token 5.2.2 携带token 5.3 校验Token 5.4 获得Token 5. 整合JWT 5.1 生成Token 用户登录成功后&#xff0c;通过工具类&#xff0c;将用户信息转换成token 步骤&#xff1a; 拷贝工具类&#xff0c;及其Prop…

java计算机毕设课设—商品供应管理系统(附源码、文章、相关截图、部署视频)

这是什么系统&#xff1f; 资源获取方式再最下方 java计算机毕设课设—商品供应管理系统(附源码、文章、相关截图、部署视频) 项目名称&#xff1a; 基于Java的商品供应管理系统 一、项目介绍 项目背景&#xff1a; 在现代商业活动中&#xff0c;商品供应管理是企业运营的…

ipad如何直连主机(Moonlight Sunshine)

Windows 被连接主机&#xff08;Windows&#xff09; 要使用的话需要固定ip&#xff0c;不然ip会换来换去&#xff0c;固定ip方法本人博客有记载Github下载Sunshine Sunshine下载地址除了安装路径需要改一下&#xff0c;其他一路点安装完成后会打开Sunshine的Web UI&#xff…

B站推荐模型数据流的一致性架构

01 背景 推荐系统的模型&#xff0c;通过学习用户历史行为来达到个性化精准推荐的目的&#xff0c;因此模型训练依赖的样本数据&#xff0c;需要包括用户特征、服务端推荐的视频特征&#xff0c;以及用户在推荐视频上是否有一系列的消费行为。 推荐模型数据流&#xff0c;即为…

快速掌握Haproxy原理架构

文章目录 一、原理架构二、无负载均衡三、四层负载均衡的工作流程四、七层负载均衡工作流程五、基础属性mode 属性retries 属性maxconn 属性clitimeout 属性servtimeout 属性states uri 属性 一、原理架构 四层tcp代理&#xff1a;Haproxy仅在客户端和服务器之间双向转发流量&…

Pytest基础01: 入门demo脚本

目录 1 Pytest接口测试 1.1 最简单版hello world 1.2 pytest.ini 2 pytest兼容unittest 3 封装pytest执行入口 1 Pytest接口测试 Pyest是一个可以用于接口测试的强大框架&#xff0c;开源社区也有非常多的pytest插件。 按江湖传统&#xff0c;学习一个新语言或者新框架&…

《HelloGitHub》第 105 期

兴趣是最好的老师&#xff0c;HelloGitHub 让你对编程感兴趣&#xff01; 简介 HelloGitHub 分享 GitHub 上有趣、入门级的开源项目。 github.com/521xueweihan/HelloGitHub 这里有实战项目、入门教程、黑科技、开源书籍、大厂开源项目等&#xff0c;涵盖多种编程语言 Python、…

Linux day 1129

家人们今天继续学习Linux&#xff0c;ok话不多说一起去看看吧 三.Linux常用命令 3.1 Linux命令体验 3.1.1 常用命令演示 在这一部分中&#xff0c;我们主要介绍几个常用的命令&#xff0c;让大家快速感 受以下 Linux 指令的操作方式。主要包含以下几个指令&#xff1a; ls命…

python爬虫爬抖音小店商品数据+数据可视化

爬虫代码 爬虫代码是我调用的数据接口&#xff0c;可能会过一段时间用不了&#xff0c;欢迎大家留言评论&#xff0c;我会不定时更新 import requests import time cookies {token: 5549EB98B15E411DA0BD05935C0F225F,tfstk: g1vopsc0sQ5SwD8TyEWSTmONZ3cA2u6CReedJ9QEgZ7byz…

hadoop搭建

前言 一般企业中不会使用master slave01 slave02来命名 vmware创建虚拟机 打开vmware软件&#xff0c;新建虚拟机 典型 稍后安装系统 选择centos7 虚拟机名称和安放位置自行选择&#xff08;最小化安装消耗空间较少&#xff09; 默认磁盘大小即可 自定义硬件 选择centos7的i…

基于深度学习(HyperLPR3框架)的中文车牌识别系统-python程序开发测试

本篇内容为python开发&#xff0c;通过一个python程序&#xff0c;测试搭建的开发环境&#xff0c;读入一张带有车牌号的图片&#xff0c;成功识别出车牌号。 1、通过PyCharm新建一个工程&#xff0c;如&#xff1a;PlateRecognition&#xff0c;配置虚拟环境。 2、在工程中新…

c# RSA加解密工具,.netRSA加解密工具

软件介绍 名称: c# RSA加解密工具,.netRSA加解密工具依赖.net版本: .net 8.0工具类型: WinForm源码下载 c# RSA加解密工具,.netRSA加解密工具 依赖项 WinFormsRSA.csproj <Project

Ubuntu20.04安装Foxit Reader 福昕阅读器

Ubuntu20.04安装Foxit Reader 福昕阅读器 文章目录 Ubuntu20.04安装Foxit Reader 福昕阅读器 先更新一下源 sudo apt update sudo apt upgrade下载Foxit Reader的稳定版本 wget https://cdn01.foxitsoftware.com/pub/foxit/reader/desktop/linux/2.x/2.4/en_us/FoxitReader.e…