18.实战 LLaMA2-7B 指令微调

实战 LLaMA2-7B 指令微调

  • 实战 LLaMA2-7B 指令微调
    • 大模型训练技术总结
      • 以模型训练阶段分类:Pre-Training vs Fine-Tuning
      • 以微调权重比例分类:FFT vs PEFT
      • 以模型训练方法分类:Fine-Tuning vs Instruction-Tuning
      • 以模型训练机制分类:SFT vs RLHF
      • 再谈机器学习训练机制
    • 实战 LLaMA2-7B 指令微调
      • 指令微调格式:Alpaca Format
      • 数据集:Databricks Dolly-15K
      • 使用 Huggingface TRL SFTTrainer 训练 LLaMA2-7B 模型

实战 LLaMA2-7B 指令微调

大模型训练技术总结

以模型训练阶段分类:Pre-Training vs Fine-Tuning

Pre-Training 和 Fine-Tuning是深度学习,特别是在自然语言处理(NLP)领域中,训练大模型(如LLaMA、GPT、
Gemini等)的两个关键步骤。这两个步骤共同构成了一种有效的策略,用于利用大量未标记数据学习通用知识,然
后通过少量标记数据将这些知识应用于特定任务。
Pre-Training:
Pre-Training是指在大量未标记数据上训练深度学习模型的过程。这一步骤的目的是使模型能够学习到数据的通用特
征和模式,从而捕获语言的基本语法和语义信息。这一阶段不需要人工标记的数据,因此可以使用互联网上可获得的
大规模文本语料库。
Fine-Tuning:
在Pre-Training之后,模型将进行Fine-Tuning,以适应特定的下游任务。在这个阶段,模型使用较小的、针对特定任
务标记过的数据集进行训练。Fine-Tuning的目的是调整和优化预训练语言模型(Pre-Trained LM)的权重,使其能
够在特定任务上表现良好,如情感分析、文本分类、问答等。通过Fine-Tuning,模型能够利用在Pre-Training阶段学
到的通用知识,并将其应用于具体任务。
Pre-Training和Fine-Tuning是紧密相连的两个步骤,构成了当前NLP领域中一种非常流行且有效的模型训练范式。Pre-Training
阶段让模型学习大量通用的语言知识,为模型提供了一个良好的起点和广泛的语言理解能力。Fine-Tuning阶段则是将这些通用
知识适应并优化到特定的应用或任务上,从而达到更好的性能。这种结合使用Pre-Training和Fine-Tuning的方法,使得深度学习
模型能够在有限的标记数据情况下也能实现出色的任务性能,同时也提高了模型训练的效率
在这里插入图片描述
在这里插入图片描述

以微调权重比例分类:FFT vs PEFT

FFT 和 PEFT都是调整预训练语言模型以适应特定任务的技术。它们的主要区别在于调整模型参数的范围和方式。
Full Fine-Tuning (FFT):
在Full Fine-Tuning中,整个预训练模型的所有参数都会在下游任务的数据上进行调整。这意味着模型的每一层和每
个权重都会根据特定任务的训练数据进行更新,以最小化任务特定的损失函数。FFT通常能够实现很好的性能,因为
它允许模型在整个架构中学习任务相关的调整。然而,这种方法的缺点是计算成本高,尤其是对于大模型,同时也增
加了过拟合的风险,特别是在标注数据有限的情况下。
Parameter-Efficient Fine-Tuning (PEFT):
相比之下,Parameter-Efficient Fine-Tuning专注于只更新模型的一小部分参数,而保持大部分预训练参数固定不变。
这种方法的目的是在保持预训练模型大部分知识不变的同时,通过调整一小部分参数来适应特定任务。 PEFT的实现
方法有多种,包括但不限于:
Adapter层:在模型的特定层中插入小型的可训练模块,仅训练这些模块的参数。
Prompt Tuning:调整输入到模型中的一小部分“提示”token的嵌入,而不改变模型本身的权重。
低秩逼近(LoRA):对模型参数进行因式分解,并只训练分解后的较小矩阵。
PEFT主流技术
在这里插入图片描述

以模型训练方法分类:Fine-Tuning vs Instruction-Tuning

Fine-Tuning和Instruction-Tuning都旨在改善预训练语言模型(如GPT-3等)的性能,但关注点和方法有所不同。
Fine-Tuning:
在Fine-Tuning过程中,模型在一个大型的数据集上进行预训练,学习语言的通用表示。然后,在特定任务的较小数
据集上继续训练(即Fine-Tuning),调整预训练的参数以优化任务特定(Task-specific)的性能。从而提高任务的
准确率和效率。
Instruction-Tuning:
Instruction-Tuning 目标是提高模型对自然语言指令的响应能力,创建一个更加通用的模型。通过在广泛的任务类型
上使用指令性示例来训练模型,使模型能够理解和执行各种各样的指令。与Fine-Tuning针对单一任务不同,这种方
法希望模型不仅能理解任务的指令,还能根据这些指令生成适当的响应格式或输出。
在这里插入图片描述
在这里插入图片描述

以模型训练机制分类:SFT vs RLHF

Supervised Fine-Tuning 和RLHF 虽然有共同的目标——即利用额外的训练步骤来改善模型在特定任务上的表现,但
它们在实现这一目标的方法上存在显著差异。SFT 依赖于预定义的、清晰标注的训练数据,适用于任务输出相对明确
的情况;而RLHF则通过从人类反馈中学习,更适合输出标准不易量化或多样化的生成式任务。
Supervised Fine-Tuning:
在Supervised Fine-Tuning中,预训练模型在具有明确标签的数据集上进行额外训练,以适应特定的下游任务。这个
过程依赖于传统的监督学习方法,其中模型通过最小化预测输出和实际标签之间的差异(例如,使用交叉熵损失函
数)来进行训练。Supervised Fine-Tuning通常用于各种NLP任务,如文本分类、情感分析、命名实体识别等,它能
够使预训练模型利用在特定任务上的标注数据进行进一步优化。
RLHF (Reinforcement Learning from Human Feedback):
与Supervised Fine-Tuning不同,RLHF使用强化学习方法来训练预训练模型,使其行为更符合人类的偏好或期望。
在这个过程中,模型的输出(或行为)会被人类评估员评价,而这些评价反馈作为奖励信号,指导模型学习。RLHF
特别适用于那些难以明确定义正确输出的任务,如生成式任务(例如,生成自然语言文本、艺术创作等)。RLHF的
目的是使模型生成的输出更加符合人类的质量标准和偏好。
ChatGPT 和 LLaMA2-chat 等模型结合了两者优势,以充分利用监督学习的明确性和强化学习的灵活性。

再谈机器学习训练机制

在这里插入图片描述

实战 LLaMA2-7B 指令微调

在这里插入图片描述

指令微调格式:Alpaca Format

在这里插入图片描述

数据集:Databricks Dolly-15K

在这里插入图片描述
databricks-dolly-15k是一个开源数据集,数千名 Databricks 员工按照 InstructGPT论文中概述的类别生成的Instruction 记录。这些行为类别包括头脑风暴、分类、封闭型问答、生成、信息提取、开放型问答和
摘要。
该数据集许可证为 Creative Commons Attribution-ShareAlike 3.0 Unported 。可用于任何目的,无论是学术还是商业。

使用 Huggingface TRL SFTTrainer 训练 LLaMA2-7B 模型

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/719587.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

帕金森患者在饮食上需要注意什么

帕金森病患者在饮食上应该遵循以下几个基本原则: 饮食清淡:应多吃新鲜的水果和蔬菜,如苹果、芹菜、菠菜等,以补充维生素和促进胃肠道蠕动。营养均衡:应多吃富含优质蛋白的食物,如鸡蛋、牛奶,以…

HACH哈希紫外可见光分光光度计维修DR6000

DR3900可见分光光度计内置准双光束光学系统,自动校准波长,该可见光分光光度计预置200多个用户程序,几乎覆盖常规水质参数,彩色触屏搭载中文操作界面,可自动分析检测并存储2000组实验数据,是一款测量准确的可…

高考之后,专业与学校如何选择?

随着2024年高考的结束,考生们面临着选择专业或学校的难题。选择专业意味着专注于一个特定领域,直接影响未来的职业发展和兴趣培养;而选择学校则提供了更优越的学术氛围和广泛的社交机会,对个人综合素质提升有重要作用。无论选择哪…

jdk下载安装及电脑上同时安装多个jdk

一、jdk的下载 官方地址: Java Software | Oracle 系统环境变量配置 1、首先新建JDK1.8和17的JAVA_HOME,他们的变量名区分开,分别为JAVA17_HOME,JAVA8_HOME。分别指向他们的安装地址。 2、新建配置他们可变的地址,这个环境变量的值…

Transformer革新:Infini-Transformer在长文本处理中的突破

在当今信息爆炸的时代,大型语言模型(LLMs)在处理长文本数据方面的需求日益增长。无论是科学研究、法律分析还是医学诊断,长文本的处理能力都显得尤为重要。然而,现有的基于Transformer的模型在处理这类数据时遇到了重大…

力控算法每日一练:209. 长度最小的子数组(java)

给定一个含有 n 个正整数的数组和一个正整数 target 。 找出该数组中满足其总和大于等于 target 的长度最小的 子数组 [numsl, numsl1, ..., numsr-1, numsr] ,并返回其长度。如果不存在符合条件的子数组,返回 0 。 class Solution {public int minSu…

【机器学习】机器学习重要分支——集成学习:理论、算法与实践

文章目录 引言第一章 集成学习的基本概念1.1 什么是集成学习1.2 集成学习的类型1.3 集成学习的优势 第二章 集成学习的核心算法2.1 Bagging方法2.2 Boosting方法2.3 Stacking方法 第三章 集成学习的应用实例3.1 图像分类3.2 文本分类 第四章 集成学习的未来发展与挑战4.1 模型多…

深度学习:从理论到应用的全面解析

引言 深度学习作为人工智能(AI)的核心技术之一,在过去的十年中取得了显著的进展,并在许多领域中展示了其强大的应用潜力。本文将从理论基础出发,探讨深度学习的最新进展及其在各领域的应用,旨在为读者提供全…

《C++ Primer》导学系列:第 5 章 - 语句

5.1 简单语句 5.1.1 基本概念 在C中,简单语句是构成程序的基本单元。每个简单语句以分号(;)结束,可以是表达式、声明或空语句。 5.1.2 表达式语句 表达式语句是由表达式构成的语句,通常用于计算、赋值和函数调用。 …

什么是小语言模型?

介绍 近年来,人工智能领域取得了重大进展,尤其是在自然语言处理领域。GPT-3 和 PaLM 等大型语言模型因其出色的能力而备受关注,新一波小型语言模型正在兴起,它们在性能和效率之间提供了有希望的平衡。 什么是小语言模型&#xf…

Eigne库安装及使用教程

文章目录 1.Eigne库介绍2.Eigne库安装3.Eigne库使用4.some examples5.参考文献 1.Eigne库介绍 Eigen是可以用来进行线性代数、矩阵、向量操作等运算的C库,它里面包含了很多算法。它的License是MPL2。它支持多平台。 Eigen采用源码的方式提供给用户使用,在…

【日记】忽然想买根卷发棒了……(622 字)

正文 突然想买一根卷发棒了,虽然还没有多长,但刘海全搭在前面不太好看。忽然有些理解女孩子们的心情了。说起头发,晚上练头定下落接三角撑,终于找到了感觉。不过因为头要往前滑,刚开始在垫子上找感觉,那个垫…

《数字图像处理-OpenCV/Python》第16章:图像的特征描述

《数字图像处理-OpenCV/Python》第16章:图像的特征描述 本书京东 优惠购书链接 https://item.jd.com/14098452.html 本书CSDN 独家连载专栏 https://blog.csdn.net/youcans/category_12418787.html 第16章:图像的特征描述 特征通常是针对图像中的目标或…

运营一个商城网站需要办理什么许可证?

搭建一个商城网站以下资质是必须要办理的:网站ICP备案以及增值电信业务经营许可证。 一、网站ICP备案 国家对提供互联网信息服务的ICP实行许可证制度。从而,ICP证成为网络经营的许可证,经营性网站必须办理ICP证,否则就属于非法经营…

Anvil Empires/铁砧帝国操作没反应、频繁掉线怎么办?

Anvil Empires是一款多人在线游戏,且规模非常大!玩家需要在持续的在线世界中与成千上万的玩家一起发动战争。目前自定义服务器技术可以使多达 1000 名玩家能够在大规模的实时战斗,且战斗是由玩家在开放世界沙盒中有机地煽动的,所以…

windows 11 之 下载安装 curl

1. 背景 需要执行一个 curl 命令运行一个定时任务,之前博主用的mac,无需担心这个下载安装问题,现在转为 windows,需要下载安装crul命令。 2. 出现问题 3. 解决办法 3.1 下载最新的包 下载地址:https://curl.se/win…

【YOLOv8改进[注意力]】使用MLCA混合局部通道注意力改进c2f + 含全部代码和详细修改方式 + 手撕结构图

本文将进行在YOLOv8中使用MLCA混合局部通道注意力改进c2f 的实践,助力YOLOv8目标检测效果的实践,文中含全部代码、详细修改方式以及手撕结构图。助您轻松理解改进的方法。 改进前和改进后的参数对比: 目录 一 MLCA 二 使用MLCA混合局部通道注意力改进c2f 1 整体修改

【大分享05】动态容差归档,打通不动产登记管理“最后一公里”

关注我们 - 数字罗塞塔计划 - 本篇是参加由电子文件管理推进联盟联合数字罗塞塔计划发起的“大分享”活动投稿文章,来自上海涵妍档案信息技术有限责任公司,作者:陈雪。 一、政策背景 在“互联网政务服务”的浪潮下,各级政府机构…

在整合spring boot+layui中解决Could not parse as expression: “的问题

首先查看报错信息,这里提示我们78行有问题 这里是[[]] 这个内联表达式出了问题,在当前所在的script标签中加入th:inlinenone,然后重启项目,成功解决!

数理化解题研究杂志社数理化解题研究编辑部2024年第12期目录

教学设计与教学策略研究 聚焦数学思想 贯彻核心素养——以“函数的奇偶性”的教学设计为例 宋方宁;李硕; 2-4 高中数学课堂案例研究——探讨“教-学-评”一体化模式的应用 赖琰媛;曹小燕; 5-7 漫谈体验式教学在高中数学教学中的运用策略 林素珍; 15-17《数理化解题…