3.大模型高效微调PEFT

大模型高效微调(PEFT)技术

预训练模型的背景

  • 预训练与微调:传统的微调方法通常涉及对整个预训练模型的参数进行再训练,以适应特定任务。这虽然有效,但计算成本高,且需要大量的标记数据。
  • 模型结构:像BERT或GPT这样的模型通常包含数亿甚至数十亿个参数,构成一个深层次的Transformer网络。

Before PEFT: in-context learning (prompt)

请添加图片描述

Before PEFT: Hard Prompt

Before PEFT: Hard Prompt for text2image (Made by SD XL)

Before PEFT: Hard Prompt for text2image (Made by SD XL)

Before PEFT: Hard Prompt for text2image (Made by Midjourney)

Before PEFT: Hard Prompt for text2image (Made by DALL·E 3)

Before PEFT: Prompt Template for AutoGPT (Made by LangChain)
请添加图片描述

有更好的方法吗?

请添加图片描述

请添加图片描述

请添加图片描述

Adapter Tuning: 开启大模型PEFT (2019)

Adapter Tuning 是一种相对较新的神经网络微调方法,特别适用于大型预训练模型(如BERT、GPT等)。它在保持预训练模型结构和参数大部分不变的前提下,通过引入额外的小型网络模块(称为"adapters")来调整模型以适应特定的下游任务。

请添加图片描述

Adapter Tuning 的核心原理

  • Adapter模块:Adapter Tuning 在模型的每个层(或特定层)中插入小型的神经网络模块(Adapters)。这些模块相对简单,参数量少。
  • 参数固定:除了这些Adapter模块外,模型的其他所有预训练参数都保持固定不变。

请添加图片描述

Adapter Tuning 的实现

  • 训练Adapter:在微调过程中,只有Adapter模块的参数被更新。这些模块学习从预训练模型的固定表示中提取对特定任务有用的信息。
  • 灵活性:由于Adapters相对较小,它们可以快速地针对不同的任务进行训练和调整。
  • 效率:与传统的全模型微调相比,Adapter Tuning 需要更少的计算资源和训练时间。

应用和优势

  • 任务特定调整:Adapter Tuning 使得模型能够针对特定任务进行有效的调整,而不需要重新训练整个大型模型。
  • 资源节约:由于只训练Adapters,这种方法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/695239.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

JWT 从入门到精通

什么是 JWT JSON Web Token(JWT)是目前最流行的跨域身份验证解决方案 JSON Web Token Introduction - jwt.ioLearn about JSON Web Tokens, what are they, how they work, when and why you should use them.https://jwt.io/introduction 一、常见会…

转型AI产品经理(6):“ 序列位置效应”如何应用在Chatbot产品中

序列位置效应是心理学中的一个记忆现象,指的是人们对一系列信息的记忆效果受到信息在序列中位置的影响。具体来说,人们通常更容易记住列表的开头和结尾部分的项目,而对中间部分的项目记忆较差。这个效应可以进一步分为“首因效应”和“近因效…

递归

特点:有一个初始状态;后续的情况可由前面的状态推出。(斐波拉契,求阶乘) 一 .写出分段函数(有初值,递推关系)可以递归 用if-else连接

Day47 代码随想录打卡|二叉树篇---最大二叉树

题目(leecode T654): 给定一个不重复的整数数组 nums 。 最大二叉树 可以用下面的算法从 nums 递归地构建: 创建一个根节点,其值为 nums 中的最大值。递归地在最大值 左边 的 子数组前缀上 构建左子树。递归地在最大值 右边 的 …

java版多语言抢单系统 多语言海外AEON抢单可连单加额外单源码 抢单平台搭建开发 抢单开挂的软件

此套是全新开发的java版多语言抢单系统。 后端java,用的若依框架,这套代码前后端是编译后的,测试可以正常使用,语言繁体,英文,日语 源码大小:155M 源码下载:https://download.csd…

初识 java 2

1. idea 的调试 1. 点击鼠标左键设置断点 2.运行到断点处 点击 或点击鼠标右键,再点击 使代码运行到断点处,得到 2. 输出到控制台 System.out.println(value);//输出指定的内容,并换行 value 要打印的内容System.out.print(value);…

《精通ChatGPT:从入门到大师的Prompt指南》附录A:常用Prompt示例

附录A:常用Prompt示例 在《精通ChatGPT:从入门到大师的Prompt指南》的附录A中,我们将展示一系列常用的Prompt示例,帮助读者更好地理解和应用Prompt技术。每个示例将包含Prompt的描述、使用场景、预期结果以及实际输出。希望这些示…

Leetcode3040. 相同分数的最大操作数目 II

Every day a Leetcode 题目来源:3040. 相同分数的最大操作数目 II 解法1:记忆化搜索 第一步可以做什么?做完后,剩下要解决的问题是什么? 删除前两个数,剩下 nums[2] 到 nums[n−1],这是一个…

Nvidia的成功与竞争:CEO黄仁勋的自信与挑战

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

【微信小程序】事件分类以及阻止事件冒泡

在微信小程序中,事件分为冒泡事件和非冒泡事件两大类,它们的区别在于事件是否能从原始触发组件开始,向父级组件传播(即“冒泡”)。 冒泡事件:当一个组件上的事件被触发后,不仅当前组件会接收到这…

Pytorch学习11_神经网络-卷积层

1.创建神经网络实例 import torch import torchvision from torch import nn from torch.nn import Conv2d from torch.utils.data import DataLoaderdatasettorchvision.datasets.CIFAR10("../dataset_cov2d",trainFalse,transformtorchvision.transforms.ToTensor(…

软件项目安全保证措施(Word原件)

软件安全保证措施 一、身份鉴别 二、访问控制 三、通信完整性、保密性 四 、数据完整性 六、数据保密性 七、应用安全支撑系统设计获取本原件及更多资料:本文末个人名片。

vue如何使用slot

1. vue2 如何使用slot 1.1. 默认插槽(Default Slot)1.2. 具名插槽(Named Slot)1.3. 作用域插槽(Scoped Slot) 2. vue3 如何使用slot 2.1. 默认插槽(Default Slot)2.2. 具名插槽&…

Nginx高级配置及重写功能

文章目录 一、高级配置网页的状态页Nginx第三方模块变量访问日志Nginx压缩功能https功能自定义小图标 二、重写功能(rewrite)if指令return指令set指令break指令rewrite指令防盗链 一、高级配置 网页的状态页 状态页显示的是整个服务器的状态而非虚拟主…

【Node.js快速部署opencv项目】图像分类与目标检测

⭐️我叫忆_恒心,一名喜欢书写博客的研究生👨‍🎓。 如果觉得本文能帮到您,麻烦点个赞👍呗! 近期会不断在专栏里进行更新讲解博客~~~ 有什么问题的小伙伴 欢迎留言提问欧,喜欢的小伙伴给个三连支…

Linux系统管理:虚拟机Almalinux 9.4 安装

目录 一、理论 1.Almalinux 二、实验 1.虚拟机Almalinux 9.4 安装准备阶段 2.安装Almalinux 9.4 3.Termius远程连接 一、理论 1.Almalinux (1) 简介 Almalinux是一个开源、社区拥有和管理、免费的企业Linux发行版。专注于长期稳定性,并提供强大的生产级…

按键精灵安装有乱码并且不能启动的解决办法

在国外购了电脑,系统是英文版 Windows 11,按键精灵死活都装不上去,打开exe的安装文件后出现乱码,安装完了后还是乱码,并且启动不了,以下是解决办法: 进入控制面板,并且点 Region&am…

TIM—通用定时器

通用定时器的功能 在基本定时器功能的基础上新增功能: 通用定时器有4个独立通道,且每个通道都可以用于下面功能。 (1)输入捕获:测量输入信号的周期和占空比等。 (2)输出比较:产生输…

vs2019 c++20规范 全局函数 ref 及模板类 reference_wrapper<_Ty> 的源码分析

这是个引用&#xff0c;可以包裹一个对象&#xff0c;相当于引用该对象&#xff0c;而不是在作为函数形参时产生值传递。因为模板 reference_wrapper<_Ty> 其实是封装了该对象的地址。下面以图示形式给出其重要的成员函数。模板其实都差不多&#xff0c;跟人也一样&#…

6月7号作业

1&#xff0c; 搭建一个货币的场景&#xff0c;创建一个名为 RMB 的类&#xff0c;该类具有整型私有成员变量 yuan&#xff08;元&#xff09;、jiao&#xff08;角&#xff09;和 fen&#xff08;分&#xff09;&#xff0c;并且具有以下功能&#xff1a; (1)重载算术运算符…