大型语言模型(LLM)的小型化研究进展

2024年,大型语言模型(LLM)的小型化研究取得了显著进展,主要采用以下几种方法实现:

  1. 模型融合:通过将多个模型或检查点合并为一个单一模型,减少资源消耗并提升整体性能。例如,《WARM: On the Benefits of Weight Averaged Reward Models》这篇论文通过权重平均多个微调后的奖励模型,有效缓解了LLM中的奖励骇入问题,提升了RLHF对齐步骤的稳健性。

  2. 混合专家模型(Mixture of Experts, MoE):使用多个小型专家模块构建模型,如Mixtral 8x7B。这类模型参数效率高,可达到或超过更大模型的效果。

  3. 小型LLM的开发:研究者也在探索构建更小的开源LLM,以降低训练成本、提高可及性。如TinyLlama只有1.1B参数且完全开源。

  4. 参数高效的LLM优化技术:如代理调优(Proxy Tuning)。它可使用小型模型提升大型模型,无需改动大模型权重。

  5. 知识蒸馏:通过将一个大型的教师模型的知识转移到一个小型的学生模型中,来实现模型的小型化。这种方法可以在几乎不降低精度的情况下,将模型的参数量大幅度减小。

  6. 剪枝:通过删除权重矩阵的一些行和列,降低网络的嵌入维数,同时保持模型性能。例如,微软的SliceGPT方法通过删除权重矩阵中的行和列来降低网络的嵌入维数,同时保持模型性能。

  7. 量化:通过将模型中的参数和激活值转换为低精度的表示形式,以减少模型的存储空间和计算量,从而实现模型的小型化。

  8. 结构化剪枝与知识蒸馏相结合:英伟达研究表明,这种方法可以从初始较大的模型中逐步获得较小的语言模型。例如,将Llama 3.1 8B模型提炼为Llama-3.1-Minitron 4B,其表现优于类似大小的最先进的开源模型。

这些方法各有优势和适用场景,研究者可以根据具体需求和资源限制选择合适的小型化策略。通过这些技术,可以在保持模型性能的同时,实现模型的小型化和加速,使其更适合在各种设备上部署。

量化

量化技术在解决大模型小型化方面发挥着重要作用。通过将模型中的参数和激活值从浮点数(如32位的FP32)转换为低精度的表示形式(如8位的INT8),量化可以显著减少模型的存储空间和计算量,从而实现模型的小型化。这种方法不仅降低了模型对算力的需求,还减少了内存需求,并压缩了存储空间,使得大模型能够在资源受限的设备上高效运行。

微软亚洲研究院在这一领域取得了显著成果,他们推出的数据编译器Ladder和算法T-MAC,使得只支持对称精度计算的硬件能够直接运行混合精度矩阵乘法。测试结果表明,Ladder在支持GPU原本不支持的自定义数据类型方面,最高提速可达14.6倍;T-MAC在搭载了最新高通Snapdragon X Elite芯片组的Surface AI PC上,使CPU上运行的大模型吞吐率比专用加速器NPU快两倍。

此外,量化技术还可以提高模型的计算效率和性能。例如,通过量化,模型的权重参数可以压缩为原来的1/4,理论上可以获得最大4倍的性能提升。实际加速效果依赖于硬件支持,例如NVIDIA A100提供的Tensor Core对INT8、INT4和INT1运算都有运算单元进行加速。

量化技术的应用不仅限于提高效率,它还可以降低模型的存储和传输成本,加速模型的部署和迭代,提高模型的灵活性和适用性。随着硬件的发展和量化技术的进步,量化模型的应用将越来越广泛,推动大模型在更广泛场景中的应用。

结构化剪枝与知识蒸馏相结合

英伟达的研究团队通过结合结构化剪枝和知识蒸馏的方法,成功地将较大的Llama 3.1 8B模型压缩成了更小的Llama-3.1-Minitron 4B模型。这一过程不仅减少了模型的参数数量,还保持了模型的性能,甚至在某些方面有所提升。具体来说,这项技术的优势包括:

  1. 性能提升:Llama-3.1-Minitron 4B模型在多任务语言理解(MMLU)等复杂任务上的表现优于其他同等规模的模型,MMLU分数提高了16%。

  2. 训练数据和成本的减少:通过这种方法,训练新模型所需的令牌数量减少了40倍,同时训练一系列模型的成本节省高达1.8倍。

  3. 推理性能的增强:使用NVIDIA TensorRT-LLM工具包优化后,Llama-3.1-Minitron 4B模型在各种情况下的FP8精度吞吐量是原始Llama 3.1 8B模型的2.7倍。

  4. 多维度剪枝策略:英伟达的研究详细探讨了如何在多个维度上进行剪枝,包括神经元、注意力头、嵌入维度和模型深度,并结合知识蒸馏优化每一个步骤。

  5. 迭代的剪枝和知识蒸馏策略:研究发现,逐步剪枝并在每一步进行蒸馏训练,能够更有效地保持模型的原始性能,特别适用于需要高压缩率的场景。

  6. 实际应用潜力:压缩后的模型可以更高效地在资源有限的设备上运行,并能够提供近似于大模型的性能,尤其是在计算资源有限的设备上,如移动设备、边缘计算设备。

这项研究展示了如何通过技术创新来推动大语言模型的发展,使AI训练变得更加高效和经济,同时保持或甚至提升模型的性能。

TinyLlama

TinyLlama是一个小型但功能强大的开源语言模型,由新加坡科技设计大学(SUTD)的研究者开发。这个模型具有以下特点:

  1. 模型参数:TinyLlama的参数量为1.1亿(1.1B),这使得它在计算和内存需求上相对较小,适用于资源受限的环境。

  2. 预训练数据:TinyLlama在大约3万亿个token上进行了预训练,这是一个相当大的数据集,有助于模型学习丰富的语言特征。

  3. 架构和分词器:TinyLlama基于Llama 2架构和分词器(tokenizer),这意味着它可以在许多基于Llama的开源项目中即插即用。

  4. 训练效率:研究者们使用16块A100-40G的GPU,在90天内完成了TinyLlama的训练。此外,TinyLlama还采用了多种优化方法,如flash attention 2、FSDP(Fully Sharded Data Parallel)、xFormers等,提高了训练的效率和吞吐量。

  5. 性能:尽管规模相对较小,但TinyLlama在一系列下游任务中表现出色,性能显著优于同等大小的现有开源语言模型,如OPT-1.3B和Pythia1.4B。

  6. 开源:TinyLlama的所有模型检查点和代码都在GitHub上公开提供,这使得研究人员和开发者可以轻松地访问和使用这个模型。

  7. 应用场景:TinyLlama适用于多种应用场景,包括辅助大型模型进行推测性解码、在边缘设备上运行(如离线实时机器翻译)、在游戏中实现实时对话生成等。

  8. 性能比较:在常识推理任务中,TinyLlama展现了出色的表现,并在多个基准测试中超越了Pythia-1.4B。

TinyLlama的这些特点使其成为一个有吸引力的选择,特别是对于那些寻求在资源受限的环境中部署高效语言模型的研究人员和开发者。

剪枝

剪枝是一种模型压缩技术,它通过去除神经网络中的冗余参数(如权重)来减小模型的大小和计算量,同时尽量保持模型的性能。剪枝可以分为两大类:结构化剪枝和非结构化剪枝。

  1. 结构化剪枝(Structured Pruning)

    • 这种剪枝方式按整个结构单元进行剪枝,例如,对整个神经元、通道(channel)、或层(layer)进行剪枝,来简化模型。
    • 结构化剪枝的优点在于它保留了整体的网络结构,使得剪枝后的模型更容易在现有的硬件和软件上实现加速。
    • 例如,LLM-Pruner 就是一种结构化剪枝方法,它通过评估网络参数的重要性来移除冗余的组,从而降低模型的参数量。
  2. 非结构化剪枝(Unstructured Pruning)

    • 非结构化剪枝则是在权重矩阵中随机地对独立权重或者神经元链接进行剪枝。
    • 这种方法的剪枝算法简单,模型压缩比高,但剪枝后的权重矩阵稀疏,没有专用硬件难以实现压缩和加速的效果。

剪枝的过程通常包括以下几个步骤:

  1. 训练一个初始模型。
  2. 对模型进行剪枝,移除一定比例的参数。
  3. 对剪枝后的模型进行微调,以恢复由于剪枝可能造成的性能损失。

剪枝的可行性基于这样的观察:并不是所有的参数都在模型中发挥作用,部分参数作用有限、表达冗余,甚至可能会降低模型的性能。有研究表明,很多的深度神经网络仅仅使用很少一部分(如5%)的权值就足以预测剩余的权值,也就是说,仅仅训练一小部分原来的权值参数就有可能达到和原来网络相近甚至超过原来网络的性能。

在实际应用中,剪枝可以帮助减少模型的存储空间需求,加速模型的训练和推理过程,使得模型更适合部署在资源受限的设备上,如移动设备或嵌入式系统。此外,剪枝还可以与量化、知识蒸馏等其他模型压缩技术结合使用,以进一步优化模型的性能和效率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/908997.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

利用 Feather 格式加速数据科学工作流:Pandas 中的最佳实践

利用 Feather 格式加速数据科学工作流:Pandas 中的最佳实践 在数据科学中,高效的数据存储和传输对于保持分析流程的流畅性至关重要。传统的 CSV 格式虽然通用,但在处理大规模数据集时速度较慢,特别是在反复读取和写入时。幸运的是…

[极客大挑战 2019]BabySQL 1

[极客大挑战 2019]BabySQL 1 审题 还是SQL注入和之前的是一个系列的。 知识点 联合注入,双写绕过 解题 输入万能密码 发现回显中没有or,猜测是使用正则过滤了or。 尝试双写绕过 登录成功 使用联合查询,本题中过滤了from,w…

全面解析:大数据技术及其应用

💓 博客主页:瑕疵的CSDN主页 📝 Gitee主页:瑕疵的gitee主页 ⏩ 文章专栏:《热点资讯》 全面解析:大数据技术及其应用 全面解析:大数据技术及其应用 全面解析:大数据技术及其应用 大…

七次课掌握 Photoshop:基础与入门

Photoshop 是 Adobe 公司开发的功能强大的图像处理软件,被广泛应用于平面设计、网页设计、摄影后期处理、UI 设计等多个领域。 ◆ ◆ ◆ Photoshop 中的核心概念 一、像素 像素(Pixel)是组成数字图像的基本单位,如同组成人体的细…

G2 基于生成对抗网络(GAN)人脸图像生成

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 基于生成对抗网络(GAN)人脸图像生成 这周将构建并训练一个生成对抗网络(GAN)来生成人脸图像。 GAN 原理概述 …

N-155基于springboot,vue宿舍管理系统

开发工具:IDEA 服务器:Tomcat9.0, jdk1.8 项目构建:maven 数据库:mysql5.7 项目采用前后端分离 前端技术:vue3element-plus 服务端技术:springbootmybatis-plus 本项目分为学生、宿舍管理…

友思特应用 | FantoVision边缘计算:多模态传感+AI算法=新型非接触式医疗设备

导读 基于多模态传感技术和先进人工智能技术可有效提升乳腺癌检测的精准性、性价比和效率。友思特 FantoVision 边缘计算机 则为其生物组织数据的高效传输和实时分析提供了坚实基础。 乳腺癌的新型医疗检测方式 乳腺癌是女性面临的最令人担忧的健康问题之一,早期发…

【热门主题】000029 ECMAScript:现代编程的基石

前言:哈喽,大家好,今天给大家分享一篇文章!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏关注哦 💕 目录 【热…

5G时代已来:我们该如何迎接超高速网络?

内容概要 随着5G技术的普及,我们的生活似乎变得更加“科幻”了。想象一下,未来的智能家居将不仅仅是能够听你说“开灯”;它们可能会主动询问你今天心情如何,甚至会推荐你一杯“维他命C芒果榨汁”,帮助你抵御夏天的炎热…

Navigating Net 算法简介

0. Inro \textbf{0. Inro} 0. Inro 1️⃣一些要用到的符号 ( U , dist ⁡ ) (U, \operatorname{dist}) (U,dist)为基础度量空间, S ⊆ U S \subseteq U S⊆U为包含 n ≥ 2 n \geq 2 n≥2个对象的 Input \text{Input} Input​ h ⌈ log ⁡ 2 diam ⁡ ( S ) ⌉ h\lef…

Java项目实战II基于Java+Spring Boot+MySQL的网上摄影工作室(源码+数据库+文档)

目录 一、前言 二、技术介绍 三、系统实现 四、文档参考 五、核心代码 六、源码获取 全栈码农以及毕业设计实战开发,CSDN平台Java领域新星创作者,专注于大学生项目实战开发、讲解和毕业答疑辅导。获取源码联系方式请查看文末 一、前言 随着互联网…

【Android 系统中使用CallStack类来追踪获取和操作调用栈信息】

Android系统CallStack类的使用 定义使用方法使用场景注意事项应用举例 定义 在 Android 系统中,CallStack 类是一个用于获取和操作调用栈信息的工具类。这个类通常用于调试和日志记录,以帮助开发者了解函数调用的顺序和位置。以下是您提供的代码片段的解…

IBM服务器修改IMM的IP方法

服务器设备:IBM x3550 M4 Server IMM默认IP地址:192.168.70.125 用户名:USERID 密码:PASSW0RD(注意是零0) 1.服务器开机按F1进入BIOS界面 2.进入System Settings 3.进入Integrated Management Module 4.…

【数据分享】1901-2023年我国省市县镇四级的逐年最高气温数据(免费获取/Shp/Excel格式)

之前我们分享过1901-2023年1km分辨率逐月最高气温栅格数据和Excel和Shp格式的省市县镇四级逐月最高气温数据,原始的逐月最高气温栅格数据来源于彭守璋学者在国家青藏高原科学数据中心平台上分享的数据!基于逐月数据我们采用求年平均值的方法得到逐年最高…

【前端】Vue3实现图片标点

前言 公司的业务要求可以在图片的位置上面进行标点,然后在现场对汽车桌椅可以实现按照标点进行质量检测。 技术栈 Vue3:https://cn.vuejs.org/index.htmlAnt Design Vue4.x:https://www.antdv.com/docs/vue/introduce-cn 图像标点 将画布…

FP7209M太阳能升压恒流一体测试板,带短路保护功能,软启动时间可调,应用于太阳能吸塑灯箱 商场便利店户外门头侧挂招牌广告牌led灯箱

太阳能灯箱用于城市主要街道、停车场、宾馆、旅游区、等夜间人群活动较多的公共场所照明的设备 太阳能广告灯箱凭借独特的设计理念为广告行业开辟一个全新的领域。不仅具有广告原有的宣传作用,还点亮了都市,小区的景观环境。在不需要架电线,电…

JS渗透(安全)

JS逆向 基本了解 作用域: 相关数据值 调用堆栈: 由下到上就是代码的执行顺序 常见分析调试流程: 1、代码全局搜索 2、文件流程断点 3、代码标签断点 4、XHR提交断点 某通js逆向结合burp插件jsEncrypter 申通快递会员中心-登录 查看登录包…

Imperva 数据库与安全解决方案

Imperva是网络安全解决方案的专业提供商,能够在云端和本地对业务关键数据和应用程序提供保护。公司成立于 2002 年,拥有稳定的发展和成功历史并于 2014 年实现产值1.64亿美元,公司的3700多位客户及300个合作伙伴分布于全球各地的90多个国家。…

工业网络监控中的IP保护与软件授权革新

未来的智能工厂离不开稳定而高效的通信网络,这些网络在支撑生产流程的同时,也面临着复杂的管理与安全挑战。PROCENTEC推出了一系列硬件和软件产品,如Atlas、Mercury和Osiris,以提供全面的网络监控和故障排除能力。然而&#xff0c…

基于springboot+vue实现的网上预约挂号管理系统 (源码+L文+ppt)4-104

结合现有六和医院网上预约挂号管理系统的特点,应用新技术,构建了六和医院网上预约挂号管理系统。首先从需求出发,对目前传统的六和医院网上预约挂号管理进行了详细的了解和分析。根据需求分析结果,对系统进行了设计,并…