突破AI性能瓶颈 揭秘LLaMA-MoE模型的高效分配策略

获取本文论文原文PDF,请在公众号【AI论文解读】留言:论文解读
e981973f6b9de2ef05c82dca08a56b64.jpeg

本文介绍了一种名为“LLaMA-MoE”的方法,通过将现有的大型语言模型(LLMs)转化为混合专家网络(MoE),从而解决了训练MoE时遇到的数据饥饿和不稳定性问题。该方法基于著名的LLaMA-2 7B模型,并将其参数分为多个专家,然后对转换后的MoE模型进行持续预训练以进一步提高性能。实验结果表明,在使用200B个标记进行训练后,LLaMA-MoE-3.5B模型在激活参数相似的情况下显著优于密集模型。

下载地址和项目代码见文末

af28e21b9d6674573fd9e8cd24c70d2e.jpeg

图1:构建LLaMA-MoE模型的主要框架。(a)LLaMA中的原始ffn被分为不同的专家。(b)在转换后的LLaMA-MoE中,隐藏状态是由部分选择的专家而不是所有的专家进行处理的。

专家构建

1. 概述

专家构建是将原始Feed-Forward Networks (FFNs)的参数划分为多个专家。传统的FFN层包含大量参数,这些参数可以被分解为多个子集,每个子集称为一个专家。通过这种方法,可以减少每次计算所需的激活参数数量,从而在保证模型性能的同时显著降低计算成本。

2. 参数划分方法

在构建专家时,常用的两种方法是独立神经元划分和共享神经元划分。

  • 独立神经元划分:这种方法将FFN中的神经元均匀地划分为多个子集,每个子集独立组成一个专家。例如,可以通过随机划分或基于聚类的方法来实现这种划分。随机划分是将所有神经元随机分配给不同的专家,而聚类方法则基于神经元的特征将其分配给不同的专家。

  • 共享神经元划分:与独立神经元划分不同,共享神经元划分允许多个专家共享部分神经元。这种方法可以通过评估神经元的重要性来决定哪些神经元需要共享。共享神经元的目标是保留模型的表示能力,同时减少计算资源的消耗。

3. 实践案例

在LLaMA-MoE模型的构建过程中,研究人员尝试了多种参数划分方法,最终发现随机划分方法(IndependentRandom)在保持模型性能方面效果最佳。这种方法简单而高效,有助于平衡不同专家之间的负载,避免某些专家过度频繁使用而其他专家很少被激活的问题。

9010b5901b938a513d85f6e8a9d68e6e.jpeg

持续预训练

1. 必要性

由于转换后的MoE模型在结构上与原始的密集模型(dense model)有所不同,直接使用转换后的模型可能会导致性能下降。为了恢复和提升模型的语言建模能力,必须对转换后的MoE模型进行持续预训练。

2. 预训练策略

在持续预训练阶段,研究人员使用了两种主要的数据采样策略:静态数据采样和动态数据采样。

  • 静态数据采样:使用固定的采样权重,从预定义的数据集中提取训练数据。这种方法简单直接,但可能无法充分适应不同训练阶段的需求。

  • 动态数据采样:根据模型在训练过程中的表现动态调整采样权重,以更好地优化模型性能。尽管这种方法可以提高训练效率,但也增加了计算复杂度。

3. 数据过滤

为了提高训练数据的质量,研究人员在预训练前对数据进行了过滤,去除了约50%的广告内容和约15%的非流利文本。这一策略有助于加快模型的收敛速度,提高训练效果。

1a42c1285ad1a8873681a5818f0a0c48.jpeg

17c79c2cd336907aa3e56b070a2c1aef.jpeg

增强推理能力

1. 激活部分模型参数

在处理具体任务时,MoE模型通过激活部分模型参数来提高推理能力。每个输入token仅激活与其最相关的几个专家,从而减少了不必要的计算。这种稀疏激活方式不仅提高了计算效率,还能在保持高性能的同时降低推理成本。

2. 性能提升

实验证明,经过200B tokens的预训练后,LLaMA-MoE-3.5B模型在多个下游任务上显著优于具有相同激活参数的密集模型。这一结果表明,通过适当的专家划分和持续预训练,MoE模型能够在保持语言能力的同时显著提升推理性能。

提高可解释性

1. 部分参数激活

由于每次仅有部分参数被激活,MoE模型在决策过程中的激活路径更加清晰。这使得研究人员能够更容易地追踪和解释模型的行为,了解模型是如何处理和响应不同输入的。

2. 实例分析

在实验中,研究人员观察到深层网络层比浅层网络层有更强的路由偏好,这意味着深层网络层捕捉更多任务特定的特征,而浅层网络层则更关注通用特征。这一发现有助于进一步优化专家划分策略,提高模型的整体性能。

降低计算成本

MoE(Mixture-of-Experts)模型相比传统的密集模型,通过只激活部分参数来处理输入,可以显著降低计算成本。传统的密集模型在处理每一个输入时都需要使用所有参数,这样随着模型容量的增加,计算成本也会急剧上升。而MoE模型则通过引入专家网络和门控网络,只激活一部分专家,从而降低了计算成本。

例如,LLaMA-MoE模型在构建过程中,将原始LLaMA模型的FFN(Feed-Forward Network)分割成多个专家网络。这种分割方法在维持模型性能的前提下,显著减少了需要激活的参数量,进而减少了计算开销。通过训练200B tokens,LLaMA-MoE-3.5B模型在激活参数量相当的情况下,显著优于类似的密集模型。

工程应用

MoE模型在需要高效推理的实际应用中展现出巨大的潜力。例如,在实时翻译和智能助手等场景中,计算成本的降低和推理效率的提高尤为重要。MoE模型可以根据输入动态选择合适的专家,从而实现快速而准确的推理。

以实时翻译为例,传统模型可能需要大量计算资源来处理复杂的语言转换,而MoE模型则能够通过激活少量专家,快速处理翻译任务,降低延迟并提高响应速度。同样地,在智能助手中,MoE模型可以根据用户的不同需求,动态分配计算资源,从而提供更加个性化和高效的服务。

理论研究

在模型架构设计和优化方面,MoE模型提供了新的思路和方法。传统模型在扩展过程中面临着计算成本急剧上升的挑战,而MoE模型通过稀疏激活部分参数,为解决这一问题提供了有效的途径。

研究表明,通过将密集模型的FFN参数随机分割成多个专家,并在每一层引入MoE模块,可以在保持模型性能的同时,减少计算开销。例如,独立随机拆分方法在实验中取得了最佳性能。与其他方法相比,该方法在专家和门控网络同时训练时,可以减少偏差,快速恢复模型的语言能力。

非重叠随机拆分法

非重叠随机拆分法通过随机拆分原始FFN的参数来构建专家,这种方法在实践中取得了显著效果。具体而言,给定一个包含所有中间神经元索引的集合U,通过将U随机分割成等大小的子集,从而构建出多个专家网络。这种方法能够在保持模型原有表示能力的基础上,减少计算复杂度。

在LLaMA-MoE模型的构建中,采用了非重叠随机拆分法,将FFN层中的中间神经元均匀分割成多个子集,每个子集对应一个专家网络。实验结果表明,该方法不仅在减少计算成本方面表现出色,还能够在持续预训练阶段快速恢复模型的语言能力。研究还发现,对专家输出进行重新缩放操作,可以显著提升MoE模型的性能。

通过这些研究和实践,MoE模型不仅在理论上提供了新的研究方向,还在实际应用中展现出了显著优势,为未来的大规模语言模型发展提供了重要参考。

共享神经元方法

共享神经元方法通过结构化裁剪来保留模型的部分表示能力,这种方法主要分为内部共享和外部共享两种策略。

1. 内部共享

内部共享策略主要是通过对神经元的重要性进行排序,并根据排序结果选择部分神经元进行共享。具体来说,首先对每个神经元进行重要性评估,可以使用一阶泰勒展开来度量每个神经元对损失变化的影响。然后,根据这些重要性分数,将最重要的神经元在不同的专家间共享,而其余神经元则分配给特定的专家。这种方法可以在不显著降低模型表示能力的情况下,实现有效的参数裁剪和共享。

2. 外部共享

外部共享策略则是在不同专家间直接共享部分神经元,而不进行重要性排序。这种方法通过预先定义的规则,将一些神经元设定为共享神经元,并将其余神经元分配给特定专家。这种方法的优点在于实现简单且计算开销较小,但可能在某些情况下无法达到内部共享策略所带来的性能提升。

数据采样权重

在训练过程中,数据采样权重的选择对模型的收敛速度和最终性能有重要影响。我们研究了静态和动态两种数据采样策略,以期获得最快的收敛速度和最佳的性能提升。

1. 静态采样

静态采样策略是指在训练过程中使用固定的采样权重,不随时间变化。这种方法的优点在于实现简单且计算开销较小,但可能无法适应数据分布的动态变化。

2. 动态采样

动态采样策略则会在训练过程中不断调整采样权重,以适应当前模型的训练需求和数据分布变化。具体来说,可以每隔一段时间(例如每2.5B tokens)调整一次采样权重,根据当前模型在不同数据域上的表现进行调整。这种方法虽然计算开销较大,但可以显著提升模型的收敛速度和性能。

数据过滤

为了加快模型的收敛速度,我们对训练数据进行了严格的质量过滤。具体来说,我们过滤掉了低质量的文本数据,如广告和不流畅的文本。

1. 广告过滤

广告通常包含大量冗余和无关信息,对模型的训练效果影响较大。我们通过特定的规则和算法,过滤掉了大约50%的广告数据,从而提升了数据集的整体质量。

2. 不流畅文本过滤

不流畅的文本通常表现为语法错误、拼写错误或逻辑不连贯。我们使用自然语言处理技术,过滤掉了大约15%的不流畅文本数据,从而进一步提升了模型的训练效率和效果。

实验设置

我们的实验在112个A100 (80G) GPU上进行训练,最大学习率为2e-4。训练数据集采用了SlimPajama,该数据集经过清洗和去重处理,包含627B tokens的数据。训练过程中,我们设置了全局批次大小为15M tokens,最大上下文长度为4096。在经过100步的热身训练后,学习率逐步下降到2e-5,采用余弦调度策略。整个训练过程中,我们对每个模型进行了13.6k步(约200B tokens)的训练。

通过以上方法和设置,我们成功构建并训练了LLaMA-MoE模型,并在多项任务中显著超越了同类模型。

实验结果

LLaMA-MoE-3.5B在多个下游任务上的表现显著优于其他具有相似激活参数的开源模型,如Sheared-LLaMA和Open-LLaMA-3B-v2。具体来说,LLaMA-MoE-3.5B(4/16)在各种任务中的平均分数超过了最具竞争力的模型Sheared-LLaMA 1.3分。此外,LLaMA-MoE-3.0B与Open-LLaMA-3B-v2表现相当。

在ARC-c和HellaSwag数据集上的表现显示,随着训练过程的推进,模型的性能稳步提升。尽管ARC-c的结果波动较大,但HellaSwag提供了较为平滑的结果。训练损失方面,LLaMA-MoE-3.0B和LLaMA-MoE-3.5B分别收敛到1.95和1.90,这两个模型激活的参数较少,因此损失较LLaMA-2 7B略高。

专家构建方法对比

在实验中,我们比较了四种不同的专家构建方法。结果显示,非重叠随机拆分法(IndependentRandom)表现最佳。这种方法在训练200B tokens后,表现出最佳的平均分数。相比之下,共享神经元构建方法(SharingInter和SharingInner)在初始阶段表现良好,但随着训练的进行,其性能显著下降。

我们还进行了专家输出重新缩放的消融研究,结果表明,重新缩放操作显著提高了MoE模型的性能。这表明,专家构建方法对模型最终性能有着重要影响,而重新缩放操作则进一步提升了专家的表现能力。

数据采样策略

在数据采样策略的比较中,静态采样权重策略(StaticSheared)在性能上优于动态采样策略。尽管StaticSheared在训练损失上并不是最低的,但其在下游任务上的表现最佳。动态采样权重策略(DynamicUniform和DynamicLLaMA)在训练损失上波动较大,显示出不稳定性。

在数据采样权重的变化中,我们发现不同策略对不同领域的数据有不同的权重分配。静态采样策略的权重在整个训练过程中保持不变,而动态采样策略的权重则随着训练的进行逐渐变化。这表明,数据采样策略的选择对模型的训练效率和最终性能有着重要影响。

数据过滤策略

数据过滤策略在提高模型性能方面也起到了关键作用。通过过滤掉广告和不流畅文本,训练损失显著降低。具体而言,过滤掉广告数据的方法在下游任务上的表现不如过滤不流畅文本的方法。这可能是由于广告数据中的知识和信息较多,被过滤掉的数量较大,从而影响了模型的性能。

基于这些结果,我们最终选择使用过滤掉不流畅文本的数据集进行训练。尽管没有引入新的数据集,但通过过滤部分低质量数据,我们加快了模型的收敛速度,并提高了模型的整体表现。

地址:https://arxiv.org/pdf/2406.16554    

代码:https://github.com/pjlab-sys4nlp/llama-moe

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/789031.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

一个项目学习Vue3---Vue3中自带的事件

1. .stop 阻止事件继续传播&#xff0c;即防止事件冒泡到父元素。 <div click.stop"handleClick">点击我</div> 2. .prevent 阻止事件的默认行为&#xff0c;比如阻止表单提交时的页面刷新。 <form submit.prevent"handleSubmit">阻…

提升困难生学工支持:智慧校园的新功能介绍

智慧校园的学工管理系统内嵌的困难生信息管理功能&#xff0c;是一个综合性的服务平台&#xff0c;专注于精准识别校园内的经济困难学生&#xff0c;并给予他们必要的帮助与关怀&#xff0c;确保每位学生都能在公平的环境中追求学业和个人成长。这一功能通过一系列信息化手段&a…

clickhouse-jdbc-bridge rce

clickhouse-jdbc-bridge 是什么 JDBC bridge for ClickHouse. It acts as a stateless proxy passing queries from ClickHouse to external datasources. With this extension, you can run distributed query on ClickHouse across multiple datasources in real time, whic…

自动清理群晖nas中的.TMP文件

公司某个部门需要使用群晖nas共享盘&#xff0c;对人员的相关权限有要求&#xff0c;部分人员对于某个文件夹&#xff0c;以及里面的文件不能有删除权限&#xff0c;在用户被剥夺了删除权限后&#xff0c;造成了一个问题&#xff0c;那就是这些没有删除权限的人员&#xff0c;在…

为何Expo成为React Native官方推荐框架?

在React Conf上&#xff0c;我们更新了关于构建React Native应用的最佳工具指南&#xff1a;一个React Native框架——一个工具箱&#xff0c;包含所有必要的API&#xff0c;让你可以构建生产就绪的应用。 现在&#xff0c;使用React Native框架&#xff08;如Expo&#xff09…

Github Action 自动部署更新静态网页服务

本文首发于 Anyeの小站&#xff0c;点击跳转 获得更优质的阅读体验 前言 贴一段胡话 在用过 应用&#xff1a;静态网页服务 之后&#xff0c;事实证明&#xff1a; 总而言之&#xff0c;自动化是一个很令人着迷的东西&#xff0c;摆脱重复繁琐的工作&#xff0c;解放了双手的…

【漏洞复现】锐捷校园网自助服务系统 任意文件读取

声明&#xff1a;本文档或演示材料仅用于教育和教学目的。如果任何个人或组织利用本文档中的信息进行非法活动&#xff0c;将与本文档的作者或发布者无关。 一、漏洞描述 锐捷校园网自助服务系统是用于学校网络管理的一个平台&#xff0c;login_judge.jsf接口存在任意文件读取…

Pix4Dmapper的奇幻之旅

初识Pix4Dmapper 在这个科技飞速发展的时代&#xff0c;Pix4Dmapper如同一位隐士&#xff0c;静静地伫立在无人机测绘的巅峰。初识它时&#xff0c;我仿佛走进了一片未知的领域&#xff0c;心中充满了好奇与期待。Pix4Dmapper&#xff0c;这款专业的摄影测量软件&#xff0c;凭…

基于JAVA+SpringBoot+Vue+uniApp小程序的心理健康测试平台

✌全网粉丝20W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取项目下载方式&#x1f345; 一、项目背景介绍&#xff1a; 该系统由三个核心角色…

练手项目---笔记大师

练手项目—笔记大师 项目地址 https://github.com/GXY00/NoteMaster/tree/master 给个⭐呗 项目功能实现 大部分功能已完成&#xff0c;少部分仍在学习中 主要用到的知识点&#xff1a; 开机动画&#xff1a;Timer、TimerTask登录注册功能&#xff1a;SQLitesharedPref…

亚马逊速卖通卖家必看:自养号测评策略,下单高效防关联全攻略

在跨境电商的激烈竞争中&#xff0c;自养号测评策略已成为众多卖家追求低成本、高效推广的优选路径。然而&#xff0c;其成功实施离不开一系列精心策划与严格执行的关键要素。以下是对这些核心条件的深入剖析&#xff0c;旨在指导您安全、有效地构建并运营自养号测评体系。 一、…

利用 Selenium 和 Python 实现网页新闻链接抓取

在网络数据分析和信息检索中&#xff0c;爬虫是一项非常重要的技术。爬虫可以自动化地从网页中提取信息&#xff0c;极大地提升数据收集的效率。本文将以一个具体的代码实例&#xff0c;讲解如何使用 Selenium 库进行网页新闻链接的抓取。 前期准备 在开始之前&#xff0c;需…

【C++报错已解决】Invalid Conversion from ‘const char*’ to ‘char*’

&#x1f3ac; 鸽芷咕&#xff1a;个人主页 &#x1f525; 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想&#xff0c;就是为了理想的生活! 文章目录 引言 ❓ 一、问题描述 &#x1f469;‍&#x1f52c;1.1 报错示例 &#x1f3c6;1.2 报错分析 &#x1f4da;1.3 解决…

Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce

章节内容 上节我们完成了&#xff1a; Sqoop 介绍Sqoop 下载配置环境等Sqoop 环境依赖&#xff1a;Hadoop、Hive、JDBC 等环境补全 背景介绍 这里是三台公网云服务器&#xff0c;每台 2C4G&#xff0c;搭建一个Hadoop的学习环境&#xff0c;供我学习。 之前已经在 VM 虚拟机…

项目实战--Spring Boot + GraphQL实现实时数据推送

背景 用户体验不断提升而3对实时数据的需求日益增长&#xff0c;传统的数据获取方式无法满足实时数据的即时性和个性化需求。 GraphQL作为新兴的API查询语言&#xff0c;提供更加灵活、高效的数据获取方案。结合Spring Boot作为后端框架&#xff0c;利用GraphQL实现实时数据推…

金蝶部署常见问题解决

金蝶部署常见问题解决 金蝶版本&#xff1a; Apusic Application Server Enterprise Edition 9.0 SP8 kbc build 202312041121 报错信息&#xff1a; 与金蝶官方人员沟通&#xff0c;发现lib包版本太低&#xff0c;升级后可正常使用。替换lib包后重启服务。 下载lib: 链接: …

Nacos 配置管理模型 -- 命名空间(Namespace)、配置分组(Group)和配置集ID(Data ID)

前言&#xff1a; 我们都知道 Nacos 既可以做注册中心&#xff0c;也可以做配置中心&#xff0c;本篇我们简单分享一下 Nacos 配置中心的几个重要概念&#xff0c;以及他们之间的关系&#xff0c;来帮助我们更深入的理解运用 Nacos 配置中心。 Nacos 系列文章传送门&#xff…

如何通过文件分发系统,实现能源电力企业文件的安全分发流转?

随着企业业务的快速发展&#xff0c;能源电力企业会在全国乃至全球&#xff0c;设立总部-分部-办事处/网点等多层级的结构&#xff0c;因此会涉及自动化的文件分发的业务场景。文件分发系统是一种将文件从一个地方自动传输到多个接收者的过程&#xff0c;可以提高工作效率&…

Leetcode刷题——7 滑动窗口 双指针

注&#xff1a;以下代码均为c 1. 两数之和2&#xff08;输入有序数组&#xff09; // 法1&#xff1a;暴力 vector<int> twoSum1(vector<int>& numbers, int target) {vector<int> ans(2);int n numbers.size();for(int i 0; i < n-1; i){if(i ! 0…

JAVA之开发神器——IntelliJ IDEA的下载与安装

一、IDEA是什么&#xff1f; IEAD是JetBrains公司开发的专用于java开发的一款集成开发环境。由于其功能强大且符合人体工程学&#xff08;就是更懂你&#xff09;的优点&#xff0c;深受java开发人员的喜爱。目前在java开发工具中占比3/4。如果你要走java开发方向&#xff0c;那…