Yuan 2.0-M32 是一个基于 Yuan 2.0 架构的双语混合专家 (MoE) 语言模型,旨在以更少的参数和计算量实现更高的准确率

主要创新点

  • 注意力路由器 (Attention Router): 提出了一种新的路由器网络,考虑了专家之间的相关性,从而提高了模型的准确率。
  • 高效计算: 使用 MoE 架构,40B 总参数中仅有 3.7B 激活参数,训练计算消耗仅为同规模密集模型的 9.25%,推理成本与 3.7B 参数的密集模型相当。
  • 性能优异: 在代码生成、数学解题、科学知识和推理等多个领域展现出与 Llama3-70B 等大型模型相当甚至更优的性能。
    模型结构
  • 基于 Yuan 2.0 架构,将每一层的密集前馈网络替换为 MoE 组件。
  • 每个 MoE 层包含一组独立的专家(FFN),注意力路由器负责将输入 token 分配给相关的专家。
  • 注意力路由器通过计算专家之间的相关性,选择最相关的专家参与计算,从而提高模型准确率。
    训练与评估
  • 使用 2000B 双语数据集从头开始训练。
  • 在代码生成、数学解题、科学知识和推理等多个基准测试中取得了优异的成绩。
  • 与其他 MoE 模型和密集模型相比,Yuan 2.0-M32 在准确率、参数效率和计算效率方面都展现出显著优势。
    开源与贡献
  • Yuan 2.0-M32 的模型和源代码已在 GitHub 上开源,为 LLM 和 AI 产业发展做出贡献。
    总而言之,Yuan 2.0-M32 是一个高效且性能优异的 MoE 语言模型,为大型语言模型的研究和应用提供了新的思路

根据 Yuan 2.0-M32 论文中的描述,我们可以总结出传统 MoE 模型的几个关键特点
1. 专家路由网络

  • 独立专家特征向量: 每个专家都有一个独立的特征向量,用于计算 token 与专家之间的相关性。
  • 计算相关性: 通过计算 token 与每个专家特征向量之间的点积,得到 token 与专家之间的概率分布。
  • 选择专家: 选择概率最高的专家参与计算,通常会选择多个专家,例如 top-K。
    2. 忽略专家相关性
  • 传统 MoE 模型中的专家是独立的,没有考虑专家之间的相关性。
  • 专家的选择仅仅基于 token 与专家自身的相关性,没有考虑专家之间的协作关系。
    3. 路由策略
  • 常见的路由策略包括:
    • softmax 路由: 计算概率分布后,选择概率最高的专家。
    • Noisy Top-K 路由: 引入噪声,平衡专家利用率。
    • Expert Choice 路由: 实现最优负载均衡。
      4. 计算效率
  • 传统 MoE 模型虽然可以扩展到更大的规模,但计算效率相对较低。
  • 随着 expert 数量的增加,计算量会显著增加。
    5. 性能
  • 传统 MoE 模型在准确率方面取得了不错的成绩,但仍有提升空间。
  • 论文中提到,Yuan 2.0-M32 通过引入 Attention Router,在传统 MoE 的基础上进行了改进,取得了更高的准确率。

根据论文内容,我们可以总结出 Yuan 2.0-M32 中 MoE 的具体实现方式如下:
1. 专家层结构

  • 每个 MoE 层由 32 个独立的专家(FFN)组成,每个专家负责处理特定的信息。
  • 专家层取代了 Yuan 2.0 中每个层的密集前馈网络。
    2. 注意力路由器
  • 注意力路由器负责将输入 token 分配给最相关的专家。
  • 路由器使用注意力机制计算 token 与专家之间的相关性,并选择相关性最高的专家参与计算。
  • 与传统 MoE 模型不同,注意力路由器考虑了专家之间的相关性,从而提高了模型准确率。
    3. 计算流程
  1. 计算注意力得分
    • 输入 token 经过线性变换得到 Q、K、V 向量。
    • 计算 Q 与 K 的点积,并进行 softmax 操作得到注意力得分 P。
    • P 表示 token 与每个专家的相关性,值越高表示相关性越强。
  2. 选择专家
    • 选择 P 中值最高的两个专家(M=2),将其激活并进行计算。
    • 论文中也进行了实验,发现使用 16 个专家和 32 个专家可以进一步提升模型准确率。
  3. 专家计算
    • 激活的专家对 token 进行处理,得到各自的输出。
    • 将所有激活专家的输出进行加权求和,得到 MoE 层的最终输出。
      4. 训练过程
  • 与 Yuan 2.0 类似,使用数据并行和流水线并行进行训练。
  • 没有使用张量并行和优化器并行。
  • 训练过程中,每个专家的参数都会更新,而未被激活的专家则不会参与计算,从而降低训练成本。
    5. 推理过程
  • 与训练过程类似,使用注意力路由器选择相关性最高的专家进行计算。
  • MoE 层的输出作为下一层的输入,最终得到模型的预测结果。
    总结
    Yuan 2.0-M32 中的 MoE 通过注意力路由器实现了高效的专家选择,并考虑了专家之间的相关性,从而在保证模型准确率的同时,降低了计算成本。这种 MoE 实现方式为大型语言模型的研究和应用提供了新的思路。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/675043.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

串口控制小车和小车PWM调速

1.串口控制小车 1. 串口分文件编程进行代码整合,通过现象来改代码 2.接入蓝牙模块,通过蓝牙控制小车 3.添加点动控制,如果APP支持按下一直发数据,松开就停止发数据(蓝牙调试助手的自定义按键不能实现)&…

fastadmin批量导入

表的字段必须备注清楚导出的excel表头必须对应上如果mysql表有约束,导入会自动限制,挺方便的一个功能。

STM32-14-FSMC_LCD

STM32-01-认识单片机 STM32-02-基础知识 STM32-03-HAL库 STM32-04-时钟树 STM32-05-SYSTEM文件夹 STM32-06-GPIO STM32-07-外部中断 STM32-08-串口 STM32-09-IWDG和WWDG STM32-10-定时器 STM32-11-电容触摸按键 STM32-12-OLED模块 STM32-13-MPU 文章目录 1. 显示器分类2. LCD简…

R语言探索与分析-股票题目

Value at Risk(VaR)是一种统计技术,用于量化投资组合在正常市场条件下可能遭受的最大潜在损失。它是风险管理和金融领域中一个非常重要的概念。VaR通常以货币单位表示,用于估计在给定的置信水平和特定时间范围内,投资组…

深度剖析云边对接技术:探索开放API接口的价值与意义

在当今数字化时代的浪潮中,云边对接与开放API接口成为了塑造行业生态的重要驱动力。随着云计算、物联网和边缘计算等技术的快速发展,传统产业正在迈向数字化转型的关键时刻。而在这个过程中,云边对接技术以及开放的应用程序接口(API)扮演着举…

最新张量补全论文收集【8篇】

目录 1、利用张量子空间先验:增强张量补全的核范数最小化和 2、基于可学习空间光谱变换的张量核范数多维视觉数据恢复 3、用于图像补全的增强型低秩和稀疏 Tucker 分解 4、多模态核心张量分解及其在低秩张量补全中的应用 5、 低秩张量环的噪声张量补全 6、 视…

MYSQL ORDER BY

在MySQL中,默认情况下,升序排序会将NULL值放在前面,因为在排序过程中,NULL会被视为最小值。然而,有时会要求在升序排序中需要将NULL值放在最后。 例如根据日期升序时就会出现这种问题 方案一: SELECT sor…

微服务学习Day8-Sentinel

文章目录 Sentinel雪崩问题服务保护框架Sentinel配置 限流规则快速入门流控模式流控效果热点参数限流 隔离和降级FeignClient整合Sentinel线程隔离(舱壁模式)熔断降级 授权规则及规则持久化授权规则自定义异常结果持久化 Sentinel 雪崩问题 服务保护框架…

【论文阅读——机器人操作】

1. 【2022CoRL MIT&GOOGLE】MIRA: Mental Imagery for Robotic Affordances 动机 人类能够形成3D场景的心理图像,以支持反事实想象、规划和运动控制。 解决方案 给定一组2D RGB图像,MIRA用nerf构建一致的3D场景表示,通过该表示合成新的…

最大的游戏交流社区Steam服务器意外宕机 玩家服务受影响

易采游戏网6月3日消息:众多Steam游戏玩家报告称,他们无法访问Steam平台上的个人资料、好友列表和社区市场等服务。同时,社区的讨论功能也无法正常使用。经过第三方网站SteamDB的确认,,这一现象是由于Steam社区服务器突…

MySQL远程连接

文章目录 MySQL远程连接(Linux)一、更改MySQL配置文件二、进入MySQL修改用户表host值三、使用其他电脑即可远程访问数据库MySQL远程连接(Linux)一、修改my.ini中的配置文件二、修改用户权限三、远程连接 MySQL远程连接(Linux) 以下MySQL远程连接:MySQL部署环境为Ubu…

数据库设计:实体关系图

一个良好的设计对于数据库系统至关重要,它可以减少数据冗余,确保数据的一致性和完整性,同时使得数据库易于维护和扩展。 实体关系图(Entity-Relationship Diagram、ERD)是一种用于数据库设计的结构图,它描…

金融科技赋能城商行,深度推动普惠金融发展

一、引言 在金融科技(FinTech)的浪潮下,普惠金融的理念得以迅速普及与实践。城市商业银行(城商行)作为地方金融的重要组成部分,在金融科技的助力下,不断推动普惠金融的深入发展。本文将详细探讨金融科技如何助力城商行推动普惠金融,并结合具体案例进行详尽分析。 二、…

【Qt】win10,QTableWidget表头下无分隔线的问题

1. 现象 2. 原因 win10系统的UI样式默认是这样的。 3. 解决 - 方法1 //横向表头ui->table->horizontalHeader()->setStyleSheet("QHeaderView::section{""border-top:0px solid #E5E5E5;""border-left:0px solid #E5E5E5;""bord…

修改缓存供应商--EhCache

除了我们默认的缓存形式simlpe之外, 我们其实还有许多其他种类的缓存供应 Ehcache就是其中的一种形式 Ehcache在SpringBoot当中的使用: 其实跟我们之前整合第三方的资源是一样的形式 1>导入依赖: <!-- 更换缓存, 将默认使用的 Simple 更换为Ehcache--> <depe…

现代密码学-基础

安全业务 保密业务&#xff1a;数据加密 认证业务&#xff1a;保证通信真实性 完整性业务&#xff1a;保证所接收的消息未经复制、插入、篡改、重排或重放 不可否认业务&#xff1a;防止通信双方的某一方对所发消息的否认 访问控制&#xff1a;防止对网络资源的非授权访问&…

2024年5月架构试题

2024年5月份架构师考试真题完整版 截至2024-5-28 19:24:14已全部收录完成 共75道选择题&#xff0c;5道案例题&#xff0c;4道论文题。题目顺序不分先后。 全网最全的2024年5月份架构师考试真题回忆版&#xff0c;包含答案和解析。 选择题 计算机基础 操作系统调度算法 选先来先…

Swift 中 @preconcurrency 修饰符使用浅谈

概述 Swift 6.0 与我们越来越近了&#xff0c;如何将旧范儿的并发代码装换为严格遵守 Swift 6.0 并发模型&#xff08; Strict Concurrency&#xff09;的新代码&#xff0c;这往往使得秃头码农们又要多抓掉几根头发了。 所以&#xff0c;为了最大限度的保持新旧两个并发世界暂…

Paddle实现单目标检测

单目标检测 单目标检测&#xff08;Single Object Detection&#xff09;是人工智能领域中的一个重要研究方向&#xff0c;旨在通过计算机视觉技术&#xff0c;识别和定位图像中的特定目标物体。单目标检测可以应用于各种场景&#xff0c;如智能监控、自动驾驶、医疗影像分析等…

玩转Linux进度条

准备工作&#xff1a; 一.关于缓冲区 首先&#xff0c;咱们先来一段有意思的代码&#xff1a; #include<stdio.h> #include<unistd.h> int main() {printf("you can see me");sleep(5);} 你可以在你的本地运行一下&#xff0c;这里我告诉大家运行结果…