谁会成为第一个MoE大模型基座呢?重磅!Mixtral MoE 8x7B!!!

文章目录

  • 谁会成为第一个MoE大模型基座呢?重磅!Mixtral MoE 8x7B!!!
    • 前言
    • 重磅!Mixtral MoE 8x7B!!!
    • Mixtral是啥
    • 模型介绍
    • 模型结构长啥样?
    • 表现如何?
    • 可以白嫖吗?
    • 哪里可以获取?

谁会成为第一个MoE大模型基座呢?重磅!Mixtral MoE 8x7B!!!

话放这里,我敢说Mixtral MoE 8x7B!!!
将会是MoE技术路线上的基座模型 !!!

前言

由Transformer衍生的大模型,主要有三条技术路线。

**1、 Encoder-Only:**以google的BERT为代表。

**2、 Encoder-Decoder:**以Meta的BART、清华大学的GLM、谷歌的T5、为代表。

**3、 Decoder-Only:**以OpenAI的GPT、谷歌的Bard、Meta的LLaMA等为代表

在这里插入图片描述

重磅!Mixtral MoE 8x7B!!!

那么就在刚刚,Mistral AI 发布了新的MoE技术路线的大模型MoE 8x7B!!!

MoE架构全称专家混合,也是GPT-4采用的方案,可以说这是开源大模型离GPT-4最近的一次了。

**没有发布会、没有宣传视频,只靠一个磁力链接!**感觉少了视频啊~

这个可比某歌在那发布的剪辑来剪辑去的视频要实在的多啊;狗头~~~

在这里插入图片描述

Mixtral是啥

Mixtral AI, 成立八个月,估值已达 20 亿欧元。 法国人工智能初创公司 Mistral AI 周日宣布已融资 3.85 亿欧元,主要来自美国集团,成为欧洲两大人工智能冠军之一。

Mistral AI 去年 5 月由三名法国人工智能专家联合创立,首席执行官 Arthur Mensch,31 岁!他们曾在 X 或 ENS 受过美国巨头聘用,但后来决定返回巴黎,目前拥有 22 名员工。

Mistral AI 在 6 月份已经筹集了 1.05 亿美元,在欧洲人工智能公司中,只有德国 Aleph Alpha 拥有如此多的资金,而在 11 月初筹集了近 5 亿欧元。

Mistral AI 的支持者包括软件发行商 Salesforce 等几家美国科技巨头,听说,还有全球超级计算机芯片专家 Nvidia 集团。

模型介绍

估计没啥人看,简单说两句吧~

Mixtral-8x7B-32K MoE模型主要由32个相同的MoEtransformer block组成。MoEtransformer block与普通的transformer block的最大差别在于其FFN层替换为了MoE FFN层。在MoE FFN层,tensor首先会经过一个gate layer计算每个expert的得分,并根据expert得分从8个expert中挑出top-k个expert,将tensor经过这top-k个expert的输出后聚合起来,从而得到MoE FFN层的最终输出,其中的每个expert由3个Linear层组成。值得注意的是,mixtral MoE的所有Norm Layer也采用了和LLama一样的RMSNorm,而在attention layer中,mixtral MoE的QKV矩阵中的Q矩阵shaoe为(4096,4096),K和V矩阵shape则为(4096,1024)。

具体介绍可以从这里获取!

模型结构长啥样?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

表现如何?

性能数据:

  • 所有数据来源自OpenCompass

Mistral-8x7B-MoE的具体性能数据未全部公开,社区评测显示,Mistral的表现超越了前身Mistral-7B,甚至在某些领域接近或超越了GPT-4。这一性能提升,OpenCompass 的最新基准测试结果显示 Mixtral-8x7B 超过 llama-2-70B,哟西~~~

DatasetsModeMistral-7B-v0.1Mixtral-8x7BLlama2-70BDeepSeek-67B-BaseQwen-72B
MMLUPPL64.171.369.771.977.3
BIG-Bench-HardGEN56.767.164.971.763.7
GSM-8KGEN47.565.763.466.577.6
MATHGEN11.322.712.015.935.1
HumanEvalGEN27.432.326.240.933.5
MBPPGEN38.647.839.655.251.6
ARC-cPPL74.285.178.386.892.2
ARC-ePPL83.691.485.993.796.8
CommonSenseQAPPL67.470.478.370.773.9
NaturalQuestionGEN24.629.434.229.927.1
TrivialQAGEN56.566.170.767.460.1
HellaSwagPPL78.982.082.382.385.4
PIQAPPL81.682.982.582.685.2
SIQAGEN60.264.364.862.678.2

可以白嫖吗?

MistralAI使用的是Apache-2.0开源协议,那就意味着Mistral-8x7B-MoE可免费商用!!

开源不仅降低了使用门槛,还促进AI领域的创新和发展,部署Mixtral 8x7B 大概需要 100G 显存,消费级显卡也能运行咯。

哪里可以获取?

1、 上面的磁力链接;

2、 科学上网这里;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/237071.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Python从入门到精通五:Python数据容器

数据容器入门 为什么学习数据容器 思考一个问题:如果我想要在程序中,记录5名学生的信息,如姓名。 如何做呢? 学习数据容器,就是为了批量存储或批量使用多份数据 Python中的数据容器: 一种可以容纳多份…

HCIA-H12-811题目解析(10)

1、【单选题】DHCP客户端在租期到达哪个比例时第一次发送续租报文? 2、【单选题】在WLAN中用于标识无线网络, 区分不同的无线网络的是? 3、【单选题】我们在笔记本电脑上搜索可接入无线网络时,显示出来的网络名称实际是 4、【单…

哪些原因导致MES管理系统实施项目失败

在制造业中,实施MES管理系统是一种提高生产效率、降低成本、提升质量的重要手段。然而,许多MES管理系统实施项目并未取得预期的成功,甚至失败。本文将探讨导致MES管理系统实施项目失败的原因。 1、需求不明确 在MES实施项目中,需…

Java-异常(一)-异常的概述和常见异常的举例

🐶b站视频 124-异常处理-异常的概述与常见异常的举例_哔哩哔哩_bilibili 目录 b站视频 5.1 异常概念 5.2 Error 示例代码 5.3 Exception异常划分 ❓面试题:常见的异常有哪些?举例说明 🐶5.1 异常概念 在使用计算机语言进行…

基于SSM的校园心理健康网站的设计与实现

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:采用JSP技术开发 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目&#x…

PostGIS学习教程十二:地理

PostGIS学习教程十二:地理 坐标为"地理(geographics)“形式或者说是” 纬度(latitude)/经度(longitude)"形式的数据非常常见。 与Mercator(墨卡托)、UTM&…

【jitterbuffer】2:OnCompleteFrameCallback 送去FrameBuffer 处理的流程

【jitterbuffer】2:OnCompleteFrameCallback 送去FrameBuffer 处理的流程 基于m98版本。 WebRtc Video Receiver(六)-FrameBuffer原理 大神有个详细的论述。 Finder的FID设计 H.264 没有FID,使用RtpSeqNumOnlyRefFinder ,比较复杂,要做出决定 RtpSeqNumOnlyRefFinder cla…

canvas 有趣的弹簧效果

先上效果 两个小球之间有一根弹簧,这里有一条线表示,其中左球固定,在点击开始后,右球开始做自由落体 思路 先做受力分析 经过受力分析可以发现,整个系统一共有三个力在起作用,我们分别把他们求出来并合成…

鸿蒙原生应用再添新丁!同花顺入局鸿蒙

鸿蒙原生应用再添新丁!同花顺入局鸿蒙 来自 HarmonyOS 微博12月11日消息,同花顺已完成#鸿蒙原生应用#beta版本,并正在进行全量版本开发,进一步丰富了#鸿蒙原生应用#的覆盖领域。同花顺作为股民和券商首选的一站式金融理财服务平台…

搜集怎么绘制三维曲线和曲面?

1、针对函数对象是单一变量、两个函数的情况。用plot3函数;(三维曲线) 看一下matlab官方的例子: t 0:pi/50:10*pi; st sin(t); ct cos(t); plot3(st,ct,t) 绘制出来的曲线: 几个比较关键的点: &…

Linux系统编程(一):基本概念

参考引用 Unix和Linux操作系统有什么区别?一文带你彻底搞懂posix Linux系统编程(文章链接汇总) 1. Unix 和 Linux 1.1 Unix Unix 操作系统诞生于 1969 年,贝尔实验室发布了一个用 C 语言编写的名为「Unix」的操作系统&#xff0…

nginx中的正则表达式及location和rewrite

目录 常用的Nginx 正则表达式 location和rewrite的区别 location location 大致可以分为三类 location 常用的匹配规则 location 优先级 location 示例说明 location优先级的总结 rewrite rewrite的功能 rewrite实现跳转的条件 rewrite的执行顺序 rewrite的语法格式…

C# 任务的异常和延续处理

写在前面 当Task在执行过程中出现异常或被取消等例外的情况时,为了让执行流程能够继续进行,可以使用延续方法实现这种链式处理;还可以针对前置任务不同的执行结果,选择执行不同的延续分支方法。子任务执行过程中的任何异常都会被…

【收获】成长之路

目录 一、前言二、计算机方面三、专业知识方面四、总结 一、前言 四年,对于一个人的成长来说,是一个相当重要的阶段。在这段时间里,我经历了许多挑战、收获了许多成就,也在不断地成长和改变。回首这四年的点点滴滴,我深…

linux docker 怎么更换镜像源

要设置Docker镜像,您可以按照以下步骤进行: 1. 打开终端并登录到Docker主机上。 运行以下命令来编辑 Docker 的配置文件 "/etc/docker/daemon.json"(如果不存在则新建): sudo nano /etc/docker/daemon.js…

Django系列之Celery异步框架+RabbitMQ使用

在Django项目中,如何集成使用Celery框架来完成一些异步任务以及定时任务呢? 1. 安装 pip install celery # celery框架 pip install django-celery-beat # celery定时任务使用 pip install django-celery-results # celery存储结果使用2. Django集成…

URIBuilder与SSRF

在使用一个静态扫描工具时,报了一个SSRF的问题,经过数据流的分析,导致此工具报SSRF的原因是在调用URIBuilder的setPath函数时,参数是从请求里获取的,导致了数据流被污染,因此认为由URIBuilder构造的URL也被…

作为一个产品经理带你了解Axure的安装和基本使用

1.Axure的简介 Axure是一种强大的原型设计工具,它允许用户创建交互式的、高保真度的原型,以及进行用户体验设计和界面设计。Axure可以帮助设计师和产品经理快速创建和共享原型,以便团队成员之间进行沟通和反馈。Axure提供了丰富的交互组件和功…

【EI会议征稿中|JPCS出版】第三届电子与集成电路技术国际学术会议(EICT 2024)

第三届电子与集成电路技术国际学术会议(EICT 2024) 2024 3rd International Conference on Electronics and Integrated Circuit Technology 第三届电子与集成电路技术国际学术会议(EICT 2024)将于2024年4月12至14日在南昌市举行…

Vue3封装一个轮播图组件

先看效果 编写组件代码 CarouselChart.vue <template><div classimg-box><el-button clickpreviousImages v-ifprops.showBtn>←</el-button><div classimg><div styledisplay: flex;gap: 20px idmove><imgclassimg-item v-for(item…