Mistral AI 推出高质量的稀疏专家混合AI人工智能模型——SMoE,有望超越ChatGPT3.5

Mistral AI(“Mistral AI”是一家由前DeepMind和Meta Platforms(META.US)的研究人员组建的新公司。)继续履行为开发者社区提供最佳开放模型的使命。他们发布了 Mixtral 8x7B,这是一个高质量的稀疏专家混合模型(SMoE),拥有开放权重,该模型的性能在大多数基准测试中优于 Llama 2 70B,推理速度提高了6倍。

Mixtral 是一个稀疏的专家混合网络,可以处理 32k 令牌的上下文,并且能够处理英语、法语、意大利语、德语和西班牙语。它在代码生成方面表现出强大的性能,还可以通过微调成为指令跟踪模型。Mixtral 的稀疏架构使其在控制成本和延迟的同时增加了模型的参数数量,从而提高了性能。与 Llama 2相比,Mixtral 更真实,并且在偏见方面表现较少。

此外,Mixtral 可以优雅地指定禁止某些输出,以满足需要严格审核的应用程序的要求。为了让社区能够使用完全开源的堆栈运行 Mixtral,他们已向 vLLM 项目提交了更改。最后,他们感谢 CoreWeave 和 Scaleway 团队在模型训练中的技术支持。

Mixtral 具有以下功能:

  1. 上下文处理能力:它似乎可以轻松地处理长达32,000个令牌的上下文,这表明它具有处理大量文本信息的能力。
  2. 多语言支持:该模型支持多种语言,包括英语、法语、意大利语、德语和西班牙语。这使得它更加灵活,适用于不同的语境和用户群。
  3. 代码生成性能:模型在代码生成方面表现出强大的性能。这可能意味着它能够生成高质量的源代码或者在与代码相关的任务上表现出色。
  4. 微调能力:该模型可以进行微调,使其适应特定的任务,比如指令跟踪模型。这增加了模型的灵活性,使其可以在不同领域取得更好的性能。
  5. MT-Bench性能:在MT-Bench上获得8.3分重写一次。这可能指的是模型在机器翻译任务上的性能评分。

通过稀疏架构推动开放模型的前沿:

Mixtral 是一个稀疏的专家混合网络。它是一个纯解码器模型,其中前馈块从一组8个不同的参数组中进行选择。在每一层,对于每个令牌,路由器网络选择其中的两个组(“专家”)来处理令牌并相加地组合它们的输出。

该技术增加了模型的参数数量,同时控制了成本和延迟,因为该模型仅使用每个令牌总参数集的一小部分。具体来说,Mixtral 共有46.7B 个参数,但每个代币仅使用12.9B 个参数。因此,它以与12.9B 模型相同的速度和相同的成本处理输入并生成输出。

Mixtral 根据从开放网络提取的数据进行了预训练——同时训练专家和路由器。

表现方面:

研发团队将 Mixtral 与 Llama 2系列和 GPT3.5基础模型进行比较。 Mixtral 在大多数基准测试中均匹配或优于 Llama 2 70B 以及 GPT3.5。

在下图中,研发团队衡量了质量与推理预算的权衡。与 Llama 2型号相比,Mistral 7B 和 Mixtral 8x7B 属于高效型号系列。

下表给出了上图的详细结果。

幻觉和偏见。为了识别可能的缺陷,通过微调/偏好建模来纠正,研发团队在 TruthfulQA/BBQ/BOLD 上测量基本模型的性能。

与 Llama 2相比,Mixtral 更真实(在 TruthfulQA 基准上为73.9%vs 50.2%),并且在 BBQ 基准上呈现出更少的偏差。总体而言,Mixtral 在 BOLD 上比 Llama 2显示出更积极的情绪,每个维度内的差异相似。语言方面: Mixtral 8x7B 精通法语、德语、西班牙语、意大利语和英语。

指导模型:

研发团队与 Mixtral 8x7B 一起发布了 Mixtral 8x7B Instruct。该模型已通过监督微调和直接偏好优化 (DPO) 进行优化,以仔细遵循指令。在MT-Bench上,它达到了8.30的分数,使其成为最好的开源模型,性能可与GPT3.5相媲美。

使用开源部署堆栈部署 Mixtral:

为了使社区能够使用完全开源的堆栈运行 Mixtral,我们已提交对 vLLM 项目的更改,该项目集成了 Megablocks CUDA 内核以实现高效推理。Skypilot 允许在云中的任何实例上部署 vLLM 端点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/241585.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【数据结构与算法】JavaScript实现图结构

文章目录 一、图论1.1.图的简介1.2.图的表示邻接矩阵邻接表 二、封装图结构2.1.添加字典类和队列类2.2.创建图类2.3.添加顶点与边2.4.转换为字符串输出2.5.图的遍历广度优先搜索深度优先搜索 2.6.完整实现 一、图论 1.1.图的简介 什么是图? 图结构是一种与树结构…

stateflow 之图函数、simulink函数和matlab函数使用及案例分析

目录 前言 1. 图函数graph function 2.simulink function 3.matlab function 4.调用stateflow中的几种函数方式 前言 对于stateflow实际上可以做simulink和matlab的所有任务,可以有matlab的m语言,也可以有simulink的模块,关于几种函数在…

Ansible中执行流控制

1.ansible中的迭代循环 创建目录和文件 vim createfile.yaml - name: create file playbook hosts: all tasks: - name: create file file: path: "/mnt/{{item[name]}}" state: …

小新Air-14 Plus 2021款AMD ACN版(82L7)原装出厂Win11系统镜像

LENOVO联想笔记本开箱状态原厂Windows11系统包 链接:https://pan.baidu.com/s/1D_sYCJAtOeUu9RbTIXgI3A?pwd96af 提取码:96af 联想小新AIR14笔记本电脑原厂系统自带所有驱动、出厂主题壁纸、Office办公软件、联想电脑管家等预装程序 所需要工具&am…

【C语言】RDMACM、Verbs API与epoll一起使用的示例

一、epoll介绍 epoll是Linux内核为处理大批量文件描述符而作了改进的poll,是Linux下多路复用IO接口select/poll的增强版本,它能显著提高程序在大量并发连接中只有少量活跃的情况下的系统CPU利用率。 以下是epoll的主要使用方法和优点: epo…

【python】多任务编程

python多任务编程 有哪些编程提速的方法 单线程串行:不加改造的程序 多线程并发:利用CPU和IO可以同时执行的原理,让CPU不会干巴巴等待IO完成 多CPU并行/多进程:利用多核CPU的能力,真正的并行执行任务 多机器并行&#…

快速学习Java Agent

1.1 java agent原理 我们知道,要使用Skywalking去监控服务,需要在其 VM 参数中添加 “- javaagent:/usr/local/skywalking/apache-skywalking-apm-bin/agent/skywalking-agent.jar"。这里就 使用到了java agent技术。 Java agent 是什么&#xff…

python tkiinter中滑块的使用

需求:需要在Canvas组件上添加滑块功能 解决:使用tkinter提供的Scrollbar组件,由于没发现直接在画布上显示滑块功能的方法,所以后面采用在显示画布的容器上显示滑块,并绑定到画布上。 具体案例demo: from t…

视频滤波驱动器电路D1671 D1675的性能描述和分析

D1671四阶标清视频滤波器驱动,1CH,工作电压2.8V~5.5V,转换速率40V/s D1675六阶高清视频滤波器驱动,1CH,工作电压2.5V~5.5V,转换速率400V/s

02鸿蒙APP真机运行及证书签名打包

目录 1、真机运行1.1、运行安装错误1.2、解决方案:第一步:安装兼容真机的sdk版本2.2.0(API6),如下图所示:第二步:新建一个API6的工程项目第三步:运行API6创建的工程项目第四步&#…

如何提高嵌入式软件工程师的技术深度?

今日话题,如何提高嵌入式软件工程师的技术深度?建立坚实的基础知识是深入研究的关键。只有深入理解基础知识,才能在理论指导下不断深化和扩展自己的技术。没有坚实的基础,深入研究就显得空中楼阁。如果你有兴趣进入嵌入式行业我可…

数据库——安全性

智能2112杨阳 一、目的与要求: 1、设计用户子模式 2、根据实际需要创建用户角色及用户,并授权 3、针对不同级别的用户定义不同的视图,以保证系统的安全性 二、内容: 先创建四类用户角色: 管理员角色Cusm、客户角…

初级数据结构(三)——栈

文中代码源文件已上传&#xff1a;数据结构源码 <-上一篇 初级数据结构&#xff08;二&#xff09;——链表 | 初级数据结构&#xff08;四&#xff09;——队列 下一篇-> 1、栈的特性 1.1、函数栈帧简述 即使是刚入门几天的小白&#xff0c;对栈这个字…

Linux——MySQL数据库系统()

一、访问MySQL数据库 MySQL数据库系统也是一个典型的C/S(客户端/服务器&#xff09;架构的应用&#xff0c;要访问MySQL数据库需要使用专门的客户端软件。在Linux系统中&#xff0c;最简单、易用的MySQL客户端软件是其自带的mysql命令工具。 1、登录到MySQL服务器经过安装后的初…

深入理解TheadLocal的使用场景和注意事项

前言 在日常实际开发当中我们往往会看到项目中有使用 ThreadLocal 的场景&#xff0c;大多数人有时候可能涉及不到自己的业务则没有进行关注。通常我在看代码时对于一些未知的东西常常引起我的好奇&#xff0c;我往往会分析&#xff1a;为什么要这么做&#xff1f;好处是什么&…

一文看懂支付前链路流程

一文看懂支付前链路流程 前序 首先支付流程讲究的就是快&#xff0c;还有就是订单的冲入&#xff0c;我们不能说一笔交易订单进来都加一个分布式锁去解决&#xff0c;所以我们目前常用的做法就是一个订单进来&#xff0c;首先落库&#xff0c;如果落库失败&#xff0c;并且是…

用XAMPP在Windows系统构建一个本地Web服务器

用XAMPP在Windows系统构建一个本地Web服务器 Build a Local Web Server for Windows with XAMPP By JacksonML 本文简要介绍如何获取和安装XAMPP以实现Windows环境下本地Web服务器的过程&#xff0c;希望对广大网友和学生有所帮助。 所谓本地Web服务器&#xff0c;即使用本地…

UML-认识6种箭头(画类图无烦恼)

文章目录 一、背景二、箭头详解2.1 泛化&#xff08;Generalization&#xff09;2.2 实现&#xff08;Realize&#xff09;2.3 依赖&#xff08;Dependency&#xff09;2.4 关联&#xff08;Association&#xff09;2.5 聚合&#xff08;Aggregation&#xff09;2.6 组合&#…

24V降12V2A同步降压芯片WT6023A

24V降12V2A同步降压芯片WT6023A 今天给大家带来一款高性能的DC/DC转换器WT6023A&#xff0c;快来一起了解一下吧&#xff01; WT6023A是一款采用抖动频率模式控制架构的高效、单片同步降压型DC/DC转换器&#xff0c;能够提供高达6A的连续负载&#xff0c;具有出色的线路和负载…

BugKu-Web-Flask_FileUpload(模板注入与文件上传)

Flask Flask是一个使用Python编写的轻量级Web应用框架。它是一个微型框架&#xff0c;因为它的核心非常简单&#xff0c;但可以通过扩展来增加其他功能。Flask的核心组件包括Werkzeug&#xff0c;一个WSGI工具箱&#xff0c;以及Jinja2&#xff0c;一个模板引擎。 Flask使用BSD…