优雅谈大模型11:Mistral

大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调或者LLM背后的基础模型新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。

Mistral 7B是AI社区中讨论最多的语言模型之一,它是由Mistral AI于 2023年10月在论文“Mistral 7B”中引入的,Mistral AI是一家法国初创公司,也是目前开源大型语言模型研发的领先公司。正如在原始论文中提到的那样,Mistral经过精心设计,具有卓越的性能和效率,优于最好的开放式13B。在初步介绍了Transformer的架构以及注意力机制之后,将Mistral 7B的介绍放在这个时间节点,目前是对两者进行对比,让读者有更深的印象。

Mistral 7B

Mistral 7B 是decoder-only的模型,这意味着它有着类似于transformer架构的解码器模块。如今大多数语言模型都是解码器模型,因为它们的场景不是服务于双向处理的文本生成。Mistral 7B使用大小为4096的Embedding<移步“初识Embedding”>,这意味着每个标记都由 4096 维向量表示。注意力块有32个head<移步“深入注意力机制”>,而Transformer 有8个head,但Mistral使用multi-head注意力机制的变种,带有滑动窗口的分组查询的注意力 (GQA-Grouped Query Attention)。Mistral 7B的上下文长度为 8192,这意味着在预测序列中的下一个Token,它最多可以带上8192个Tokens。

滑动窗口注意力

Mistral 7B引入的较新概念之一是滑动窗口注意力,而不是通常的多头注意力。在正常的self-attention的机制中,每个Token都和它前面的所有Token都进行注意力分析。而Mistral采用的方式则是使用大小为 w 的滑动窗口,该窗口不允许Token与超出窗口的Token进行注意力联动。

如上图所示,窗口大小为3与因果掩码一起极大地有助于加快训练和推理速度,执行了更少的点积计算。聪明的读者会想到会不会导致输出质量下降,毕竟无法捕获完整的上下文。

其实大语言模型由多个相互堆叠的转换器块(Block)组成,意味着有n个转换器块一个堆叠一个。在 Mistral 7B 的情况下是 32 个。这允许Token间接查找与其他Token的关系。

如上图最左侧的图形所示,引入了滑动窗口,Token之间的注意力就需要间接的关联。虽然“on”不考虑第一个单词“The”,但由于堆叠变压器块的传递性质,“on”一词间接地与“The”一词有关。大白话的讲,滑动窗口注意力机制将直接注意力限制在有限的窗口,然后通过多层转换器的模块使得信息在整个序列中传播。<有点类似CNN,下图左>。

滚动缓冲区

Mistral的另一个主要组件是具有滚动缓冲区的KV Cache。由于Mistral是仅解码器模型,因此它是围绕着针对下个Token的预测任务进行训练。

它的推理方式是:从开始Token的特殊令牌为输入开始的标记,然后生成第一个Token。紧接着使用开始Token和第一个生成的Token作为上下文生成第二个Token,如此类推,直到遇到另一个称为结束Token的特殊Token。

因此,在每个时间步都会预测下个Token,将其与输入连接起来并重复该过程。为了避免重复在上个时间步中已计算过的的大量冗余计算,Mistral 采用一种称为键值(KV) 缓存的方法来优化此过程,其中仅缓存键和值向量,同时在每个步骤更新查询向量。这允许模型在多个步骤中重复的使用键和值向量,从而减少冗余计算加快推理速度。

Mistral在注意力块中采用了滑动窗口技术,因此不需要对不属于窗口大小的Token执行计算。因此缓存的大小限制在滑动窗口的范围。在实际工作中,它会循环覆盖之前的缓存,节省了空间的占用率。

当然,语言模型通常与一些PROMPT一起配合使用,由于在 Mistral 中使用了 KV 缓存,可以进行预填充KV缓存。如果PROMPT非常大,可以将其分块成更小的块,并用每个块预填充缓存。

Mixtral 8x7B

Mistral AI还在2024年1月的论文“Mixtral of Experts”中介绍了Mixtral 8x7B,它与Mistral 7B具有相同的架构,但引入了稀疏混合专家的概念,其中每层由8个前馈块组成,称为专家<具体可以移步链接>。专家混合是一种集成技术,在这种技术中,有多个“专家”模型,每个模型都对数据的一个子集进行训练,然后将专家的输出组合在一起以产生一个单一的输出。

Mixtral 8x7B和Mixtral 7B的参数对比

在Mixtral 8x7B中,对于每个Token,路由器网络在每一层都会选择两个专家来处理当前状态并组合他们的输出。因此,每个Token都可以访问 47B参数,但在推理过程中仅使用13B的激活参数。如此可以训练一个具有大量参数的语言模型来捕获更多信息,但不会牺牲推理时间。

下面为一个例子,专家的选择似乎更多地与语法而不是领域保持一致,尤其是在初始层和最终层。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/707979.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

tcp协议机制的总结(可靠性,提高性能),基于tcp的应用层协议,用udp如何实现可靠传输

目录 总结 引入 可靠性 ​编辑 分析 三次握手 提高性能 其他 常见的基于tcp应用层协议 用udp实现可靠传输 总结 引入 为什么tcp要比udp复杂的多? 因为它既要保证可靠性,又要兼顾性能 可靠性 分析 其中,序列号不止用来排序,还可以用在重传时去重 确认应答是机制中的…

618有什么值得推荐?2024数码产品推荐,轻松拿捏选购!

随着618购物节即将来临&#xff0c;你是否已被琳琅满目的商品所吸引&#xff0c;难以抉择&#xff1f;团团特意为你筛选出一系列经过亲身试验的优质好物&#xff0c;旨在帮助你在这场购物盛宴中迅速锁定心仪之选。这些推荐不仅走在时尚的前沿&#xff0c;更能满足你日常生活的各…

AUTOSAR学习

文章目录 前言1. 什么是autosar&#xff1f;1.1 AP&#xff08;自适应平台autosar&#xff09;1.2 CP&#xff08;经典平台autosar)1.3 我的疑问 2. 为什么会有autosar3.autosar的架构3.1 CP的架构3.1.1 应用软件层3.1.2 运行时环境3.1.3 基础软件层 3.2 AP的架构 4. 参考资料 …

软件测试分类介绍

大家好&#xff0c;软件测试是确保软件质量的关键环节之一&#xff0c;通过对软件系统的各个方面进行测试&#xff0c;可以发现和解决潜在的问题&#xff0c;提高软件的稳定性、可靠性和用户满意度。在软件测试领域&#xff0c;根据测试的目的、方法和对象的不同&#xff0c;可…

LLM大模型的挑战与未来,挑战大但是机遇更大!

大模型必然是未来很长一段时间我们工作生活的一部分&#xff0c;而对于这样一个与我们生活高度同频互动的“大家伙”&#xff0c;除了性能、效率、成本等问题外&#xff0c;大规模语言模型的安全问题几乎是大模型所面对的所有挑战之中的重中之重&#xff0c;机器幻觉是大模型目…

揭秘!wifi贴项目市场到底怎么样??

在共享经济市场中WiFi贴这个看似微小的项目&#xff0c;正逐渐散发出它独特的光芒。它的出现既充满了希望又伴随着疑惑&#xff1a;WiFi贴项目的真正面貌究竟如何&#xff1f;让我们一同揭开这神秘面纱。 首先&#xff0c;我们必须理解WiFi贴的本质&#xff1a;它由微火的罗经理…

【每日刷题】Day63

【每日刷题】Day63 &#x1f955;个人主页&#xff1a;开敲&#x1f349; &#x1f525;所属专栏&#xff1a;每日刷题&#x1f34d; &#x1f33c;文章目录&#x1f33c; 1. 414. 第三大的数 - 力扣&#xff08;LeetCode&#xff09; 2. 2265. 统计值等于子树平均值的节点数…

农业领域科技查新点提炼方法附案例!

农业学科是人类通过改造和利用生物有机体(植物、动物、微生物等)及各种自然资源(光、热、水、土壤等)生产出人类需求的农产品的过程&#xff0c;人类在这一过程中所积累的科学原理、技术、工艺和技能&#xff0c;统称为农业科学技术&#xff0c;该领域具有研究范围广、综合性强…

音乐APP界面设计步骤详解

伴随着互联网的迅速发展&#xff0c;许多与因特网相关的职位应运而生&#xff0c;UI界面设计师是因特网的核心职位之一。UI界面设计已经渗透到我们生活的方方面面&#xff0c;包括网站、应用程序或其它数字平台上的按钮、菜单布局、配色方案和排版。很多人认为 UI界面设计只是关…

计算机图形学入门12:纹理映射

1.问题 如上图所示&#xff0c;前面的内容已经知道怎么对物体进行着色&#xff0c;在球和地板上出现了不同的颜色&#xff0c;也就是定义了不同的kd颜色系数&#xff0c;那么如何在物体不同位置定义不同属性呢&#xff1f; 2.纹理映射 2.1什么是纹理映射 如上图球的表面贴上一…

探索Jetpack Compose中的高效导航库:Voyager项目

探索Jetpack Compose中的高效导航库&#xff1a;Voyager项目 在Jetpack Compose中实现高效、可扩展的导航是每个开发者的追求。Voyager作为一个多平台导航库&#xff0c;不仅与Jetpack Compose无缝集成&#xff0c;还提供了一套务实的API&#xff0c;帮助开发者创建单活动应用…

tvm实战踩坑

今天玩了一下tvm的安装 我要安装v0.14.0的版本 所以按照官网的方法 https://tvm.apache.org/docs/install/from_source.html#python-package-installation git clone --recursive https://github.com/apache/tvm tvmgit checkout v0.14.0recursive是很重要的 这一步可以替换成…

显卡GPU、CUDA、Pytorch版本对应即下载安装

显存大于4G的建议使用GPU版本的pytorch&#xff0c;低于4G建议使用CPU版本pytorch&#xff0c;直接使用命令安装对应版本即可 GPU版本的pytorch的使用需要显卡支持&#xff0c;需要先安装CUDA&#xff0c;即需要完成以下安装 1.查看显卡GPU支持的CUDA版本&#xff08;最高&…

Flutter系列:关于ensureInitialized()

Flutter系列 关于ensureInitialized() - 文章信息 - Author: 李俊才 (jcLee95) Visit me at CSDN: https://jclee95.blog.csdn.netMy WebSite&#xff1a;http://thispage.tech/Email: 291148484163.com. Shenzhen ChinaAddress of this article:https://blog.csdn.net/qq_28…

vue3 proxy对象转为原始对象

https://cn.vuejs.org/api/reactivity-advanced.html#toraw import { toRaw } from "vue";const foo {} const reactiveFoo reactive(foo)console.log(toRaw(reactiveFoo) foo) // true 人工智能学习网站 https://chat.xutongbao.top

18.9k star!一个高性能的嵌入式分析型数据库,主要用于数据分析和数据处理任务

大家好&#xff0c;今天给大家分享的是一个开源的面向列的关系数据库管理系统(RDBMS)。 DuckDB是一个嵌入式的分析型数据库&#xff0c;它提供了高性能的数据分析和数据处理能力。DuckDB的设计目标是为数据科学家、分析师和数据工程师提供一个快速、灵活且易于使用的数据分析工…

『SD』场景变换魔法:InstructP2P控制类型助你一键换天气

本文简介 InstructP2P 控制类型是 ControlNet 插件中的一个强大功能&#xff0c;InstructP2P 的主要能力是实现场景转换&#xff0c;风格迁移。 我将绫波丽的形象从她原本身着机甲、在夜空下站着的场景&#xff0c;转换到春意盎然的环境中,四周环绕着绽放的花朵和嫩绿的新叶。…

如何基于Excel文件图形化从零建表并导入数据(以MySQL和SQLynx为例)

目录 1. 准备Excel数据 2. 导入Excel数据 a. 登录SQLynx b. 导入Excel文件 3. 验证数据 4. 使用和管理表 5. 总结 在实际的业务过程中&#xff0c;我们经常会有很多数据存储在Excel中&#xff0c;但在Excel中的数据分析不如使用SQL和数据库方便&#xff0c;数据量大些的…

蒂姆·库克解释Apple Intelligence和与ChatGPT合作的区别|TodayAI

在2024年全球开发者大会&#xff08;WWDC 2024&#xff09;上&#xff0c;苹果公司首席执行官蒂姆库克&#xff08;Tim Cook&#xff09;隆重介绍了公司的最新人工智能&#xff08;AI&#xff09;计划——Apple Intelligence&#xff0c;并宣布了与OpenAI的ChatGPT的合作。虽然…

大型语言模型(LLMs)是如何工作的?

大型语言模型&#xff08;LLMs&#xff09;如ChatGPT、Bing的“Sydney”模式和Google的Bard正在占据新闻头条。与其讨论它们将使哪些工作变得过时&#xff0c;本文将探讨这些模型的工作原理&#xff0c;包括它们从哪里获取数据以及使它们能够生成令人信服的真实文本的基本数学方…