自注意力机制(Self-Attention)

 注意:本文引用自专业人工智能社区Venus AI
更多AI知识请参考原站(【http://www.aideeplearning.cn】)

Transformer模型中最关键部分就是自注意力(Self-Attention)机制,正如 Transformer 的论文的标题是“Attention Is All You Need”!以文本问题为例来讲解这个机制。在处理文本问题时,自注意力机制会告诉模型:在处理句子中的每个单词时,特别关注某些重要的单词,并或多或少地忽略其它单词。简单来说,就是给句子中不同单词分配不同的权重。这是符合常理的,因为一句话中的每个单词重要程度是不一样的,从语法角度说,主谓宾语比其它句子成分更重要,self-attention机制就是模型尝试学习句子成分重要程度的方法。

self-attention可以通过学习句子成分重要程度更好的理解语言的上下文,而上下文对于语言模型来说是至关重要的。例如,看一下机器人第二定律:

机器人第二定律机器人必须服从人类发出的命令,除非这些命令第一定律相冲突。

当模型处理这句话时,它必须能够知道:

  • 指的是机器人
  • 这种命令指的是法律的前半部分,即“人类发出的命令”
  • 第一定律指的是整个第一定律

如果不结合它们所指的上下文,就无法理解或处理这些单词。这就是自注意力的作用。它加深了模型对相关和关联词的理解,这些词在处理某个词(将其通过神经网络传递)之前解释了该词的上下文。它通过为片段中每个单词的相关程度分配分数,并将它们的向量表示相加来实现这一点。

例如,顶部块中的自注意力层在处理“it”一词时正在关注“a robots”。它将传递给神经网络的向量是三个单词中每个单词的向量乘以它们的权重分数的总和(这里忽略了那些权重分数低的不重要的单词)。

自注意力过程(self-attention)

自注意力机制重要组成部分是三个向量:

  • query:在注意力机制中,查询表示当前正在处理的单词或token的表示方式。它用于评估与其他单词之间的相关性。简而言之,查询是我们要关注的中心对象。
  • key:键向量是对文本中所有单词的标签或描述。它类似于我们用来在搜索相关单词时进行匹配的内容。在注意力机制中,我们会使用查询和键之间的关系来确定不同单词之间的相关性。
  • value:值向量是实际的单词表示方式,通常是通过神经网络学习得到的。一旦我们使用查询和键来评估不同单词之间的相关性,我们将使用这些值向量来计算当前单词的最终表示。值向量会被加权组合,以代表当前单词的含义或重要性。

这三个向量的创建过程在模型实现时非常简单,通过神经网络层的映射即可得到。具体来说,输入数据为token本身(假设64维),而映射后的输入向量可以是192维,此时第0-63维作为q向量,64-127维作为k向量,而128-192维作为v向量。请注意,查询向量、键向量和值向量是为计算和思考注意力机制而抽象出的概念,或者说是我们对模型的学习期望。因为这三个新向量在刚创建时是随机初始化的,没有特殊含义,是经过模型训练分别得到了类似查询、回复、存值等向量功能,一个词向量可以通过它们与其它词向量进行互动来建模词与词之间的相关性。在读者阅读完接下来的全部计算过程之后,就会明白它们名字的由来。

一个粗略的类比是将其想象为在文件柜中搜索。该查询就像一张便签纸,上面写着您正在研究的主题。钥匙就像柜子内文件夹的标签。当你将标签与便签匹配时,我们取出该文件夹的内容,这些内容就是值向量。只不过您不仅要查找一个值,还要从多个文件夹中进行相关内容的查找。

每个文件夹的权重分数是通过查询向量与正在评分的相应单词的键向量的点积计算得出的。点积的公式:a×b=|a|×|b|×cosθ。其意义就是比较两个向量的相关程度,相关性越高,分数越大。注意,点积后需要对结果进行softmax映射得到权重分数,Softmax映射后的分数决定了每个词在句子中某个位置的重要性。

图片[3]-自注意力机制(Self-Attention)-VenusAI

我们将每个值向量乘以它的权重分数并求和——得到我们的自注意力结果。

图片[4]-自注意力机制(Self-Attention)-VenusAI

这种值向量的加权混合会产生一个向量,该向量将 50% 的“注意力”集中在单词robot,30% 的“注意力”集中在单词a,19% 的“注意力”集中在单词it等等。

自注意力计算到此为止。生成的向量是可以发送到前馈神经网络的向量。然而,在实际的实现中,会将输入向量打包成矩阵,以矩阵形式完成此计算,以便更快地在计算机中计算处理,如下图所示

图片[5]-自注意力机制(Self-Attention)-VenusAI

其公式表示如下:

Attention(Q,K,V)=Softmax(\left(\frac{QK^\mathrm{T}}{\sqrt{d_k}}\right)V)

其中, Q、K 和 V 是输入矩阵, 分别代表查询矩阵、键矩阵和值矩阵, dk 是向量维度。Attention公式的作用是通过对 Q 和 K 的相似度进行加权, 来得到对应于输入的 V 的加权和。
具体来说,这个公式分为三个步骤:
(1)计算 Q 和 K 之间的相似度,即 QK^{T} 。
(2)由于 Q 和 K 的维度可能很大, 因此需要将其除以 \sqrt{d_{k}} 来缩放。这有助于避免在 Softmax 计算时出现梯度消失或梯度爆炸的问题。
(3) 对相似度矩阵进行 Softmax 操作, 得到每个查询向量与所有键向量的权重分布。然后, 将这些权重与值矩阵 V 相乘并相加, 得到自注意力机制的输出矩阵。

多头自注意力层(Multi-heads self-attention)

该论文通过添加一种称为“多头注意力”(Multi-heads self-attention)的机制进一步细化了自注意力层。对于多头注意力,其中有多组查询向量、键向量和值向量,这里把一组q, k, v称之为一个头,Transformer原论文中使用八个注意力头。每组注意力头都是可训练的,经过训练可以扩展模型关注不同位置的能力。

举一个形象的类比:把注意力头类比成小学生,那么多个小学生在学习过程中会形成不同的思维模式,对同样的问题会产生不同的理解。这就是为什么要使用多头的原因,就是希望模型可以从不同的角度思考输入信息,如下图所示。

但是,多头注意力机制也给带来了一个问题。如果使用八个头,经过多头注意力机制后会得到8个输出,但是,实际上只需要一个输出结果。所以需要一种方法将这八个输出压缩成一个矩阵,方法也很简单,将它们乘以一个额外的权重矩阵即可。这个操作可以通过一个神经网络层的映射完成,如图:

图片[7]-自注意力机制(Self-Attention)-VenusAI

掩码自注意力机制(Masked Self-Attention)

在本小节中,我们将详细了解Self-Attention如何完成此操作。并讲解它的变体掩码自注意力机制,这在GPT等语言模型中非常常见。以一个简单的自注意力模块举例,它一次只能处理四个token。

自注意力的应用通过三个主要步骤:

  1. 为每个输入token创建查询、键和值向量。
  2. 对于每个输入token,使用其查询向量针对所有其他键向量进行评分
  3. 将值向量与其相关分数相乘后求和。

图片[8]-自注意力机制(Self-Attention)-VenusAI

为每个token创建q,k,v向量的过程如下,其中Wq,Wk和Wv矩阵可以看成神经网络层的参数,也就是说我们可以将token x经过神经网络层的映射得到对应的q,k,v向量。

图片[15]-自注意力机制(Self-Attention)-VenusAI

现在我们有了向量,我们在步骤 2 中使用查询向量和键向量进行点积。当前我们专注于第一个token,因此我们将其查询乘以所有其他键向量,然后再经过softmax的映射从而得出四个token中每个token的权重分数。

图片[10]-自注意力机制(Self-Attention)-VenusAI

现在我们可以将分数乘以值向量。在我们将它们相加之后,得分高的值将构成结果向量中占有重要地位。

图片[11]-自注意力机制(Self-Attention)-VenusAI

如果我们对每个输入执行相同的操作,我们最终会得到一个表示每个token的向量,其中包含该token的适当上下文。然后将它们呈现给Transformer块中的下一个子层(前馈神经网络):

图片[7]-自注意力机制(Self-Attention)-VenusAI

现在我们已经了解了 Transformer 的 self-attention 步骤,让我们继续看看 masked self-attention。实际上,masked self-attention与自注意力十分相似,除了第 2 步之外。假设模型只有两个token作为输入,并且我们正在观察第二个token。在这种情况下,最后两个token被屏蔽,其对应的权重分数也将是0。

图片[13]-自注意力机制(Self-Attention)-VenusAI

下面我们进行详细的示例计算推导。这种掩蔽通常通过被称为注意掩蔽的矩阵来实现。如下图所示:

图片[14]-自注意力机制(Self-Attention)-VenusAI

我们举个实例,想象一个由四个单词组成的序列(例如“robot must obey orders”)。先可视化其注意力分数的计算:

图片[15]-自注意力机制(Self-Attention)-VenusAI

相乘之后,我们使用注意掩蔽矩阵。它将我们想要屏蔽的单元格设置为 -无穷大或一个非常大的负数(例如 GPT2 中的 -10 亿):

图片[16]-自注意力机制(Self-Attention)-VenusAI

然后,在每一行上应用 softmax 会产生用于自注意力的实际分数:

图片[17]-自注意力机制(Self-Attention)-VenusAI

这个分数表的含义如下:

  • 当模型处理数据集中的第一个示例(第 1 行)时,该示例仅包含一个单词(“机器人”),其 100% 的注意力将集中在该单词上。
  • 当模型处理数据集中的第二个示例(第 2 行)时,其中包含单词(“机器人必须”),当模型处理单词“必须”时,48% 的注意力将集中在“机器人”上,而 52% 的注意力将集中在“机器人”上。 %的注意力将集中在“必须”上。

最后,让我们介绍 GPT-2 的masked self-attention。实际上,我们可以让 GPT-2 完全按照 masked self-attention 的方式运行。但在评估过程中,当我们的模型在每次迭代后仅添加一个新单词时,沿着已处理的token的早期路径重新计算自注意力将是低效的。

在本例中,我们处理第一个token(<s>暂时忽略)。

图片[18]-自注意力机制(Self-Attention)-VenusAI

对于单词token“a”,GPT-2 保留它的键向量和值向量。实际上,每个自注意力层都保留每个单词token各自的键向量和值向量:

图片[19]-自注意力机制(Self-Attention)-VenusAI

现在,在下一次迭代中,当模型处理单词”robot“时,它不需要为token “a“生成查询、键和值查询。它只是重用第一次迭代中保存的内容:

图片[20]-自注意力机制(Self-Attention)-VenusAI

这种改进的masked self-attention,可以让q,k,v的计算更加高效快速。最后,我们探讨一个GTP-2自注意力机制中的前向网络( 全连接神经网络)。

全连接神经网络:这是一个用于进一步处理自注意力模块输出的神经网络。它通常包括两个层(或称为层次)。

  • 第一层:这一层通常会有大量的节点(神经元)。节点的数量通常设置为输入token的数量的四倍。例如,如果输入文本的token数量是768,那么第一层将有768 * 4 = 3072 个神经元。这个大的第一层可以用来捕捉输入文本中的各种特征和关系。
  • 第二层:第一层的输出被投影回到模型的维度,通常是768(在这个描述中提到了GPT-2模型的维度)。这意味着第二层将输出一个与模型维度相匹配的结果,以便与其他模型部分进行连接和整合。

图片[21]-自注意力机制(Self-Attention)-VenusAI

相关资源

  • 自注意力机制详解
  • Transformer算法讲解
  • OpenAI 的GPT2博文讲解
  • OpenAI 的GPT3博文讲解
  • Bert,ELMo大语言模型
  • 除了 GPT2 之外,还可以查看Hugging Face的pytorch-transformers库,它实现了 BERT、Transformer-XL、XLNet 等前沿 Transformer 模型。
  • 本博文的插图来自于Jay Alammar的博客,在此给予真诚的感谢。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/424907.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ConcurrentHashMap的演进:从Java 8之前到Java 17的实现原理深度剖析

目录 一、引言二、Java 8之前的ConcurrentHashMap1、内部结构与初始化2、Segment类3、并发控制4、扩容与重哈希5、总结 三、Java 8中的ConcurrentHashMap1、数据结构2、并发控制2.1. CAS操作2.2. synchronized同步块 3、哈希计算与定位4、扩容与重哈希5、总结 四、Java 17中的C…

Docker知识点总结

二、Docker基本命令&#xff1a; Docker支持CentOs 6 及以后的版本; CentOs7系统可以直接通过yum进行安装&#xff0c;安装前可以 1、查看一下系统是否已经安装了Docker: yum list installed | grep docker 2、安装docker&#xff1a; yum install docker -y -y 表示自动确认…

安装Realtek Audio Driver失败[Error Code:-0001]

安装Realtek Audio Driver失败[Error Code&#xff1a;-0001] 首先来看一下我们遇到的问题GPT4的推荐解决方法&#xff08;流水账&#xff09;笔者自己真实有效的解决办法 首先来看一下我们遇到的问题 描述&#xff1a;在笔记本更新完电脑之后&#xff0c;没有自带声音驱动。然…

【LeetCode】升级打怪之路 Day 11:栈的应用、单调栈

今日题目&#xff1a; Problem 1: 栈的应用 155. 最小栈 | LeetCode20. 有效的括号 | LeetCode150. 逆波兰表达式求值 | LeetCode Problem 2: 单调栈 496. 下一个更大元素 I739. 每日温度503. 下一个更大元素 II 目录 Problem 1&#xff1a;栈 - “先进后出”的应用LC 155. 最…

2024龙年特别篇 -- 魔法指针 之 指针变量

目录 ​编辑 字符指针变量 字符指针 字符数组 关于字符数组的试题 数组指针变量 数组指针 利用指针数组打印数组 打印二维数组 数组作为形参 当形参为指针时&#xff08;指针数组&#xff09; 函数指针变量 利用函数实现加法输出的多种方式 字符指针变量 字符指针 char …

[NSSCTF 2nd] web复现

1.php签到 <?phpfunction waf($filename){$black_list array("ph", "htaccess", "ini");$ext pathinfo($filename, PATHINFO_EXTENSION);foreach ($black_list as $value) {if (stristr($ext, $value)){return false;}}return true; }if(i…

CKA考生注意:这些Deployment要点能助你一臂之力!

往期精彩文章 : 提升CKA考试胜算&#xff1a;一文带你全面了解RBAC权限控制&#xff01;揭秘高效运维&#xff1a;如何用kubectl top命令实时监控K8s资源使用情况&#xff1f;CKA认证必备&#xff1a;掌握k8s网络策略的关键要点提高CKA认证成功率&#xff0c;CKA真题中的节点维…

蓝桥杯集训·每日一题2024 (前缀和)

笔记&#xff1a; 例题&#xff1a; #include<bits/stdc.h> using namespace std; const int N 5000010; char str[N]; int s[N]; int main(){int t;cin>>t;for(int a1;a<t;a){int n;cin>>n;scanf("%s",str1);for(int i1;i<n;i){s[i]s[i-1]…

重磅!交通领域顶级会议TRB会议将进行重大改革

美国交通研究委员会年会&#xff08;Transportation Research Board annual meeting,以下简称TRB会议&#xff09;是由美国交通研究委员会举办的交通领域的国际顶级会议。该会议每年举办一次&#xff0c;在华盛顿特区召开。TRB会议是交通研究领域知名度最高的学术会议之一&…

AI又进化了

B站&#xff1a;啥都会一点的研究生公众号&#xff1a;啥都会一点的研究生 一直想做但没做的板块&#xff0c;整理一段时间内AI领域的前沿动态&#xff08;符合大多粉丝研究领域/感兴趣方向&#xff09;&#xff0c;了解了解外面世界发展成啥样了&#xff0c;一起看看吧~ 谷歌…

跟 AI 学 StarRocks:简介

因为要支持公司的 BI 建设&#xff0c;团队引入了 StarRocks 数据库&#xff0c;此前我没有了解过此项技术&#xff0c;不过因为有架构师引入了此项技术栈&#xff0c;就顺便学习一下。 一、什么是 MPP 数据库&#xff1f; MPP 数据库指的是大规模并行处理&#xff08;Massiv…

Hololens 2应用开发系列(2)——MRTK基础知识及配置文件配置(上)

Hololens 2应用开发系列&#xff08;2&#xff09;——MRTK基础知识及配置文件配置 一、前言二、MRTK基础知识2.1 MRTK概述2.2 MRTK运行逻辑2.3 MRTK配置文件介绍2.4 MRTK服务 三、配置文件使用3.1 总配置文件3.2 相机配置3.3 其他配置 参考文献 一、前言 在前面的文章中&…

DDR5 新特性概述

主页&#xff1a; 元存储博客 文章目录 前言1. SDR 与 DDR2. DDR5 的新特点总结 前言 DDR5 带来更快的处理速度和更大的存储空间&#xff0c;为云计算、大数据等领域的发展提供了强有力的支持。 1. SDR 与 DDR single data rate&#xff0c; 1 个时钟周期做一次数据传输 do…

更改elementui的箭头图片以及位置

//更改箭头位置 .el-tree-node__content > .el-tree-node__expand-icon {position: absolute;right: 12px; }//更改箭头图片 .el-tree-node__expand-icon {transform: rotate(-90deg); } .el-tree-node__expand-icon.expanded {transform: rotate(0deg); } // 有子节点 且已…

使用QEMU搭建U-Boot+LinuxKernel+busybox+NFS嵌入式开发环境

目录 0.课程大纲1.为什么要使用QEMU学习嵌入式QEMU简介使用QEMU可以做哪些事情?当前嵌入式行业现状如何适应这种变化使用QEMU学习嵌入式有哪些好处?驱动开发技能为什么要学习Linux 2.搭建嵌入式开发基本环境2.1.安装u-boot-tools2.2.安装交叉编译工具什么是ABI和EABI 3.QEMU安…

DSI2协议之BTA行为理解

概念: DSI协议spec支持总线控制权在master和slave之间发生交换,即通过bus turn around来实现; BUS TURN AROUND: BTA 的实现是通过controller—>cdphy的turnrequest信号来实现; 关于控制器发出turnrequest给phy,phy通过lvds/trio线输出turnaround sequence如下图中…

C++基于多设计模式下的同步异步日志系统day3

C基于多设计模式下的同步&异步日志系统day3 &#x1f4df;作者主页&#xff1a;慢热的陕西人 &#x1f334;专栏链接&#xff1a;C基于多设计模式下的同步&异步日志系统 &#x1f4e3;欢迎各位大佬&#x1f44d;点赞&#x1f525;关注&#x1f693;收藏&#xff0c;&am…

C习题002:澡堂洗澡

问题 输入样例 在这里给出一组输入。例如&#xff1a; 2 5 1 3 3 2 3 3 输出样例 在这里给出相应的输出。例如&#xff1a; No代码长度限制 16 KB 时间限制 400 ms 内存限制 64 MB 栈限制 8192 KB 代码 #include<stdio.h> int main() {int N,W,s,t,p;int arr_s[…

投影和定义投影的区别

Arcmap中关于投影的工具有四个&#xff0c;分别是定义投影、投影、投影栅格、批量投影。这四个工具既有相同之处也有不同之处&#xff0c;下面我将一一介绍。 ①定义投影&#xff1a;Arcmap中关于定义投影工具是这样描述的&#xff1a;“所有地理数据集均具有一个用于显示、测…

小白必看的Python函数讲解

定义函数 我们通过斐波那契数列来理解定义函数 >>> def fib(n): # 将斐波那契数列打印到 n ... """将斐波那契数列打印到 n""" ... a, b 0, 1 ... while a < n: ... print(a, end ) ... a, b b, …