Transformer学习笔记（一）

Transformer学习笔记

基于 3B1B 可视化视频

自注意力机制

1.每个词的初始嵌入是一个高维向量，只编码该单词含义，与上下文没有关联

2.对初始向量进行位置编码，在高维向量中编码进位置信息（单词在语言序列中的位置信息），称此时的向量为E（GPT3中为12288维）

3.每个向量E，配有一个查询向量Q，用于向自身前面的向量序列查询信息（比如一个名词的查询向量中可能就蕴含着下面的问题：我的前面有没有对我的形容词？），每个向量的查询向量通过查询矩阵Wq生成: E·Wq -> Q. 因此，Wq的横向维度会与词向量的维度相match，纵向维度未要求（GPT-3中是128维）。所以E·Wq -> Q这个过程相当于把一个较高维的词向量映射到了一个低维空间。Wq矩阵在一个模型中是固定的，其中的参数是通过训练得到的。

4.每个向量E，同时配有一个键向量，用于回应查询向量的提问（比如后方有个词向量的查询向量问到：我的前方有没有形容我的形容词？键向量就用于回应这个查询向量），每个词向量的键向量通过键矩阵Wk生成：E·Wk -> K. 因此这个过程也是会把原本较高维度的词向量映射到一个低维空间（GPT-3中是128维）中。具体回应过程可以看成是在对比Q和K的匹配程度，匹配程度越高，说明该向量E与发出查询向量Q的E的关联性也就越大。这里用点积来衡量两个向量的匹配程度，点积结果越大，二者间的匹配程度越高，于是我们说，这个词E“注意到了”后面的词的嵌入。

在这里插入图片描述

5.如上图，在求出上述匹配度矩阵后，以匹配度作为权重，对每一列进行加权求和。因此我们想要把权重调整为在0-1之间的值并且其权重总和为1。因此，对每列权重数据做一次softmax()

在这里插入图片描述

将得到的矩阵称为Attention Pattern。

在一些模型中，我们往往会看到Cross-Attention，在Cross-Attention中，Wq和Wk会作用在不同的数据集上，如下图：

回到Self-Attention上，可以看见Transformer的原始论文中对Attention Pattern的表现形式：

在这里插入图片描述

从以上可以看出，每个词向量既接收来自身后的询问Q也接收来自词向量之前的询问Q。这样的做法会产生以下的效果：

训练时输入，“a fluffy blue creature roamed the verdant forest”，最终经过上述一系列计算根据forest的向量值输出下一个预测词，再根据输出与原本结果对模型参数进行调整，这样的过程固然可以，但效率太低。这一长串的文本只能对模型进行一次训练。由此我们提出一个方法：每输入一个词便进行一次预测训练。即达到以下效果：

a -预测下一个词                     
a fluffy -预测下一个词
a fluffy blue -预测下一个词
a fluffy blue creature -预测下一个词
a fluffy blue creature roamed -预测下一个词
a fluffy blue creature roamed the -预测下一个词
a fluffy blue creature roamed the verdant forest -预测下一个词

为了能使运算同步进行，每个词向量只对自己身后的词向量的查询进行匹配度回应，而不对自己之前的词向量发出的查询进行回应。或者说，每个向量只对自己之前的词向量发出查询请求，而不对自己身后的词向量发出查询请求（体现了自回归特性）。不然的话，比如此时训练序列为a fluffy blue creature roamed the此时forest收到了来自其前面词向量的查询并进行了回应，那就相当于透露了答案信息。

所以，在此，我们希望在Attention Pattern矩阵中主对角线的下半部分的值都为0。为了实现这一效果，在softmax之前将主对角线以下的值全部设为负无穷。这个步骤被称为Masking。（并不是所有的注意力机制都会运用此方法）

Masking这一步骤不仅在GPT的训练中用到，在使用GPT作为工具的时候也同样在运用。

从这也可以发现，随着文本输入越来越长，其Attention Pattern呈现平方指数级增长，因此这也成为了大语言模型的一个瓶颈，为解决这一瓶颈，有很多新的研究在进行中。

得到Attention Pattern过后，接下来介绍值向量V。每个词向量E配有一个值向量V，用于衡量自身的动量（例如：red hat，对于hat来说在高维空间指向的是初始embeding的位置，而加上red的值向量后，hat在高维空间中将指向红色帽子的位置）。每个词向量的值向量V通过值矩阵生成：Wv·E -> V。由于V最终要作为动量与词向量相加，所以V的维度要与词向量的维度一致，也因此Wv的纵向维度要与E一致（12288*12288）。Wv在模型中是固定的，其参数通过训练得到。在得到每个向量的值向量后，根据Attention Pattern中的响应程度，对每个词向量更新：
$Ej=Ej+\sum_{i=1}^j Vi*attentionScore$
以上为Single-Head Attention的工作流程。

对于Multi-Head Attention，即模型中有多个Wq、Wk、Wv矩阵，即每个词向量有多个查询向量V、键向量K，值向量V。可以将一幅Wq、Wk、Wv理解为一个Head（GPT3中有96个头），最终词向量的改变量为每个Head中的改变量相加。

在Transformer相关论文中Value矩阵通常会被转换为Wv↑和Wv↓两个矩阵相乘，此时Value矩阵特指Wv↓，这样做的目的是为了实现并行计算，但原理是相同的。

MLP多层感知器

我们对LLM输入Michael Jordan plays，大语言模型会输出basketball。对于一个不认识Michael Jordan的人来说，他能理解这句话的每个单词的含义，但是无法确定plays应该输出什么。所以，这个LLM一定存储了一个记忆，这个记忆就是Michael Jordan是打篮球的，这也是一个事实。LLM是如何记住这一事实的，即是我们要讨论的问题。

回想下手写数字识别的Neural Network，它的网络中也存储了一些记忆，能够识别输入图像的图形特征。带着这个思维，将能更好的理解Transformer中记忆的存储过程和结构。

在经过Self-Attention后，我们得到更新后的词向量序列。相较于初始的单词Embeding，此时的词向量序列embeded了更多的context信息。

MLP的结构如下图：

在这里插入图片描述

经过MLP时，各个词向量间不再相互影响，每个词向量并行的经过相同的运算。因此，关注一个词向量的运算过程就可以知道所有词的运算过程。

1.第一层映射

由于MLP的第一个矩阵会把词向量映射到更高的维度，所以称此矩阵为W↑。可以看成将矩阵W↑的行向量与词向量做点积，还记得Self-Attention中查询向量Q和键向量V吗？查询向量Q和键向量V做点积，从而计算出二者间的响应度（匹配度），这里也可以这样理解。可以把W↑的行向量看做一个个询问向量，向词向量询问各种问题，由此得出一个响应匹配度。在GPT3中W↑的纵向维度为4*12288。

之后加上一个Bias（用于增加参数调节的灵活度）。于是上述过程可用公式表示为：

接下来将蕴含响应度的向量通过一个激活函数，这里采用的是ReLU函数（很多模型会使用一个稍作修改的函数GELU）。

在经过激活函数后，我们得到类似于AttentionScore的向量，在Self-Attention中将值矩阵Wv乘以AttentionScore作为词向量的改变量。这里将该向量乘以W↓获得该词向量的补充信息（也要加上一个Bias向量），可以发现只有在第一轮映射中值大于0的地方（通过ReLU后被激活，这里没有考虑Bias对第一轮映射结果的改变），才会在第二轮映射中添加响应位置的向量。过程如下：