Transformer论文精读

Transformer：Attention is all you need

Abstract：

在主流的序列转录模型（sequence transduction models：给一个序列，生成另一个序列），主要依赖循环或者卷积神经网络，一般是用encoder和decoder的架构。表现最好的模型通常在encoder和decoder之间加入一个注意力机制。

我们提出的一个简单的架构，Transformer，仅仅依赖注意力机制，没有用循环或者卷积神经网络。

在机器翻译任务上表现很好

Introduction：

Background：（相关工作）

1.如何使用卷积神经网络替换掉循环神经网络，这样做可以减少时序计算。但卷积神经网络对比较长的序列难以建模。如果对于跨度很长的序列，需要很多卷积层。但如果使用注意力机制，只用一层就可以。但卷积的好处是可以有多个输出通道，一个通道可以识别不同的模式。所以提出了多头注意力机制。

2.自注意力机制

3.memory network

Model Architecture

大多数神经序列转录模型都是一个encoder-decoder架构，这个encoder将一个输入（x1,…,xn）映射为Z=（z1,…,zn）。其中x1是一个词，z1是其对应的向量。编码器的输出（z1,…,zn）会作为解码器的输入。解码器的输出为一个长为m的序列（y1,…,ym）【例如输入10个英文单词，但对应的中文可能只有5个词】

解码器是一个自回归架构，过去时刻的输出又是当前时刻的输入。例如：预测y1，需要输入Z，预测y2，需要输入Z和y1。且输出是一个词一个词。

Encoder

编码器由六个一致的层堆叠形成，每层有两个子层，第一个是多头注意力机制，第二层是一个简单的MLP（positionwise fully connected feed-forward network）。在两个子层间有残差连接。最后是一个layer normalization。每个子层的输出为：LayerNorm（x+Sublayer（x））

在这里插入图片描述

因为残差连接输入和输出的维度要求是一样的，所以这里规定所有层的输出维度为512，包括embedding和两个子层。所以在Encoder中只有两个参数，层数N和维度d。

batch norm（对特征归一化）：将一个小批量二维矩阵的数据，每一列转换为均值为0，方差为1的数据。做法是，将该特征列数据：

(每个数据 - 该列均值 / 该列方差)

layer norm（对样本归一化）：将一个小批量二维矩阵的数据，每一行转换为均值为0，方差为1的数据。

layer norm的好处是计算均值和方差较为稳定。因为每个样本的长度这里是不固定的，在batch norm中会很不稳定。

在这里插入图片描述

Decoder

解码器的基本结构和编码器类似，也是6个层堆叠形成，不同的是，每个子层有三部分组成。且每个子层间有残差连接，最后是一个layer normalization。解码器的第一个层是一个mask（掩码），其作用是确保预测t时刻的输出时，输入数据均来自t时刻之前。

Attention

主要是一个注意力函数，其作用是将一个query和一系列key-value对映射为一个output。所有这些query、key、value、output都是向量。output是value的一个加权和，所以output的维度和value是一样的。每个value对应的权重是由其key和query的相似度计算得来。不同注意力机制的权值计算方式不同。

Scaled Dot-Product Attention

1.queries和keys都是维度为 $d_k$ 的向量。values维度为 $d_v$

2.用query和所有key做点乘

3.分别除以 $\sqrt{d_k}$

4.用softmax转换为概率

实际运算时，会以矩阵的方式执行

在这里插入图片描述

有两种通用的注意力机制，分别是additive attention和dot-product（multiplicative）attention。Dot-product attention和这里的是一致的，除了加入了除以 $\sqrt{d_k}$ 。原因在于，当query和key的向量维度较小时，乘积结果一般不会过大或者过小，因此softmax的结果也不会集中在0或者1附近。但维度较大时，乘积结果过大或者过小，softmax后会靠近1或0，在这些区域，梯度较小。

additive attention的权值计算采用单隐藏层的前馈神经网络。两种机制的复杂度相似，但后者在时间和空间上效率更高。

在这里插入图片描述

Mask：因为注意力机制会看到所有时刻的信息，但在预测时刻t的输出时，只需要t时刻之前的信息。所以mask将 $\frac{QK}{\sqrt{d_k}}$ 的t时刻之后的值全部变为一个非常小的负数，这样在Softmax后，这些位置的权值就为0。

Multi-Head Attention

for i in h:
	先将V、K、Q映射到低维 #每次映射都会学到不一样的方法，在投影后的空间中可以匹配不同模式
	head_i = attention(V、K、Q)  #将投影后的V、K、Q输入Attention
Concat(head_1,...,head_h) W^O #将每个头的结果concat，并将最后的结果再次投影到低维空间