论文学习 Transformer ： Attention Is All You Need

概述：

对摘要的理解：

框架解析

按比例缩放的点积注意力

多头注意力机制

前馈神经网络与位置编码

概述：

transformer 是一个encoder ——decoder 结构的用于处理序列到序列转换任务的框架，是第一个完全依赖自注意力机制，计算其输入输出表示的转换模型，核心是采用了注意力机制用于捕获输入序列不同位置之间的依赖关系，帮助模型在生成输出时能够关注到与当前任务最相关的信息，优势是能够捕获长距离依赖关系，并且对于输入序列的长度没有固定的限制，在处理长文本和复杂语言结构时表现出色，在编码器解码器框架中，编码器负责将输入系列转换成一个固定大小的表示（上下文向量）解码器根据这个表示，生成输出序列，transformer 能够并行化处理整个序列，从而大大提高了训练速度和效率

self—attention 机制：

注意力模型的本质思想：从大量信息中有选择地筛选出少量重要信息并聚焦到这些重要信息上，忽略不重要的信息。

transfomer 注意力的计算方法采用了Scaled Dot-Product Attention

注意力机制采用了multi head self Attention

框架中使用了三种不同形式的的多头注意力机制

对摘要的理解：

主流的序列转换模型基于复杂的循环或卷积神经网络，这些网络包括一个编码器和一个解码器。性能最佳的模型还通过注意力机制将编码器和解码器连接起来。我们提出了一种全新的简单网络架构，即Transformer，它完全基于注意力机制，完全摒弃了循环和卷积。

序列转换模型（Sequence Transduction Models）指将一个序列转换为另一个序列的模型。序列转换模型可以通过编码器（Encoder）和解码器（Decoder）两个主要部分实现。编码器使用循环神经网络（RNN）或其变种（如长短时记忆网络LSTM、门控循环单元GRU）对输入序列进行建模，得到上下文信息；利用编码器输出的上下文信息生成目标序列。

注意力机制：处理一个任务时，我们不会平等地对待所有的信息，而是会将注意力集中在某些关键的部分。例如，当我们阅读一段文本时，我们会更关注与当前任务相关的词汇和句子，而忽略其他不相关的信息。注意力机制就是模拟这种行为，让模型在处理数据时能够自动地关注到更重要的部分。

框架解析

transformer 使用编码器和解码器堆叠自注意力和逐点全连接层，

每个编码器由6个相同的层组成，每个层有两个子层他们分别是 掩码多头注意力层和全连接前馈神经网络 ，模型技巧（trick）有采用了残差链接和层归一化每个子层的输出是LayerNorm(x + Sublayer(x))，具体来说，1 首先对x进行嵌入编码然后和位置编码相加 2 编码后的向量输入进多头注意力机制，3 残差链接层归一化，4 Position-wise Feed-Forward Networks 5 残差连接层归一化

每个解码器由6个相同的层组成，每个层有三个子层他们分别是1 掩码多头注意力层(why mask:防止解码器在生成序列时查看未来的信息,即在解码时只希望模型看到当前词和当前词前面的部分所以要对后面的单词进行mask 处理方法是设为很大的负数) 2 encoder-decoder 多头注意力机制和3全连接前馈神经网络 ，模型技巧（trick）有采用了残差链接和层归一化每个子层的输出是LayerNorm(x + Sublayer(x))，具体来说，1 首先对x进行嵌入编码然后和位置编码相加 2 编码后的向量输入进掩码多头注意力机制，3 残差链接层归一化， encoder-decoder 多头注意力机制（q 来自掩码多头注意力的输出 kv 来自编码器的输出）残差链接层归一化4 Position-wise Feed-Forward Networks 5 残差连接层归一化

按比例缩放的点积注意力

为什么使用按比例缩放的点积注意力？

缓解输入向量维度对注意力权重的影响：在点积计算中，如果输入向量的维度非常高，那么点积的结果可能会非常大，导致后续的softmax函数进入饱和区，使得梯度变得非常小，从而难以训练。按比例缩放可以解决这个问题，使得点积的结果在合理的范围内，避免softmax函数进入饱和区。

点积可以计算向量之间的余弦相似度，并且可以进行矩阵运算加快计算速度和效率

多头注意力机制

为什么要采取多头注意力机制？

多头注意力机制则允许模型在多个不同的表示子空间上并行计算注意力权重，从而能够更全面地捕捉输入序列中的依赖关系。通过将不同的注意力头组合在一起，模型能够学习到更复杂的表示，并更准确地预测目标序列

文心一言是这样回答的

transformer 采取多头注意力机制（Multi-Head Attention）主要有以下几个原因：

多样性：多头注意力机制允许模型同时关注不同的位置和语义信息。每个头可以学习不同的注意力分布，从而捕捉输入序列中的不同依赖关系。如果只使用一个头，模型可能会错过某些重要的依赖关系。
更丰富的表示：通过多头注意力机制，模型可以并行学习多个自注意力表示。这使得模型能够更好地抓住输入数据的局部和全局信息，提供更丰富、更强大的表示。在自然语言处理任务中，这种丰富的表示往往导致更好的性能。
并行计算：多头注意力机制可以充分利用现代硬件并行计算的能力，例如 GPU。多个头可以在一次计算中同时进行处理，这样可以显著提高计算效率。
学习到不同维度的特征和信息：由于每个注意力头都是一个独立的self-attention，它们可以通过产生QKV矩阵来学习数据特征。每个self-attention最终会产生一个维度上的输出特征，因此当使用多头注意力机制时，模型可以学习到多维度的特征信息，从多个维度更好地理解数据。
提高模型容量和泛化能力：多头注意力机制增加了模型的容量，使得模型能够学习到更复杂的表示。由于能够从多个角度分析输入数据，模型的泛化能力得到提升。

总的来说，多头注意力机制通过提供多样性、更丰富的表示、并行计算能力以及学习不同维度特征的能力，帮助Transformer模型在处理序列数据时获得更好的性能。

多头注意力机制的多头是怎么实现的？

不是使用 dmodel 维键、值和查询执行单个注意力函数,e而是将查询、键和值分别线性投影到 dk、dk 和 dv 维。在每个查询、键和值的每个投影版本上，然后我们并行执行注意力函数，产生 dv 维输出值

分割嵌入向量：首先，输入的嵌入向量（例如词嵌入向量）被分割成多个较小的部分，每个部分对应一个注意力“头”。假设输入的嵌入向量维度为D，注意力头数为h，则每个头处理的向量维度为D/h。这一步是为了让模型在更细粒度上学习数据的表示。
线性变换：对于每个分割后的部分（也就是每个头），应用三个不同的线性变换（全连接层），分别生成查询（Q）、键（K）和值（V）向量。每个线性变换的权重矩阵维度为(D/h)×(D/h)。
注意力计算：在每个头中，计算查询和键的点积，然后应用softmax函数得到注意力权重。最后，将注意力权重与值向量相乘，得到加权后的值向量。
拼接与线性变换：将所有头的加权后的值向量拼接起来，形成一个更大的向量。然后，再应用一个线性变换（全连接层），将拼接后的向量转换回原始嵌入向量的维度D。