Transformer1--self attention

一、 Vector set as 输入

一段声音讯号：
在这里插入图片描述
图结构（graph）：输入向量（vector={性别，身高}）

分子结构：vector={元素类别}

二、模型输出（三种）

1 n-to-n

在这里插入图片描述
应用：文字处理

语音识别：

2 n-to-1

在这里插入图片描述
应用：正负评论分类、语音辨认

3 n-to-m

在这里插入图片描述
应用：翻译

三、self-attention

以n-to-n为例。
在这里插入图片描述

1、问题引入

不考虑上下文的情况下，模型认为两个"saw"是一样的，会输出相同的两个结果。
在这里插入图片描述
使用Window局部考虑上下文：

使用Windows考虑上下文，无法考虑整个序列的上下，如果想要考虑较长的上下文信息，需要大的Window,这样就增加计算复杂度。
————————————————————————————————————————
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
————————————————————————————————————————

2、self-attention

Transformer是一个经典的self-attention 论文，
在这里插入图片描述

3 self-attention 原理介绍

找出任意两个输入的相关性 $\alpha$ ：
在这里插入图片描述
计算 $\alpha$ （两种方式：1 dot product, 2 additive）:

有了 $\alpha$ 的计算方式，接下来计算输入之间的关联性：

获得 $a_1$ 与其他输入向量的相关性： $\alpha_1=[\alpha' _{1,1} \alpha' _{1,2} \alpha' _{1,3} \alpha' _{1,4}]$ ，接下来利用关系向量作为权重乘上输入向量 $a^1,a^2,a^3,a^4]$ ,得到考虑上下文的 $a^1$ ，即 $b^1$ ：
在这里插入图片描述
接下来，就能计算 $b^1,b^2,b^3,b^4]$
$b^1,b^2,b^3,b^4]$ 并不是串行计算，而是通过矩阵乘法进行并行计算：

对于 $q^1,q^2,q^3,q^4]$ , $K^1,k^2,k^3,k^4$ , $v^1,v^2,v^3,v^4$ ,可以通过矩阵乘法实现并行计算：

接下来我们就可以使用得到的Q，K，V计算相关性系数 $\alpha$ 。同样也可以使用矩阵乘法来实现并行计算，即 $K^T*Q$ ：
在这里插入图片描述

得到相关性矩阵 $A$ 之后，就可以计算考虑上下文的特征向量 $b$ 。

所以self-attention的计算过程被总结为如下的矩阵乘法：