快速理清 Attention 注意力和 Encoder, Decoder 概念

之前一直以为 Attention 和 RNN 没关系是凭空蹦出来的新概念；以为 Transformer, Encoder, Decoder 这几个概念是绑在一起的。并不尽然。

Encoder 和 Decoder

在这里插入图片描述
RNN 里就有 Encoder Decoder 的概念。其中，encoder 接受用户输入，写入 hidden state。Decoder 接受之前时刻的隐状态，并生成 logits。类似的架构也出现在 CNN 图像模型中。

所以，不论如何，只要是数据流长得像 encode, decode 的，都是 Encoder, Decoder

Attention 普遍意义上的注意力机制

请添加图片描述
上面 RNN 的问题是，decoder 只能拿到 encoder 最后的这个 <end> 位置的 feature，相当于必须串行接收整个输入，不能有注意力地选择输入序列的重点（不能加权）。

所以，我们想实现一个类似全连接的功能，在每个 decode 的位置，给输入序列的隐状态加个系数，共同喂给 decoder。所以，注意力其实就是把上面的这个序列算个系数。

但是怎么能让这个全连接矩阵可训练，可泛化是个问题。注意力机制引入了 Q, K, V 三个概念，其中 K, V 是 n 个 kv pair，Query 表示上图上面的部分，最后，Q 和 K 会两两一组算一个相关系数，然后用相关系数乘上 v，作为注意力输出。

其中，Q, K 表示。一个例子是我看涩图的注意力集中在人脸上，Q = 我； K = 涩图（V 和 K 严格绑定，是另一个空间对 K 的表示）Q,K 算一个相似度赋给 V.

一般 K = V。
请添加图片描述

请添加图片描述

自注意力机制

注意力是一个很宽泛的概念，不知道 QKV 是什么，自注意力机制则是规定了 QKV 同源，都是通过原始输入 $X$ 乘上线性矩阵 $W^q, W^k, W^v$ 产生的。

请添加图片描述

给定输入矩阵 $X$ （形状为 $(n, d)$ ，其中 $n$ 是序列长度， $d$ 是嵌入维度），计算 Query（查询）、Key（键）、Value（值）：
$W_Q, \quad K = X W_K, \quad V = X W_V$
其中：

$W_Q, W_K, W_V$ 是可训练的权重矩阵（形状均为 $d, d_k)$ ）。
$Q, K, V$ 的形状均为 $n, d_k)$ 。

2. 计算注意力分数（Scaled Dot-Product Attention）

$\frac{Q K^T}{\sqrt{d_k}}$
其中：

$K^T$ 是 Key 矩阵的转置（形状为 $d_k, n)$ ），使得 $QK^T$ 形状为 $(n, n)$ 。
$\frac{1}{\sqrt{d_k}}$ 是缩放因子，防止大数值影响梯度。

3. 计算注意力权重（Softmax 归一化）

$\alpha = \text{softmax}(A)$
其中， $\alpha$ 形状为 $(n, n)$ ，表示序列中每个位置对其他位置的注意力权重。

4. 计算加权 Value

$\alpha V$
其中：

$Z$ 形状为 $n, d_k)$ ，即每个输入位置的加权输出。

5. 多头注意力（Multi-Head Attention）

如果使用 $h$ 个头，每个头分别计算：
$Z_i = \text{Attention}(X W_{Q_i}, X W_{K_i}, X W_{V_i})$
然后将多个头的结果拼接并映射回原始维度：
$[Z_1, Z_2, \dots, Z_h] W_O$
其中：

$W_O$ 是输出投影矩阵（形状为 $\cdot d_k, d)$ ）。
$Z$ 形状回到 $(n, d)$ 。

Ref

https://zhuanlan.zhihu.com/p/109585084
https://www.cnblogs.com/nickchen121/p/16470710.html

https://www.cnblogs.com/nickchen121/p/16470711.html

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/981928.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！