注意力机制详解笔记 Attention is all I donot understand!

注意力机制好奇了太久，QKV知道是什么但是一直没搞懂为什么，这段时间终于眼一闭心一横摁头看了一天视频，3B1B大佬太强了！基于GPT看了三个视频，基本讲的toy model，没有讲“硬核”的如何训练和码代码，但是完全满足了我的求知欲和总缠绕在脑海里的不确定性。

【官方双语】GPT是什么？直观解释Transformer | 深度学习第5章_哔哩哔哩_bilibili

【官方双语】直观解释注意力机制，Transformer的核心 | 【深度学习第6章】_哔哩哔哩_bilibili

【官方双语】直观解释大语言模型如何储存事实 | 【深度学习第7章】_哔哩哔哩_bilibili

.总体流程：

GPT的全称是Generative Pretrained Transformer，也就是生成式预训练模型，最初的attention结构出现在2017年谷歌的翻译模型里，也就是大名鼎鼎的《Attention is all you need》，后来常见任务、也是这一系列视频用到的任务，是怎么基于提供的段落预测接下来的内容，虽然也是T2T模型但是难度和实际不一样了。

GPT的总体信息流动路径如下：

1.分割为Tokens

tokens可以翻译为语素，大致可以理解为一个单词或者一个汉字，但是其实划分更细，比如cleverest可能会把clever-和-est分割为两个tokens，亦或者一个标点或者一个词根也会被分为一个token，在图像中可能tokens会被划为一个一个像素。但是整体便于理解可以视为一个一个单词

每个token对应一个表示语义的向量，向量在空间中相近表示语义相近的词。

这里作者附了一个非常好玩的代码，可以试着输出一下不同单词的embedding：

In [21: import
# You need to pip install gensim
In [3]: model = gensim.downloader.load("glove-wiki-gigaword-50")
In [4]: model["tower"]

2.过Attention结构

根据上下文（context）优化token的语义

3.过MLP

（Multilayer Perception 多层感知器）实现每个token独立优化，被认为是存储信息和记忆的关键部分。

在实现中往往是1-2-3-2-3-2-3-2-3-....-输出这样的过程，会过很多个attention-MLP的循环直到最后输出过一个softmax认为是下一个位置是tokens的概率分布。

从整体来看，GPT的格式为system prompt+user prompt的形式~

背景知识：

GPT参数量

总体GPT-3的数据量超过1750亿个参数，具体如下，在接下来的几章会分别讲述这些参数的意义。

embedding：

词嵌入，也就是学习到每个token的表征，GPT有50257个备选tokens，学习到的表征是12288维，因此这个表示表征的矩阵是122888*50257的参数量

每个token对应的这个12288维的表征，直观上可以用于找新词。一个非常toy的例子：

虽然这个和现实出入很大，但是很有助于直观了解，如果我们有男性君主和男性女性三个tokens的表征，可以“猜”得queen对应的token的表征——E(king)+(E(woman)-E(man))

最终步：

把最后的向量通过“解嵌入矩阵”和softmax变成预测下一个位置是每一个token的概率：

tricks：

值得一提的是，此处有加入温度作为trick，温度越高使得较小值的P越高，这样各个不同的概率差别没那么大，采样的时候更有丰富性，反之如果T=0，那么一定会输出概率最大值，更稳定也更刻板，可以理解为T越大越有多变性和创造性，但是不会改变相对大小关系，也就是小的概率差别小但是一定不会比大概率的大。

Attention（self-attention）

作用：

由于单纯看每一个token容易造成歧义（比如可能出现一词多义）因此理解特定token需要上下文关联。

1.精细化token的含义

2.允许模型相互传递嵌入的表征向量包含的信息

接下来以最简单的one head self-attention为例，详细讲讲QKV怎么理解意思。

Query

每当我们想试试下一位置是不是该token，都要像之前的位置提问。比如，我们想知道creature的位置是不是creature，我么要考虑“前面有没有形容词？”---如果有可能这个位置会是名词，那么这个提问就是creature对应的query

这个query怎么获得？用我们之前讲过的embedding获得的表征（12288维）乘上一个矩阵 $W_Q$ ，这个矩阵 $W_Q$ 表示了query的获得方法，也就是我们为了实现找到query需要学习的参数量。在GPT-3中，我们获得的query的维数是128，（可以理解为我们每个token可以问128个问题，）那么此处需要12288*128个参数来习得这样一套query。

Key

有了当前位置的tokens们的提问自然要有前面tokens的回复，视频的图很形象：

同样的，我们给每个token的key的长度为128，（可以理解为128个相对应的回答）

Key+Query=Attention Pattern

我们怎么检测前面的回答（Key）和当前位置的提问（Query）是不是对应呢? 非常自然的结论是，用点乘，两个向量是不是方向一致大小差不多~

实际应用中我们还要除以一个维数的常数，加上我们后面提到的Value就构成了常见的attention公式：

这样，QK的参数量分别为：

tricks：

值得一提的是，我们要用前文预测后文，所以不能知道后文的信息，也就是需要把上面的QV的矩阵变成上三角阵，实际应用中，把左下半角的值先变成非常小的负数再过softmax

可以看出，上下文的窗口大小非常影响预测质量，过小的窗口会导致记忆力很差的模型，过大的窗口又导致参数量过大，于是有了很多变体：

Value：

V的主要目标是回答这个问题：如果要让QK（128维的向量）包含的信息影响tokens的嵌入（12288维的向量），应该怎么实现？

值得一提的是，当我们用Q和K点乘获得了attention pattern后我们就不关心QK的具体值了，上面公式也表示了，我们用的V是这样实现的↓

也就是说，Q K表示了一个“重要性”或者“权重”，进而把加权后的V加入原始token的embedding上

tricks：

这样看，V要把Q*V（/\sqrt(d))中的12288维向量映射到另一个12288维向量（为了和原始embedding齐平），所以要有12288*12288参数量，但是实际上会用low-rank transformation的思路，转化为两个12288*128的矩阵

这两个分别指的是参数量表格中的Value矩阵（把原始12288维的QV的列映射到128维的中间向量）和Output矩阵（把128维的中间向量映射到最终要加到embedding上的12288维向量）

也就是Value层实现需要12288*128*2的参数量

multi-head attention：

实际上，GPT-3用了好几个（96个）注意力机制并行，可以理解为问不同的问题给出不同的回答，并把这些heads输出的最终要加到embedding上的12288维向量一起加进去。

进而总的新的embedding的运算公式为：

这也是为什么参数量表格里QKV都要乘上一个n_heads的原因。

习惯性的，一般会把96个output矩阵放到一起形成超大矩阵称为实际的output矩阵。

MLPs

结构：

多层感知机结构相信学过CNN的都耳熟能详，它的结构非常简单且清晰。

分析中，科学家们认为，GPT主要储存记忆就在MLPs里面，也是为什么这个简单的结构能占据了2/3的参数量。

应用：

在应用中，2-3-2-3的结构会不断堆叠（96层，也就是参数量中乘上的n_layers）

值得一提的是，在MLPs中，不同于attention，每个token是被独立计算的，因此可以实现并行

计算参数量也很容易，不加赘述。也就是第一个矩阵乘法放大，过一个简单的非线性函数，第二个矩阵再缩回原来的维数。

此处针对大小有非常多的解释，我已经可以take it for granted，但是解释还挺巧妙也贴在这里。

“第一个线性层行可以视为嵌入空间的方向，神经元的激活程度表示给定向量与特定方向的一致程度，第二个线性层的列可视为若该神经元被激活应当加入多少信息给当前的embedding”

*superposition（叠加）

很有趣的一个结果，解释为什么增加特征维数能大幅度提高准确度：

正常来说，在n维线性空间中我们用不同方向表示不同的表征，基础的线性代数告诉我们，n维空间的表征个数（也就是基向量的个数）只有n，但是如果我们放宽条件，加个noise使得基向量不再要求90°的垂直而是可以在89°-91°的区间内，低维度看不出来，但是高维度空间可以大幅度提高特征数量。100维可以实现至少塞下10000个基向量，因此提高一维可以提供远超十倍的特征量。