论文解析——Full Stack Optimization of Transformer Inference: a Survey

作者及发刊详情

摘要

正文

主要工作贡献

这篇文章的贡献主要有两部分：

分析Transformer的特征，调查高效transformer推理的方法
通过应用方法学展现一个DNN加速器生成器Gemmini的case研究

1）分析和解析Transformer架构的运行时特性和瓶颈

2）Transformer推理的硬件架构

3）对特定Transformer架构的优化策略，比如剪枝和量化

4）Transformer架构下操作的映射和调度，以及相关挑战

5）通过自动化的神经架构搜索过程，设计和调整transformer架构，使其硬件更加高效

Transformer模型架构和性能瓶颈

transformer的基本架构

Transformer架构包含两个模块：MHA和FFN
在这里插入图片描述 Transformer架构的参数如下：

对Transformer架构的输入序列包含l个token，每个值都由一个d维度的向量表示，构成了 $d * l$ 的矩阵。token可以是一个词或一个句子片段。

MHA的计算特征

MHA有三种不同的权重 $W_Q$ 、 $W_K$ 、 $W_V$ ，具体执行流如图1所示，这些权重将会产生三种不同的激活，每种激活会被分成h个块（chunk，有隐藏维度d/h），因此这些块都被分成了h个不同的注意力头。q块和k块沿着隐藏层相乘，生成 $l * l$ 大小的激活矩阵，这些激活矩阵经过softmax操作，与v块相乘，得到attention头的激活，然后h个head组合生成结果 $W_{out}$ 。每阶段的计算结果如Table2所示。最终线性层的输出经过残差链接和层归一化生成MHA模块的输出。

MHA总共有6个线性操作，其中4个是权重到激活的矩阵乘（ $W_Q$ 、 $W_K$ 、 $W_V$ 、 $W_{out}$ ），另外两个是激活到激活的矩阵乘（ $q u ery * k ey$ 、 $a tt e n t i o n . score * v a l u e$ ），本文将前者称为投影（projection），后者称为激活到激活矩阵乘。