5.10.8 Transformer in Transformer

Transformer iN Transformer (TNT)。具体来说，我们将局部补丁（例如，16×16）视为“视觉句子”，并将它们进一步划分为更小的补丁（例如，4×4）作为“视觉单词”。每个单词的注意力将与给定视觉句子中的其他单词一起计算，计算成本可以忽略不计。单词和句子的特征将被聚合以增强表示能力。

1. 介绍

Transformer是一种主要基于自注意力机制的神经网络，它可以提供不同特征之间的关系。

CV 任务中的输入图像和真实标签之间存在语义差距。ViT 将给定图像划分为多个局部块作为视觉序列。然后，可以自然地计算任意两个图像块之间的注意力，以便为识别任务生成有效的特征表示。

文章贡献

一种用于视觉识别的新型 Transformer-in-Transformer (TNT) 架构。为了增强视觉 Transformer 的特征表示能力，首先将输入图像划分为多个块作为“视觉句子”，然后进一步将它们分成子补丁作为“视觉单词”。

除了用于提取视觉句子的特征和注意力的传统Transformer Block之外，我们进一步将子变压器嵌入到架构中以挖掘较小视觉单词的特征和细节。

具体来说，每个视觉句子中视觉单词之间的特征和注意力是使用共享网络独立计算的，因此增加的参数量和 FLOP（浮点运算）可以忽略不计。然后，单词的特征将被聚合成相应的视觉句子。该类令牌还通过全连接头用于后续视觉识别任务。通过所提出的TNT模型，我们可以提取细粒度的视觉信息并提供更多细节的特征。

2. 方法

2.1 预先工作

多头自注意力

在自注意力模块中，输入 $X\in\mathbb{R}^{n\times d}$ 被线性变换为三个部分，查询 $Q\in\mathbb{R}^{n\times d_{k}}$ ，键 $K\in\mathbb{R}^{n\times d_{k}}$ 和值 $V\in\mathbb{R}^{n\times d_{v}}$ 。其中 n 是序列长度， $d$ 、 $d_k$ 、 $d_v$ 分别是输入、查询（键）和值的维度。缩放点积注意力： $Attention(Q,K,V)=softmax(\frac{QK^{T}}{\sqrt{d_{k}}})V$ 最后，使用线性层来产生输出。多头自注意力将查询、键和值拆分为 $h$ 个部分并并行执行注意力函数，然后将每个头的输出值连接并线性投影以形成最终输出。

多层感知器（MLP）

MLP 应用于自注意力层之间，用于特征变换和非线性：

$MLP(X)=FC(\sigma(FC(X))),\quad FC(X)=XW+b$ 其中W和b分别是全连接层的权重和偏置项，σ(·)是激活函数。

层归一化（LN）

层归一化是 Transformer 中稳定训练和更快收敛的关键部分。LN 应用于每个样本 $x\in R^d$ ，

$LN(x)=\frac{x-\mu}{\delta}\circ\gamma+\beta$ ，其中 $\mu \in R, \delta \in R$ 分别是特征的平均值和标准差， $\circ$ 是逐元素点积，

$\gamma\in R^d,\beta\in R^d$ 是可学习的变换参数。

2.2 Transformer in Transformer

给定一个 2D 图像，我们将其均匀分割为 n 个补丁 $\mathcal{X}=[X^{1},X^{2},\cdots,X^{n}]\in\mathbb{R}^{n\times p\times p\times3}$ ，其中

$(p,p)$ 是每个图像块的分辨率。ViT 仅利用标准转换器来处理补丁序列，这会破坏补丁的局部结构，Transformer-in-Transformer (TNT) 架构来学习图像中的全局和局部信息。

在 TNT 中，我们将补丁视为代表图像的视觉句子。每个补丁又分为m个子补丁，即一个视觉句子由一系列视觉单词组成： $X^i\to[x^{i,1},x^{i,2},\cdots,x^{i,m}]$ ，其中 $x^{i,j}\in\mathbb{R}^{s\times s\times3}$ 是第 i 个视觉句子的第 j 个视觉词； $(s,s)$ 是子块的大小， $j=1,2,\cdots,m$ 。

通过线性投影，我们将视觉单词转换为一系列单词嵌入：

$Y^{i}=[y^{i,1},y^{i,2},\cdots,y^{i,m}],\quad y^{i,j}=FC(Vec(x^{i,j}))$

其中 $y^{i,j}\in\mathbb{R}^c$ 是第 j 个词嵌入，c 是词嵌入的维度，Vec(·) 是向量化操作。

在 TNT 中，我们有两个数据流，其中一个数据流跨视觉句子进行操作，另一个数据流处理每个句子内的视觉单词。对于词嵌入，我们利用Transformer Block来探索视觉单词之间的关系：

$Y{'}_{l}^{i}=Y_{l-1}^{i}+MSA(LN(Y_{l-1}^{i}))$

$Y_{l}^{i}=Y{'}_{l}^{i}+MLP(LN(Y{'}_{l}^{i}))$

其中 $l=1,2,\cdots,L$ 是第 $l$ 个块的索引，L是堆叠块的总数。第一个块 $Y_o^i$ 的输出就是 $Y^i$ 。变换后图像中的所有词嵌入均为 $\mathcal{Y}_{l}=[Y_{l}^{1},Y_{l}^{2},\cdots,Y_{l}^{n}]$ ，可以看作内部Transformer Block，表示为 $T_{in}$ 。该过程通过计算任意两个视觉单词之间的交互来构建视觉单词之间的关系。

对于句子级别，创建句子嵌入记忆来存储句子级别表示的序列：

$\mathcal{Z}_{0}=[Z_{\mathrm{class}},Z_{0}^{1},Z_{0}^{2},\cdots,Z_{0}^{n}]\in\mathbb{R}^{(n+1)\times d}$ 其中 $Z_{class}$ 是类似于ViT的类标记，并且它们都被初始化为零。在每一层中，词嵌入的序列通过线性投影变换到句子嵌入的域中，并添加到句子嵌入中： $Z_{l-1}^i=Z_{l-1}^i+FC(Vec(Y_l^i))$ ，其中 $Z_{l-1}^i\in\mathbb{R}^d$ 。使用标准Transformer Block来转换句子嵌入：

$\mathcal{Z}^{\prime}{}_{l}=\mathcal{Z}_{l-1}+MSA(LN(\mathcal{Z}_{l-1}))$

$\mathcal{Z}_{l}=\mathcal{Z}^{\prime}{}_{l}+MLP(LN(\mathcal{Z}^{\prime}{}_{l}))$

外部变压器块 $T_{out}$ 用于对句子嵌入之间的关系进行建模。

TNT块的输入和输出包括视觉词嵌入和句子嵌入。 $\mathcal{Y}_l,\mathcal{Z}_l=TNT(\mathcal{Y}_{l-1},\mathcal{Z}_{l-1})$

在TNT 块中，内部 Transformer 块用于对视觉单词之间的关系进行建模以进行局部特征提取，外部 Transformer 块从句子序列中捕获内在信息。最后，分类标记用作图像表示，并应用全连接层进行分类。

位置编码

空间信息是图像识别的重要因素。对于句子嵌入和词嵌入，我们都添加相应的位置编码来保留空间信息，使用标准的可学习一维位置编码。具体来说，每个句子都分配有一个位置编码：

$\mathcal{Z}_0\leftarrow\mathcal{Z}_0+E_{sentence}$ ，其中 $E_{sentence}\in\mathbb{R}^{(n+1)\times d}$ 是句子位置编码。对于句子中的视觉单词，每个单词嵌入都添加一个单词位置编码： $Y_0^i\leftarrow Y_0^i+E_{word}, i=1,2,\cdots,n$