🍊作者简介:秃头小苏,致力于用最通俗的语言描述问题
🍊专栏推荐:深度学习网络原理与实战
🍊近期目标:写好专栏的每一篇文章
🍊支持小苏:点赞👍🏼、收藏⭐、留言📩
MobileVIT原理详解篇
写在前面
Hello,大家好,我是小苏🧒🏽🧒🏽🧒🏽
在之前,我已经为大家介绍过各种基础的深度神经网络,像AlexNet、VGG、ResNet等等,也为大家介绍过一些轻量级的网络,如ShuffleNet系列、MobileNet系列等等,当然也做过一系列Transformer的教学,感兴趣的可以去我主页搜搜看喔。🍵🍵🍵
今天将为大家介绍一种新的网络结构——MobileVIT。🍄🍄🍄在具体介绍MobileVIT之前呢,我还是希望大家去阅读一些先验知识,链接如下:
- CV攻城狮入门VIT(vision transformer)——近年超火的Transformer你再不了解就晚了! 🍁🍁🍁
- CV攻城狮入门VIT(vision transformer)之旅——VIT原理详解篇 🍁🍁🍁
- CV攻城狮入门VIT(vision transformer)之旅——VIT代码实战篇🍁🍁🍁
- 详细且通俗讲解轻量级神经网络——MobileNets【V1、V2、V3】🍁🍁🍁
如果你理解了上面四篇文章的话,那么其实MobileVIT对你来说会是很好理解的。当然如果你对Transformer感兴趣的话,可以再看看下面的两篇博客:
- Swin Transformer原理详解篇🍀🍀🍀
- Swin Transformer代码实战篇🍀🍀🍀
MobileVIT的优势
在介绍MobileVIT的网络结构之前,我们先来聊聊为什么使用MobileVIT,即MobileVIT有什么优势?其实呢,在我看来,为什么使用MobileVIT,就是希望减少Transformer模型庞大的模型参数和较慢的推理速度,希望能将其部署在移动端。那么在论文中也有说到MobileVIT的优势,让我们一起来看看叭。
- 更好的性能: 在给定的参数预算下,与现有的轻量化cnn相比,MobileViT模型在不同的移动视觉任务中获得了更好的性能。
- 更好的泛化能力:泛化能力是指训练和评价指标之间的差距。对于两个具有类似训练指标的模型,具有更好的评估指标的模型更具有通用性,因为它可以更好地预测不可见的数据集。。之前的ViT变体(带卷积和不带卷积)与CNN相比,即使有广泛的数据增强,其泛化能力也很差,MobileViT显示出更好的泛化能力。如下图所示,MobileViT显示了与cnn类似的泛化能力。
- 更好的鲁棒性:一个好的模型应该对超参数具有鲁棒性,因为调优这些超参数会消耗时间和资源。与大多数基于ViT的模型不同,MobileViT模型使用基本增强训练,对L2正则化不太敏感。
MobileVIT网络结构
论文中先是帮我们回顾了VIT的结构,如下图所示:
你或与会发现这个图和我介绍VIT的原理时介绍的有些许差别,但是它们表达的含义都是一样的。首先会将图片划分成一个个patch,然后通过linear层将其转换成Token的形式,接着会加上位置编码并通过一系列Transformer结构,最后通过Linear层得到最终的输出。你对比一下上图和VIT中的结构,你会发现基本一致,主要是这里少加了Class token。
上文回顾了一下VIT,下面就让我们直接来看一看MobileVIT的整体结构叭~~~🌵🌵🌵如下图所示:
这个图画的非常简洁明了,我觉得大家可能存在疑惑的地方应该只有两个地方,第一个是这个MV2
和MV2 ↓2
是什么结构?另一个就MobileViT block
是什么结构?下面就让我们一个一个来看叭🌽🌽🌽
-
MV2
、MV2 ↓2
结构这个结构其实就是MobileNetv2中的Inverted Residuals结构,不熟悉的点击☞☞☞了解详情。🌼🌼🌼这里我再简单帮大家回忆一下,Inverted Residuals的结构大致如下,即1x1卷积升维->3x3DW卷积->1x1卷积降维。🍚🍚🍚
细心的朋友应该发现了
MV2
、MV2 ↓2
有两个结构,这个Inverted Residuals就一个结构呀,怎么对应的呀?其实呢,MV2 ↓2
表示进行了2倍下采样,MV2
、MV2 ↓2
的结构分别如下: -
MobileViT block
结构
MobileViT block
结构如下图所示:
我们先来一些看一下上图,首先对于一个
H
×
W
×
C
H×W×C
H×W×C的特征图X,首先经过一个Local representations
层,其由一个
n
×
n
n×n
n×n的卷积和一个
1
×
1
1×1
1×1的卷积构成,
1
×
1
1×1
1×1的卷积用来调整通道数,经过Local representations
层后得到特征图尺寸为
H
×
W
×
d
H×W×d
H×W×d。跟在Local representations
层后面的是Transformers as Convolution
层,这一层是一个Unfold->Transformer->Fold结构,也是MobileVIT的重中之重,我们后面再详细为大家介绍,现在你只要知道经过这个Transformers as Convolution
层后特征图的尺寸没有发生变换,仍然是
H
×
W
×
d
H×W×d
H×W×d。之后会通过
1
×
1
1×1
1×1的卷积将特征图通道数调整为
C
C
C,即特征图尺寸变换成
H
×
W
×
C
H×W×C
H×W×C。最后会通过shortcut分支和原始特征图进行拼接,并通过一个
n
×
n
n×n
n×n的卷积得到最后的输出特征图。🍋🍋🍋
相信你已经知道了MobileViT block
的大体结构,但是对于Transformers as Convolution
层还是一头雾水,下面就让我带领大家一起来看看这一部分。🍗🍗🍗
这一部分分为三个结构,Unfold、Transformer以及Fold。先来说说Unfold和fold的操作叭。其实呀,这两个操作只是对数据的shape做了一些改变,让其符合Self-Attention结构的输入。那它们是怎么进行reshape的呢,如下图所示:
图片来源于B站霹雳吧啦Wz
我想这里你应该会有疑问,这里为什么分patch操作,并弄不同的颜色表示呢?其实这就和后面的Transformer有关了。这里的Transformer结构相较与我之前介绍的有所改变,它会先对特征图进行patch划分,如下图划分patch大小为 2 × 2 2×2 2×2,即每个Patch由4个像素构成。在进行Transformer的时候,图中的相同颜色的小色块会进行Attention,而不同颜色的则不会进行Attention操作,这样会减少计算量。🍦🍦🍦
很多人可能都会问为什么要这么做,以及这么做的原因是什么。我给出霹雳吧啦Wz的看法,我认为是很有道理的:对于图像数据本身就存在大量的数据冗余,比如对于较浅层的特征图(H, W下采样倍率较低时),相邻像素间信息可能没有太大差异,如果每个Token做Attention的时候都要去看下相邻的这些像素,个人感觉有些浪费算力。这里并不是说看相邻的像素没有意义,只是说在分辨率较高的特征图上收益可能很低,增加的计算成本远大于Accuracy上的收益。而且前面已经通过nxn的卷积层进行局部建模了,进行全局建模时就没必要再看这么细了。🍍🍍🍍
MobileVIT实验效果
下图展示了MobileVIT在ImageNet上的效果,总的来说,MobileViTs易于优化和鲁棒性强。因此,MobileViT 可以很容易地应用于新的任务和数据集。
小结
MobileVIT的原理部分就为大家介绍到这里啦,如果有不明白的地方欢迎评论区交流讨论。在下一节我将为大家介绍MobileVIT的代码实现,会进一步辅助大家理解MobileVIT的原理,一起加油叭~~~🥂🥂🥂
如若文章对你有所帮助,那就🛴🛴🛴