写在前面:本篇直接结合代码来理解网络的笔记
paper: Swiftformer-paper
code: https://github.com/Amshaker/SwiftFormer
文章目录
- 网络结构精析
- 零、整体
- 一、patch embed
- 二、stage
网络结构精析
零、整体
可以看到结构中,整体就是:
stem -> 5X(convEncoder+Swiftformer) -> head
对应代码在swiftformer.py在大概427行
head中self.dist的判断是有否蒸馏网络的分支。这就是整个的网络结果,下面讲解各个部分。
一、patch embed
图片预处理输入到 ----> patch embed结构
代码中 swiftformer.py 定义在大概317行
stem函数的两个参数是:输入通道和输出通道,embed_dims[0]是模型根据尺寸(如XS/X/L1/L3)设定的超参的第0个值。这里输入是通道数是3,图片是3层的,然后定义如下:
二、stage
未完待续