【图像分类】【深度学习】【轻量级网络】【Pytorch版本】MobileNets_V2模型算法详解

【图像分类】【深度学习】【轻量级网络】【Pytorch版本】MobileNets_V2模型算法详解

文章目录

  • 【图像分类】【深度学习】【轻量级网络】【Pytorch版本】MobileNets_V2模型算法详解
  • 前言
  • MobleNet_V2讲解
    • 反向残差结构(Inverted Residuals)
    • 兴趣流形(Manifold of interest)
    • 线性瓶颈层(Linear Bottlenecks)
    • MobleNet_V2模型结构
  • MobleNet_V2 Pytorch代码
  • 完整代码
  • 总结


前言

MobileNets_V2是由谷歌公司的Sandler, Mark等人在《MobileNetV2: Inverted Residuals and Linear Bottlenecks【CVPR-2017】》【论文地址】一文中提出的带线性瓶颈的反向残差设计的改进模型,相比于普通残差模块,反向残差模块则是中间维度大,两边维度小,保证精度的同时显著减少所需的操作数量和内存,适用于嵌入式移动设备。


MobleNet_V2讲解

MobleNet_V1网络【参考】结构虽然轻盈,但是只是单纯地使用卷积层进行堆叠,没有引入类似于ResNet【参考】的shortcut连接,因此没有充分利用图像的信息,所以其准确率表现不佳;并且论文中提到,在实际使用中,发现深度可分离卷积的某些卷积核参数为0,部分卷积核在训练过程中失效了。
深度可分离卷积(Depthwise Separable Convolution) 结构中的深度卷积层(Depthwise Convolutional) 的卷积核数量取决于上一层的通道数,MobleNet_V1训练得到的很多无效的卷积核,因此,MobleNet_V2在深度卷积层前添加了一层 点卷积(Pointwise Convolution) 进行升维,再通过深度卷积进行卷积,最后通过点卷积进行降维,变成了一个两端细,中间粗的结构,弥补了MobleNet_V1中训练不足导致卷积核失效的情况。

反向残差结构(Inverted Residuals)

ResNet中证明残差结构(Residuals) 有助于构建更深的网络从而提高精度,MobileNetV2中以ResNet的残差结构为基础进行优化,提出了反向残差(Inverted Residuals) 的概念。

深度卷积层提取特征限制于输入特征维度,若采用普通残差块会将输入特征图压缩,深度卷积提取的特征会更少,MobileNets_V2将输入特征图扩张,丰富特征数量,进而提高精度。

普通残差结构的过程:高维输入->1x1卷积(降维)–>relu激活–>3x3卷积(低维)–>relu激活–>1x1卷积(升维)->残差相加->relu激活。

反向残差结构的过程: 低维输入->1x1点卷积(升维)-> relu激活->3x3深度卷积(低维)->relu激活->1x1点卷积(降维)->与残差相加。

论文中MobileNets_V2的反向残差结构如下图所示:

t代表膨胀比(通道扩展系数),K代表输入维度,K’输出维度,s代表步长。

MobileNets_V2的反向残差结构分为俩种,当stride=2时,反向残差结构取消了shortcut连接。

兴趣流形(Manifold of interest)

这个部分还是有点意思的,理解后也不难,博主根据论文和其他资料尽量简单的给出了个人见解

兴趣流形是指在特征空间(特征图)中,与特定任务或概念相关的数据样本的聚集区域。它是数据样本在特征空间中的分布结构,其中包含了与任务相关的有用信息,兴趣流形可以理解为数据在特征空间中形成的低维嵌入结构。具体来说,卷积层的所有独立的通道输出的特征图的像素值,这些像素值中编码的信息实际上位于某个流形中,而流形又可嵌入到低维子空间(部分特征图)中,这是因为并不是每一个像素对于表征输入图像而言都是不可或缺的,可能只有一部分像素,就足够表征这些输入图像在该层的某种感兴趣信息。

简单来说就是兴趣流形就是指输出特征图中与任务相关的部分特征图的部分特征像素值的总和。

这就会有产生一种直觉,可以通过减小卷积层的维数来减小特征空间的维数,因为兴趣流形只占特征空间的一部分,希望尽可能的减少其余无关的特征空间。根据这种直觉,MobileNets_V1通过不断降低特征空间的维度直到流形充满整个空间,来达到压缩模型的目的。
但是卷积神经网络中特征空间是需要经过非线性激活层(relu),也就是降低的是激活特征空间的维度,因此兴趣流形并没有不断聚合而充满整个特征空间,而是丢失了一部分兴趣流形,从而导致模型的检测准确率降低。

特征空间经过非线性变换ReLU激活会导致为负的输入全部变为零,导致失去保存的信息,当ReLU使得某一个输入通道崩塌时(这个通道中有很多特征像素值都变成了负值),就会使当前通道丢失很多信息,但是如果有很多卷积核,也就是生成了很多通道,那么在当前通道丢失的信息就会有可能在其他通道找回来,如下图展示了嵌入在高维空间中的低维兴趣流形经过ReLU激活的情况。

线性瓶颈层(Linear Bottlenecks)

线性瓶颈层的主要作用是通过降低维度来提取数据的主要特征,从而减少计算量和模型复杂度,同时保持输入数据的重要信息,通常由一个线性变换操作组成,例如全连接层或卷积层,其输出维度远小于输入维度,并且不引入非线性变换。假设兴趣流形是低维的,插入线性瓶颈层可以防止非线性破坏太多信息,因为线性瓶颈层使用线性层而非ReLU激活层。因此在反向残差结构的1×1点卷积降维后并没有ReLU激活层。

很多论文证明在残差块相加之前不做非线性激活会使得检测的准确率提高,读者可以去看resnet的残差结构其实最后一层也是线性瓶颈层,是在残差块相加之后才做的非线性激活。

MobleNet_V2模型结构

下图是原论文给出的关于MobleNet_V2模型结构的详细示意图:

t是通道扩展系数;c是通道数; n是组成员数;s是步长。

MobileNets_V2在图像分类中分为两部分:backbone部分: 主要由普通卷积层、反残差结构和池化层(汇聚层)组成,分类器部分:由1×1卷积层(全连接)层组成 。

在分类任务中,分类器的1×1卷积层作用等价于全连接层,因此很多demo就用全连接代替1×1卷积层的作用了


MobleNet_V2 Pytorch代码

普通卷积块: 3×3卷积层+BN层+ReLU6激活函数

# 普通卷积块
class ConvBNReLU(nn.Sequential):
    def __init__(self, in_channel, out_channel, kernel_size=3, stride=1, groups=1):
        # 保持输入输出特征图尺寸一致的padding
        padding = (kernel_size - 1) // 2
        super(ConvBNReLU, self).__init__(
            nn.Conv2d(in_channel, out_channel, kernel_size, stride, padding, groups=groups, bias=False),
            nn.BatchNorm2d(out_channel),
            nn.ReLU6(inplace=True)
        )

反向残差结构: 1×1点卷积层+BN层+ReLU6激活函数+3×3深度卷积层+BN层+ReLU6激活函数+1×1点卷积层+BN层

# 反向残差结构
class InvertedResidual(nn.Module):
    # expand_ratio是膨胀率
    def __init__(self, in_channel, out_channel, stride, expand_ratio):
        super(InvertedResidual, self).__init__()
        # 升维后的维度
        hidden_channel = in_channel * expand_ratio
        # 特征图形状保持一致才能shortcut
        self.use_shortcut = stride == 1 and in_channel == out_channel
        layers = []
        if expand_ratio != 1:
            # 1x1 pointwise conv
            layers.append(ConvBNReLU(in_channel, hidden_channel, kernel_size=1))
        layers.extend([
            # 3x3 depthwise conv 维度数==组数
            ConvBNReLU(hidden_channel, hidden_channel, stride=stride, groups=hidden_channel),
            # 1x1 pointwise conv(linear)
            nn.Conv2d(hidden_channel, out_channel, kernel_size=1, bias=False),
            nn.BatchNorm2d(out_channel),
        ])
        self.conv = nn.Sequential(*layers)
    def forward(self, x):
        # 特征图形状保持一致
        if self.use_shortcut:
            return x + self.conv(x)
        else:
            return self.conv(x)

完整代码

from torch import nn
import torch
from torchsummary import summary

def _make_divisible(ch, divisor=8, min_ch=None):
    if min_ch is None:
        min_ch = divisor
    '''
    int(ch + divisor / 2) // divisor * divisor)
    目的是为了让new_ch是divisor的整数倍
    类似于四舍五入:ch超过divisor的一半则加1保留;不满一半则归零舍弃
    '''
    new_ch = max(min_ch, int(ch + divisor / 2) // divisor * divisor)
    # 假设new_ch小于ch的0.9倍,则再加divisor
    if new_ch < 0.9 * ch:
        new_ch += divisor
    return new_ch

# 卷积组: Conv2d+BV+ReLU6
class ConvBNReLU(nn.Sequential):
    def __init__(self, in_channel, out_channel, kernel_size=3, stride=1, groups=1):
        # 保持输入输出特征图尺寸一致的padding
        padding = (kernel_size - 1) // 2
        super(ConvBNReLU, self).__init__(
            nn.Conv2d(in_channel, out_channel, kernel_size, stride, padding, groups=groups, bias=False),
            nn.BatchNorm2d(out_channel),
            nn.ReLU6(inplace=True)
        )

# 反向残差结构
class InvertedResidual(nn.Module):
    # expand_ratio是膨胀率
    def __init__(self, in_channel, out_channel, stride, expand_ratio):
        super(InvertedResidual, self).__init__()
        # 升维后的维度
        hidden_channel = in_channel * expand_ratio
        # 特征图形状保持一致才能shortcut
        self.use_shortcut = stride == 1 and in_channel == out_channel
        layers = []
        if expand_ratio != 1:
            # 1x1 pointwise conv
            layers.append(ConvBNReLU(in_channel, hidden_channel, kernel_size=1))
        layers.extend([
            # 3x3 depthwise conv 维度数==组数
            ConvBNReLU(hidden_channel, hidden_channel, stride=stride, groups=hidden_channel),
            # 1x1 pointwise conv(linear)
            nn.Conv2d(hidden_channel, out_channel, kernel_size=1, bias=False),
            nn.BatchNorm2d(out_channel),
        ])
        self.conv = nn.Sequential(*layers)
    def forward(self, x):
        # 特征图形状保持一致
        if self.use_shortcut:
            return x + self.conv(x)
        else:
            return self.conv(x)


class MobileNetV2(nn.Module):
    def __init__(self, num_classes=1000, alpha=1.0, round_nearest=8):
        super(MobileNetV2, self).__init__()
        # 反残差结构
        block = InvertedResidual
        # alpha控制网络通道数
        input_channel = _make_divisible(32 * alpha, round_nearest)
        last_channel = _make_divisible(1280 * alpha, round_nearest)
        '''
        网络配置参数:
            t是通道扩展系数 
            c是通道数
            n是组成员数
            s是步长
        '''
        inverted_residual_setting = [
            # t, c, n, s
            [1, 16, 1, 1],
            [6, 24, 2, 2],
            [6, 32, 3, 2],
            [6, 64, 4, 2],
            [6, 96, 3, 1],
            [6, 160, 3, 2],
            [6, 320, 1, 1],
        ]

        features = []
        # conv1 layer
        features.append(ConvBNReLU(3, input_channel, stride=2))
        # 用反残差结构搭建网络
        for t, c, n, s in inverted_residual_setting:
            output_channel = _make_divisible(c * alpha, round_nearest)
            for i in range(n):
                # 每个反残差模块组的第一个反残差块的stride根据指定要求s设置,其余的默认都是1
                stride = s if i == 0 else 1
                features.append(block(input_channel, output_channel, stride, expand_ratio=t))
                input_channel = output_channel
        features.append(ConvBNReLU(input_channel, last_channel, 1))
        self.features = nn.Sequential(*features)

        # 构建分类器
        self.avgpool = nn.AdaptiveAvgPool2d((1, 1))
        self.classifier = nn.Sequential(
            nn.Dropout(0.2),
            nn.Linear(last_channel, num_classes)
        )

        # 权重初始化
        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                nn.init.kaiming_normal_(m.weight, mode='fan_out')
                if m.bias is not None:
                    nn.init.zeros_(m.bias)
            elif isinstance(m, nn.BatchNorm2d):
                nn.init.ones_(m.weight)
                nn.init.zeros_(m.bias)
            elif isinstance(m, nn.Linear):
                nn.init.normal_(m.weight, 0, 0.01)
                nn.init.zeros_(m.bias)

    def forward(self, x):
        # mobilenetV2 1.0为例
        # N x 3 x 224 x 224
        x = self.features(x)
        # N x 1280 x 7 x 7
        x = self.avgpool(x)
        # N x 1280 x 1 x 1
        x = torch.flatten(x, 1)
        # N x 1280
        x = self.classifier(x)
        # N x 100
        return x
    
# mobilenetV2 0.25
def MobileNetV2x25():
    return MobileNetV2(alpha=0.25, round_nearest=8)

# mobilenetV2 0.50
def MobileNetV2x50():
    return MobileNetV2(alpha=0.5, round_nearest=8)

# mobilenetV2 0.75
def MobileNetV2x75():
    return MobileNetV2(alpha=0.75, round_nearest=8)

# mobilenetV2 1.00
def MobileNetV2x100():
    return MobileNetV2(alpha=1.0, round_nearest=8)

if __name__ == '__main__':
    device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
    model = MobileNetV2x100().to(device)
    summary(model, input_size=(3, 224, 224))

summary可以打印网络结构和参数,方便查看搭建好的网络结构。


总结

尽可能简单、详细的介绍了反残差结构的原理和卷积过程,讲解了MobileNets_V2模型的结构和pytorch代码。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/167687.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

德思特分享丨一文带你了解ADC测试参数有哪些?

来源&#xff1a;德思特测量测试 德思特分享丨一文带你了解ADC测试参数有哪些&#xff1f; 一文带你了解ADC测试参数有哪些 模数转换器&#xff08;ADC&#xff09;是数字电子系统中重要组成部分&#xff0c;用于捕获外部世界的模拟信号&#xff0c;如声音、图像、温度、压力…

修改bat文件默认编辑软件

Windows默认编辑bat文件的软件是自带的文本编辑器。无法高亮显示bat中的命令。 修改方式一&#xff1a; 打开注册表文件&#xff0c;变更键值 HKEY_CLASSES_ROOT\batfile\shell\edit\command 对应软件地址 修改方式二&#xff1a; 制作批处理文件&#xff0c;代码如下&#x…

【Highway-env】IntersectionEnv代码阅读

文章目录 主要完成任务代码结构1.action space2.default_config3.reward_agent_rewards_agent_reward_reward_rewards小结 4.terminated & truncated5.reset_make_road_make_vehicles_spawn_vehicle 6.step 主要完成任务 IntersectionEnv继承自AbstractEnv,主要完成以下4个…

Oracle数据库透明加密 安当加密

安当TDE透明加密组件是一种用于数据保护的解决方案&#xff0c;它对数据进行加密&#xff0c;以防止未经授权的访问和数据泄露。 以下是安当TDE透明加密组件的主要功能介绍&#xff1a; 数据保护&#xff1a;安当TDE透明加密组件可以对数据库中的敏感数据进行加密&#xff0c;…

基于springboot实现大学生就业服务平台系统项目【项目源码】

基于springboot实现大学生就业服务平台系统演示 Java技术 Java是由SUN公司推出&#xff0c;该公司于2010年被oracle公司收购。Java本是印度尼西亚的一个叫做爪洼岛的英文名称&#xff0c;也因此得来java是一杯正冒着热气咖啡的标识。Java语言在移动互联网的大背景下具备了显著…

深度学习人脸表情识别算法 - opencv python 机器视觉 计算机竞赛

文章目录 0 前言1 技术介绍1.1 技术概括1.2 目前表情识别实现技术 2 实现效果3 深度学习表情识别实现过程3.1 网络架构3.2 数据3.3 实现流程3.4 部分实现代码 4 最后 0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; 深度学习人脸表情识别系…

如何构建更简洁的前端架构?

目录 为什么需要前端架构&#xff1f; 那么&#xff0c;前端架构是什么样的呢&#xff1f; 使用了哪些层&#xff1f; 那么&#xff0c;这种架构会出什么问题呢&#xff1f; 我们应该如何避免这些错误&#xff1f; 哪些原则应适用于组件&#xff1f; Anti-Patterns 反模…

HCIA-实验命令基础学习:

视频学习&#xff1a; 第一部分&#xff1a;基础学习。 19——子网掩码。 27——防火墙配置&#xff1a; 32——企业级路由器配置&#xff1a; 基础实验完成&#xff1a;&#xff08;完成以下目录对应的实验&#xff0c;第一部分基础实验就完成。&#xff09; 方法&#xff…

儿童家居服 I 童年很短,请尽情打扮吧

厚实细腻的双面北极绒面料 软糯亲肤&#xff0c;上身效果极佳 经典宽松版型&#xff0c;对身材的包容性很强 帽子上的小熊刺绣精致又可爱 袖口处还有小熊掌的刺绣哦 满满的少女心&#xff0c;也太适合女宝宝了 松紧裤腰和束脚设计&#xff0c;防风保暖做到实处 这么好看…

【数据结构&C++】超详细一文带小白轻松全面理解 [ 二叉平衡搜索树-AVL树 ]—— [从零实现&逐过程分析&代码演示简练易懂]

前言 大家好吖&#xff0c;欢迎来到 YY 滴C系列 &#xff0c;热烈欢迎&#xff01; 本章主要内容面向接触过C的老铁 主要内容含&#xff1a; 欢迎订阅 YY滴C专栏&#xff01;更多干货持续更新&#xff01;以下是传送门&#xff01; 目录 一.AVL树的概念二.AVL树节点的定义(代码…

Python开源自动化工具Playwright安装及介绍

一个非常强大的自动化项目叫 playwright-python 它支持主流的浏览器&#xff0c;包含&#xff1a;Chrome、Firefox、Safari、Microsoft Edge 等&#xff0c;同时支持以无头模式、有头模式运行&#xff0c;并提供了同步、异步的 API&#xff0c;可以结合 Pytest 测试框架 使用&…

IPO解读丨高处不胜寒,澜沧古茶低头取暖?

自A股注册制改革不断深化并全面落地后&#xff0c;不少意欲登陆资本市场的企业转战港股。这个过程中&#xff0c;诞生了很多以“港股”为前缀的“第一股”——“白酒第一股”珍酒李渡、“水果零售第一股”百果园、“智能驾驶第一股”知行汽车、“运动科技第一股”Keep…… 由A…

STM32与ADXL345加速度计的无线传输与监测应用

ADXL345是一款三轴数字输出加速度计&#xff0c;能够测量出物体在三个方向上的加速度。本文将介绍如何将ADXL345加速度计与STM32微控制器结合使用&#xff0c;通过无线通信技术实现加速度数据的传输与监测。 一、ADXL345与STM32概述 1. ADXL345加速度计 ADXL345是一款低功耗…

VB.net读写S50/F08IC卡,修改卡片密码控制位源码

本示例使用设备&#xff1a;Android Linux RFID读写器NFC发卡器WEB可编程NDEF文本/智能海报/-淘宝网 (taobao.com) 函数声明 Module Module1读卡函数声明Public Declare Function piccreadex Lib "OUR_MIFARE.dll" (ByVal ctrlword As Byte, ByRef serial As Byte, …

servlet乱码问题

问题&#xff1a;中文乱码 解决&#xff1a;加框的部分

给折腿的罗技G512键盘换键帽

文章目录 1\. 引言2\. 操作2.1. 用打火机烤2.2. 用钳子拔出来2.2.1. 拔出成功2.2.2. 放大细看2.3. 更换键帽 1. 引言 G512的轴采用的是塑料连接&#xff0c;特别容易腿折在里面&#xff0c;换着的时候&#xff0c;得先把这个卡在里面的塑料腿拿出来才行 放大效果图 2. 操作 可…

用js切割文字,超出省略

因为项目需要,当人员超过两个事则进行超出省略,如将一个 “张三,李四,王五”,这样的字串切割成"张三,李四…" 效果: 主要用的是基础的切割法 isOutlier(text) {if (!text || text "") return;const parts text.split(","); // 使用逗号将字…

电力感知边缘计算网关产品设计方案-业务流程设计

1.工业数据通信流程 工业数据是由仪器仪表、PLC、DCS等工业生产加工设备提供的,通过以太网连接工业边缘计算网关实现实时数据采集。按照现有的通信组网方案,在理想通信状态下可以保证有效获取工业数据的真实性和有效性。 边缘计算数据通信框架图: 2.边缘计算数据处理方案 …

Zeet构建多云战略充分发挥云的优势

大型企业通常拥有基础设施和应用团队&#xff0c;有能力围绕自己的业务需求构建所需平台。但对于技术团队精简、预算紧张的小企业来说&#xff0c;定制平台往往不现实而且难以扩展&#xff0c;是负担不起的“奢侈品”。 这一情况催生了平台即服务&#xff08;PaaS&#xff09;…

Azure Machine Learning - 什么是 Azure AI 搜索?

Azure AI 搜索&#xff08;以前称为“Azure 认知搜索”&#xff09;在传统和对话式搜索应用程序中针对用户拥有的内容提供大规模的安全信息检索。 关注TechLead&#xff0c;分享AI全维度知识。作者拥有10年互联网服务架构、AI产品研发经验、团队管理经验&#xff0c;同济本复旦…