SE注意力模块学习笔记《Squeeze-and-Excitation Networks》

Squeeze-and-Excitation Networks

  • 摘要
  • 引言
    • 什么是全局平均池化?
  • 相关工作
    • Deep architectures
  • Squeeze-and-Excitation Blocks
    • 3.1. Squeeze: Global Information Embedding
    • 3.2. Excitation: Adaptive Recalibration
    • 3.3. Exemplars: SE-Inception and SE-ResNet
  • 5. Implementation

摘要

卷积神经网络建立在卷积运算的基础上,通过在局部感受野内融合空间信息通道信息来提取信息特征。

为了提高网络的表示能力,最近的几种方法显示了增强空间编码的好处。

作者专注于通道关系,并提出了一种新的架构单元,称之为“挤压-激励”(SE)块,该单元通过明确建模通道之间的相互依赖性自适应地重新校准通道级别(channel-wise )的特征响应

作者证明,通过将这些块堆叠在一起所构建的 SENet 架构,在具有挑战性的数据集上泛化得非常好。至关重要的是,作者发现 SE 块以最小的额外计算成本为现有的最先进的深度体系结构带来了显著的性能改进。

引言

最近的工作表明,可以通过显式嵌入学习机制来提高网络的性能,这些学习机制有助于捕获空间相关性,而无需额外的监督。

其中一种方法是由 Inception 架构推广的,这表明网络可以通过在其模块中嵌入多尺度过程来实现竞争性精度。最近的研究试图更好地建模空间依赖性并纳入空间注意力。

在本文中,作者研究了结构设计的另一个方面——通道关系,通过引入一个新的结构单元,称之为“挤压和激发”(SE)块。目标是通过显式地建模其卷积特征通道之间的相互依赖性来提高网络的表示能力

为了实现这一目标,提出了一种允许网络执行特征重新校准的机制,通过这种机制,网络可以学习使用全局信息来选择性地强调有用的特征并抑制不太有用的特征

任何给定的变换 F t r : X → U \textbf{F}_{tr} : \mathbf{X} \to \mathbf{U} Ftr:XU, X ∈ R H ′ × W ′ × C ′ \mathbf{X} \in \mathbb{R}^{H' \times W' \times C'} XRH×W×C, U ∈ R H × W × C \mathbf{U} \in \mathbb{R}^{H \times W \times C} URH×W×C

可以构造一个相应的 SE 块来执行特征重新校准。

特征 U \mathbf{U} U 首先通过挤压操作,挤压操作将跨空间维度 H × W H × W H×W 的特征图聚合以生成通道描述符 (channel descriptor)。这个描述符嵌入了通道特征响应的全局分布,使来自网络的全局感受野的信息能够被其较低的层利用。随后是激励 (excitation)操作,其中通过基于通道依赖性的自门机制 (self-gating mechanism)为每个通道学习特定于样本的激活 (activations),控制每个通道的激励。然后将特征映射 U \mathbf{U} U 重新加权以生成 SE 块的输出,然后将其直接馈送到后续层。

什么是全局平均池化?

全局平均池化(Global Average Pooling, GAP)是一种在卷积神经网络中常用的池化技术,特别是在网络的最后几层。它的目的是将每个特征图(feature map)简化为一个单一的数值,从而减少模型的参数数量和计算复杂度。这在一定程度上有助于防止过拟合,并且使模型更易于解释。

全局平均池化中,对于每个特征图,我们计算该特征图上所有元素的平均值,作为该特征图的代表值。如果我们有 C C C 个特征图,那么全局平均池化之后,我们将得到一个 1 × 1 × C 1 \times 1 \times C 1×1×C 的输出,其中每个通道的值都是对应特征图上所有元素的平均值。

全局平均池化会改变特征图的空间尺寸。无论输入特征图的尺寸是多少,全局平均池化都会将其压缩成 1 × 1 1 \times 1 1×1 的尺寸,但是保留通道数不变。这样做的好处是,它允许网络适应任何大小的输入图像,并且在将特征图转化为最终的分类预测时,减少了需要学习的参数数量

总结来说,全局平均池化是一种将特征图的空间维度压缩到单个数值的技术,它确实会改变特征图的空间尺寸,并且常用于卷积神经网络的最后几层以简化模型并减少过拟合的风险。

如何理解上面这段话?

这段话介绍了Squeeze-and-Excitation (SE) block的基本工作原理,其中包含了几个关键概念:

  1. Channel Descriptor(通道描述符):在SE block中,首先对特征图U进行“squeeze”操作,即通过全局平均池化(global average pooling)来聚合特征图的空间维度 H×W,从而产生一个通道描述符。这个描述符捕获了每个通道在整个空间范围内的全局分布情况

  2. Sample-specific activations(样本特定的激活值):指的是对于每个输入样本,SE block都会计算一组特定于该样本的激活值。这些激活值反映了在当前样本下,每个通道的重要性程度

  3. Excitation(激活):激活操作是SE block的核心,它根据每个通道的激活值来重新加权特征图U的每个通道。这样,网络可以根据当前输入样本的特征自适应地调整每个通道的重要性。

  4. Self-gating mechanism(自门控机制):在“excitation”操作中,利用一种基于通道依赖性的自门控机制来学习每个通道的激活值。这种机制通常通过一个简单的全连接网络实现,网络的输入是通道描述符,输出是每个通道的激活值

通过这种方式,SE block能够显式地建模通道间的依赖关系,并通过动态调整通道的重要性来增强网络的表示能力。

SE building block 的基本结构如图 1 1 1 所示

在这里插入图片描述

  1. SE网络的构建:SE网络可以通过简单地堆叠一系列SE构建块(SE building blocks)来生成。这意味着你可以在网络的任何深度插入SE块,用它们替换原有的普通卷积块。

  2. SE块在不同深度的作用:虽然SE块的基本结构是通用的,但它在网络不同深度的作用会根据网络的需要进行适应。

    • 在早期层:SE 块学习以一种与类别无关的方式激活(excite)有信息量的特征,从而增强共享的低层表示的质量。这意味着在网络的初级阶段,SE 块帮助突出那些对于多个类别都有用的特征。
    • 在后期层:SE 块变得越来越专门化,对不同的输入以高度特定于类别的方式做出响应。这意味着在网络的高层,SE 块能够针对特定的类别调整通道的重要性,从而提高网络对特定类别特征的敏感性。
  3. 特征重校准的累积效益:通过整个网络,SE 块进行的特征重校准(feature recalibration)的好处可以累积起来。这意味着 SE 块不仅在单个层中改善特征表示,而且还通过网络的深度增强了整体的表示能力。

开发新的 CNN 架构是一项具有挑战性的工程任务,通常涉及许多新的超参数和层配置的选择。

相比之下,上面概述的 SE 块的设计很简单,可以直接与现有的最先进的体系结构一起使用,这些体系结构的模块可以通过直接替换 SE 对应的模块来加强。

SE 块在计算上是轻量级的,只会略微增加模型复杂性和计算负担。

作者开发了几个 senet,并对 ImageNet 2012 数据集进行了广泛的评估。

为了证明它们的普遍适用性,作者还展示了 ImageNet 数据集之外的结果,表明所提出的方法并不局限于特定的数据集或任务

相关工作

Deep architectures

跨通道关系:在传统的卷积神经网络中,跨通道的关系通常通过新的特征组合来建模,这些组合可以独立于空间结构(如使用 1 × 1 1×1 1×1 卷积)或与空间结构共同建模(使用标准卷积滤波器)。这些方法主要关注于减少模型和计算复杂度

SE块的新思路:与上述方法不同,SE块提出了一种新的思路,即通过明确地建模通道间的动态非线性依赖关系来增强网络的表示能力SE块利用全局信息(通过squeeze操作捕获)来指导每个通道的重要性(通过excitation操作实现),这有助于简化学习过程,并显著提高网络的表征能力。

总的来说,这段话强调了SE块相对于传统方法在建模通道间关系方面的创新和优势。

Squeeze-and-Excitation Blocks

Squeeze-and-Excitation block 是一个计算单元,可以为任何给定的变换构建:

F t r : X → U \textbf{F}_{tr} : \mathbf{X} \to \mathbf{U} Ftr:XU, X ∈ R H ′ × W ′ × C ′ \mathbf{X} \in \mathbb{R}^{H' \times W' \times C'} XRH×W×C, U ∈ R H × W × C \mathbf{U} \in \mathbb{R}^{H \times W \times C} URH×W×C

为简单起见, 下面的符号中 F t r \textbf{F}_{tr} Ftr 是卷积算子

V = [ v 1 , v 2 , . . . , v C ] \mathbf{V} = [\textbf{v}_1, \textbf{v}_2, ..., \textbf{v}_C] V=[v1,v2,...,vC] 是学习到的卷积核的集合,

其中 v c \textbf{v}_c vc 表示第 c c c 个卷积滤波器的参数. 然后可以将 F t r \textbf{F}_{tr} Ftr 的输出写成

U = [ u 1 , u 2 , . . . , u C ] \mathbf{U} = [\textbf{u}_1, \textbf{u}_2, ..., \textbf{u}_C] U=[u1,u2,...,uC], 其中
u c = v c ∗ X = ∑ s = 1 C ′ v c s ∗ x s . \textbf{u}_c = \textbf{v}_c * \mathbf{X} = \sum_{s=1}^{C'} \textbf{v}_c^s * \textbf{x}^s. uc=vcX=s=1Cvcsxs.这里 ∗ * 表示卷积, v c = [ v c 1 , v c 2 , . . . , v c C ′ ] \textbf{v}_c = [\textbf{v}_c^1,\textbf{v}_c^2, ..., \textbf{v}_c^{C'}] vc=[vc1,vc2,...,vcC] X = [ x 1 , x 2 , . . . , x C ′ ] \mathbf{X} = [\textbf{x}^1, \textbf{x}^2, ..., \textbf{x}^{C'}] X=[x1,x2,...,xC] (为了简化符号,省略了偏置项), 其中 v c s \textbf{v}_c^s vcs 是一个二维空间卷积核,表示 v c \textbf{v}_c vc 的单个通道,它作用于 X \mathbf{X} X 的相应通道。

由于输出是通过所有通道的求和产生的,因此通道依赖关系隐式嵌入在 v c \textbf{v}_c vc 中,但这些依赖关系与卷积滤波器捕获的空间相关性纠缠在一起。

目标是确保网络能够提高其对信息特征的敏感性,以便后续转换可以利用它们,并抑制不太有用的特征。

建议通过显式建模通道相互依赖性来实现这一目标,以便在将滤波器响应馈送到下一个变换之前,分两个步骤(挤压和激励)重新校准滤波器响应。图 1 1 1 显示了 SE 构建块的示意图。

3.1. Squeeze: Global Information Embedding

3.2. Excitation: Adaptive Recalibration

3.3. Exemplars: SE-Inception and SE-ResNet

5. Implementation

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/490465.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

百科词条编辑必备指南,让你轻松上手创建

1.注册账号:首先,你需要注册一个百科平台的账号。例如,对于百度百科,你需要有一个百度账号。 搜索词条:在百科全书平台上搜索您想要编辑的词条。如果词条已经存在,可以直接编辑;如果词条不存在&…

(已解决)vue3使用富文本出现样式乱码

我在copy代码到项目里面时候发现我的富文本乱码了 找了一圈不知道是哪里vue3不适配还是怎么,后来发现main.js还需要引入 import VueQuillEditor from vue-quill-editor // require styles 引入样式 import quill/dist/quill.core.css import quill/dist/quill.snow…

计算机组成原理(超详解!!) 第三节 运算器(浮点加减乘)

1.浮点加法、减法运算 操作过程 1.操作数检查 如果能够判断有一个操作数为0,则没必要再进行后续一系列操作,以节省运算时间。 2.完成浮点加减运算的操作 (1) 比较阶码大小并完成对阶 使二数阶码相同(即小数点位置对齐)…

力扣Lc21--- 389. 找不同(java版)-2024年3月26日

1.题目描述 2.知识点 &#xff08;1&#xff09;在这段代码中&#xff1a; // 统计字符串s中每个字符的出现次数for (int i 0; i < s.length(); i) {count[s.charAt(i) - a];}对于字符串s “abcd”&#xff1a; 当 i 0&#xff0c;s.charAt(i) ‘a’&#xff0c;ASCII…

牛客小白月赛89(A,B,C,D,E,F)

比赛链接 官方视频讲解&#xff08;个人觉得讲的还是不错的&#xff09; 这把BC偏难&#xff0c;差点就不想做了&#xff0c;对小白杀伤力比较大。后面的题还算正常点。 A 伊甸之花 思路&#xff1a; 发现如果这个序列中最大值不为 k k k&#xff0c;我们可以把序列所有数…

2024年道路运输企业主要负责人证模拟考试题库及道路运输企业主要负责人理论考试试题

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 2024年道路运输企业主要负责人证模拟考试题库及道路运输企业主要负责人理论考试试题是由安全生产模拟考试一点通提供&#xff0c;道路运输企业主要负责人证模拟考试题库是根据道路运输企业主要负责人最新版教材&#…

数据结构进阶篇 之 【二叉树】详细概念讲解(带你认识何为二叉树及其性质)

有朋自远方来&#xff0c;必先苦其心志&#xff0c;劳其筋骨&#xff0c;饿其体肤&#xff0c;空乏其身&#xff0c;鞭数十&#xff0c;驱之别院 一、二叉树 1、二叉树的概念 1.1 二叉树中组分构成名词概念 1.2 二叉树的结构概念 1.3 特殊的二叉树 2、二叉树的存储结构 …

沪漂8年回郑州三年如何走上创业之路

大家好&#xff0c;我是大牛&#xff0c;目前人在郑州。 现在标签是&#xff1a; 创业者&#x1f697;&#x1f438; (注册有自己的公司&#xff0c;主要是为了自己的产品和接外包项目)独立开发者&#x1f468;&#x1f3fb;&#x1f4bb; (有自己的小项目)数字游民&…

SpringDoc 注解

列举几个常用的 1. Tag 用于说明或定义的标签。一般作用于控制层 2.Operation(summary "这是新增方法") 描述 API 操作的元数据信息。常用于 controller 层的方法上 ​ 3.Parameter 用于描述 API 操作中的参数 ​ 4.Operation Parameters ​ 5.Schema用于…

IPV6协议之RIPNG

目录 前言&#xff1a; 一、RIPNG与RIP的区别 二、如何配置RIPNG 如何解决RIPNG环路问题呢&#xff1f; 控制RIPNG的选路 1、修改RIPNG默认优先级 2.配置接口附加开销值从而干涉RIPNG的选路 RIPNG拓展配置 1.RIPNG的认证 配置RIPNG进程下的IPsec认证&#xff1a; 配…

麒麟系统安装JDK、OpenGauss

Linux安装openjdk1.8 1. 执行命令yum list |grep jdk查看可安装jdk版本 2. 选择一个java版本进行安装 这里我们希望安装java1.8&#xff0c;因为我们的机器是64位的&#xff0c;所以选择安装java-1.8.0-openjdk-devel.x86_64。 这里有个地方要注意&#xff0c;上图中我用红框圈…

LLaVA: Large Language and Vision Assistant 图片解析 图生文

LLaVA: Large Language and Vision Assistant 图片解析 图生文 目录 介绍 效果 ​编辑项目 测试代码 Form1.cs Helper.cs 下载 介绍 LLaVA&#xff0c;一种新的大型多模态模型&#xff0c;称为“大型语言和视觉助手”&#xff0c;旨在开发一种通用视觉助手&#xf…

110 Tried to send an out-of-range integer as a 2-byte value: 40003

前言 呵呵 这个也是一个之前碰到的一个问题, 主要的问题是 发送给数据库的 sql 参数太多了, 呵呵 超过了 postgres 客户端, 服务器 交互的参数的数量的上限了 之前记录了一个 todo, 最近的时候 看了一下 这部分的代码, 以及 涉及到的相关的协议 另外 例子中会有一个对比, …

【Lazy ORM 框架学习】

Gitee 点赞关注不迷路 项目地址 快速入门 模块所属层级描述快照版本正式版本wu-database-lazy-lambdalambda针对不同数据源wu-database-lazy-orm-coreorm 核心orm核心处理wu-database-lazy-sqlsql核心处理成处理sql解析、sql执行、sql映射wu-elasticsearch-starterESESwu-hb…

JAVA 8 新特性Stream API

一、Stream API 概念 Stream API ( java.util.stream) 把真正的函数式编程风格引入到Java中。这 是目前为止对Java类库最好的补充&#xff0c;因为Stream API可以极大提供Java程序员的生产力&#xff0c;让程序员写出高效率、干净、简洁的代码。 Stream 是 Java8 中处理集合…

docker搭建zabbixx ,智能服务器监控运维平台(运维工程师必备)

安装阿里的docker源 yum-config-manager --add-repo https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo sudo yum makecache fast 安装系统需要的工具 yum install -y bind-utils net-tools wget unzip yum install -y yum-utils device-mapper-persisten…

学习笔记Day17:转录组上游分析-1

转录组上游分析-1 作业&#xff1a; 取出fastq文件中的所有序列ID&#xff08;第一行&#xff09; less SRR1039510_1.fastq.gz | awk {if(NR%41){print $0}}less SRR1039510_1.fastq.gz | paste - - - - | cut -f 1 取出fastq文件中的所有序列&#xff08;第二行&#xff09;…

鸿蒙OS应用示例:【数字滚动计时】

实现效果&#xff1a; 代码示例&#xff1a; RollingText.ets 组件封装 RollingText.ets 组件封装 /*** 滚动文字特效*/ Component export default struct RollingText {private num:numberprivate timerId: number -1State counter: number 0aboutToAppear() {this.timerId…

【蓝桥杯】填空题技巧|巧用编译器|用Python处理大数和字符|心算手数|思维题

目录 一、填空题 1.巧用编译器 2.巧用Excel 3. 用Python处理大数 4.用Python处理字符 5.心算手数 二、思维题 推荐 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。【点击跳转到网站】 一、填空题 …

做功能测试多年,想进阶自动化技术 ,该如何学习自动化测试呢 ?

1.什么是自动化测试 &#xff1f; 即三个自动化 &#xff1a; 代码修改自动触发自动化运行 、自动执行测试用例 、自动生成测试结果并发送团队 。 对技术的要求就是&#xff1a;自动化测试框架 持续集成工具 2. 企业为什么要做自动化 &#xff1f; 从企业的需求来看 &…