【论文阅读笔记】Wavelet Convolutions for Large Receptive Fields

1.论文介绍

Wavelet Convolutions for Large Receptive Fields
大感受野的小波卷积
2024 EECV
Paper Code
在这里插入图片描述

2.摘要

近年来,人们试图通过增加卷积神经网络(ConvolutionalNeuralNets,CNNs)的核尺寸来模拟视觉变换器(VisionTransformers,ViTs)的自我注意块的全局感受野。然而,这种方法很快就达到了上限和饱和,在实现了一个全局感受野之前。本文证明,通过利用小波变换(WT),有可能获得非常大的感受野,而不遭受过度参数化,例如,对于k × k的感受野,所提出的方法中的可训练参数的数目仅随k的对数增长。所提出的WTConv层可作为现有架构中的插入式替代品,产生有效的多频响应,并随着感受野的大小而适度地缩放。

Keywords: 全局感受野、小波变换、多频率

引入WTConv层:提出了一种新的卷积层WTConv,通过结合小波变换扩展感受野,使CNN能够在不显著增加参数的情况下获得接近全局的感受野。
多频率响应:WTConv层利用小波分解将输入分成不同频带,允许卷积层在低频和高频分量上分别进行处理,增强了模型对低频成分(即形状特征)的响应。
低参数增长率:与传统方法中卷积核尺寸增大导致参数和计算量指数级增长不同,WTConv实现了参数的对数增长,使得在大感受野的情况下保持参数效率。
即插即用性:WTConv被设计为可以直接替换现有CNN中的深度卷积操作,无需对架构进行额外修改,具有广泛适用性。

3.Introduction

在过去的十年中,卷积神经网络(CNNs)在很大程度上主导了计算机视觉的许多领域。尽管如此,随着视觉转换器(Vision Transformers,ViT)的出现,CNN面临着激烈的竞争。视觉转换器是对自然语言处理中使用的Transformer架构的改编。具体地说,人们现在认为,ViT优于CNN的优势主要归因于它们的多头自注意层。该层便于特征的全局混合,这与通过构造而被限制为特征的局部混合的卷积形成对比。因此,最近的几项工作试图弥合CNNs和ViT之间的性能差距。Liu等人重新构建了ResNet架构及其训练例程,以跟上Swin Transformer的步伐。还有一个改进是增加卷积的核大小。然而,根据经验,该方法在内核大小为7×7时达到饱和,这意味着进一步增加内核并没有帮助,甚至在某个时候开始恶化性能。虽然单纯地将大小增加到7 × 7以上是没有用的,但Ding等人已经表明,如果构造得更好,甚至可以从更大的核中得到。尽管如此,最终内核变得过度参数化,并且性能在到达全局感受域之前就饱和了。在[11]中分析的一个有趣的特性是,使用较大的核使得CNN更偏向于形状,这意味着它们捕获图像中的低频的能力得到了提高。这一发现有些令人惊讶,因为卷积层通常倾向于对输入中的高频做出响应。这与注意力头不同,注意力头更倾向于低频,如其他研究所示。上面的讨论提出了一个很自然的问题:我们能不能利用信号处理工具来有效地增加卷积的感受域,而不遭受过度参数化的影响?换句话说,我们是否可以使用非常大的过滤器-例如,全局的感受野–同时还能改善性能?本文对这一问题给出了肯定的回答。我们提出的方法利用了小波变换(WT),一种基于时频分析的成熟工具,使卷积的感受域很好地按比例放大,并通过级联,引导CNNs更好地响应低频。在某种程度上,我们将解决方案基于WT的动机在于(不同于傅里叶变换),它保留了一些空间分辨率。这使得空间操作(例如,卷积)更有意义。

更具体地说,本文提出了WTConv,这是一个使用级联WT分解并执行一组小核卷积的层,每个卷积集中在越来越大的感受野中的输入的不同频带上。该过程允许在输入中更加强调低频,同时仅添加少量可训练参数。事实上,对于一个k × k的感受野,可训练参数的数量只随k的对数增长。总结一下,本文的主要贡献是:-一个新的层,称为WTConv,它使用WT来有效地增加卷积的感受域。- WTConv被设计为给定的CNN内的插入式替换(用于深度卷积)。

4.方法详解

作为卷积的小波变换

在这里插入图片描述
在这项工作中,本文采用Haar WT,因为它高效和简单。然而,本文的方法并不局限于它,因为可以使用其他小波基,尽管计算成本增加。

给定一个图像X,在一个空间维度(宽度或高度)上的一维Haar WT通过与核[1,1]/ √ 2和[1,−1]/ √ 2的深度卷积给出,随后是因子为2的标准下采样算子。

一维WT是在一个维度上处理,是深度卷积与下采样的结合。

为了执行2D Haar WT,我们在两个维度上组合操作,使用以下四个滤波器的集合产生步长为2的深度卷积:
在这里插入图片描述
注意,fLL是低通滤波器,fLH(水平高频)、fHL(垂直高频)、fHH(对角高频)是一组高通滤波器。对于每个输入通道,卷积的输出:
在这里插入图片描述
有四个通道,每个通道(在每个空间维度上)的分辨率是X的一半。XLL是X的低频分量,而XLH、XHL、XHH是其水平、垂直和对角高频分量。由于等式最上面中的核1形成正交基,应用逆小波变换(IWT)通过转置卷积获得:
在这里插入图片描述
然后通过递归分解低频分量给出级联小波分解。分解的每一级由下式给出:
在这里插入图片描述
其中X(0)LL = X,i是当前层级。这导致了对于较低频率,频率分辨率增加和空间分辨率减小。

级联小波分解的过程是:每次分解后,只对低频分量(即 LL 分量)进行进一步的小波分解,而不是对四个分量都进行分解。因此,级联小波分解的层次结构会随着每次分解产生新的 LL、LH、HL 和 HH 分量,但这些新分量只来自于上一次分解的 LL 部分。

小波域中的卷积
增加卷积层的核大小会二次增加参数的数量(因此,自由度也会增加)。为了缓解这种情况:首先,使用WT对输入的低频和高频成分进行滤波和降频。然后,在使用IWT构造输出之前,对不同的频率图执行小核深度卷积。换句话说,该过程由下式给出:
在这里插入图片描述
其中X是输入张量,W是具有四倍于X的输入通道的k×k深度核的权重张量。该运算不仅分离了频率分量之间的卷积,而且允许更小的核在原始输入的更大区域中操作,即增加其接受场w.r.t。输入。

将每个频率分量(即小波分解得到的四个频率分量)分别使用一个小卷积核(k × k)进行卷积操作。这里使用的是深度卷积,即在通道维度上逐个卷积。

我们采用该1级组合操作,并通过使用来自等式(1)的相同级联原理进一步增加它。该过程由下式给出:
在这里插入图片描述
其中X(0)LL是层的输入,X(i)H表示第i层的所有三个高频图。为了将不同频率的输出联合收割机组合,我们使用WT及其逆是线性运算的事实,这意味着IWT(X + Y)= IWT(X)+ IWT(Y)。因此,执行
在这里插入图片描述

由于小波变换(WT)和逆变换(IWT)都是线性操作,利用线性叠加的性质可以直接进行叠加

导致不同级别的卷积的总和,其中Z(i)是从级别i向前的聚合输出。其中不同大小卷积的两个输出被求和作为输出。我们不能对Y(i)LL、Y(i)H中的每一个进行归一化,因为它们的单独归一化不对应于原始域中的归一化。相反,我们发现,仅执行通道式缩放来加权每个频率分量的贡献就足够了。图3显示了2级WT情况下的WTConv。
在这里插入图片描述

首先输入一个input,然后进行WT得到四个分量,再对低频分量再进行WT,直至最后一层。对于每一层,先把四个分量经过深度卷积变换,再cat到一起经过IWT得到该层的结果,再把下一层的低频分量与之相加(最后一层的下一层是0),传回上一层,直至第一层。第一层是input经过卷积,与下一层相加得到输出结果。

在这里插入图片描述
使用小波变换的优势
将WTConv合并到给定的CNN中有两个主要的技术优势。首先,每一级WT都增加了层的感受野的大小,而可训练参数的数量只有少量增加。也就是说,WT的第三级级联频率分解,以及每个级的固定大小的核k,允许参数的数量在级别的数量(k· 4 · c · k2)中线性缩放,而感受野以指数方式增长(2 k· k)。
第二个好处是,WTConv层的构造可以比标准卷积更好地捕获低频。

5.结果与总结

语义分割:
在这里插入图片描述
分类:
在这里插入图片描述

我的理解是本文构建了一个基于小波变换的卷积块,可以代替深度卷积使用。因为小波变换不同于傅里叶变换,它包含空间域与频域的信息。做法是首先选定Haar WT作基底,2D变换每次都会分成低频、水平高频、垂直高频、对角高频四个分量;后续还会级联操作,对得到的四个分量中的低频分量会再次进行小波变换,得到更低一级的四个分量。逆变换时,首先会对它们先进行卷积操作(深度卷积),然后低频分量与低一级的四个分量相加,再把这一级的四个分量作逆小波变换。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/908960.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

2024年最新10款顶级项目管理软件排行

项目管理软件在现代项目管理中扮演着至关重要的角色,它不仅仅是一个工具,更是一种高效、系统化的方法来管理和优化项目流程,帮助项目经理和团队成员快速了解项目状态,加速项目进展。 进度猫 进度猫是一款以甘特图为向导的轻量级…

SAP ABAP开发学习——RFC

目录 RFC接口 定义 调用过程 RFC的通信 RFC通信情况 RFC接口系统 RFC的通信模式 RFC版本 RFC调用方式 Web Service接口 SAP创建Web Service示例 远程目标的维护 创建远程目标 外部系统访问设置 RFC的调用 RFC接口 定义 调用过程 RFC的通信 RFC通信情况 RFC接…

gps数据对接G7易流平台

之前伙伴对接G7物流平台获取温度、轨迹数据,写的一塌糊涂,今天来重新对接下。 G7易流 G7物联和易流科技合并后正式发布的品牌,主要面向生产制造与消费物流行业的货主及货运经营者提供软硬一体、全链贯通的SaaS服务。这包括订阅服务&#xff…

【网络】传输层协议TCP(下)

目录 四次挥手状态变化 流量控制 PSH标记位 URG标记位 滑动窗口 快重传 拥塞控制 延迟应答 mtu TCP异常情况 四次挥手状态变化 之前我们讲了四次挥手的具体过程以及为什么要进行四次挥手,下面是四次挥手的状态变化 那么我们下面可以来验证一下CLOSE_WAIT这…

高效新闻管理:SpringBoot框架应用

1系统概述 1.1 研究背景 随着计算机技术的发展以及计算机网络的逐渐普及,互联网成为人们查找信息的重要场所,二十一世纪是信息的时代,所以信息的管理显得特别重要。因此,使用计算机来管理新闻稿件管理系统的相关信息成为必然。开发…

【已解决】C# NPOI如何设置单元格格式

前言 设置单元格格式我们做表格必须要的一步,那么如何对单元格进行设置呢?直接上图看看效果图先,我做的是一个居中然后字体变化的操作,其他的查他的手册即可。 解决方法 直接上代码 IWorkbook excelDoc new XSSFWorkbook();…

通过微调 Embedding 优化 RAG

大型语言模型 (LLM) 向用户和组织展示了巨大的潜力;它们的强大功能和生成能力使它们最近广受欢迎并被广泛接受。LLM 面临的一些缺点是无法以上下文感知的方式生成或响应用户给出的提示,听起来非常通用和开放,或者有时响应的信息已经过时。如果…

微信小程序生成二维码

目前是在开发小程序端 --> 微信小程序。然后接到需求:根据 form 表单填写内容生成二维码(第一版:表单目前需要客户进行自己输入,然后点击生成按钮实时生成二维码,不需要向后端请求,不存如数据库&#xf…

用接地气的例子趣谈 WWDC 24 全新的 Swift Testing 入门(二)

概述 从 WWDC 24 开始,苹果推出了全新的测试机制:Swift Testing。利用它我们可以大幅度简化之前“老态龙钟”的 XCTest 编码范式,并且使得单元测试更加灵动自由,更符合 Swift 语言的优雅品味。 在这里我们会和大家一起初涉并领略…

Python的自然语言生成与对话系统介绍

1. 背景介绍 自然语言生成(Natural Language Generation,NLG)和对话系统是人工智能领域的重要研究方向。NLG 涉及将计算机理解的信息转换为自然语言文本,而对话系统则涉及计算机与用户之间的自然语言交互。Python 作为一种易于学习、易于使用的编程语言…

HarmonyOS NEXT 应用开发实战(十、从零设计一款个人中心页面详细示例)

随着HarmonyOS的不断发展,越来越多的开发者开始关注这个平台上的应用开发。本篇文章将详细讲解如何从零开始设计一款个人中心页,并在代码中实现其相关功能。 1. 项目结构设计 首先,我们需要设计一个合理的项目结构。我们将个人中心页面分为几…

Node.js 入门指南:从零开始构建全栈应用

​🌈个人主页:前端青山 🔥系列专栏:node.js篇 🔖人终将被年少不可得之物困其一生 依旧青山,本期给大家带来node.js篇专栏内容:node.js-入门指南:从零开始构建全栈应用 前言 大家好,我是青山。作…

我们来学mysql -- 连接(原理版)

我们来学mysql -- 连接 题记两张表驱动表 题记 回到初学者的视角,navicat或命令窗口,呈现一行行数据,类比为excel工作薄更是深入人心通过join将多表的记录关联起来,这似乎也没啥问题只是好像是那么回事,又…似乎有想说…

ssm校园二手交易管理系统+vue

系统包含:源码论文 所用技术:SpringBootVueSSMMybatisMysql 免费提供给大家参考或者学习,获取源码看文章最下面 需要定制看文章最下面 目 录 1 绪论 1 1.1 选题背景 1 1.2 选题意义 1 1.3 研究内容 2 2 系统开发技术 3 2.1 MySQL数…

2024年前三季度币安、OKX等五大交易所上币表现分析

随着加密市场竞争的加剧,头部交易所逐渐在上币策略、代币选择、交易活跃度等方面采取了不同的应对策略。Animoca Digital Research近期发布的一份报告,通过对币安、OKX、Bitget、KuCoin和Bybit五大交易所2024年前三季度的上币情况进行了详细分析。本文将…

Nature文章《deep learning》文章翻译

这篇文章是对Nature上《deep learning》文章的翻译。原作者 Yann LeCun, Yoshua Bengio& Geoffrey Hinton。 这篇文章的中心思想是深入探讨深度学习在机器学习中的革命性贡献,重点介绍其在特征学习、监督学习、无监督学习等方面的突破,并阐述其在图…

使用 RabbitMQ 有什么好处?

大家好,我是锋哥。今天分享关于【使用 RabbitMQ 有什么好处?】面试题。希望对大家有帮助; 使用 RabbitMQ 有什么好处? 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 RabbitMQ 是一种流行的开源消息代理,广…

Scrapy链接MongoDB数据库

本文章是在Scrapy入门-CSDN博客的基础上改写的代码。 1.声明采集目标 打开mySpider/mySpider1/items.py文件,修改MyspiderItem类为AIspiderItem: class AIspiderItem(scrapy.Item): title scrapy.Field() url scrapy.Field() date scrapy.Field() 2…

Qt项目实战:红绿灯小程序

目录 一.初始化对象 二.捕获并处理特定的事件 三.自定义绘制方法 四.绘制外部边框 五.绘制内部边框 六.绘制按钮的背景色 七.绘制覆盖层(高光效果) 八.效果 九.代码 1.h 2.cpp 一.初始化对象 1.设置文本、颜色、边框和背景色等默认值。 2.安…

ReactPress 是什么?

ReactPress Github项目地址:https://github.com/fecommunity/reactpress 欢迎Star。 ReactPress 是什么? ReactPress 是使用React开发的开源发布平台,用户可以在支持React和MySQL数据库的服务器上架设属于自己的博客、网站。也可以把 ReactP…