可变形卷积颠覆式创新!新SOTA提速80%,更高性能,更强几何适应能力

在传统的卷积神经网络中,固定模式的卷积核在处理图像时可能会限制网络对不规则形状特征的提取能力。为了解决这个问题,研究者提出了可变形卷积

可变形卷积是一种改进的卷积操作,它通过引入可学习的偏移量来增强模型对几何变化的适应能力,让网络能够更好地处理不规则形状的物体或特征。

比如D-LKA Attention模型,这种简化的注意力机制受益于可变形卷积,可以灵活地扭曲采样网格,使模型能够适应不同的数据模式,提高模型性能和鲁棒性。在流行的医学分割数据集上的评估结果表明了D-LKA Attention的SOTA性能。

可变形卷积针对传统卷积操作的局限性提出了有效的解决方案,在多个领域显示出了显著的性能提升,可见绝对是个发论文的好方向。本文整理了11种可变形卷积的创新改进方案给各位作参考,包括最新的可变形卷积v4,比v3提速80%。

论文与开源代码需要的同学看文末

D-LKA Attention

Beyond Self-Attention: Deformable Large Kernel Attention for Medical Image Segmentation

主要贡献:

  • 提出了D-LKA Attention,这是一种高效的注意力机制,使用大卷积核来充分理解体积上下文,同时避免了计算开销。

  • 引入了可变形卷积,使模型能够适应不同的数据模式,更好地捕捉医学图像中的变形。

  • 设计了2D和3D版本的D-LKA Net架构,后者在跨深度数据理解方面表现出色。

  • 在多个流行的医学分割数据集上(如Synapse、NIH Pancreas和Skin lesion)的评估表明,D-LKA Net在性能上超越了现有的领先方法。

方法论/创新点:

  • 论文首先回顾了大核注意力(LKA)的概念,并介绍了可变形LKA模块的创新探索。

  • 基于此,提出了用于分割任务的2D和3D网络架构。

  • D-LKA模块通过自适应采样网格来捕捉局部特征,同时通过大核卷积聚合全局信息。

  • 2D和3D D-LKA Net架构都采用了编码器-解码器设计,但在3D情况下,D-LKA机制被调整以适应3D上下文,实现不同体积切片之间的信息无缝交换。

实验:

  • 使用PyTorch框架在单个RTX 3090 GPU上实现了2D和3D模型,并进行了训练。

  • 在多个公开的医学图像分割数据集上进行了评估,包括Synapse多器官分割数据集、ISIC 2017和2018皮肤病变分割数据集以及NIH胰腺数据集。

  • D-LKA Net在这些数据集上取得了优于现有最先进方法的性能。

DCNv4

Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator for Vision Applications

主要贡献:

  • 提出了DCNv4,通过两项关键改进优化了DCNv3:1) 移除空间聚合中的softmax归一化,增强动态属性和表达能力;2) 优化内存访问以减少冗余操作,从而加速计算。

  • DCNv4在多个任务上表现出色,包括图像分类、实例和语义分割,以及图像生成。

  • 将DCNv4集成到生成模型中,如U-Net在潜在扩散模型中,DCNv4超越了基线,显示了其提升生成模型的潜力。

方法论/创新点:

  • 通过指令级内核分析,发现DCNv3的内存访问成本占99%,计算成本不到1%,这促使作者重新审视操作实现,并发现许多内存访问是冗余的。

  • 从卷积的无限权重范围中获得灵感,作者发现DCNv3中的softmax归一化是不必要的,因为每个位置都有一个专门的聚合窗口。

  • 通过这些改进,DCNv4不仅在初始训练阶段收敛速度显著快于DCNv3,而且在前向速度上加速了3倍以上。

实验:

  • 在ImageNet分类、实例分割、语义分割和3D对象检测等任务中评估DCNv4的性能,DCNv4在所有任务中均显示出优越的性能。

  • 将DCNv3替换为DCNv4创建的FlashInternImage,在速度上提高了50%至80%,且在不同的模型规模和训练计划下均显示出更快的收敛速度和更好的性能。

  • DCNv4作为通用操作符在其他现代骨干架构中的性能也得到了验证,包括ConvNeXt和ViT,并且在图像生成任务中表现出色。

DAS

DAS: A Deformable Attention to Capture Salient Information in CNNs

主要贡献:

  • 提出了DAS,这是一种快速且简单的全卷积方法,通过使用可变形卷积来定位图像中的相关区域,并使用可分离卷积提高效率。

  • DAS通过门控机制将相关信息传播到现有的CNNs中,与Transformer风格的注意力机制相比,DAS的计算复杂度从O(n^2)降低到O(n)。

  • DAS在图像分类和目标检测任务中,当添加到流行的CNNs(如ResNet50)时,能够提高性能。

方法论/创新点:

  • DAS通过瓶颈层(使用深度可分离卷积)和可变形注意力门来增强CNNs对相关信息的关注。

  • 瓶颈层减少特征图的通道数,并通过实例归一化和GELU非线性激活来增强特征的表示能力。

  • 可变形注意力门使用动态网格来代替标准卷积滤波器中的常规网格,以便更好地关注图像中的相关区域。

  • DAS通过逐点乘法将注意力机制整合到CNN模型中,无需更改网络的主干架构。

实验:

  • 在CIFAR100、Stanford Dogs和ImageNet1k数据集上进行了图像分类实验,并在MS COCO数据集上进行了目标检测实验。

  • DAS在多个基准模型上表现出色,特别是在ResNet和MobileNetV2上,实现了准确性的显著提升。

  • 通过gradCAM热图可视化和显著特征检测(SFD)分数,证明了DAS在关注图像中的显著特征方面的有效性。

D3Dnet

Deformable 3D Convolution for Video Super-Resolution

主要贡献:

  • 提出了D3Dnet,这是一种新的网络结构,能够同时从空间和时间维度整合空间-时间信息,用于视频SR。

  • 引入了Deformable 3D Convolution(D3D),结合了可变形卷积和3D卷积的优点,实现了高效的空间-时间信息利用和自适应运动补偿。

  • 通过大量实验验证了D3D在利用空间-时间信息方面的有效性,并且与现有技术相比,D3Dnet在视频SR性能上达到了最先进的水平。

方法论/创新点:

  • D3D是在传统3D卷积(C3D)的基础上发展而来,通过可学习的偏移量扩大空间感受野,提高了外观和运动建模能力。

  • D3Dnet的框架包括C3D层、多个残差D3D(resD3D)块、瓶颈层以及用于SR重建的级联残差块和子像素层。

  • 训练网络时使用均方误差(MSE)作为损失函数,评估指标包括峰值信噪比(PSNR)、结构相似性指数(SSIM)、基于运动的视频完整性评估指标(MOVIE)和时间MOVIE(T-MOVIE)。

实验:

  • 使用Vimeo-90k数据集进行训练,并通过Vid4、Vimeo-90k和SPMC数据集进行性能评估。

  • 与现有的单图像SR方法和视频SR方法进行比较,D3Dnet在PSNR和SSIM得分上均取得了最高分,并且在MOVIE和T-MOVIE指标上也显著优于现有方法,表明D3Dnet生成的结果在时间上更加一致。

  • 计算效率方面,D3Dnet在参数数量、FLOPs和运行时间上表现出较高的效率,尤其是在与单图像SR方法相比较时。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“可变形卷积”获取全部论文+代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/478677.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

qt+ffmpeg 实现音视频播放(三)之视频播放

一、视频播放流程 (PS:视频的播放流程跟音频的及其相似!!) 1、打开视频文件 通过 avformat_open_input() 打开媒体文件并分配和初始化 AVFormatContext 结构体。 函数原型如下: int avformat_open_inpu…

python 教你如何创建一个自定义库 colorlib.py

目录 Colorlib 生成代码 模块代码 导入测试 测试一 测试二 应用测试 颜色列表 colorList 随机颜色元组 randcolorTuples 随机颜色字串 randcolorStrings Color类测试 测试一 测试二 题外话 Colorlib 有没有碰到过这样的场景:写代码时想要用上丰富的色…

C#混淆心得

C#混淆心得 近期遇到混淆C#代码的需求,在网上找了很多办法,在此记录一下。 混淆的本质就是让代码变丑,让别人看不懂。 为什么要混淆: 1.保护核心代码 可以在一定程度上避免别人偷代码,从而保护重要的部分&#xf…

3.3 RK3399项目开发实录-板载Ubuntu系统的使用(wulianjishu666)

嵌入式物联网常用90款传感器开发例程。链接:https://pan.baidu.com/s/1oisHMZXDzKqa4EspY83V-A?pwdo5f4 1. 介绍 Ubuntu 使用手册是针对 Firefly 官方发布的 Ubuntu 系统固件特性所编写,适用于 Ubuntu Desktop 与 Minimal 系统,部分与 UI 显…

适用于智能语音小家电的语音ic类型有哪些?

适用于智能语音小家电的语音ic类型有哪些? 1. 语音播放芯片:这种芯片主要用于实现语音提示和报警功能。例如,当按下某个按钮时,它可以发出语音提醒,或者在出现故障时发出报警声音。这种芯片的应用非常广泛&#xff0…

Halcon 条码读取

一维码读取 create_bar_code_model 创建条码读取器的模板 set_bar_code_param 配置解码方式 find_bar_code 读取条码 clear_bar_code_model 清除条码匹配模板 * 1.创建条码读取器的模板 * 参数一:通用参数的名称,针对条形码模型进行调整。默认值为空 * 参…

Java实用经验总结

前言:以下为笔者在工作中总结的好用且简洁代码的经验 文章目录 1、多判断代替if2、通配符替换内容(常见于邮件、短信等模版)3、spring获取bean对象4、动态获取nacos配置5、优雅校验请求入参 1、多判断代替if 针对多个是和否的问题&#xff0…

如何安装和卸载SFP光模块

SFP光模块的安装和拆卸是简单直接的过程。然而,任何非标准操作都可能导致隐式损坏甚至永久故障。您需要参考及时更新的光模块的数据表或用户手册,以熟悉其特性和锁定机制。 准备工作 常见事项 拆卸和插入SFP光模块可能会缩短其使用寿命,因…

搜索二维矩阵

题目链接 搜索二维矩阵 题目描述 注意点 每行中的整数从左到右按非严格递增顺序排列每行的第一个整数大于前一行的最后一个整数1 < matrix.length, matrix[0].length < 100 解答思路 先二分查找找到target所处的行&#xff0c;找到行后再二分查找找到target所处的列…

Java毕业设计-基于springboot开发的数码论坛系统设计与实现-毕业论文+答辩PPT(附源代码+演示视频)

文章目录 前言一、毕设成果演示&#xff08;源代码在文末&#xff09;二、毕设摘要展示1、开发说明2、需求分析3、系统功能结构 三、系统实现展示1、系统功能模块2、管理员功能模块3、用户后台管理模块 四、毕设内容和源代码获取总结 **Java毕业设计-基于springboot开发的数码论…

计算平均分 javascript

养成好习惯&#xff1a;先写注释再写代码 基础版&#xff1a;直接写逻辑&#xff08;平均分总和/个数&#xff09; // 求平均分 var scores [60, 55, 80, 33, 75, 100]; // 求和,相除 var sum 0; var avg;for (var i 0; i < 6; i) {sum scores[i]; }avg sum / 6; con…

Android Studio 编译报错 ( Could not find com.android.tools.build:gradle:4.2.1.)

检查下根目录下的 build.gradle 配置 , 是否只配置了 jcenter 仓库 &#xff0c;加上 google()mavenCentral() 重新编译试一下

Mybatis 的知识学习

准备&#xff1a; maven&#xff1a;https://mvnrepository.com/ mybatis: MyBatis中文网 1.mybatis的定义 MyBatis 是一款优秀的持久层框架&#xff0c;它支持自定义 SQL、存储过程以及高级映射。MyBatis 免除了几乎所有的 JDBC 代码以及设置参数和获取结果集的工作。MyBati…

CTF入门学习籽料(非常详细)零基础入门到精通,收藏这一篇就够了!(文末自取)

前言&#xff1a; 从2019年10月开始接触CTF&#xff0c;学习了sql注入、文件包含等web知识点&#xff0c;但都是只知道知识点却实用不上&#xff0c;后来在刷CTF题才发现知识点的使用方法&#xff0c;知道在哪里使用&#xff0c;哪里容易出漏洞&#xff0c;可是在挖src漏洞中还…

TRM推出1年后,都给客户带来了哪些改变?

就在一年前&#xff0c;用友大易推出了ATSTRM全新人才配置平台&#xff0c;成为国内首家将TRM&#xff08;人才关系管理&#xff09;理念融入ATS&#xff08;招聘管理系统&#xff09;的企业服务厂商。 谈及TRM这一理念的出炉&#xff0c;用友网络副总裁、用友大易联合创始人石…

【云呐】办公资产盘点报告总结怎么写

办公资产盘点报告总结应该清晰、简洁地总结盘点过程、结果和相关问题。以下是一种写作办公资产盘点报告总结的常见结构和要点&#xff1a;  盘点目的&#xff1a;简要说明盘点的目的和背景&#xff0c;例如为了确保资产的准确性、管理资产风险或制定更好的资产管理策略等。 …

面向对象的三大特性-----封装、继承、多态(Java篇)

&#x1f341; 个人主页&#xff1a;爱编程的Tom&#x1f4ab; 本篇博文收录专栏&#xff1a;Java专栏&#x1f449; 目前其它专栏&#xff1a;c系列小游戏 c语言系列--万物的开始_ &#x1f389; 欢迎 &#x1f44d;点赞✍评论⭐收藏&#x1f496;三连支持一…

TCP协议——三次握手和四次挥手

文章目录 1. 示意图2. 三次握手3. 四次挥手4. 三次和四次问题4.1 为什么三次握手4.2 为什么四次挥手 5. 状态变化实验5.1 三次握手实验5.2 四次挥手实验 1. 示意图 Tips&#xff1a; 不管是握手还是挥手&#xff0c;发送的都是完整的TCP报头&#xff0c;这不过这些标记位被设置…

各类主流电商API商品采集接口的权限控制和功能权限控制

主流电商平台的API接口类型 参数说明 通用参数说明 url说明 /平台/API类型/ 平台&#xff1a;淘宝&#xff0c;京东等&#xff0c; API类型:[item_search,item_get,item_search_shop等]version:API版本key:调用key,测试key:test_api_keysecret:调用secret,测试secret:(不用填写…

正信晟锦:多年不联系的好友借钱怎么办

多年不见的老友突然出现&#xff0c;带着迫切的求助信息——借钱。面对这样的请求&#xff0c;我们该如何应对? 当一个多年未联络的朋友突然出现请求借款时&#xff0c;这确实是一个棘手的问题。一方面&#xff0c;我们可能对旧日友情存有怀念与不舍;另一方面&#xff0c;时间…