在传统的卷积神经网络中,固定模式的卷积核在处理图像时可能会限制网络对不规则形状特征的提取能力。为了解决这个问题,研究者提出了可变形卷积。
可变形卷积是一种改进的卷积操作,它通过引入可学习的偏移量来增强模型对几何变化的适应能力,让网络能够更好地处理不规则形状的物体或特征。
比如D-LKA Attention模型,这种简化的注意力机制受益于可变形卷积,可以灵活地扭曲采样网格,使模型能够适应不同的数据模式,提高模型性能和鲁棒性。在流行的医学分割数据集上的评估结果表明了D-LKA Attention的SOTA性能。
可变形卷积针对传统卷积操作的局限性提出了有效的解决方案,在多个领域显示出了显著的性能提升,可见绝对是个发论文的好方向。本文整理了11种可变形卷积的创新改进方案给各位作参考,包括最新的可变形卷积v4,比v3提速80%。
论文与开源代码需要的同学看文末
D-LKA Attention
Beyond Self-Attention: Deformable Large Kernel Attention for Medical Image Segmentation
主要贡献:
-
提出了D-LKA Attention,这是一种高效的注意力机制,使用大卷积核来充分理解体积上下文,同时避免了计算开销。
-
引入了可变形卷积,使模型能够适应不同的数据模式,更好地捕捉医学图像中的变形。
-
设计了2D和3D版本的D-LKA Net架构,后者在跨深度数据理解方面表现出色。
-
在多个流行的医学分割数据集上(如Synapse、NIH Pancreas和Skin lesion)的评估表明,D-LKA Net在性能上超越了现有的领先方法。
方法论/创新点:
-
论文首先回顾了大核注意力(LKA)的概念,并介绍了可变形LKA模块的创新探索。
-
基于此,提出了用于分割任务的2D和3D网络架构。
-
D-LKA模块通过自适应采样网格来捕捉局部特征,同时通过大核卷积聚合全局信息。
-
2D和3D D-LKA Net架构都采用了编码器-解码器设计,但在3D情况下,D-LKA机制被调整以适应3D上下文,实现不同体积切片之间的信息无缝交换。
实验:
-
使用PyTorch框架在单个RTX 3090 GPU上实现了2D和3D模型,并进行了训练。
-
在多个公开的医学图像分割数据集上进行了评估,包括Synapse多器官分割数据集、ISIC 2017和2018皮肤病变分割数据集以及NIH胰腺数据集。
-
D-LKA Net在这些数据集上取得了优于现有最先进方法的性能。
DCNv4
Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator for Vision Applications
主要贡献:
-
提出了DCNv4,通过两项关键改进优化了DCNv3:1) 移除空间聚合中的softmax归一化,增强动态属性和表达能力;2) 优化内存访问以减少冗余操作,从而加速计算。
-
DCNv4在多个任务上表现出色,包括图像分类、实例和语义分割,以及图像生成。
-
将DCNv4集成到生成模型中,如U-Net在潜在扩散模型中,DCNv4超越了基线,显示了其提升生成模型的潜力。
方法论/创新点:
-
通过指令级内核分析,发现DCNv3的内存访问成本占99%,计算成本不到1%,这促使作者重新审视操作实现,并发现许多内存访问是冗余的。
-
从卷积的无限权重范围中获得灵感,作者发现DCNv3中的softmax归一化是不必要的,因为每个位置都有一个专门的聚合窗口。
-
通过这些改进,DCNv4不仅在初始训练阶段收敛速度显著快于DCNv3,而且在前向速度上加速了3倍以上。
实验:
-
在ImageNet分类、实例分割、语义分割和3D对象检测等任务中评估DCNv4的性能,DCNv4在所有任务中均显示出优越的性能。
-
将DCNv3替换为DCNv4创建的FlashInternImage,在速度上提高了50%至80%,且在不同的模型规模和训练计划下均显示出更快的收敛速度和更好的性能。
-
DCNv4作为通用操作符在其他现代骨干架构中的性能也得到了验证,包括ConvNeXt和ViT,并且在图像生成任务中表现出色。
DAS
DAS: A Deformable Attention to Capture Salient Information in CNNs
主要贡献:
-
提出了DAS,这是一种快速且简单的全卷积方法,通过使用可变形卷积来定位图像中的相关区域,并使用可分离卷积提高效率。
-
DAS通过门控机制将相关信息传播到现有的CNNs中,与Transformer风格的注意力机制相比,DAS的计算复杂度从O(n^2)降低到O(n)。
-
DAS在图像分类和目标检测任务中,当添加到流行的CNNs(如ResNet50)时,能够提高性能。
方法论/创新点:
-
DAS通过瓶颈层(使用深度可分离卷积)和可变形注意力门来增强CNNs对相关信息的关注。
-
瓶颈层减少特征图的通道数,并通过实例归一化和GELU非线性激活来增强特征的表示能力。
-
可变形注意力门使用动态网格来代替标准卷积滤波器中的常规网格,以便更好地关注图像中的相关区域。
-
DAS通过逐点乘法将注意力机制整合到CNN模型中,无需更改网络的主干架构。
实验:
-
在CIFAR100、Stanford Dogs和ImageNet1k数据集上进行了图像分类实验,并在MS COCO数据集上进行了目标检测实验。
-
DAS在多个基准模型上表现出色,特别是在ResNet和MobileNetV2上,实现了准确性的显著提升。
-
通过gradCAM热图可视化和显著特征检测(SFD)分数,证明了DAS在关注图像中的显著特征方面的有效性。
D3Dnet
Deformable 3D Convolution for Video Super-Resolution
主要贡献:
-
提出了D3Dnet,这是一种新的网络结构,能够同时从空间和时间维度整合空间-时间信息,用于视频SR。
-
引入了Deformable 3D Convolution(D3D),结合了可变形卷积和3D卷积的优点,实现了高效的空间-时间信息利用和自适应运动补偿。
-
通过大量实验验证了D3D在利用空间-时间信息方面的有效性,并且与现有技术相比,D3Dnet在视频SR性能上达到了最先进的水平。
方法论/创新点:
-
D3D是在传统3D卷积(C3D)的基础上发展而来,通过可学习的偏移量扩大空间感受野,提高了外观和运动建模能力。
-
D3Dnet的框架包括C3D层、多个残差D3D(resD3D)块、瓶颈层以及用于SR重建的级联残差块和子像素层。
-
训练网络时使用均方误差(MSE)作为损失函数,评估指标包括峰值信噪比(PSNR)、结构相似性指数(SSIM)、基于运动的视频完整性评估指标(MOVIE)和时间MOVIE(T-MOVIE)。
实验:
-
使用Vimeo-90k数据集进行训练,并通过Vid4、Vimeo-90k和SPMC数据集进行性能评估。
-
与现有的单图像SR方法和视频SR方法进行比较,D3Dnet在PSNR和SSIM得分上均取得了最高分,并且在MOVIE和T-MOVIE指标上也显著优于现有方法,表明D3Dnet生成的结果在时间上更加一致。
-
计算效率方面,D3Dnet在参数数量、FLOPs和运行时间上表现出较高的效率,尤其是在与单图像SR方法相比较时。
关注下方《学姐带你玩AI》🚀🚀🚀
回复“可变形卷积”获取全部论文+代码
码字不易,欢迎大家点赞评论收藏