CV和注意力机制都是当下深度学习中不可或缺的技术,而【CV+注意力机制】更是当前学术研究的热点领域之一,这种结合的方法可以使得注意力机制使模型能够捕捉到图像中的关键信息,从而提供更丰富的特征表示,这对于图像分类、目标检测和语义分割等任务至关重要。此外,计算机视觉与注意力机制的结合也可以提高计算效率、提高模型的泛化能力。近年来,无数的研究者们对传统的特征融合方法进行了大量的改进与创新,创造出一系列前沿的特征融合技术。
为了帮助大家全面掌握【CV+注意力机制】的方法并寻找创新点,本文总结了最近两年【CV+注意力机制】相关的21篇顶会顶刊的前沿研究成果,这些论文的文章、来源、论文的代码都整理好了,希望能给各位的学术研究提供新的思考。
需要的同学扫码添加我
回复“注意力机制21”即可全部领取
1、Query-Guided Attention in Vision Transformers for Localizing Objects Using a Single Sketch
方法:
这篇论文研究了基于草图的自然图像中的对象定位问题,旨在利用手绘草图来定位目标图像中所有相同对象的实例。为了解决这一问题,论文提出了以下几个关键方法:
- 草图引导的视觉变换器编码器:与传统的图像编码器不同,该编码器在每个变换器编码块之后使用多头交叉注意力,将草图特征与图像特征融合,从而学习查询条件下的图像特征,实现与查询草图更强的对齐。
- 对象和查询表示的细化:在解码器的输出端,进一步细化对象和草图特征,使得相关对象的表示更接近草图查询,从而提高定位精度。
- 多查询定位:论文还提出了一种可训练的新颖草图融合策略,通过结合多个草图中的互补信息,构建出更完整的对象表示,进而提高定位性能。
- 端到端可训练模型:所提出的模型是端到端可训练的,包括草图引导的视觉变换器编码器、对象和查询表示细化,以及评分函数。
创新点
- 草图引导的视觉变换器编码器:这是论文的核心创新之一,通过在变换器编码块后使用交叉注意力机制,实现了草图信息与图像特征的有效融合,提高了特征对齐的质量。
- 对象特征和查询特征的细化策略:在解码器输出端,通过进一步细化对象特征和草图特征,使得模型能够更精确地定位与草图查询相关的对象。
- 多草图查询融合:论文提出了一种新颖的草图融合策略,能够利用多个草图查询中的互补信息,提高了对象定位的准确性和鲁棒性。
- 跨域定位能力:所提出的模型不仅在训练中见过的对象类别上表现良好,还能泛化到训练中未见过的对象类别,实现了所谓的“开放世界”对象定位。
- 性能提升:与现有的基于草图的对象定位方法相比,所提出的方法在MS-COCO数据集上的定位性能有了显著提升,改进了mAP(平均精度均值)和AP@50(在50%召回率下的精度)等评价指标。
- 定性分析:论文还提供了定性分析,展示了模型在定位遮挡对象以及多实例对象方面的有效性。
2、SwiftFormer:Efficient Additive Attention for Transformer-based Real-time Mobile Vision Applications
方法:
- SwiftFormer提出了一种高效的加性注意力机制(Efficient Additive Attention),用于替代传统的二次方矩阵乘法运算,以降低计算复杂度。
- 该机制通过元素级别的乘法操作来计算自注意力,而不是传统的矩阵乘法,从而显著降低了模型的计算复杂性。
- SwiftFormer的设计允许在网络的所有阶段使用所提出的高效注意力设计,以实现更有效的上下文信息捕获,并达到优越的速度-准确性权衡。
- 作者构建了一系列名为“SwiftFormer”的高效通用分类模型,这些模型利用了所提出的高效加性注意力。
- SwiftFormer的架构基于EfficientFormer,并对其中的局部特征提取和全局上下文编码进行了改进,包括有效的卷积编码器(Conv. Encoder)和SwiftFormer编码器(SwiftFormer Encoder)。
创新点
- 提出了一种新颖的高效加性注意力机制,该机制通过元素级别的乘法操作替代了计算成本高昂的矩阵乘法运算,有效降低了自注意力的计算复杂度。
- 与传统的多头自注意力(MHSA)相比,SwiftFormer的注意力模块在输入token数量上具有线性复杂度,使其能够在网络的所有阶段使用,而不是仅在最后阶段使用。
- SwiftFormer的设计避免了显式的key-value交互,通过简单的线性变换来编码query-key交互,从而学习全局上下文信息,这一点在以往的研究中较少见。
- 通过一致的混合设计,SwiftFormer能够在所有阶段学习一致的全局上下文,这提高了模型性能,并使其对高分辨率图像更具泛化性和可扩展性。
- SwiftFormer在保持与MobileNet相当的低延迟的同时,实现了更高的准确率,特别是在移动设备上的实时视觉应用中表现出色。
需要的同学扫码添加我
回复“注意力机制21”即可全部领取
3、BiFormer: Vision Transformer with Bi-Level Routing Attention
方法
- Bi-Level Routing Attention (BRA): 提出了一种新的动态稀疏注意力机制,通过两级路由来实现内容感知的计算分配。该方法首先在粗糙的区域级别过滤掉不相关的键值对,然后在剩余候选区域的并集上应用细粒度的token-to-token注意力。
- 区域划分与输入投影: 将输入特征图划分为多个区域,并通过线性变换得到查询(Q)、键(K)和值(V)张量。
- 区域到区域的路由: 构建一个有向图来确定每个区域应该关注的其他区域,并通过保留每个节点的top-k连接来剪枝这个图。
- Token-to-Token 注意力: 在确定的路由区域上应用细粒度的注意力机制,通过聚集关键/值对并应用密集矩阵乘法来实现。
- BiFormer 架构: 利用提出的BRA作为核心构建块,提出了一个新的通用视觉Transformer架构,可以用于分类、目标检测和语义分割等多种应用。
创新点
- 动态查询感知稀疏性: 与传统的静态稀疏模式相比,BRA通过动态地、基于内容的方式选择关注区域,从而提高了计算效率。
- 两级路由机制: 通过先在区域级别进行粗粒度的过滤,再在token级别进行细粒度的注意力计算,BRA能够更有效地定位和关注与查询最相关的键值对。
- 硬件友好的实现: BRA的设计考虑了现代GPU的内存访问模式,通过密集矩阵乘法而不是稀疏矩阵乘法来提高计算效率。
- 跨区域的长距离依赖建模: BRA能够捕捉跨区域的长距离依赖关系,这对于理解图像内容和进行精确的视觉效果预测至关重要。
- 在多种视觉任务中的有效性: BiFormer在多个视觉任务上展示了其优越的性能,包括在ImageNet-1K分类、COCO目标检测和实例分割以及ADE20K语义分割上取得的显著结果。
- 计算复杂度分析: 对BRA的计算复杂度进行了分析,证明了其相对于传统注意力机制的低复杂度优势,即在适当的区域划分大小下,BRA的复杂度为O((HW)^(4/3))。
- 可视化注意力图: 通过可视化分析,展示了BRA如何成功地定位语义相关区域,并捕捉长距离的跨对象关系,进一步验证了所提方法的有效性。
需要的同学扫码添加我
回复“注意力机制21”即可全部领取