注意力机制新突破!21种创新融合思路汇总!让技术持续飞跃!

CV和注意力机制都是当下深度学习中不可或缺的技术,而【CV+注意力机制】更是当前学术研究的热点领域之一,这种结合的方法可以使得注意力机制使模型能够捕捉到图像中的关键信息,从而提供更丰富的特征表示,这对于图像分类、目标检测和语义分割等任务至关重要。此外,计算机视觉与注意力机制的结合也可以提高计算效率、提高模型的泛化能力。近年来,无数的研究者们对传统的特征融合方法进行了大量的改进与创新,创造出一系列前沿的特征融合技术。

为了帮助大家全面掌握【CV+注意力机制】的方法并寻找创新点,本文总结了最近两年【CV+注意力机制】相关的21篇顶会顶刊的前沿研究成果,这些论文的文章、来源、论文的代码都整理好了,希望能给各位的学术研究提供新的思考。

需要的同学扫码添加我

回复“注意力机制21”即可全部领取

图片

1、Query-Guided Attention in Vision Transformers for Localizing Objects Using a Single Sketch

方法:

这篇论文研究了基于草图的自然图像中的对象定位问题,旨在利用手绘草图来定位目标图像中所有相同对象的实例。为了解决这一问题,论文提出了以下几个关键方法:

- 草图引导的视觉变换器编码器:与传统的图像编码器不同,该编码器在每个变换器编码块之后使用多头交叉注意力,将草图特征与图像特征融合,从而学习查询条件下的图像特征,实现与查询草图更强的对齐。

- 对象和查询表示的细化:在解码器的输出端,进一步细化对象和草图特征,使得相关对象的表示更接近草图查询,从而提高定位精度。

- 多查询定位:论文还提出了一种可训练的新颖草图融合策略,通过结合多个草图中的互补信息,构建出更完整的对象表示,进而提高定位性能。

- 端到端可训练模型:所提出的模型是端到端可训练的,包括草图引导的视觉变换器编码器、对象和查询表示细化,以及评分函数。

创新点

 - 草图引导的视觉变换器编码器:这是论文的核心创新之一,通过在变换器编码块后使用交叉注意力机制,实现了草图信息与图像特征的有效融合,提高了特征对齐的质量。

- 对象特征和查询特征的细化策略:在解码器输出端,通过进一步细化对象特征和草图特征,使得模型能够更精确地定位与草图查询相关的对象。

- 多草图查询融合:论文提出了一种新颖的草图融合策略,能够利用多个草图查询中的互补信息,提高了对象定位的准确性和鲁棒性。

- 跨域定位能力:所提出的模型不仅在训练中见过的对象类别上表现良好,还能泛化到训练中未见过的对象类别,实现了所谓的“开放世界”对象定位。

- 性能提升:与现有的基于草图的对象定位方法相比,所提出的方法在MS-COCO数据集上的定位性能有了显著提升,改进了mAP(平均精度均值)和AP@50(在50%召回率下的精度)等评价指标。

- 定性分析:论文还提供了定性分析,展示了模型在定位遮挡对象以及多实例对象方面的有效性。

图片

2、SwiftFormer:Efficient Additive Attention for Transformer-based Real-time Mobile Vision Applications

方法:

 - SwiftFormer提出了一种高效的加性注意力机制(Efficient Additive Attention),用于替代传统的二次方矩阵乘法运算,以降低计算复杂度。

- 该机制通过元素级别的乘法操作来计算自注意力,而不是传统的矩阵乘法,从而显著降低了模型的计算复杂性。

- SwiftFormer的设计允许在网络的所有阶段使用所提出的高效注意力设计,以实现更有效的上下文信息捕获,并达到优越的速度-准确性权衡。

- 作者构建了一系列名为“SwiftFormer”的高效通用分类模型,这些模型利用了所提出的高效加性注意力。

- SwiftFormer的架构基于EfficientFormer,并对其中的局部特征提取和全局上下文编码进行了改进,包括有效的卷积编码器(Conv. Encoder)和SwiftFormer编码器(SwiftFormer Encoder)。

创新点

  - 提出了一种新颖的高效加性注意力机制,该机制通过元素级别的乘法操作替代了计算成本高昂的矩阵乘法运算,有效降低了自注意力的计算复杂度。

- 与传统的多头自注意力(MHSA)相比,SwiftFormer的注意力模块在输入token数量上具有线性复杂度,使其能够在网络的所有阶段使用,而不是仅在最后阶段使用。

- SwiftFormer的设计避免了显式的key-value交互,通过简单的线性变换来编码query-key交互,从而学习全局上下文信息,这一点在以往的研究中较少见。

- 通过一致的混合设计,SwiftFormer能够在所有阶段学习一致的全局上下文,这提高了模型性能,并使其对高分辨率图像更具泛化性和可扩展性。

- SwiftFormer在保持与MobileNet相当的低延迟的同时,实现了更高的准确率,特别是在移动设备上的实时视觉应用中表现出色。

图片

需要的同学扫码添加我

回复“注意力机制21”即可全部领取

图片

3、BiFormer: Vision Transformer with Bi-Level Routing Attention

方法

 - Bi-Level Routing Attention (BRA): 提出了一种新的动态稀疏注意力机制,通过两级路由来实现内容感知的计算分配。该方法首先在粗糙的区域级别过滤掉不相关的键值对,然后在剩余候选区域的并集上应用细粒度的token-to-token注意力。

- 区域划分与输入投影: 将输入特征图划分为多个区域,并通过线性变换得到查询(Q)、键(K)和值(V)张量。

- 区域到区域的路由: 构建一个有向图来确定每个区域应该关注的其他区域,并通过保留每个节点的top-k连接来剪枝这个图。

- Token-to-Token 注意力: 在确定的路由区域上应用细粒度的注意力机制,通过聚集关键/值对并应用密集矩阵乘法来实现。

- BiFormer 架构: 利用提出的BRA作为核心构建块,提出了一个新的通用视觉Transformer架构,可以用于分类、目标检测和语义分割等多种应用。

新点

 - 动态查询感知稀疏性: 与传统的静态稀疏模式相比,BRA通过动态地、基于内容的方式选择关注区域,从而提高了计算效率。

- 两级路由机制: 通过先在区域级别进行粗粒度的过滤,再在token级别进行细粒度的注意力计算,BRA能够更有效地定位和关注与查询最相关的键值对。

- 硬件友好的实现: BRA的设计考虑了现代GPU的内存访问模式,通过密集矩阵乘法而不是稀疏矩阵乘法来提高计算效率。

- 跨区域的长距离依赖建模: BRA能够捕捉跨区域的长距离依赖关系,这对于理解图像内容和进行精确的视觉效果预测至关重要。

- 在多种视觉任务中的有效性: BiFormer在多个视觉任务上展示了其优越的性能,包括在ImageNet-1K分类、COCO目标检测和实例分割以及ADE20K语义分割上取得的显著结果。

- 计算复杂度分析: 对BRA的计算复杂度进行了分析,证明了其相对于传统注意力机制的低复杂度优势,即在适当的区域划分大小下,BRA的复杂度为O((HW)^(4/3))。

- 可视化注意力图: 通过可视化分析,展示了BRA如何成功地定位语义相关区域,并捕捉长距离的跨对象关系,进一步验证了所提方法的有效性。

图片

需要的同学扫码添加我

回复“注意力机制21”即可全部领取

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/723123.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Centos7 调整分区大小

在安装完centos系统以后,系统的分区大小往往不是自己预期的大小,这个时候就需要我们自己手动来调整分区大小,在centos7 里面,手动调整分区大小的方法如下 1、查看目前分区的情况 从上面的查询结果我们可以看出,根目录…

护眼灯是不是智商税?带你轻松了解选择护眼台灯的标准

在当今时代,我们观察到一个不容忽视的现象:孩子们的视力问题日益增多,这无疑向众多家长发出了警示。它提醒着我们,除了追求学术成就之外,孩子们的视觉健康同样重要,不容忽视。因此,选择一款适合…

刷代码随想录有感(108):动态规划——目标和

题干&#xff1a; 代码&#xff1a; class Solution { public:int findTargetSumWays(vector<int>& nums, int target) {int sum 0;for(int i : nums) sum i;if(abs(target) > sum)return 0;if((sum target) % 2 ! 0)return 0;int bagweight (sum target) /…

qmt量化交易策略小白学习笔记第37期【qmt编程之指数数据--如何获取迅投商品市场指数行情数据】

qmt编程之获取商品市场指数数据 qmt更加详细的教程方法&#xff0c;会持续慢慢梳理。 也可找寻博主的历史文章&#xff0c;搜索关键词查看解决方案 &#xff01; 感谢关注&#xff0c;咨询免费开通量化回测与获取实盘权限&#xff0c;欢迎和博主联系&#xff01; 获取迅投商…

yolov8划线计数脚本-可用于统计人流车流

支持自定义线的位置&#xff1b; 支持使用自己训练的模型和检测类别&#xff1b; "YOLOv8划线计数脚本" 是一个基于YOLOv8&#xff08;You Only Look Once version 8&#xff09;对象检测模型的计算机视觉应用项目&#xff0c;主要用于实现人流和车流的自动统计。该…

【GD32F303红枫派使用手册】第十八节 USART-485通信实验

18.1 实验内容 通过本实验主要学习以下内容&#xff1a; 485工作原理 串口单线工作原理 18.2 实验原理 18.2.1 485工作原理 485一般指RS485。RS485名TIA-485-A, ANSI/TIA/EIA-485或TIA/EIA-485&#xff0c;是由电信业协会和电业联盟定义。RS485就是个硬件通信协议&#x…

Zabbix自定义监控JAVA进程

一.定义脚本 二 .ZABBIX得agent允许以root身份执行 三. Zabbix测试自定item是否成功 四.ZABBIX服务端web添加新得item项 五.查看最新数据&#xff0c;取值成功

Erlang程序设计[Part2 chapter5-chapter8]

两种数据容器&#xff1a;元组、列表 part 2 chapter5 记录与映射组 记录 记录其实就是元组的另一种形式。通过使用记录&#xff0c;可以给元组里的各个元素关联一个名称。 映射 映射组是键 值对的关联性集合。 通过记录命名元组里的项 记录的产生背景&#xff1a; 对于小型元…

反射的原理和操作

反射是框架设计的灵魂 &#xff08;使用的前提条件&#xff1a;必须先得到代表的字节码的Class&#xff0c;Class类用于表示.class文件&#xff08;字节码&#xff09;&#xff09; 在Java中&#xff0c;反射是指在运行时动态地获取、检查和操作类、对象、方法和属性的能力。J…

本地部署AI模型-phi3

What&#xff1a; Phi-3-Mini被认为是Microsoft计划发布的三款小型机型中的首款。据报道&#xff0c;在语言、推理、编码和数学等领域&#xff0c;它在各种基准测试中的表现优于相同大小和下一个尺寸的模型。 从本质上讲&#xff0c;语言模型是 ChatGPT、Claude、Gemini 等 AI…

各类存储器类型(RAM、ROM、FLASH、DRAM、SRAM)

1 计算机存储类型构成 在计算机中&#xff0c;各类存储器构成了计算机能高速高效运转程序的基石。 计算机的存储体系中&#xff0c;从速度慢到速度快对应着容量大到小&#xff0c;也就是说&#xff0c;速度越快容量越小&#xff1b;容量越大的&#xff0c;速度越慢。两者互相…

【Python教程】如何搭建一个高效的Python开发环境?结尾附安装包直通车

前言&#xff1a; Python 丰富的函数库和组件库是这门语言强大的核心原因&#xff01;但我们不可能去记忆所有的方法名和参数名&#xff0c;往往只能记住一些常用的或者某个方法开头的几个字母。这个时候一个好的开发工具就需要能聪明地“猜”出你想输入的代码&#xff0c;并给…

怪物猎人物语什么时候上线?游戏售价多少?

怪物猎人物语是一款全新的RPG游戏&#xff0c;玩家在游戏中将化身为骑士&#xff0c;不断与怪物建立羁绊、不断成长&#xff0c;踏上前往外面世界的旅程&#xff0c;且最终目的地是以狩猎怪物为生的猎人世界。因为最近有不少玩家在关注这款游戏&#xff0c;所以下面就给大家分享…

福昕PDF编辑器快速去除PDF水印方法

在福昕PDF编辑器软件中打开一个带有水印的PDF文件&#xff0c;点击如图下所示的页面管理->水印&#xff0c;点击全部移除 点击 是 水印消除&#xff08;注&#xff1a;部分类型的水印可以消除&#xff0c;但是有些类型的水印无法通过此方法消除&#xff09;

day38-39| 509. 斐波那契数 70. 爬楼梯 746. 使用最小花费爬楼梯 62.不同路径 343. 整数拆分 96.不同的二叉搜索树

文章目录 前言动态规划理论基础509. 斐波那契数思路方法一 完整动态规划方法二 dp简化版方法三 使用递归 70. 爬楼梯思路方法一 动态规划方法一2 教程里面的简化方法方法二 拓展 746. 使用最小花费爬楼梯思路方法一方法二 拓展 62.不同路径思路 动态规划方法一方法二 递归 63. …

Java变量:声明、作用域和命名约定

Java变量&#xff1a;声明、作用域和命名约定 什么是变量&#xff1f; 在Java中&#xff0c;变量是保存特定数据类型值的内存位置的名称。它是java编程中的一个基本概念&#xff0c;允许您在程序执行期间存储和操作数据。 Java中的变量可以保存各种类型的数据&#xff0c;包括…

市值飙升!超微软、苹果,英伟达成为全球市值最高上市公司

KlipC报道&#xff1a;当地时间6月18日&#xff0c;英伟达股价再度大涨&#xff0c;盘后股价上涨3.51%&#xff0c;总市值达3.335万亿美元&#xff0c;报135.58美元再刷历史新高&#xff0c;超微软、苹果成为全球市值最高的上市公司。 值得一提的是&#xff0c;在本月初&#x…

记录一次mysql长事务的经历

目录 一.项目介绍 二.问题暴漏 三.问题排查 1.连接池方向 2.数据库方向 四.代码模拟 五.错误原因分析 1.MySQL参数优化 2.代码优化 六.总结 一.项目介绍 项目是springbootnacos的微服务架构,商城购物类系统,分多个服务,问题出现在众多服务中的单个服务 二.问题暴漏…

【AI学习】LLaMA 系列模型的进化(一)

一直对LLaMA 名下的各个模型关系搞不清楚&#xff0c;什么羊驼、考拉的&#xff0c;不知所以。幸好看到两篇综述&#xff0c;有个大致了解&#xff0c;以及SEBASTIAN RASCHKA对LLaMa 3的介绍。做一个记录。 一、文章《Large Language Models: A Survey》中对LLaMa的介绍 论文…

解决 执行 jar 命令 控制台乱码

Springboot项目&#xff0c;编码为utf8 打包后&#xff0c;为了在控制台运行时不乱码&#xff0c;需要在控制台中依次执行以下命令&#xff1a; 第一步&#xff1a; chcp 65001第二步&#xff1a; java -jar -Dfile.encodingutf-8 你的.jar