论文阅读——Vision Transformer with Deformable Attention

Vision Transformer with Deformable Attention

多头自注意力公式化为:

第l层transformer模块公式化为:

在Transformer模型中简单地实现DCN是一个non-trivial的问题。在DCN中,特征图上的每个元素都单独学习其偏移,其中H×W×C特征图上3×3可变形卷积的空间复杂度为9HW C。如果我们在注意力模块中直接应用相同的机制,空间复杂度将急剧上升到NqNkC,其中Nq,Nk是查询和密钥的数量,通常具有与特征图大小HW相同的比例,带来近似双二次复杂度。尽管Deformable DETR已经通过在每个尺度上设置较低数量的密钥(Nk=4)来减少这种开销,并且作为检测头工作得很好,但由于信息的不可接受的丢失,在骨干网络中处理如此少的密钥是不好的(见附录中的详细比较)。同时,不同的查询在视觉注意力模型中具有相似的注意力图。因此,我们选择了一种更简单的解决方案,为每个查询共享移位的键和值,以实现有效的权衡。

我们提出了可变形注意力,以在特征图中重要区域的指导下有效地对tokens之间的关系进行建模。这些聚焦区域由偏移网络从查询中学习的多组变形采样点确定。采用双线性插值得到采用特征,然后这些采样特征映射为可变形keys and values。然后使用MHSA。可变形点也提供了相对位置偏差。

如图,给一个特征图,给一个均匀网格作为references,网格大小从输入特征图大小向下采样因子r,,然后把这个网格的位置值归一化到(-1,-1),(+1,+1)。通过offset网络得到网格每个位置的偏移量,然后,在变形点的位置对特征进行采样,作为关键点和值,再进行映射:

,s是为了训练稳定。是使用双线性插值的采样函数。

在q,k,v上使用多头注意力和相对位置偏移。

每个参考点覆盖一个局部s×s区域(s是偏移的最大值),偏移生成网络也应该具有对局部特征的感知,以学习合理的偏移。因此,我们将子网络简化为具有非线性激活的两个卷积模块,如图2(b)所示。输入特征首先通过5×5深度卷积来捕获局部特征。然后,采用GELU激活和1×1卷积来获得2D偏移。还值得注意的是,1×1卷积中的偏差被降低,以减轻所有位置的强制偏移。

为了促进变形点的多样性,我们在MHSA中遵循类似的范式,并将特征通道划分为G组。来自每组的特征使用共享子网络来分别生成相应的偏移。在实践中,注意力模块的头数M被设置为偏移组G的大小的倍数,从而确保多个注意力头被分配给一组变形的键和值。

补充资料:

DAT and Deformable DETR区别

首先,我们的可变形注意力充当视觉主干中的特征提取器,而可变形DETR中的可变形注意扮演检测头的角色,它用线性可变形注意取代了DETR中的普通注意。其次,在具有单尺度的可变形DETR中,查询q的第m个头被公式化为:

其中从输入特征中采样K个关键点,通过进行映射,然后通过注意力权重进行聚合。与我们的可变形注意力(Eq.(9)在本文中)相比,该注意力权重是通过线性投影从学习的,即,其中是预测每个头部上每个键的权重的权重矩阵,之后将softmax函数σ应用于K个键的维度以归一化注意力得分。事实上,注意力权重是通过查询直接预测的,而不是测量查询和关键字之间的相似性。如果我们将σ函数更改为sigmoid,这将是调制可变形卷积的变体[53],因此这种可变形注意力更类似于卷积,而不是注意力。

第三,可变形DETR中的可变形注意力与本文第3.2节中提到的点积注意力不兼容,因为它消耗了巨大的内存。因此,使用线性预测注意力来避免计算点积,并且还采用较小数量的密钥K=4来降低存储器成本。

为了通过实验验证我们的说法,我们用[54]中的模块替换了DAT中的可变形注意力模块,以验证初始适应对视觉主干的影响较小。比较结果如表8所示。比较第一行和最后一行,我们可以看到,在较小的内存预算下,可变形DETR模型的密钥数量设置为16,以减少内存老化,并实现1.4%的性能降低。通过比较第三行和最后一行,我们可以看到,与DAT具有相同密钥数量的D-DETR注意力消耗2.6×内存和1.3×FLOP,但性能仍低于DAT。

更多可视化结果

在图6中,采样点被描绘在对象检测框和实例分割掩码的顶部,从中我们可以看到这些点被移动到目标对象。在左列中,变形的点收缩为两个目标长颈鹿,而其他点则保持几乎均匀的网格,偏移较小。在中间列上,变形点在两个阶段都密集分布在人体和冲浪板之间。右栏显示了六个甜甜圈中每个甜甜圈的变形点,这表明我们的模型即使有多个目标,也能够更好地模拟几何形状。上述可视化结果表明,DAT学习有意义的偏移量,以采样更好的关键点,从而提高各种视觉任务的性能。

我们还提供了给定特定查询令牌的注意力图的可视化结果,并与图7中的Swin-Trans-former[26]进行了比较。我们展示具有最高关注值的关键令牌。可以观察到,我们的模型侧重于更相关的部分。作为展示,我们的模型将大部分注意力集中在前景对象上,例如,第一排的两个长颈鹿。另一方面,Swin Transformer中的兴趣区域相当局部,无法区分前景和背景,这在最后一块冲浪板中有所描述。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/455267.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

BUGKU-WEB never_give_up

题目描述 题目截图如下: 进入场景看看: 解题思路 F12查看请求和响应,查找线索 相关工具 base64解码URL解码Burp Suit抓包 解题步骤 F12查看请求和响应,发现一行注释包含一个文件名称【1p.html】,这应该就是提…

操作系统内功篇:使用说明

本专栏是我阅览大佬小林coding写的电子书《图解系统》的一些总结并参杂一些我个人学习的补充,博客大纲是用的大佬的纲要。 暂时打算更新这么多,在以后的学习的过程中再慢慢更新......... 此文章会实时更新更新进程...........

什么是Ipython

IPython(Interactive Python)是一个增强版的Python交互式解释器。它在标准Python解释器的基础上添加了许多有用的功能,旨在提高你编程时的效率和体验。IPython的核心特性包括但不限于以下几点: 增强的交互性:IPython提…

18. 查看帖子详情

文章目录 一、建立路由二、开发GetPostDetailHandler三、编写logic四、编写dao层五、编译测试运行 一、建立路由 router/route.go v1.GET("/post/:id", controller.GetPostDetailHandler)二、开发GetPostDetailHandler controller/post.go func GetPostDetailHand…

linux命令深入研究——cat

cat命令,“猫”,可以理解为瞄一眼文件内容,其中可以用重定向符号对文件进行一些修改,如增加,删除文件内容,其命令参数如-n,-s,-b可以输出带有行号的行 如果想要快速删除文件内容&…

Java学习笔记(11)

面向对象进阶 Static 静态变量 所有对象一起共享,就用static修饰 不属于对象,属于类的 可以用 类名.静态变量 “”;赋值 但是 对象.静态变量也可以访问到内容 Static内存图 Student这个类的字节码文件加载到方法区,并在内…

Nacos启动的第一个坑 Request nacos server failed:

前言: 今天,小编启动nacos写微服务的demo,电脑上安装了nacos服务器,管理后台也能正常登录。然后搭建了一个基于springboot的微服务项目,加了依赖、启动类加了注解、配置文件也进行了配置,然后启动项目,启动…

中国城市统计年鉴、中国县域统计年鉴、中国财政统计年鉴、中国税务统计年鉴、中国科技统计年鉴、中国卫生统计年鉴​

统计年鉴是指以统计图表和分析说明为主,通过高度密集的统计数据来全面、系统、连续地记录年度经济、社会等各方面发展情况的大型工具书来获取统计数据资料。 统计年鉴是进行各项经济、社会研究的必要前提。而借助于统计年鉴,则是研究者常用的途径。目前国…

wordpress主题批量修改历史文章标题,文章内容

:​wordpress模板,在我映像中还是比较受欢迎的,至少它该有的插件都是应有尽有,不像帝国cms虽然功能多,但是基本用不上,而且很多会出错。也不像织梦cms漏洞太多,搞的建站期间出现很多其他事情&am…

Linux字符设备驱动开发一

linux字符设备驱动 0 驱动介绍1 字符设备驱动1.1 字符设备相关概念和结构体1.2 实现简单的字符设备模块1.3 创建字符设备1.4 总结 应用程序调用文件系统的API(open、close、read、write) -> 文件系统根据访问的设备类型,调用对应设备的驱动API -> 驱动对硬件进…

『scrapy爬虫』03. 爬取多个页面(详细注释步骤)

目录 1. 分析网页试着拿到多个页面的url2. 抓取250个电影3. start_requests的使用4. 代码规范导库的优化关于重写最终修改后的代码 总结 欢迎关注 『scrapy爬虫』 专栏,持续更新中 欢迎关注 『scrapy爬虫』 专栏,持续更新中 1. 分析网页试着拿到多个页面…

yum安装mysql 数据库tab自动补全

centos7上面没有mysql,它的数据库名字叫做mariadb [rootlocalhost ~]#yum install mariadb-server -y [rootlocalhost ~]#systemctl start mariadb.service [rootlocalhost ~]#systemctl stop firewalld [rootlocalhost ~]#setenforce 0 [rootlocalhost ~]#ss -na…

数字人基础 | 3D手部参数化模型2017-2023

楔子: 2017年年底的泰国曼谷, SIGGRAPH Asia会议上, 来自马普所的 Javier Romero, Dimitrios Tzionas(两人都是 Michael J. Black的学生)发布了事实性的手部参数化模型标准: MANO [1]。 MANO的诞生意味着 Michael J. Black团队在继人体参数化模型 SMPL后, 事实性的将能够表达人…

信息系统项目管理师--沟通管理

IT 项⽬成功有关的最重要的四个因素是:主管层的⽀持、⽤户参与、有经验的项⽬经理和清晰的业务⽬标 项⽬沟通管理是确保及时、正确地产⽣、收集、分发、存储和最终处理项⽬信息所需的过程 项⽬沟通管理由两部分组成:⼀是制定策略,确保沟通对…

GUI编程--PyQt5--QTabWidget

文章目录 组件使用信号样式设置 组件使用 QTabWidget 页签 信号 self._ui Ui_Sub() self._ui.setupUi(right) # 切换tab页 self._ui.tabWidget.currentChanged.connect(self.tab_slot)def tab_slot(self):cur_index self._ui.tabWidget.currentIndex()tab_name self._ui…

微信小程序小案例实战

.wxml: <view class "title">狂飙经典语录 </view> <view class"out"><block wx:if"{{listArr.length}}"> <!-- bloock不会影响排版--><view class"list"><view class"row" wx:…

unicloud delete 删除

delete 删除 unicloud 删除大概分为两种 一种是 通过指定文档ID删除 语法如下 collection.doc(_id).remove()还有一种是条件查找文档然后直接批量删除 语法如下 collection.where().remove()反正总归是先查找到指定数据,然后使用remove()函数删除 示例如下 collection.doc(…

软考高级:需求变更管理过程概念和例题

作者&#xff1a;明明如月学长&#xff0c; CSDN 博客专家&#xff0c;大厂高级 Java 工程师&#xff0c;《性能优化方法论》作者、《解锁大厂思维&#xff1a;剖析《阿里巴巴Java开发手册》》、《再学经典&#xff1a;《Effective Java》独家解析》专栏作者。 热门文章推荐&am…

【目标检测经典算法】R-CNN、Fast R-CNN和Faster R-CNN详解系列一:R-CNN图文详解

学习视频&#xff1a;Faster-RCNN理论合集 概念辨析 在目标检测中&#xff0c;proposals和anchors都是用于生成候选区域的概念&#xff0c;但它们在实现上有些许不同。 Anchors&#xff08;锚框&#xff09;&#xff1a; 锚框是在图像中预定义的一组框&#xff0c;它们通常以…

区间异或和异或区间最大值异或区间最小值 --- 题解 --- (字典树好题)

区间异或和异或区间最大值异或区间最小值 &#xff1a; 题目大意&#xff1a; 思路解析&#xff1a; 题目查询的是区间异或和 ^ 最小值 ^ 最大值&#xff0c;如果我们确定了最小值和最大值&#xff0c;[l,r]&#xff0c;假设a[l]是最小值&#xff0c;a[r]是最大值&#xff0c…