Transformer with Transfer CNN for Remote-Sensing-Image Object Detection

遥感图像(RSI)中的目标检测始终是遥感界一个充满活力的研究主题。 最近,基于深度卷积神经网络 (CNN) 的方法,包括基于区域 CNN 和基于 You-Only-Look-Once 的方法,已成为 RSI 目标检测的事实上的标准。 CNN 擅长局部特征提取,但在捕获全局特征方面存在局限性。 然而,基于注意力的变压器可以获取远距离的 RSI 关系。 因此,本研究对用于遥感目标检测(TRD)的变压器进行了研究。 具体来说,所提出的 TRD 是 CNN 和带有编码器和解码器的多层 Transformer 的组合。 为了从 RSI 中检测对象,修改后的 Transformer 被设计为聚合多个尺度上的全局空间位置的特征,并对成对实例之间的交互进行建模。 然后,由于源数据集(例如ImageNet)和目标数据集(即RSI数据集)差异较大,为了减少数据集之间的差异,将TRD与传输CNN(T- 提出了基于注意力机制的TRD)来调整预训练模型以实现更好的RSI目标检测。 由于Transformer的训练总是需要丰富的、注释良好的训练样本,而RSI目标检测的训练样本数量通常是有限的,为了避免过拟合,数据增强与Transformer相结合来提高RSI的检测性能 。 所提出的带有数据增强的 T-TRD(T-TRD-DA)在两个广泛使用的数据集(即 NWPU VHR-10 和 DIOR)上进行了测试,实验结果表明所提出的模型提供了有竞争力的结果(即, 与竞争基准方法相比,百倍平均精度为 87.9 和 66.8,最多分别比 NWPU VHR-10 和 DIOR 数据集上的比较方法高出 5.9 和 2.4,这表明基于 Transformer 的方法打开了 RSI 对象检测的新窗口。
在这里插入图片描述
综上所述,本研究的主要贡献如下。
(1) 提出了一种基于 Transformer 的端到端 RSI 对象检测框架 TRD,其中对 Transformer 进行了改造,以有效地集成全局空间位置的特征并捕获特征嵌入和对象实例的关系。 此外,引入可变形注意模块作为所提出的TRD的重要组成部分,它仅关注稀疏的采样特征集并缓解高计算复杂度的问题。 因此,TRD 可以处理多个尺度的 RSI,并从 RSI 中识别出感兴趣的对象。
(2)使用预训练的CNN作为特征提取的主干。 此外,为了减轻两个数据集(即ImageNet和RSI数据集)之间的差异,T-TRD中使用注意力机制对特征进行重新加权,进一步提高了RSI检测性能。 因此,预训练的主干可以更好地迁移并获得有判别性的金字塔特征。
(3)数据增强,包括样本扩展和多样本融合,用于丰富训练样本的方向、尺度和背景的多样性。 在提出的 T-TRD-DA 中,减轻了使用不足的训练样本进行基于 Transformer 的 RSI 目标检测的影响。

在这里插入图片描述
所提出的基于 Transformer 的 RSI 对象检测框架的概述架构。
在这里插入图片描述
图 2 显示了拟议 TRD 的框架。 首先使用 CNN 主干从 RSI 中提取金字塔多尺度特征图。 然后将它们嵌入 2D 位置编码并转换为可以输入 Transformer 的序列。 Transformer 被改造,以处理图像嵌入序列并对检测到的对象实例进行预测。
Transformer 中的 MHSA 聚合了输入的元素,并且不区分它们的位置; 因此,Transformer 具有排列不变性。 为了缓解这个问题,我们需要在特征图中嵌入空间信息。 因此,𝐿之后
-级特征金字塔{𝒙𝑙}𝐿𝑙=1 从卷积主干中提取,在每个级别补充二维位置编码。 具体来说,将原始 Transformer 的正弦和余弦位置编码分别扩展到列和行位置编码。 它们都是通过对行或列的维度以及𝑑的一半进行编码获得的
通道,然后复制到另一个空间维度。 最终的位置编码与它们连接起来。

为了增强小物体实例的检测性能,探索了利用多尺度特征图的想法,其中低层次和高分辨率的特征图有利于识别小物体。 然而,高分辨率特征图导致传统的基于 MHSA 的 Transformer 的计算和存储复杂度很高,因为 MHSA 层测量每对参考点的兼容性。 相比之下,可变形注意力模块仅关注参考点周围几个自适应位置处的一组固定数量的基本采样点,这极大地降低了计算和存储复杂度。 因此,Transformer可以有效地扩展到RSI多尺度特征的聚合。
图 3 显示了可变形注意力模块的示意图。 该模块为每个尺度级别中的每个元素生成特定数量的采样偏移和注意力权重。 不同级别地图采样位置的特征被聚合为空间和比例感知元素。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/551325.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

最佳实践:高并发之扩容思路

系统在业务平峰期间运行稳定、性能良好,但在大流量时就会出现各种各样的问题,例如接口时延变大,CPU占用率升高、频繁发生Full GC、代码中出现死锁等等。大流量意味着高并发,高并发也是很多开发人员所期望拥有的经验,一…

SSRF题目进阶+SSRF正则绕过+进制绕过SSRF限制

[题目信息]: 题目名称题目难度SSRF题目进阶3 [题目考点]: SSRF绕过[Flag格式]: SangFor{h3bvbopR6L2EQOXv}[环境部署]: docker-compose.yml文件或者docker tar原始文件。 docker-compose up -d[题目writeup]: 1、实验主页 …

MySQL的索引类型有哪些

MySQL的索引类型有哪些 MySQL数据库系统中的索引是用来加快搜索和检索数据库记录的数据结构。这些索引类似于书籍的目录,帮助MySQL快速定位数据表中的数据,而无需逐行扫描整个表。 索引解释 主键索引(PRIMARY KEY) 在MySQL中&…

2024五一杯数学建模C题思路分析

文章目录 1 赛题思路2 比赛日期和时间3 组织机构4 建模常见问题类型4.1 分类问题4.2 优化问题4.3 预测问题4.4 评价问题 5 建模资料 1 赛题思路 (赛题出来以后第一时间在CSDN分享) https://blog.csdn.net/dc_sinor?typeblog 2 比赛日期和时间 报名截止时间:2024…

Linux中用户通过系统调用实现硬件驱动全流程

驱动全流程: 以基于设备树、Pinctrl、gpio子系统,打开一个字符设备为例: 1、通过系统调用open进入内核 当我们在用户空间调用open之后,应用程序会使用系统调用指令(在上图中可看到,ARM架构中软中断汇编指…

【Qt】:网络编程

网络编程 一.UDP Socket1.回显服务器2.回显客户端 二.TCP Socket1.回显服务器2.回显客户端 三.HTTP Client1.常见的APL2.给服务器发送⼀个GET请求. 四.音视频 前置知识:网络。如果不了解,可以看我的博客网络部分。 在进⾏⽹络编程之前,需要在项⽬中的 .p…

使用两台主机实现博客的搭建

1.运行环境 这里的主机IP是自己虚拟器的IP。 主机主机名系统服务192.168.179.128Server-WebLinuxWeb192.168.179.129Server-NFSDNSLinuxNFS/DNS 2.基础配置 1.配置主机名,静态IP地址 2.开启防火墙并配置 3.部分开启SElinux并配置 4.服务器之间使用同ntp.aliyun.com…

设计模式之状态模式(下)

3)共享状态 1.概述 在某些情况下,多个环境对象可能需要共享同一个状态,如果希望在系统中实现多个环境对象共享一个或多个状态对象,那么需要将这些状态对象定义为环境类的静态成员对象。 2.案例 背景:要求两个开关对…

本地做好准备上传到Git分支,发现git上已经更新了,上传到dev分支

git add . git commit -m 备注 git pull --rebase origin dev 拉取dev上的代码合并到本地 git push -u origin dev推到远程dev上(注意着可能不是最后一步,先看完) 如果报错,意思是本地没有dev分支,没办法上传到git上…

获取钉钉群的 chatId

1、地址 获取地址 在代码发钉钉的地方找到 corpId。 填上后,会出现一个二维码,使用钉钉扫描二维码,就会出现你所在的群,点击,就能获取到 chatId

数据结构——单链表(C语言版)

文章目录 一、链表的概念及结构二、单链表的实现SList.h链表的打印申请新的结点链表的尾插链表的头插链表的尾删链表的头删链表的查找在指定位置之前插入数据在指定位置之后插入数据删除pos结点删除pos之后的结点销毁链表 三、完整源代码SList.hSList.ctest.c 一、链表的概念及…

自定义鼠标软件 SteerMouse最新完整激活版

SteerMouse是一款实用的Mac OS X系统辅助工具,可以帮助用户自定义鼠标和触控板的设置,提高使用效率。它提供了多种功能,如自定义按钮、滚轮和光标速度,以及调整灵敏度等,使用户能够根据自己的需求和习惯进行优化。 Ste…

振弦式裂缝计安装指南:使用灌浆锚头安装法

振弦式表面裂缝计作为一种精密的测量设备,在土木工程、建筑结构监测等领域发挥着重要的作用。为了确保裂缝计能够准确、稳定地工作,其安装过程尤为重要。本文将详细介绍振弦式表面裂缝计灌浆锚头的安装步骤,帮助大家更好地完成安装工作。 步骤…

启明智显技术分享|HMI工业级芯片Model3(简称M3芯片)PSRAM使用指南及PSRAM溢出如何进行问题定位

Model3芯片简介: 启明智显发布的HMI工业级芯片Model3(简称M3芯片)是一款高性能的显示交互和智能控制 MCU,采用国产自主高算力 RISC-V 内核,内置片上 1MB 大容量 SRAM 以及 64Mb PSRAM,并提供丰富的互联外设…

李彦宏官宣第二届“文心杯”创业大赛,最高投资奖励翻5倍达5000万

4月16日,百度创始人、董事长兼首席执行官李彦宏在Create 2024百度AI开发者大会上宣布,第二届“文心杯”创业大赛正式启动,参赛选手有机会获得最高5000万人民币投资。 李彦宏在Create 2024百度AI开发者大会的演讲主题是“人人都是开发者”&…

伦敦站:电子科技大学2024年全球人才推介会诚邀学者报名参会!

2024年4月24日,电子科技大学访英代表团一行将在伦敦举办人才推介交流会。届时,电子科技大学嘉宾将现场推介学校办学和人才队伍建设情况,宣讲学校人才引进政策,并与参会学者进行互动交流与洽谈。现热忱欢迎伦敦及周边地区学者报名参…

怎么申请OV证书

不同于DV SSL证书申请只需要验证域名所有权,申请OV SSL证书除了会验证域名之外,同时还会对申请企业的组织信息进行验证。本篇就给大家介绍一下如何申请OV SSL证书。 目前DV SSL证书和OV SSL证书的区别还是比较大的,DV和OV的区别:…

红帽认证考试流程指导

参加红帽认证考试涉及以下三个流程帐号和证件的准备 考试信息的填写 证书关联与下载 帐号和证件的准备RHN 帐号注册 在参加红帽官方培训和认证考试前需要您提前注册好红帽帐号(RHN) 访问 此页面 ,随后点击 Register for a Red Hat account 链接进行注册 注册时以下条…

BoostCompass( 查找功能实现 )

阅读导航 一、查找功能基本思路二、详细代码三、代码介绍四、运行结果 一、查找功能基本思路 通过实现一个基于倒排索引的搜索引擎,来提供高效、准确的搜索服务。其核心在于快速准确地从大量文档中检索出与用户查询关键词相关的文档,并按照相关性对结果…

【计算机考研】「软件工程」VS「电子信息」专硕有什么不同?

就今年的24国考来说,计算机技术(085404)能报的只是比计算机科学与技术少那么一点点(因为“计算机类”它都可以报,只有写计算机科学与技术的报不了)相对于其他天坑专业来说还是好很多的! 本人双…