Changes to Captions: An Attentive Network forRemote Sensing Change Captioning

字幕的变化:一个用于遥感变化字幕的关注网络

IEEE Transactions on Image Processing 
Shizhen Chang, Pedram Ghamisi
2023

摘要:近年来,高级研究集中在使用自然语言处理(NLP)技术对遥感图像进行直接学习和分析。准确描述多时相遥感图像变化的能力对于地理空间理解和土地规划越来越重要。与自然图像变化字幕任务不同,遥感变化字幕旨在捕捉最显著的变化,而不考虑照明、季节效应和复杂的土地覆盖等各种影响因素。在这项研究中,我们强调了准确描述遥感图像变化的重要性,并对自然图像、合成图像和遥感图像的变化字幕任务进行了比较。为了应对生成准确字幕的挑战,我们提出了一种对字幕网络的注意改变,简称Chg2Cap,用于双时态遥感图像。网络包括三个主要组件:1)基于暹罗CNN的特征提取器,用于收集每个图像对的高级表示;2) 关注编码器,包括用于定位变化相关特征的分层自关注块和用于生成图像嵌入的残差块;以及3)基于变换器的字幕生成器,用于将图像嵌入和单词嵌入之间的关系解码为描述。在两个具有代表性的遥感数据集上对所提出的Chg2Cap网络进行了评估,并提供了全面的实验分析。代码和预先培训的模型将在线提供,网址为https://github.com/ShizhenChang/Chg2Cap.

论文意义:

        由于光照强度、方向和季节效应的变化,导致遥感图像对在视觉上是不同的。这使得在为遥感图像设计有效的改变字幕网络时,有必要考虑由采集条件引起的图像对的原始特征之间的分布间隙。例如,两张遥感图像之间的时间间隔可以是几个月或几年,而自然图像通常是在短时间内收集的。

        在遥感数据中,变化场景的字幕更为复杂。与自然图像相比,遥感图像需要对变化进行更稳健和准确的描述。无论土地覆盖的复杂分布如何,遥感图像的字幕生成网络都必须生成对变化的准确描述。

        遥感图像中的物体比自然图像中的更难区分。由于遥感图像是在高海拔垂直拍摄的,遥感图像中的大部分三维信息,如颜色、高度和纹理,都被压缩成地球表面的二维信息。这使得识别物体的种类变得更加困难。因此,变化字幕网络需要对没有高度和其他细节的土地覆盖变化信息敏感。

        变化字幕可以更好地了解城市规划。遥感技术与地理解释密切相关,而变化字幕网络可以帮助研究人员通过适当的文本描述和语义特征来增加感兴趣区域的地理信息。关注变化的标题可以帮助人们直观地看到场景的哪一部分被移除或开发,从而省去城市规划者评估和分析的工作量。此外,遥感变化字幕网络需要适合感兴趣的地理变化的描述,同时忽略不相关的干扰。

方法总体概述
        为了对遥感双时态图像生成精确的变化描述,我们提出了一种基于注意力机制的字幕网络变化,称为Chg2Cap。Chg2Cap体系结构包括编码器-解码器框架,其特征在于分层自注意力和集成到注意力编码器中的残差块。通过堆叠自注意机制,网络获得了分层捕获深层特征帧间和帧内信息的能力。利用余弦掩模增强的残差块有助于增强检索到的特征对之间的一致性和不一致性。此外,我们改进了具有残差连接的基于转换器的字幕生成器,以保留局部信息并逐步解码特征嵌入

所提出的Chg2Cap方法的总体框架由(a)基于CNN的特征提取器,(b)由N个分层自注意(HSA)块和残差块(ResBlock)堆栈组成的注意编码器,以及(c)字幕生成器构成

分层自注意(HSA)块的可视化。每个图像的深层特征最初通过具有共享注意力权重的双自关注单元(由橙色虚线框起来)。然后,在传递到联合自注意单元(用灰色虚线框起来)之前,将得到的特征与剩余连接连接起来。最后,得到了分层自检索的特征对。

字幕生成器的可视化。为了在本地保留输入标记的信息,将单词嵌入的残差连接引入到原始的基于变换器的解码器中。

代码位置:

        考虑到遥感图像与常规自然图像相比的独特性,我们强调为遥感图像设计适当的变更字幕方法的重要性和必要性。通过从自然和合成图像数据集以及遥感数据集中选择的代表性例子,我们强调了遥感图像对的独特特征。此外,我们强调了在遥感中应用变化字幕对更好地理解地理信息的潜在意义。

        提出了Chg2Cap方法,该方法利用注意力编码器和基于transformer的解码器生成遥感变化字幕。注意编码器通过分层自注意块捕获帧间和帧内信息,并利用残差块增强一致性和不一致性特征。

        全面比较和分析图像特征表示和字幕生成阶段的注意力机制。通过进行系统的参数分析和评估不同的网络设置,提供了一些见解,可以启发研究人员设计更合适的模型,并充分利用双时态特征。

达到效果:

D.H.表示关注编码器中HSA块的深度,D.T.表示字幕解码器中变换器的深度。所有分数以%为单位报告,最佳结果以粗体突出显示。

Chg2Cap在迪拜CC数据集中生成的可视化图像嵌入和变化字幕示例。

Chg2Cap在LEVIR-CC数据集中生成的可视化图像嵌入和更改字幕示例。

        为了准确描述多时相遥感图像的变化情况,提出了一种新的用于遥感变化字幕的注意力网络,简称Chg2Cap。基于CNN的特征提取器、由分层自注意块和ResBlock组成的注意编码器以及字幕解码器构成,该特征提取器使用预先训练的ResNet-101作为主干。在Dubai CC和LEVIRCC两个公共遥感数据集上进行了评估,与遥感变化字幕方法和自然图像变化字幕方法相比,该方法取得了优异的性能。该方法可以在未来进一步扩展和优化,以解决更复杂的更改字幕任务,并实现更好的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/142876.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何应对招聘中的职业性格测评?

很多同学听说要做性格测试,第一反应是如何让自己的性格让HR看起来更好....没办法为了顺利入职,咱不能老实作答,因为性格测评搞不好是真刷人的,刷人的(无视你的专业能力和笔试成绩)..... 可是....很多性格测…

C++标准模板(STL)- 类型支持 (受支持操作,检查类型是否拥有未被弃置的析构函数)

类型特性 类型特性定义一个编译时基于模板的结构&#xff0c;以查询或修改类型的属性。 试图特化定义于 <type_traits> 头文件的模板导致未定义行为&#xff0c;除了 std::common_type 可依照其所描述特化。 定义于<type_traits>头文件的模板可以用不完整类型实例…

ARPG----C++学习记录04 Section8 角色类,移动

角色类输入 新建一个角色C&#xff0c;继承建立蓝图,和Pawn一样&#xff0c;绑定输入移动和相机. 在构造函数中添加这段代码也能实现。打开UsePawnControlRotation就可以让人物不跟随鼠标旋转 得到旋转后的向前向量 使用旋转矩阵 想要前进方向和旋转的方向对应。获取当前控制…

Linux可以投屏到电视吗?用网页浏览器就能投屏到电视!

Linux系统的电脑如果要投屏到安卓电视屏幕上&#xff0c;可以使用投屏工具AirDroid Cast的网页版和TV版一起实现。 首先&#xff0c;在Linux系统的电脑里用chrome浏览器或edge浏览器打开webcast.airdroid.com。这就是AirDroid Cast的网页版。你可以看到中间白色框框的右上角有个…

简单地聊一聊Spring Boot的构架

本文由葡萄城技术团队发布。转载请注明出处&#xff1a;葡萄城官网&#xff0c;葡萄城为开发者提供专业的开发工具、解决方案和服务&#xff0c;赋能开发者。 前言 本文小编将详细解析Spring Boot框架&#xff0c;并通过代码举例说明每个层的作用。我们将深入探讨Spring Boot的…

GraphQL 与 REST 双重赋能:Hasura 帮你给数据库添加接口 | 开源日报 No.75

hasura/graphql-engine Stars: 30.3k License: Apache-2.0 Hasura GraphQL Engine 是一个开源产品&#xff0c;通过为您的数据提供 GraphQL 或 REST API 以及内置授权来加速 API 开发。它具有以下主要功能和核心优势&#xff1a; 内建强大查询&#xff1a;支持过滤、分页、模…

Cnyunwei

运维管理系统&#xff1a;监控系统 Cnyunwei Centos 6 封装 Cacti、Nagios、Centreon&#xff08;中英文自己切换&#xff09;、Check_MK、Nconf英文版本全部采用与国外官方同步的最新版本&#xff0c;会发布32位和64位两个版本。 安装很简单&#xff0c;直接回车即可全自动安…

如何在TS中使用JS库

在 TypeScript 中使用 JavaScript 库&#xff0c;几种常用的方法。 直接使用&#xff1a;如果 JavaScript 库不提供 TypeScript 类型定义文件&#xff08;.d.ts&#xff09;&#xff0c;您可以直接在 TypeScript 代码中使用该库。您可以通过在 TypeScript 代码的开头添加 //ts-…

模拟接口数据之使用Fetch方法实现

文章目录 前言一、package.json配置mock执行脚本二、封装接口&#xff0c;区分走ajax还是fetch三、创建mock目录&#xff0c;及相关接口文件四、定义接口五、使用mock数据使用模拟数据优化fetch返回数据 六、不使用模拟数据七、对比其他需要使用依赖相关配置如有启发&#xff0…

HTML字符实体

从注释汲取知识&#xff0c;由代码熟悉用法&#xff0c;所以直接看代码吧&#xff01;&#x1f447;&#x1f447;&#x1f447; <body><!-- 空格 --><!-- 三个空格&#xff0c;实际只显示一个 --><div>我 嘎嘎嘎</div><!-- 用字符实体代替…

C++引用 引用做函数参数

一.引用的定义和语法 // 给a取别名为b int &b a; // 修改b的值&#xff0c;a的值也会被修改&#xff0c;因为他们都指向同一个内存空间 b 20; 二.引用的注意事项 1.引用必须初始化如 int&b; 是错误的&#xff0c;因为没有初始化。 2.引用在初始化后&#xff0c;不…

聚观早报 |滴滴发布Q3财报;小鹏G9连续销量排行第一

【聚观365】11月14日消息 滴滴发布Q3财报 小鹏G9连续销量排行第一 XREAL双11实现7倍增长 真我GT5 Pro真机图 2024年智能手机AI功能竞争激烈 滴滴发布Q3财报 滴滴在其官网发布2023年三季度业绩报告。报告显示&#xff0c;三季度滴滴实现总收入514亿元&#xff0c;同比增长…

Command Injection

Command Injection "Command Injection"(命令注入)&#xff0c;其目标是通过一个应用程序在主机操作系统上执行任意命令。当一个应用程序将用户提供的数据&#xff08;如表单、cookies、HTTP头等&#xff09;传递给系统shell时&#xff0c;就可能发生命令注入攻击。在…

分享几个艺术生活小站点

今天分享几个艺术生活小站点&#xff01; 小叽News游戏资源分享 网址&#xff1a;https://steamzg.com/ 欢迎来到这个充满活力的游戏站点&#xff0c;这里汇集了各种类型的游戏&#xff0c;让你一次性尽享各种游戏的乐趣。这里是游戏爱好者的天堂&#xff0c;每款游戏都配有详…

2.3 Windows驱动开发:内核字符串转换方法

在内核编程中字符串有两种格式ANSI_STRING与UNICODE_STRING&#xff0c;这两种格式是微软推出的安全版本的字符串结构体&#xff0c;也是微软推荐使用的格式&#xff0c;通常情况下ANSI_STRING代表的类型是char *也就是ANSI多字节模式的字符串&#xff0c;而UNICODE_STRING则代…

C语言之初阶指针

一、指针&#xff1a; 其实按照我的理解&#xff0c;当我们写c语言程序的时候&#xff0c;创建的变量&#xff0c;数组等都要在内存上开辟空间。而每一个内存都有一个唯一的编号&#xff0c;这个编号也被称为地址编号&#xff0c;就相当于&#xff0c;编号地址指针。 二、指针…

2023金三银四常见Loadrunner面试题总结,附带答案

以下的loadrunner的面试题都是在面试过程中总结出来比较常见的面试题&#xff0c;现在分享给大家&#xff0c;希望可以帮助你们&#xff01; Q1、LoadRunner的工作原理是什么? Q2、LoadRunner分哪三部分? Q3、LoadRunner进行测试的流程? Q4、什么是并发?在lordrunner中&…

2.4 Windows驱动开发:内核字符串拷贝与比较

在上一篇文章《内核字符串转换方法》中简单介绍了内核是如何使用字符串以及字符串之间的转换方法&#xff0c;本章将继续探索字符串的拷贝与比较&#xff0c;与应用层不同内核字符串拷贝与比较也需要使用内核专用的API函数&#xff0c;字符串的拷贝往往伴随有内核内存分配&…

xss学习笔记

跨站脚本攻击 掌握XSS 的原理 掌握XSS 的场景 掌握XSS 的危害 掌握XSS 漏洞验证 掌握XSS 的分类跨站脚本攻击 漏洞概述 ​ 跨站点脚本&#xff08;Cross Site Scripting&#xff0c; XSS&#xff09;是指客户端代码注入攻击&#xff0c;攻击者可以在合法网站或Web 应用程…

Python机器学习算法入门教程(第五部分)

接着Python机器学习算法入门教程&#xff08;第四部分&#xff09;&#xff0c;继续展开描述。 二十五、Python Sklearn库SVM算法应用 SVM 是一种有监督学习分类算法&#xff0c;输入值为样本特征值向量和其对应的类别标签&#xff0c;输出具有预测分类功能的模型&#xff0c…