【2024|FTransUNet|论文解读1】融合视界:解密FTransUNet在遥感语义分割中的创新突破
【2024|FTransUNet|论文解读1】融合视界:解密FTransUNet在遥感语义分割中的创新突破
文章目录
- 【2024|FTransUNet|论文解读1】融合视界:解密FTransUNet在遥感语义分割中的创新突破
- 摘要
- 1.引言
- 2.论文贡献
欢迎宝子们点赞、关注、收藏!欢迎宝子们批评指正!
祝所有的硕博生都能遇到好的导师!好的审稿人!好的同门!顺利毕业!
大多数高校硕博生毕业要求需要参加学术会议,发表EI或者SCI检索的学术论文会议论文:
可访问艾思科蓝官网,浏览即将召开的学术会议列表。会议入口:https://ais.cn/u/mmmiUz
论文链接:https://ieeexplore.ieee.org/document/10458980
代码链接:https://github.com/sstary/SSRS
摘要
准确的遥感数据语义分割在地球科学研究与应用的成功中起着至关重要的作用。近年来,基于多模态融合的分割模型因其相较于传统单模态技术的出色表现,受到了广泛关注。然而,这些模型大多通过卷积神经网络(CNN)或视觉Transformer(ViT)进行融合操作,导致在局部-全局上下文建模与表示能力方面存在不足。在本研究中,提出了一种名为FTransUNet的多级多模态融合方案,旨在通过将CNN和ViT整合到统一的融合框架中,提供一个稳健且高效的多模态融合骨干网络用于语义分割。首先,浅层特征通过卷积层和浅层特征融合(SFF)模块进行提取与融合。随后,表征语义信息和空间关系的深层特征通过精心设计的融合ViT(FVit)进行提取与融合。该模型采用自适应相互增强注意力(Ada-MBA)层和自注意力(SA)层交替应用的三阶段方案,学习跨模态表示,具备高类间可分性和低类内差异性。具体来说,提出的Ada-MBA同时并行计算自注意力和交叉注意力,以增强模态内和模态间的上下文信息,同时将注意力分布引导至语义感知区域。因此,FTransUNet能够多级融合浅层与深层特征,充分利用CNN和Transformer分别准确表征局部细节与全局语义。大量实验证实了FTransUNet在两个高分辨率遥感数据集(ISPRS Vaihingen和Potsdam)上的性能优于其他多模态融合方法。
- 遥感数据语义分割对地球科学研究至关重要。
- 多模态融合分割模型优于单模态技术,但现有模型局限于局部-全局建模能力不足。
- 提出FTransUNet,将CNN和ViT融合,提供稳健的多模态语义分割方案。
FTransUNet采用浅层特征融合和深层特征的自适应互相促进注意力层(Ada-MBA)与自注意力层(SA)。 - 实验验证了FTransUNet在高分辨率遥感数据集上的优越性能。
1.引言
近年来,地球观测技术的进步使得获取多模态高分辨率遥感数据(如光学、 多光谱、 高光谱图像, 合成孔径雷达(SAR) 和激光雷达(LiDAR))变得更加容易。有效整合这些多模态数据,可以为地球科学研究中的许多任务提供更全面的地表特征描述,包括变化检测、土地覆盖分类、目标提取等任务。
尤其是语义分割这一逐像素分类任务,旨在将每个像素分类为特定的土地覆盖类型,受到了广泛关注。在现有文献中,已经提出了多种语义分割方法,包括随机森林、支持向量机和条件随机场。然而,这些传统方法在抽象和语义特征提取能力上存在局限性。
近年来,基于深度学习的语义分割方法,特别是卷积神经网络(CNN),已成功应用于遥感数据分割,取得了优异的表现。然而,这些基于深度学习的方法仍然受限于卷积操作的感受野较小,导致只能提取局部细节,忽视了长距离依赖关系。
//
计算机视觉(CV)领域遇到了与遥感类似的挑战。为应对这一问题,开发了视觉Transformer(ViT),通过自注意力机制增强全局上下文信息的建模能力。结合CNN和Transformer的强大骨干网络,单模态语义分割在CV领域取得了出色表现。
然而,关于多模态融合的研究较少,多模态数据能从不同角度展示目标特征,因此融合不同模态的互补特性可以提升语义分割性能。但多模态数据的兼容性问题使得融合任务具有挑战性。与自然图像相比,高分辨率遥感图像具有更强的光谱异质性和更复杂的空间结构,地物对象的尺度和形状变化显著,增加了定位和识别难度。因此,基于CNN和Transformer的模型在学习区分性综合特征方面存在局限。
为解决遥感中的多模态融合问题,提出了三种融合策略:早期融合、中期融合和晚期融合。早期融合需要多模态数据的精确对齐,可能在任务无关信息上缺乏鲁棒性;晚期融合则难以充分利用模态间的互相关系。相比之下,中期融合可以捕捉跨模态的特征依赖,更适合表示学习。然而,现有研究大多采用基于求和或拼接的单级特征融合,忽略了不同特征层次间的长距离跨模态依赖。
2.论文贡献
本文提出了一种名为Fusion TransUNet (FTransUNet) 的多层次多模态融合策略,旨在解决遥感数据语义分割中的挑战。具体内容如下:
- 设计了一个双分支模型,其中从每个卷积层提取的浅层细粒度特征图通过包含两个压缩与激励(SE)模块的浅层特征融合(SFF)模块进行融合。该SFF模块可以替换为其他升级版本,基于CNN的SFF用于表征不同尺度和形状的物体。
- 深层上下文特征通过提出的融合Vit (FVit) 提取并融合。不同于TransUNet专注于单模态长距离依赖,FVit通过三阶段策略,交替应用自适应互助增强注意力(Ada-MBA)层和自注意力(SA)层,增强模态内信息和跨模态信息交换。在第二阶段,CA和SA同时执行,以捕捉模态间的长距离关系,增强跨模态表征学习。
- 最后,融合后的浅层和深层特征通过跳跃连接输入到级联解码器,恢复原始图像大小。
本文的三大贡献:
- 提出了通过SA层和Ada-MBA层实现的FVit模型,采用三阶段结构提取和融合全局上下文信息。
- 提出了FTransUNet多层次融合方案,结合FVit与CNN模块,逐层融合浅层和深层特征,提升了遥感图像语义分割性能。
- 在ISPRS Vaihingen和Potsdam两个高分辨率遥感数据集上的实验表明,FTransUNet显著优于现有模型。
本文的其余部分组织如下。第二部分首先回顾了基于cnn和transformer的分割方法的相关工作。第三节介绍了所提出的FTransUNet的结构,第四节详细介绍了进行的广泛实验。最后,第五部分给出结论。
接下来的部分将在之后的博客中更新…
欢迎宝子们点赞、关注、收藏!欢迎宝子们批评指正!
祝所有的硕博生都能遇到好的导师!好的审稿人!好的同门!顺利毕业!
大多数高校硕博生毕业要求需要参加学术会议,发表EI或者SCI检索的学术论文会议论文:
可访问艾思科蓝官网,浏览即将召开的学术会议列表。会议入口:https://ais.cn/u/mmmiUz