【2024|FTransUNet|论文解读1】融合视界:解密FTransUNet在遥感语义分割中的创新突破

【2024|FTransUNet|论文解读1】融合视界:解密FTransUNet在遥感语义分割中的创新突破

【2024|FTransUNet|论文解读1】融合视界:解密FTransUNet在遥感语义分割中的创新突破


文章目录

  • 【2024|FTransUNet|论文解读1】融合视界:解密FTransUNet在遥感语义分割中的创新突破
  • 摘要
  • 1.引言
  • 2.论文贡献


欢迎宝子们点赞、关注、收藏!欢迎宝子们批评指正!
祝所有的硕博生都能遇到好的导师!好的审稿人!好的同门!顺利毕业!

大多数高校硕博生毕业要求需要参加学术会议,发表EI或者SCI检索的学术论文会议论文:
可访问艾思科蓝官网,浏览即将召开的学术会议列表。会议入口:https://ais.cn/u/mmmiUz

论文链接:https://ieeexplore.ieee.org/document/10458980
代码链接:https://github.com/sstary/SSRS

摘要

准确的遥感数据语义分割在地球科学研究与应用的成功中起着至关重要的作用。近年来,基于多模态融合的分割模型因其相较于传统单模态技术的出色表现,受到了广泛关注。然而,这些模型大多通过卷积神经网络(CNN)或视觉Transformer(ViT)进行融合操作,导致在局部-全局上下文建模与表示能力方面存在不足。在本研究中,提出了一种名为FTransUNet的多级多模态融合方案,旨在通过将CNN和ViT整合到统一的融合框架中,提供一个稳健且高效的多模态融合骨干网络用于语义分割。首先,浅层特征通过卷积层和浅层特征融合(SFF)模块进行提取与融合。随后,表征语义信息和空间关系的深层特征通过精心设计的融合ViT(FVit)进行提取与融合。该模型采用自适应相互增强注意力(Ada-MBA)层和自注意力(SA)层交替应用的三阶段方案,学习跨模态表示,具备高类间可分性和低类内差异性。具体来说,提出的Ada-MBA同时并行计算自注意力和交叉注意力,以增强模态内和模态间的上下文信息,同时将注意力分布引导至语义感知区域。因此,FTransUNet能够多级融合浅层与深层特征,充分利用CNN和Transformer分别准确表征局部细节与全局语义。大量实验证实了FTransUNet在两个高分辨率遥感数据集(ISPRS Vaihingen和Potsdam)上的性能优于其他多模态融合方法。

  • 遥感数据语义分割对地球科学研究至关重要
  • 多模态融合分割模型优于单模态技术,但现有模型局限于局部-全局建模能力不足
  • 提出FTransUNet,将CNN和ViT融合,提供稳健的多模态语义分割方案。
    FTransUNet采用浅层特征融合和深层特征的自适应互相促进注意力层(Ada-MBA)与自注意力层(SA)
  • 实验验证了FTransUNet在高分辨率遥感数据集上的优越性能

在这里插入图片描述

1.引言

近年来,地球观测技术的进步使得获取多模态高分辨率遥感数据(如光学、 多光谱、 高光谱图像, 合成孔径雷达(SAR) 和激光雷达(LiDAR))变得更加容易。有效整合这些多模态数据,可以为地球科学研究中的许多任务提供更全面的地表特征描述,包括变化检测、土地覆盖分类、目标提取等任务。

尤其是语义分割这一逐像素分类任务,旨在将每个像素分类为特定的土地覆盖类型,受到了广泛关注。在现有文献中,已经提出了多种语义分割方法,包括随机森林、支持向量机和条件随机场。然而,这些传统方法在抽象和语义特征提取能力上存在局限性。

近年来,基于深度学习的语义分割方法,特别是卷积神经网络(CNN),已成功应用于遥感数据分割,取得了优异的表现。然而,这些基于深度学习的方法仍然受限于卷积操作的感受野较小,导致只能提取局部细节,忽视了长距离依赖关系。
//
计算机视觉(CV)领域遇到了与遥感类似的挑战。为应对这一问题,开发了视觉Transformer(ViT),通过自注意力机制增强全局上下文信息的建模能力。结合CNN和Transformer的强大骨干网络,单模态语义分割在CV领域取得了出色表现。

然而,关于多模态融合的研究较少,多模态数据能从不同角度展示目标特征,因此融合不同模态的互补特性可以提升语义分割性能。但多模态数据的兼容性问题使得融合任务具有挑战性。与自然图像相比,高分辨率遥感图像具有更强的光谱异质性和更复杂的空间结构,地物对象的尺度和形状变化显著,增加了定位和识别难度。因此,基于CNN和Transformer的模型在学习区分性综合特征方面存在局限。

为解决遥感中的多模态融合问题,提出了三种融合策略:早期融合、中期融合和晚期融合。早期融合需要多模态数据的精确对齐,可能在任务无关信息上缺乏鲁棒性;晚期融合则难以充分利用模态间的互相关系。相比之下,中期融合可以捕捉跨模态的特征依赖,更适合表示学习。然而,现有研究大多采用基于求和或拼接的单级特征融合,忽略了不同特征层次间的长距离跨模态依赖。

2.论文贡献

本文提出了一种名为Fusion TransUNet (FTransUNet) 的多层次多模态融合策略,旨在解决遥感数据语义分割中的挑战。具体内容如下:

  • 设计了一个双分支模型,其中从每个卷积层提取的浅层细粒度特征图通过包含两个压缩与激励(SE)模块的浅层特征融合(SFF)模块进行融合。该SFF模块可以替换为其他升级版本,基于CNN的SFF用于表征不同尺度和形状的物体。
  • 深层上下文特征通过提出的融合Vit (FVit) 提取并融合。不同于TransUNet专注于单模态长距离依赖,FVit通过三阶段策略,交替应用自适应互助增强注意力(Ada-MBA)层和自注意力(SA)层,增强模态内信息和跨模态信息交换。在第二阶段,CA和SA同时执行,以捕捉模态间的长距离关系,增强跨模态表征学习。
  • 最后,融合后的浅层和深层特征通过跳跃连接输入到级联解码器,恢复原始图像大小。

本文的三大贡献:

  • 提出了通过SA层和Ada-MBA层实现的FVit模型,采用三阶段结构提取和融合全局上下文信息
  • 提出了FTransUNet多层次融合方案,结合FVit与CNN模块,逐层融合浅层和深层特征,提升了遥感图像语义分割性能
  • 在ISPRS Vaihingen和Potsdam两个高分辨率遥感数据集上的实验表明,FTransUNet显著优于现有模型。

本文的其余部分组织如下。第二部分首先回顾了基于cnn和transformer的分割方法的相关工作。第三节介绍了所提出的FTransUNet的结构,第四节详细介绍了进行的广泛实验。最后,第五部分给出结论。

接下来的部分将在之后的博客中更新…

欢迎宝子们点赞、关注、收藏!欢迎宝子们批评指正!
祝所有的硕博生都能遇到好的导师!好的审稿人!好的同门!顺利毕业!

大多数高校硕博生毕业要求需要参加学术会议,发表EI或者SCI检索的学术论文会议论文:
可访问艾思科蓝官网,浏览即将召开的学术会议列表。会议入口:https://ais.cn/u/mmmiUz

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/894093.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

web 0基础第四节 多媒体标签

图片标签 主要是讲解 在html 中 怎么将图片放入其中 <!DOCTYPE html> <html lang"en"> <head> <meta charset"UTF-8"> <meta name"viewport" content"widthdevice-width, initial-scale1.0"> <…

Django模型优化

1、创建一个Django项目 可参考之前的带你快速体验Django web应用 我使用的是mysql数据库。按照上述教程完成准备工作。 2、创建一个app并完成注册 demo主要来完成创建用户、修改用户、查询用户、删除用户的操作。 python manage.py startapp test0023、app的目录 新建templ…

【Spring AI】Java实现类似langchain的第三方函数调用_原理与详细示例

Spring AI 介绍 &#xff1a;简化Java AI开发的统一接口解决方案 在过去&#xff0c;使用Java开发AI应用时面临的主要困境是没有统一且标准的封装库&#xff0c;导致开发者需要针对不同的AI服务提供商分别学习和对接各自的API&#xff0c;这增加了开发难度与迁移成本。而Sprin…

【文献综述】扩散模型在文本生成中的进展

【文献综述】扩散模型在文本生成中的进展 Diffusion models in text generation: a survey 摘要&#xff1a; 扩散模型是一种基于数学的模型&#xff0c;最初应用于图像生成。最近&#xff0c;他们对自然语言生成&#xff08;NLG&#xff09;产生了广泛的兴趣&#xff0c;这是…

一起搭WPF架构之livechart的MVVM使用介绍

一起搭WPF架构之livechart使用介绍 前言ModelViewModelView界面设计界面后端 效果总结 前言 简单的架构搭建已经快接近尾声了&#xff0c;考虑设计使用图表的形式将SQLite数据库中的数据展示出来。前期已经介绍了livechart的安装&#xff0c;今天就详细介绍一下livechart的使用…

03 设计模式-创造型模式-单例模式

单例模式&#xff08;Singleton Pattern&#xff09;是 Java 中最简单的设计模式之一。这种类型的设计模式属于创建型模式&#xff0c;它提供了一种创建对象的最佳方式。 这种模式涉及到一个单一的类&#xff0c;该类负责创建自己的对象&#xff0c;同时确保只有单个对象被创建…

HarmonyOS开发(State模型)

一、State模型概述 FA&#xff08;Feature Ability&#xff09;模型&#xff1a;从API 7开始支持的模型&#xff0c;已经不再主推。 Stage模型&#xff1a;从API 9开始新增的模型&#xff0c;是目前主推且会长期演进的模型。在该模型中&#xff0c;由于提供了AbilityStage、Wi…

【MR开发】在Pico设备上接入MRTK3(二)——在Unity中配置Pico SDK

上一篇文档介绍了 【MR开发】在Pico设备上接入MRTK3&#xff08;一&#xff09;在Unity中导入MRTK3依赖 下面将介绍在Unity中导入Pcio SDK的具体步骤 在Unity中导入Pico SDK 当前Pico SDK版本 Unity交互SDK git仓库&#xff1a; https://github.com/Pico-Developer/PICO-Un…

基于SpringBoot+Vue+uniapp微信小程序的垃圾分类系统的详细设计和实现(源码+lw+部署文档+讲解等)

详细视频演示请联系我获取更详细的演示视频 项目运行截图 技术框架 后端采用SpringBoot框架 Spring Boot 是一个用于快速开发基于 Spring 框架的应用程序的开源框架。它采用约定大于配置的理念&#xff0c;提供了一套默认的配置&#xff0c;让开发者可以更专注于业务逻辑而不…

面试题:Redis(七)

1. 面试题 2. 缓存预热 当Redis暂时没有数据&#xff0c;但MySQL中有数据时&#xff0c;由程序员、中间件、写段程序提前访问该数据&#xff0c;使得数据进行回写进Redis&#xff0c;从而达到缓存预热的效果&#xff0c;这样可以使得一开始访问页面程序的用户也没有卡顿&#x…

机器学习核心:监督学习与无监督学习

个人主页&#xff1a;chian-ocean 文章专栏 监督学习与无监督学习&#xff1a;深度解析 机器学习是现代人工智能的核心支柱&#xff0c;已广泛应用于从数据挖掘到计算机视觉再到自然语言处理的诸多领域。作为机器学习最主要的两大类型&#xff0c;监督学习&#xff08;Super…

自定义注解和组件扫描在Spring Boot中动态注册Bean(一)

​ 博客主页: 南来_北往 系列专栏&#xff1a;Spring Boot实战 在Spring Boot中&#xff0c;自定义注解和组件扫描是两种强大的机制&#xff0c;它们允许开发者以声明性的方式动态注册Bean。这种方式不仅提高了代码的可读性和可维护性&#xff0c;还使得Spring Boot应用的…

【Windows】Devops jenkins pipeline调用powershell脚本 New-PSSession报错 连接到远程服务器 失败 拒绝访问

错误 powershell.exe : New-PSSession : [192.168.1.1] 连接到远程服务器 192.168.1.1 失败&#xff0c;并显示以下错误消息: 拒绝访问 原因 Windows 平台默认安装的jenkins启动用用户是SYSTEM 创建一个用户&#xff08;如&#xff1a; yeqiang&#xff09;隶属于Administra…

嵌入式职业规划

嵌入式职业规划 在嵌入式的软件开发中&#xff0c;可以分为&#xff1a; 嵌入式MCU软件开发工程师&#xff1b; 嵌入式Linux底层&#xff08;BSP&#xff09;软件开发工程师&#xff1b; 嵌入式Linux应用开发工程师&#xff1b; 嵌入式FPGA算法开发工程师 对于前两个阶段 …

FastGPT本地开发 之 通过Navicat管理MongoDB、PostgreSQL数据库

1. 背景 前期已经完成FastGPT的本地化部署工作&#xff0c;通过Docker启动FastGPT的相关容器即可运行。&#xff08;共6个容器&#xff09; 2.本地化开发 2.1 前置依赖 2.2 源码拉取 git clone gitgithub.com:labring/FastGPT.git2.3 数据库管理 本地化运行的FastGPT使用…

实践甘肃数据挖掘挑战赛作物与杂草的智能识别,基于YOLOv7全系列【tiny/l/x】参数模型开发构建田间低头作物杂草智能化检测识别模型

一、背景 田间杂草的有效管理是现代农业生产中面临的重要挑战之一。杂草不仅竞争作物的养分、 水分和阳光&#xff0c;还可能成为害虫和病原体的寄主&#xff0c;从而降低农作物的产量和品质。因此&#xff0c;开发 高效、精确的杂草检测和管理系统对于提高农业生产效率、降低化…

闺蜜机为什么会火?

闺蜜机作为一种集娱乐、学习、健身等多功能于一体的家居设备&#xff0c;近年来逐渐受到消费者的青睐。以下是对闺蜜机的详细介绍&#xff1a; 一、定义与特点 定义&#xff1a;闺蜜机是一种屏幕尺寸介于18~32英寸之间、可触屏、自带支架且支持多个角度调节、底部自带滑轮可移…

ROS理论与实践学习笔记——6 ROS机器人导航(仿真)

在 ROS 中&#xff0c;机器人导航&#xff08;Navigation&#xff09;是由多个功能包组合而成的系统&#xff0c;统称为导航功能包集&#xff08;navigation stack&#xff09;。它提供了一个全面的框架&#xff0c;使得移动机器人能够自主导航到指定目标点&#xff0c;同时避开…

分析调优、性能测试曲线图

目录 一、分析调优 性能测试分析的关键指标 分析步骤 收集数据&#xff1a; 找到瓶颈&#xff1a; 性能调优策略 调优硬件资源&#xff1a; 数据库调优&#xff1a; 持续监控和改进 二、性能测试曲线图 1. 轻负载阶段&#xff08;Light Load&#xff09; 2. 重负载…

非淘系阿里231滑块 分析

声明: 本文章中所有内容仅供学习交流使用&#xff0c;不用于其他任何目的&#xff0c;抓包内容、敏感网址、数据接口等均已做脱敏处理&#xff0c;严禁用于商业用途和非法用途&#xff0c;否则由此产生的一切后果均与作者无关&#xff01; 有相关问题请第一时间头像私信联系我删…