【论文阅读】FlipCAM:高分辨率遥感影像弱监督建筑物提取的特征级翻转增强方法

【论文阅读】FlipCAM:高分辨率遥感影像弱监督建筑物提取的特征级翻转增强方法

文章目录

  • 【论文阅读】FlipCAM:高分辨率遥感影像弱监督建筑物提取的特征级翻转增强方法
    • 一、介绍
    • 二、方法
      • 2.1 准备
      • 2.2 一致性的架构
      • 2.3 SAM模块
      • 2.4 建筑提取模式
    • 三、实验结果

FlipCAM: A Feature-Level Flipping Augmentation Method for Weakly Supervised Building Extraction From High-Resolution Remote Sensing Imagery

为准确提取建筑物,深度神经网络需要收集大量的像素级标注,耗费大量时间

带有图像级注释的弱监督语义分割(WSSS)方法是一种有效的建筑物提取方法

  

问题:

  • 图像级标签缺乏空间信息,导致建筑物提取存在部分完整性和空洞现象
  • 遥感图像中复杂的背景会导致建筑物边界的提取不准确

  

提出了一种新的弱监督建筑提取方法FlipCAM来应对这些挑战。

基于特征级翻转增强的翻转模块通过融合原始和翻转特征图来提高CAM热图的完整性

通过将Flip模块与基于一致性架构的slice and merge (SAM)模块相结合

  

解决:

  • FlipCAM能够端到端生成高质量的CAM热图,既具有边界精细度,又具有内部完整性
  • 这也缓解了建筑物提取的特殊困难,包括密集建筑物中的粘连以及与背景和阴影的混淆,

  
  

一、介绍

从遥感影像中提取建筑物对于城市规划[1]、[2]、人口估算[3]、土地覆盖制图[4]等地理应用具有重要意义

论文是二值分割任务

我们在实际工作中依然是多类的语义分割

  

建筑物提取的主要目的是将遥感图像中的每个像元分配为建筑物或非建筑物标签

深度卷积神经网络(deep convolutional neural network, DCNNs)因其处理丰富数据的强大能力而被广泛应用于建筑物提取中

全卷积网络(FCN)可以充分利用像素间的空间上下文信息,通过CNN的接受场提取多层次特征

  

人们提出了许多不完全标注方法来提取遥感图像中的建筑物

图像级弱监督方法更具实用性和挑战性,因为其中图像级标注的成本最优

使得弱监督方法难以达到与完全监督语义分割(FSSS)方法相同的性能

  

图像级弱监督语义分割(WSSS)方法主要步骤:

  • 训练具有图像级标签的分类网络,获得具有目标定位能力的类激活图
  • 伪掩码由CAM热图生成,作为一系列后处理的粗建筑提取结果
  • 利用伪掩码训练常规语义分割网络,提取细粒度建筑区域

  

于图像级标签严重缺乏边界信息和空间位置信息,与完全监督的像素级标签相比,伪掩码通常存在边界精细度不足和内部完整性不足两大不足

解决的方式:

  • 条件随机场(CRF)和 CRF loss
  • AffinityNet 和 IRN 提高伪掩模的边界精细度
  • 受CRF损耗的启发,提出了边界损耗 和 边界模块,以端到端方式解决边界问题。
  • 自监督原理的一致性正则化方法[38]、[39]、[40]、[41]因其在挖掘边界和多尺度信息方面的性能较好而受到欢迎
  • 一致性架构中创建适当的增强图像是至关重要的,因为这些图像可以提供图像级标签之外的监督
  • 有几种方法尝试通过多种子[46]、[47]、[48]、[49]、[50]、聚类[51]、改进损失函数[52]
  • 结合深度学习的新思想,提出了不确定性估计[58]、对比学习[59]、原型探索[41]、[60]
  • 注意力模块[61]-[68]的弱监督方法
      

这些计算机视觉中的弱监督方法不能直接应用于遥感图像

设计适合高分辨率遥感图像的WSSS方法至关重要

  

基于低成本高效提取地理目标的迫切需求,

已有研究对高分辨率遥感图像的图像级弱监督提取任务进行了针对性改进

提出了一种从粗到细的弱监督方法来解决标签噪声、边界模糊、类别不平衡等特殊提取问题

  
与上述地理对象相比,更多的研究集中在弱监督建筑提取上

这些研究倾向于将边界细化和完整性增强的步骤分开,而不是端到端的方式

  

由于弱监督方法中已经存在许多子步骤,继续分离步骤将大大降低提取效率

我认为的端到端的方法不可缺少的就是分割seg的引入

  

方法将一致性架构与两个主要的新颖模块(即SAM模块和Flip模块)集成到一个通用分类网络中

以生成高质量的CAM热图,从而获得高置信度的伪掩码

  

在弱监督任务中,监督信息的稀缺性导致问题:

  • 导致了边界精细度不足
  • 内部完整性不足
      

FlipCAM方法:

  • 一致性架构
  • SAM模块
  • Flip模块

  

以一致性和特征增强的方式在分类网络中引入多个分支,从而增加像素相关性

采用一致性正则化方法,在分支中加入适当的模块,如SAM模块和Flip模块

  

  • SAM模块通过SAM操作和多尺度图像输入增强边界能力和多尺度特征提取能力
  • Flip模块在深度神经网络中实现了原始和翻转特征映射之间的交互

  

FlipCAM中的两个模块在迭代网络训练过程中同时提高了建筑物提取性能,因此在CAM热图生成过程中是一种端到端训练策略

  
主要贡献:

  • 设计了一个名为Flip模块的原创模块,提高建筑物提取的内部完整性
  • 设计了一个名为SAM模块的原始模块,丰富多尺度信息用于提取建筑物
  • 一致性架构将Flip模块和SAM模块相结合,提高了端到端CAM热图生成的边界精细度和内部完整性

  
  

二、方法

FlipCAM是一种图像级弱监督建筑物提取方法,分为两个步骤:

  • 训练分类网络并生成伪掩码
  • 训练分割网络并输出结果

  

提出的FlipCAM方法流程图

在这里插入图片描述
  

2.1 准备

CAM方法的核心是将图像级标签转换为粗像素级标签。首先,在生成CAM之前,需要对分类网络进行训练。为了提高分类网络的特征提取能力,我们使用了二元交叉熵损失函数LBCE

在这里插入图片描述
但考虑到CAM的生成需要使用global average pooling (GAP)层,本研究选择自带GAP层的ResNet-50作为骨干网

GAP层压缩这些特征映射,以便于连接到参数w∈R2C的全连接层
  

在这里插入图片描述
二元分类,因此sb需要通过softmax激活函数进行归一化处理,得到分类概率

Sc表示各类别经过全连通层后的得分。那么,如图3所示,提取建筑物的原始CAM Mb

在这里插入图片描述

  
CAM的生成原理是建筑物的预测值与最后一层卷积生成的特征图的线性组合

  

CAM方法利用图像级标签来实现粗略的建筑物提取。

然而,仍然存在两个挑战:

  • 在使用分类网络提取建筑特征时,由于受粗粒度标注、单一损失函数设置、卷积过程和池化过程的影响,建筑边界信息损失严重;
  • 分类网络往往只关注类别中最具判别性的特征区域来实现准确的分类,导致CAM结果只关注建筑物的局部区域

  

2.2 一致性的架构

在弱监督建筑物提取任务中很好地拟合目标边界

该体系结构的核心思想是通过一致性正则化加入额外的监督来提高模型性能
  

模型通过引入额外的输入分支来实现一致性正则化

如SAM、翻转、旋转、重新缩放等

  

吸收额外的监督信息,特别是更细粒度的对象边界信息,最终提高模型的性能。

CAM方法的本质是利用分类网络进行粗语义分割任务。然而,分类网络和分割网络的参数优化方式存在巨大差异

理想情况下,分割网络趋于等值,可以达到以下效果:

在这里插入图片描述

Ib为建筑物图像样本

T和T−1分别表示变换和倒变换
  

一致性架构由两个分支组成,它们具有共享的网络权重,但输出不同的特征映射

基于原始图像的特征映射和倒转特征映射,我们可以建立如下的一致性正则化损失函
  

保证两个分支输出的激活图不断正则化,从而增强模型提取建筑边界的能力。
  

2.3 SAM模块

为了提高分类网络提取多尺度建筑物的性能,设计了SAM模块

SAM模块[见图4(b)]将不同尺度的遥感图像放入网络中,更适合多尺度遥感场景

  

每个用于训练的图像沿着两个中心轴被切成四个部分,每个部分利用分类网络生成切片的特征图

将它们上采样到原始图像的大小是不必要的。虽然图像大小的变化

  

SAM模块通过在特征映射进入全连接层之前对切片特征映射执行合并操作来解决这个问题

合并后的特征图通过l一致性与另一个分支的特征图相连,不断向网络贡献多尺度建筑信息

在这里插入图片描述

一致性架构实现了对建筑物提取结果边界的优化,但提取结果的完整性仍然得不到保证,容易出现空洞现象

Flip模块通过在特征级融合特征映射来集成高维特征信息。这可以让网络对建筑的整体表象有更深入的了解,从而增强建筑的整体性

  

为了提高CAM的完整性,我们选择了翻转变换,而不是使用其他常用的增强方法来增强特征图,
  

原因如下:首先,一些图像增强方法,如图像旋转、图像缩放、图像平移等,由于数据增强前后变化不大,无法提供足够的监督

图像裁剪并不适用于地理目标可能出现在任何位置的遥感图像

原始图像相比,翻转变换既不会提供有限的监督,也不会丢失空间和位置信息。翻转变换作为一种镜像变换

  

2.4 建筑提取模式

FlipCAM的两个分支共享CNN主干的权值,训练出的网络参数在两个分支之间是唯一且一致的

生成FlipCAM热图,并通过Otsu算法生成阈值热图,将建筑物与背景区分开来

  
伪掩模通过考虑像素之间的空间关系和像素值的相似性来整合上下文信息,提高建筑边界的精细度
  

DeepLabv3+的主要创新是集成了空间金字塔池(ASPP)和编码器-解码器架构

通过LBCE对分割网络DeepLabv3+进行训练后,将未经任何筛选处理的测试图像放入训练好的分割网络中

  

三、实验结果

多种类型建筑物的ISPRS二维语义分割基准数据集((Potsdam数据集和Vaihingen数据集),AIRS

在这里插入图片描述
  
CAM的热力图效果示意

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/497569.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

RISC-V特权架构 - 中断定义

RISC-V特权架构 - 中断定义 1 中断类型1.1 外部中断1.2 计时器中断1.3 软件中断1.4 调试中断 2 中断屏蔽3 中断等待4 中断优先级与仲裁5 中断嵌套6 异常相关寄存器 本文属于《 RISC-V指令集基础系列教程》之一,欢迎查看其它文章。 1 中断类型 RISC-V 架构定义的中…

力扣热门算法题 135. 分发糖果,146. LRU 缓存,148. 排序链表

135. 分发糖果,146. LRU 缓存,148. 排序链表,每题做详细思路梳理,配套Python&Java双语代码, 2024.03.28 可通过leetcode所有测试用例。 目录 135. 分发糖果 解题思路 完整代码 Python Java 146. LRU 缓存 …

图腾柱PFC:HP1010为您的电动两轮车之旅提供绿色,高效,安全的动力

电动两轮车不仅为当今生活提供了便利,更是一种健康和绿色的出行方式。想象一下,在经过一整晚的充分休息,骑上爱车,满血复活的准备开始新的一天。您会愿意带着如何给心爱的两轮车充电的担心开始这一天吗? 随着越来越…

Vue 04 Vue 中的 Ajax、slot 插槽

Vue学习 Vue 0401 Vue中的Ajax服务器准备axios使用跨域问题解决Vue-CLI 配置代理1Vue-CLI 配置代理2案例: 用户搜索vue-resource 02 slot插槽默认插槽具名插槽作用域插槽slot总结 Vue 04 B站 Vue全家桶(BV1Zy4y1K7SH) 学习笔记 Vue 中的 ajax 01 Vue中的…

jmeter总结之:Regular Expression Extractor元件

Regular Expression Extractor是一个后处理器元件,使用正则从服务器的响应中提取数据,并将这些数据保存到JMeter变量中,以便在后续的请求或断言中使用。在处理动态数据或验证响应中的特定信息时很有用。 添加Regular Expression Extractor元…

Docker进阶:使用Docker部署Harbor私有镜像仓库

Docker进阶:使用Docker部署Harbor私有镜像仓库 1、安装Docker和Docker Compose1、安装Docker、Docker Compose2、验证Docker和Docker Compose是否成功安装3、先启动运行docker服务 2、下载并配置Harbor1、下载最新版本的Harbor离线安装包2、配置Harbor的主机名和管理…

DDos系列攻击原理与防御原理

七层防御体系 静态过滤 命中黑名单 对确定是攻击的流量直接加入黑名单(源地址命中黑名单直接丢弃,缺乏机动性和扩展性) 畸形报文过滤 畸形报文攻击 TCP包含多个标记位,排列组合有规律 • 现象:TCP标记位全为1 …

基于SpringBoot和Vue的在线视频教育平台的设计与实现

今天要和大家聊的是一款基于SpringBoot和Vue的在线视频教育平台的设计与实现 !!! 有需要的小伙伴可以通过文章末尾名片咨询我哦!!! 💕💕作者:李同学 💕&…

IDEA一键备份MySQL数据库(mysqldump版)

问题 又到了搬MySQL数据库的时刻,这次我不想使用命令行备份,这次我想使用IDEA一键备份MySQL数据库。 解决 假设安装好mysqldump命令后,让IDEA使用mysqldump一键备份指定的数据库。具体IDEA配置如下: 这是IDEA上面的数据库到处…

element-ui 自定义点击图标/文本/按钮触发el-date-picker时间组件,不使用插槽

天梦星服务平台 (tmxkj.top)https://tmxkj.top/#/ 1. 图片预览 2.上代码 2.1html <el-button class"hide_input" size"small"><svg t"1711608996149" class"icon" viewBox"0 0 1024 1024" version"1.1"…

腾讯云4核8G服务器价格,12M带宽一年646元,送3个月

2024年腾讯云4核8G服务器租用优惠价格&#xff1a;轻量应用服务器4核8G12M带宽646元15个月&#xff0c;CVM云服务器S5实例优惠价格1437.24元买一年送3个月&#xff0c;腾讯云4核8G服务器活动页面 txybk.com/go/txy 活动链接打开如下图&#xff1a; 腾讯云4核8G服务器优惠价格 轻…

基于ssm的线上旅行信息管理系统论文

摘 要 随着旅游业的迅速发展&#xff0c;传统的旅行信息查询管理方式&#xff0c;已经无法满足用户需求&#xff0c;因此&#xff0c;结合计算机技术的优势和普及&#xff0c;特开发了本线上旅行信息管理系统。 本论文首先对线上旅行信息管理系统进行需求分析&#xff0c;从系…

MTransE阅读笔记

Multilingual Knowledge Graph Embeddings for Cross-lingual Knowledge Alignment 用于交叉知识对齐的多语言知识图谱嵌入(MTransE) Abstract 最近的许多工作已经证明了知识图谱嵌入在完成单语知识图谱方面的好处。由于相关的知识库是用几种不同的语言构建的&#xff0c;因…

设计模式(一)简介

一、书籍推荐及博客 大话设计模式 设计模式的艺术 XXL开源社区 | 博客 二、通俗版概念 创建型模式、结构型模式、行为型模式 怎么建房子、建什么样的房子、建的房子有什么用 三、重点模式及简述 1、创建型模式 工厂方法&#xff08;多态工厂的实现&#xff09; 抽象工厂…

c++|string模拟实现

目录 一、string.h 二、string.cpp 三、Test.cpp 对string的各种接口进行一个简易版的模拟实现&#xff0c;在模拟实现完之后对string的底层实现有了进一步的理解&#xff0c;了解大佬的编程写法思路。也算是对string有了一个小总结。 一、string.h 接口的声明。放在.h文件中…

面向对象的学习

封装 //用来描述一类事物的类&#xff0c;专业叫做&#xff1a;javabean类 //在javabean类是不写main方法的//一个java文件中可以定义多个类&#xff0c;且只能一个类是public修饰&#xff0c;而且public修饰的类名必须成为代码的文件名 ://在类中一般无需指定初始化值 存在默…

C# OpenCvSharp 轮廓检测

目录 效果 代码 下载 效果 代码 using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Windows.Forms; using OpenCvSharp; using OpenCvSharp.…

理解JVM:从字节码到程序运行

大家好&#xff0c;我是程序员大猩猩。 今天我们来讲一下JVM&#xff0c;好多面试者在面试的时候&#xff0c;都会被问及JVM相关知识。那么JVM到底是什么&#xff0c;要理解它到底是出于什么原因&#xff1f; JVM俗称Java虚拟机&#xff0c;它是一个抽象的计算机&#xff0c;…

Hadoop面试重点

文章目录 1. Hadoop 常用端口号2.Hadoop特点3.Hadoop1.x、2.x、3.x区别 1. Hadoop 常用端口号 hadoop2.xhadoop3.x访问HDFS 端口500709870访问 MR 执行情况端口80888088历史服务器1988819888客户端访问集群端口90008020 2.Hadoop特点 高可靠&#xff1a;Hadoop底层维护多个数…

京东电商实时数据采集:京东数据API接口海量数据采集京东商品详情页SKU实时采集

京东数据api接口&#xff1a;京东电商数据如何采集&#xff1f; 用户行为日志采集 &#xff1a;这种方法通常用于记录用户在网站上的行为&#xff0c;如点击、浏览等&#xff0c;以帮助分析用户行为和优化用户体验。通用数据采集 &#xff1a;可以通过数据直通车等方式进行&am…