弱监督语义分割-对CAM的生成过程进行改进3

三、擦除图像高响应部分以获取更多的分割领域

ECS-Net: Improving Weakly Supervised Semantic Segmentation by Using Connections Between Class Activation Maps(ICCV,2021)

1.引言

我们首先从图像中擦除高响应区域,并生成这些擦除图像的新 CAM。然后,我们从新 CAM 中抽样可靠的像素,并将它们的分割预测作为语义标签应用于训练相应的原始 CAM。与多次擦除不同,我们的方法只需要进行一次擦除,避免引入过多的噪音。我们进行了大量的消融研究,以发现最佳的超参数,如抽样阈值。具体来说,我们可以实现以下目标:

  • 为了解决弱监督语义分割中的问题,我们提出了一个简单、高效、新颖的框架:擦除CAM监督网(ECS-Net)。该方法利用目标区域挖掘技术和两次cam之间的关系,提供了额外的分割线索。实验表明,ECS-Net预测的CAMs能够更好地学习到物体的边界和形状等分割信息。
  • 由于过度激活等噪声严重损害分割性能,我们的ECS-Net设计了采样规则来抑制从擦除图像的cam带来的噪声。实验结果表明,该方法有助于剔除不可靠样本,加快网络收敛速度。
  • 在PASCAL VOC 2012数据集测试集上的实验表明,我们的框架在VGG-16主干网和ResNet-38主干网上的mIoU分别达到63.4%和67.6%,优于之前最先进的方法。

2.相关工作

细化和扩展类激活映射,以扩展整个对象:

  • SEC[17]引入了三个损失函数,播种、扩展和约束损失来指导网络训练。然而,静态种子线索太少且稀疏,限制了分割性能。为了提高低响应目标区域的识别能力,
  • AE[32]迭代地擦除输入图像中的高响应特征,迫使网络从低响应区域学习新的亮点特征。然而,迭代学习是费时的。
  • MDC[34]采用高扩张率的扩张卷积对整个目标区域的特征进行采样和研究。由于采样位置固定,MDC难以灵活捕获目标边界。
  • FickleNet[18]对此问题进行了研究,尝试利用不同掉落率的Dropout方法来随机选择和组合特征。FickleNet在一张图像上生成多个位置图,获得不同形状的区域。由于dropout的随机性较大,flicklenet不可避免地引入了噪声。
  • PSA[2]生成亲和矩阵来研究像素之间的相似性,并应用随机游走来预测最终结果。

 大多数方法无法抑制采样带来的过度激活,因为少量背景像素被错误分类,可能不会影响分类损失。为了突破这些限制,我们提出了ECS-Net。据我们所知,我们的方法可能是第一个在探索阶段引入可靠的伪分割监督的算法。

使用cam之间的连接:

  • MDC[34]对不同扩张卷积预测的CAMs求和。
  • 同样,RRM[37]计算不同尺度下CAM的平均值。
  • AE[32]从每个cam中裁剪高亮片,并根据相应位置粘贴在一起。
  • 我们认为过于简化的装配设计不能发挥不同CAMs的功能。
  • SEAM[31]通过将图像大小调整为两个尺度来生成相应的cam。此外,它利用等变正则化来缩小这两个cam之间的差异。通过这种自监督学习方法,SEAM为分割任务生成了更加鲁棒的cam。
  • 在一定程度上,小尺度图像的CAM激活了更多物体的部分,但加剧了过度激活。相反,大规模图像的CAM具有较少的激活区域,包括较少的过度激活。这两个cam相互监督,在扩展对象区域和过度激活之间提供了良好的平衡。然而,在SEAM中很难修正两种cam中相同的预测误差。

3.我们的方法

首先,我们详细阐述了应用cam生成片段监督的详尽过程。我们还介绍了抑制噪声标签的方法,并进一步讨论了我们的框架的实现,包括损失函数,网络结构,以及其他一些改进,如缩放和多扩展覆盖模块。整个框架如图2所示。最后,我们详尽地解释了算法的工作原理。

图1:空间维度标注的不足导致网络过于关注突出的目标区域,降低了对目标边缘的敏感性(左)。我们的方法使网络不会遗漏另一个有价值的区域,并且可以更好地捕获边缘(右)。

空间维度注释存在的问题是指在语义分割任务中,使用的注释信息缺乏对像素级别的空间位置信息。传统的图像级别标签或注释无法提供像素级别的对象位置信息,这导致网络在学习时可能过度关注显著的对象区域,而忽略了对象的边缘或细节部分。因此,缺乏空间维度注释会限制网络对对象结构的全面理解,可能导致分割结果缺乏准确性和细节。通过解决空间维度注释不足的问题,可以帮助网络更好地捕捉对象的边缘和细节信息,提高语义分割的性能。 

  • 将分类标签为L的图像I输入网络F,预测热图H\epsilon \mathbb{R}_{> 0}^{C\times H\times W},
  • C为对象类别
  • 将H归一化得到原始CAM a,
  • 分类权重W={w_{c}|w_{c}=1,if c\epsilonL,elsew_{c}=0.\forallc\epsilon{1...C}}  禁止不存在的类别被激活。

  •  分数越高意味着分类特征越明显,我们设置阈值δ = 0.6从s中选择擦除区域R。
  • 对选定区域的像素应用高斯模糊来擦除M上的这些特征。
  • ECS-Net将处理后的图像I'发送到与F共享权重的网络F'中,并输出热图H'
  • 根据式(1),得到擦除后图像a '的CAM。然后,通过argmax函数对a '进行处理,得到粗分割标签L '。

图2: 我们提议的ECS-Net的整个框架。F中cam的高响应区域在图像上被擦除。通过抑制噪声,F'中的CAMs被用作附加的分割标签。F和F'共享权重。

  • 图2显示,通过擦除高响应特征(红色区域),我们的网络将注意力转移到其他低响应对象区域。到目前为止,我们制作的粗略标签包含大量的预测误差,远远低于要求

  • 噪声抑制:我们遵循从L '中选择可靠分割标签的规则。首先,我们忽略来自擦除区域的标签。有两个原因:(1)这些区域,被认为是简单的例子,没有贡献。(2)由于擦除,这些区域遗漏了特征,导致预测不可靠。我们进一步忽略背景标签。最后,对分数图s '施加阈值θ,得到可靠标签。

  •  f(x)=exp(-x),o是GAP层预测的长度为C的向量,
  • 我们的lcls忽略背景类别,即c = 0。

 对于语义分割任务,我们采用交叉熵损失

  •  Q '表示伪分割标签L'的一个结果,Φ定义为可靠标签的位置集,P经过softmax操作后的CAM E在F中的结果,表示对CAM进行了一定的处理后得到的结果。

 图3:在我们的方法中有多个扩展的覆盖模块。实线表示F中的CAM预测过程,虚线表示F '中擦除后的图像生成H '的过程。在多重膨胀叠加模块中,3×3卷积层与每个膨胀卷积层共享权重。

其他改进:我们还讨论了提高预测性能的其他改进。首先,在将图像送入F之前,我们用比例因子β∈[0,1]重新缩放原始图像M。这意味着我第一输入图像小于m .更具体地说,我第二输入图像的具有相同的形状与m .此外,出于这一事实扩张卷积层能够扩大接受域[8],我们添加K扩张卷积层在不同的rates与层B并联(如图3)。值得一提的是,这些额外的层与B和分享重量仅应用于F '在训练阶段。因此,我们的网络可能会捕捉到更多健壮的特征。热图H '的计算方法如下

其中H_{0}^{'}定义为B的输出,H_{k}^{'}定义为第k个扩张卷积层的输出。

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/639688.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java进阶学习笔记2——static

static: 叫静态,可以修饰成员变量、成员方法。 成员变量按照有无static修饰,分为两种: 类变量:有static修饰,属于类,在计算机中只有一份,会被类的全部对象共享。静态成员变量。 实…

[Algorithm][动态规划][路径问题][下降路径最小和][最小路径和][地下城游戏]详细讲解

目录 1.下降路径最小和1.题目链接2.算法原理详解3.代码实现 2.最小路径和1.题目链接2.算法原理详解3.代码实现 3.地下城游戏1.题目链接2.算法原理详解3.代码实现 1.下降路径最小和 1.题目链接 下降路径最小和 2.算法原理详解 思路: 确定状态表示 -> dp[i][j]的…

CAN总线的终端电阻为什么要分布在两端?

CAN总线的终端节点需要分布在两端,主要是为了防止信号反射。 在任何传输线路中,当信号传输到线路的末端时,如果末端没有被正确匹配,就会产生反射信号。这个反射信号会沿着原来的路线返回,与原来的信号叠加,…

LINUX系统编程:命名管道

匿名管道的通信只能在,有血缘关系的进程中,本质就是,子进程会拷贝一份父进程的文件描述符表,父子进程就可以看到操作系统的同一块资源(文件),以这块资源为媒介进行通信。 命名管道,…

C++ (week4):Linux基础

文章目录 零、Linux简介1.配置环境2.Linux历史3.Linux模型 一、vim二、Linux命令行 (shell命令)1.常用命令与快捷键(1)常用命令①man命令:查看帮助手册 (2)快捷键 2.用户子系统(1)Linux用户(2)用户命令 3.文件子系统命令(1)目录命令1.创建文件:mkdir2.删…

15、24年--信息系统管理——管理要点

1、数据管理 数据管理使指通过规划、控制与提供数据和信息资产的职能,包括开发、执行和监督有关数据的计划、策略、方案、项目、流程、方法和程序,以获取、控制、保护、交付和提高数据和信息资产价值。 DCMM定义了数据战略、数据治理、数据架构、数据应用、数据安全、…

分布式数据库HBase入门指南

目录 概述 HBase 的主要特点包括: HBase 的典型应用场景包括: 访问接口 1. Java API: 2. REST API: 3. Thrift API: 4. 其他访问接口: HBase 数据模型 概述 该模型具有以下特点: 1. 面向列: 2. 多维: 3. 稀疏: 数据存储: 数据访问: HBase 的数据模型…

Java入门基础学习笔记47——ArrayList

什么是集合呢? 集合是一种容器,用来装数据的,类似数组。 有数组,为什么还要学习集合呢? 数组定义完成并启动后,长度就固定了。 而集合是大小可变,开发中用的最多的。 集合的特点:大…

WSL调用docker

WSL(windows subsystem linux)是window系统的原生linux子系统,用于代码开发很方便。 希望在wsl里面运行docker,首先要安装docker在WSL中使用,大部分人的第一想法肯定是用以下命令行安装(个人不推荐&#x…

Log360:护航安全,远离暗网风险

暗网有时候就像是一个神秘的地下世界,是互联网的隐蔽角落,没有任何规则。这是一个被盗数据交易、网络犯罪分子策划下一步攻击的地方。但仅仅因为它黑暗,不意味着你要对潜在的威胁视而不见。 暗网 这就是ManageEngine Log360的用武之地&…

Wireshark 4.2.5:发现 QUIC 和 VXLAN 协议的新功能

Wireshark 是一种先进且广泛使用的网络协议分析仪,最近发布了新版本 4.2.5,它提供了许多新功能和改进。 Wireshark 4.2.5 发行说明 什么是 Wireshark? Wireshark 是世界上最流行的网络协议分析器。它用于故障排除、分析、开发和教育。 Wiresh…

小短片创作-组装场景(一)

1、项目基础设置 通过第三人称模板,创建1个项目 1.自动曝光:关闭,因为要做专业的小短片,曝光需要手动控制。 2.扩展自动曝光中的默认亮度范围:启用 3.全局光照系统:选择屏幕空间光照(SSGI&am…

react antd中transfer穿梭框组件中清除搜索框内容

如图:需要清除search搜索框内容 antd的transfer穿梭框组件未提供入口修改input框的值。 2种方法修改。 1、直接操作dom元素设置值(不推荐) useEffect(() > {const searchInput document.querySelector(.ant-transfer-list-search input)…

【ai】chatgpt的plugin已经废弃

发现找不到按钮,原来是要申请: https://openai.com/index/chatgpt-plugins/ 发现申请已经跳转了,好像是废弃了? 不接受新插件了,但是openai的api 是可以继续用的。 https://openai.com/waitlist/plugins/We are no longer accepting new Plugins, builders can now create…

数据意外删除?安卓手机数据恢复教程来帮你解救

手机不仅仅是一个通讯工具,更是我们记录生活、工作、学习等各种信息的重要载体,无论是拍照、录音、录像,还是文字记录,手机都能轻松完成。可有时候我们会不小心删除一些重要的数据,这时候我们该怎么办呢?别…

plsql 学习

过程化编程语言 赋值:: ||:连接符号 dbms_output.put_line() :输出的语句 var_name ACCOUNTLIBRARY.USERNAME%type; 变量名;某个表的数据类型;赋值给变量名 用下面的方法更好用 异常exception 循…

Windows 7 SP1 安装VMtools -- 安装失败的解决方法

VMware安装Win7 SP1可以参考这篇文章:https://blog.csdn.net/2301_77225571/article/details/139121179?spm1001.2014.3001.5501 1.下载补丁 https://www.catalog.update.microsoft.com/search.aspx?qkb4474419 2.本机远控Win7 【Win】【R】,输入cmd…

2024年甘肃特岗教师招聘报名流程,速速查收哦!

2024年甘肃特岗教师招聘报名流程,速速查收哦!

基于灰狼优化算法优化支持向量机(GWO-SVM)时序预测

代码原理及流程 基于灰狼优化算法优化支持向量机(GWO-SVM)的时序预测代码的原理和流程如下: 1. **数据准备**:准备时序预测的数据集,将数据集按照时间顺序划分为训练集和测试集。 2. **初始化灰狼群体和SVM模型参数…

架构二。。

1、CAP 只能3选2 1)一致性(Consistency) 客户每次读都是返回最新的写操作结果 2)可用性(Availability) 非故障节点在合理的时间内返回合理的响应 3)分区容忍性(Partition Tolerance…