A Causal Debiasing Framework for Unsupervised Salient Object Detection

背景知识

显著性检测

简单就是使用图像处理技术和计算机视觉算法来定位图片中最“显著”的区域。显著区域就是指图片中引人注目的区域或比较重要的区域,例如人眼在观看一幅图片时会首先关注的区域。

chatGPT4的回答

计算机视觉中的显著性检测(Visual Salience Detection)是一种技术,用于识别和突显图像或视频中最显著、最引人注意的区域。这些显著区域通常是由于其与周围环境在颜色、亮度、纹理、运动等方面的显著差异而引起的。显著性检测在许多计算机视觉应用中发挥着重要作用,如物体检测、目标跟踪、图像分割、图像检索、注意力建模等。

显著性检测的方法可以大致分为以下几类:

  1. 基于对比度的方法:这类方法利用目标与其周围环境的对比度来衡量显著性。通过计算图像中每个像素与其他像素之间的颜色、亮度或纹理差异,可以生成显著性图。典型的方法包括颜色对比度、局部二值模式等。

  2. 基于图模型的方法:这类方法将图像分割成若干个区域或超像素,并将它们表示为图中的节点。通过计算节点之间的相似性或连接权重,可以构建一个图模型。然后,应用图论中的算法(如最大流、最小割、PageRank等)来检测显著性区域。

  3. 基于频域的方法:这类方法利用图像的频率特性来检测显著性区域。例如,通过对图像进行傅里叶变换或小波变换,可以找到在频域上表现出显著性的部分。

  4. 基于生物学的方法:这类方法试图模仿人类或其他生物视觉系统的原理来检测显著性。典型的方法包括Itti等人提出的显著性模型,该模型通过计算图像中的颜色、亮度和方向特征来生成显著性图。

  5. 基于深度学习的方法:这类方法利用深度神经网络(如卷积神经网络、递归神经网络等)对图像进行显著性检测。这些方法通常需要大量带有显著性标注的图像数据进行训练,以便网络学习显著性特征。

以上仅为显著性检测方法的简要概述,实际上还存在许多其他方法和技术。显著性检测是一个不断发展的研究领域,研究人员正努力开发更有效、更快速、更鲁棒的算法来应对各种应用场景。

存在的问题

  1. 视觉对比度信息是视觉显著性的最重要因素,但不能保证其在数据集中的分布是均匀的,这会误导经过训练的模型对数据丰富的视觉对比度集群做出偏向的预测。
  2.  来自视觉对比度信息分布和显著物体空间分布的偏差会误导模型训练,转而将图像平面的中心区域预测为显著区域。

本文核心思路

  1. 提出了一种去混杂训练方法来消除对比度分布偏差引起的混杂效应,使视觉对比度对最终的显着性预测有公平的贡献。
  2. 引入了一种图像级加权策略,可以对每个图像的重要性进行软加权,以最小化 空间分布偏差的误导影响。

具体方法

BaseLine

其中 F 为一个深度学习模型,需要进行训练,文中采用的是讲DSR、MC 和 RBD的结果作为伪标签开始训练。

并且在训练的过程中使用CRF进行更新迭精细化标签,使得伪标签噪声能够减少,在后续迭代过程进一步优化模型, 其中l为第t个epoch的标签:

 

Loss函数分为三块,

1 . F-measure 来评测显著性区域预测的准确性,但为了增加F-measure 对噪声的鲁棒性,便让β^2取为0.3:

 2. 交并比(IOU):

 

 3. 边缘损失:

 最终,loss为:

解决对比度分布偏差

因果链分析:

  1. C->I:对比度分布影响着图像的内容
  2. C->Y:对比度分布影响着靠传统方法生成的伪标签
  3. I->R->Y:图像内容影响了通过模型后的显著性特征,也影响了最终的预测
  4. C->R->Y:由于在2中影响了伪标签,因此也影响了分类层,也影响了最终的预测
  5. I->Y:图像直接影响最终的结果,这个是我们最终想要的因果关系

突出显示的文本讨论了混杂的概念,混杂因素是输入图像及其相应显著性预测的常见原因。在这种情况下,混杂因素是对比度分布 (C)。富含数据的视觉对比度聚类的积极影响遵循从输入图像(I)到显著性特异表现(R)的因果关系,然后是显著性预测(Y),这有助于学习对比度感知的判别性USOD模型。但是,这些集群的负面影响迫使输入图像中一些非显著的背景像素在预测中突出,遵循后门因果关系(I ← C → R → Y 和 I ← C → Y)。

改进方案

切断 C→I 将 P(Y| I)  改为 P(Y|do(I)) = ΣP(Y|I,R,c)P(c), 这个过程叫做后门调整

 简而言之就是将C通过k-means++与PCA等聚类算法根据其对比度信息将其拆为几个部分。

解决空间分布偏差

产生原因:

1.大部分显著性目标都出现在画面的中央

2.传统显著性目标检测的使用了中心先验的方法来生成伪标签,再训练模型也会加剧空间偏差

改进方案:提出了一种图像级加权策略

作者指出,放大 T‘ 会导致所有图像权重的平均值更高。图像加权策略与焦点损失的不同之处在于,焦点损失可以平衡每个训练样本的置信度,而所提出的方法则根据每个样本相对于空间分布偏差图的分布来平衡样本。作者明确缓解了训练中空间分布偏差的影响。

 最终loss变为:

 

实验结果

使用无监督的方法在一个测试集上训练,在其他几个测试集上去测试也能有较好的指标且堪比监督训练和半监督训练。 

总结

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/5395.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

从事6个月软件测试,目前只会功能测试迷茫了...

前言 (来自一位粉丝的投稿)来这个公司大半年,现在主要做的是类似于淘宝的购物商城,以前也做应用系统什么的,可是感觉公司的软件测试岗位都是不着边的,因为做的都是功能测试,来了这么久,没接触过技术性的东…

美丽苏大,清华博士,年轻硕导,招收研究生了!

Datawhale学术 导师:张正超,苏州大学,Datawhale成员导师信息本人于2022年取得清华大学博士学位,目前是苏州大学计算机科学与技术学院的硕士生导师,2023年可招收计算机科学与技术、软件工程、人工智能及大数据技术与工程…

微服务保护Sentinel一站式学习

微服务保护Sentinel 雪崩问题 解决雪崩问题的四种常见方式: 超时处理:设定超时时间,请求超过一定时间没有响应就返回错误信息,不会无休止等待。如果设置一秒钟没响应返回,即1s释放连接,这1s中有好多个请求…

BOSS直拒、失联招聘,消失的“金三银四”,失业的测试人出路在哪里?

裁员潮涌,经济严冬。最近很多测试人过得并不好,行业缩水对测试岗位影响很直接干脆,究其原因还是测试门槛在IT行业较低,同质化测试人员比较多。但实际上成为一位好测试却有着较高的门槛,一名优秀的测试应当对产品的深层…

Stable Diffusion 视频和图片帧互换以及AI动画帧生成

Stable Diffusion 只做AI动画是基于把原有视频按照帧进行提取之后对每一帧的图像进行标准化流程操作,中间可以掺杂Controlnet对人物进行控制,使用关键词对画面进行控制,但是很多小伙伴不太会掌握一些编辑视频软件或者python的操作导致视频转帧…

Java 深入理解Servlet

动态资源与静态资源区别 servlet三及相关接口简介servet 执行过程servlet路径映射servlet生命周期(重点) --理解(重点)Servlet自动加载Servlet线程安全Servlet相关接口详解ServletContext对象 --知识点 一、Web项目结构 |- WebRoot : web应用的根目录…

【linux】常用命令大全(入门必备)

这篇文章涵盖了linux中常用的所有指令,欢迎大家阅读查询。(如有不正确的地方,各位大佬可以在评论区指出,我会及时进行更正)。 文章目录登录远程服务器ssh添加删除用户当前路径pwd列出文件目录ls进入cdtreewhoami创建文件touch创建目录mkdir删…

【C语言学习】循环结构和选择结构

C语言中有三大结构,分别是顺序结构、选择结构和循环结构(分支结构): C语言顺序结构就是让程序按照从头到尾的顺序依次执行每一条C语言代码,不重复执行任何代码,也不跳过任何代码。 C语言选择结构也称分支结…

都说IT行业饱和了,2023年成为程序员还有发展前景吗?

程序员饱和了吗?初级码农肯定是算饱和了,因为大部分的互联网企业开始提高招聘要求了,比如技能要求、两三年工作经验、项目经验、软实力等,是按照中级开发人员的标准来的。所以干程序员还是有发展前景的,你的技能达标了…

Linux常用命令——locate命令

在线Linux命令查询工具 locate 比 find 好用的文件查找工具 补充说明 locate 让使用者可以很快速的搜寻档案系统内是否有指定的档案。其方法是先建立一个包括系统内所有档案名称及路径的数据库,之后当寻找时就只需查询这个数据库,而不必实际深入档案…

虹科喜报 | 虹科技术工程师【国内首批】拿下Redis认证开发者证书!

要说虹科数据库技术工程师有多强悍,认证考试2022年12月上线,次年2月就以全国首批速度强势通过考试,并于两周后正式收到【Redis认证开发人员】证书! 虹科小云忍不住浅浅炫耀一下: 或许大家对Redis企业版数据库认证开发…

前端面试题之html css篇

文章目录1.什么是盒模型2.行内元素有哪些&#xff1f;块级元素有哪些&#xff1f; 空(void)元素有那些&#xff1f;行内元素和块级元素有什么区别&#xff1f;3.简述src和href的区别4.什么是css Hack5.什么叫优雅降级和渐进增强6.px和em的区别7.HTML5 为什么只写< !DOCTYPE …

[linux虚拟机]网络连接的三种模式和重要文件夹

桥接模式: 虚拟系统可以和外部系统通讯,但容易造成IP冲突NAT模式,网络地址转换模式,虚拟系统可以和外部系统通讯,不造成IP冲突主机模式:独立的系统 /bin [常用] (/usr/bin 、 /usr/local/bin) 是 Binary 的缩写, 这个目录存放着最经常使用的命令/sbin (/usr/sbin 、 /usr/loca…

2023年非业绩亏损ST股票投资策略研究报告

第一章 ST 股票概况 ST 股票是指中国股市上的一种特殊类型的股票&#xff0c;全称为“特别处理股票”&#xff0c;简称为 ST 股票。1998年4月22日&#xff0c;沪深证券交易所宣布将对财务状况和其他财务状况异常的上市公司的股票交易进行特别处理&#xff0c;由于“特别处理”…

VirtualBox安装centos宿主机与虚拟机网络互通、多个虚拟机之间网络互通、虚拟机可上外网

一&#xff0c;虚拟机的网络配置连接方式 选择 桥接网卡&#xff0c;界面名称 选择 当前宿主机能上网的网卡我现在电脑当前能上网的 网络名称是Remote NDIS .... &#xff0c;所以上面的界面名称选它&#xff1a;修改之后&#xff0c;重启centos虚拟机二&#xff0c;配置虚拟机…

代码随想录算法训练营第五十六天|583.两个字符串的删除操作、72.编辑距离

day56 2023/03/28 一、两个字符串的删除操作 给定两个单词 word1 和 word2&#xff0c;找到使得 word1 和 word2 相同所需的最小步数&#xff0c;每步可以删除任意一个字符串中的一个字符。 示例&#xff1a; 输入: "sea", "eat"输出: 2解释: 第一步将…

企业数字化中,BI 有何价值

在近些年的时间里&#xff0c;相关的数字化技术、理念、应用扩散到各行各业&#xff0c;让整个社会开始进行深层次的改变&#xff0c;也让城市建设这种传统的基础建设开始融合数字化&#xff0c;并利用数据结合数据中心、城市大脑等构建新型基础建设模式。 数据在这些年的时间…

AD83584D数字音频放大器

AD83584D是一款数字音频放大器&#xff0c;能够将25W&#xff08;BTL&#xff09;的功率分别驱动到一对8Ω负载扬声器&#xff0c;并将50W&#xff08;PBTL&#xff09;的功率驱动到一个4Ω负载扬声器。在24V电源下工作&#xff0c;无需外部散热器或风扇即可播放音乐。AD83584D…

第16章_多版本并发控制

第16章_多版本并发控制 &#x1f3e0;个人主页&#xff1a;shark-Gao &#x1f9d1;个人简介&#xff1a;大家好&#xff0c;我是shark-Gao&#xff0c;一个想要与大家共同进步的男人&#x1f609;&#x1f609; &#x1f389;目前状况&#xff1a;23届毕业生&#xff0c;目…

数据库I (SELECT语句)

目录 一、写在前面 1.0 内容概览 1.1 SQL 分类 1.2 SQL语言的规则与规范 1.2.1 基本规则 1.2.2 SQL大小写规范 &#xff08;建议遵守&#xff09; 1.3 注释 1.4 命名规则&#xff08;暂时了解&#xff09; 二、基本的SELECT语句 2.0 SELECT... 2.1 SELECT ... FROM…