FS【1】:SSP

文章目录

  • 前言
  • 1. Abstract
  • 2. Introduction
    • 2.1. Motivation
      • 2.1.1. Few-shot Segmentation (FSS) Task
      • 2.1.2. Few-shot Segmentation (FSS) Problem
    • 2.2. Contribution
  • 3. Methods
    • 3.1. Motivation
    • 3.2. Overview of the architecture
    • 4.3. Self-support Prototype
    • 4.4. Adaptive Self-support Background Prototype
    • 4.5. Self-support Matching
  • 总结


前言

这是一篇发表在 ECCV 2022 上的论文,对后续的许多 few-shot 方法都有着一定的启发作用。原论文作者在知乎上也给出了自己的解读:ECCV 2022 | SSP: 自支持匹配的小样本任务新思想

原论文链接:Self-support Few-Shot Semantic Segmentation


1. Abstract

现有的 few-shot 分割方法严重受限于所提供的少数几张照片支持对类内变化的覆盖范围。

为此,本文提出了一种新颖的自支持匹配策略来缓解这一问题,该策略使用查询原型来匹配查询特征,其中查询原型是从高置信度查询预测中收集的。这种策略能有效捕捉查询对象一致的基本特征,从而恰当地匹配查询特征。本文还提出了自适应自支持背景原型生成模块和自支持损失,以进一步促进自支持匹配过程。


2. Introduction

2.1. Motivation

2.1.1. Few-shot Segmentation (FSS) Task

对于一个感兴趣的目标新类别,小样本分割算法通过给定的支持图片 I s I_s Is 对查询图片 I q I_q Iq 中的目标新类别进行分割。其中,对每个目标新类别来说,在训练集中没有出现或者没有标注,且在测试时对应的样本数量只有少数几张图片(一般低于 10 张)。经典的小样本分割算法是分别在支持图片 I s I_s Is 对查询图片 I q I_q Iq 上提取特征,并利用 Masked Average Pooling 操作和 support GT mask 在支持图片特征 F s F_s Fs 上生成支持特征原型 P s P_s Ps。最后计算支持特征原型 P s P_s Ps 和查询图片特征 F q F_q Fq 每个空间位置特征之间的余弦相似度(cosine similarity),并将这个 cosine similarity map 作为预测的分割结果。
在这里插入图片描述

2.1.2. Few-shot Segmentation (FSS) Problem

小样本分割任务存在一个非常重要的问题,就是 support 和 query 间的 appearance gap。在 support 和 query 中的同类别物体可能存在非常大的外观差异性。

这一问题源自于小样本任务的特性,即数据稀少性和数据多样性。其中数据稀少性是指 support 数据很少,通常每个新类别只有不到10个样本,而数据多样性是指 query 的数量是无穷无尽的。所以 support 中的物体根本无法涵盖所有 query 中的同类别物体。

2.2. Contribution

本文提出了一种全新的自支持小样本分割算法。其思想是利用查询特征原型 P q P_q Pq 去匹配查询图片特征 F q F_q Fq。其中查询特征原型 P q P_q Pq 是利用高置信度的 query prediction mask 提取对应的查询图片特征 F q F_q Fq 得到的,而 query prediction mask 则是由传统 support-query 匹配算法生成的。因为这种 query 特征的自匹配性质,我们将方法命名为自支持(self-support)算法。


3. Methods

3.1. Motivation

自支持匹配想法源自于格式塔理论(Gestalt principle),即物体的整体性:相对于不同物体上的不同部分,同一个物体上的不同部分会更像。

为了验证这一想法,本文统计了 Pascal VOC 数据集中的图片不同像素之间的相似度,其特征是用 ImageNet 上预训练的 ResNet-50 提取的。

在这里插入图片描述

如 Table 1. 所示,对于前景像素来说,相同物体上的前景像素之间的相似度远大于不同物体上的前景像素之间的相似度,在背景像素上也观察到相同的现象。

在这里插入图片描述

为了进一步验证本文的自支持想法,如 Table 2. 所示,本文使用传统的支持特征原型 P s P_s Ps(从 support 图片中提取的 support prototype)和自支持特征原型 P q P_q Pq(从 query 图片中提取的 self-support prototype,因为知道 query GT mask),分别与查询图片特征 F q F_q Fq 进行匹配。自支持特征原型 P q P_q Pq 的匹配结果可以达到 83.0 mIoU,比支持特征原型 P s P_s Ps 的匹配结果高近 25 个点。但是在实际使用中不可能知道 query GT mask,所以本文人为地设置不同大小的 query GT mask 并引入噪声来模拟预测得到的 query mask。在这种情况下,自支持特征原型 P q P_q Pq 的匹配结果仍然高于 74 mIoU。这两个实验很好地支持了自支持匹配的想法。

3.2. Overview of the architecture

本文通过传统的 support prototype based matching 生成初始的 query mask,并利用 query mask 在查询图片特征 F q F_q Fq 上提取自支持特征原型 P q P_q Pq。最后将自支持特征原型 P q P_q Pq 和支持特征原型 P s P_s Ps 融合并与查询图片特征 F q F_q Fq 进行匹配。同时本文认为可以进行多次的自支持匹配对自支持特征原型 P q P_q Pq 进行优化。
在这里插入图片描述

4.3. Self-support Prototype

常规的支持原型生成程序是:

在这里插入图片描述

MAP 用于生成与查询特征 F q F_q Fq 匹配的预测,同时可以得到 estimated query mask M 1 M_1 M1

在这里插入图片描述

然后,可以用同样的方法生成查询原型 P q P_q Pq,只是在推理过程中查询图像 M q M_q Mq 的 GT mask 不可用。因此,需要使用预测的 query mask M ~ q \tilde{M}_q M~q 来聚合查询特征。查询原型生成过程可表述为:

在这里插入图片描述

其中, M ~ q = 1 ~ ( M 1 > τ ) \tilde{M}_q = \tilde{1}(M_1 > \tau) M~q=1~(M1>τ)

  • 1 ~ \tilde{1} 1~ 代表 indicator function,通常用于将 1 分配不给一组元素中属于集合的元素,将 0 分配给不属于集合的元素
  • τ \tau τ 用于控制查询特征采样范围,前景和背景查询掩码的阈值分别设置为 { τ f g = 0.7 , τ b g = 0.6 } \{ \tau_{fg} =0.7, \tau_{bg} =0.6 \} {τfg=0.7,τbg=0.6}

估计的自支持原型 P q = { P q , f , P q , b } P_q = \{ P_{q,f}, P_{q,b}\} Pq={Pq,f,Pq,b} 将用于匹配查询特征

本文发现,估计的查询掩码只需要涵盖一些有代表性的对象片段,就足以检索到同一对象的其他区域。为了验证部分对象或对象片段是否能够支持整个对象,我们使用部分原型对模型进行了训练和评估,这些原型是根据地面实况掩码标签随机选择的特征聚合而成的

在这里插入图片描述

Table 2. 所示,在减少用于生成原型的聚合对象区域的同时,本文提出的自支持原型始终保持着较高的分割性能

本文在部分原型中引入了噪声特征(噪声比为 20%),以便在推理过程中模拟真实的自支持生成,方法是从非目标区域随机选择图像特征,并将这些特征汇总到上述部分原型中。如 Table 2. 所示,在这种噪声情况下,我们的自支持原型仍然比传统的支持原型好用得多

需要注意的是,每幅图像可能包含多个对象,所以本文提出的自支持原型也能很好地处理多对象场景

4.4. Adaptive Self-support Background Prototype

本文的算法分别对 foreground 和 background 的 prototype 进行建模,但是 foreground 和 background 的性质完全不一样:

在这里插入图片描述

  • 对于 foreground 来说,同一个物体的不同部分之间一般是相似的,具有全局的相似性,所以可以使用 MAP 将所有的 foreground 像素聚合为一个 prototype 向量来表示 foreground

在这里插入图片描述

  • 但是对于 background 来说,背景一般比较杂乱,没有全局的相似性,只有局部的相似性,所以用一个 prototype 向量来表示 background 是有问题的。因此基于 background 的局部相似性这一特点,本文提出了 adaptive self-support background prototype (ASBP),即根据当前 background 像素与其他 background 像素之间的相似度,加权地融合 background 特征。具体来说:

    • 首先通过对查询特征 F q F_q Fq 与背景掩码 M ~ q , b \tilde{M}_{q,b} M~q,b 的掩码乘法,收集背景查询特征 F q , b F_{q,b} Fq,b

    • 然后,可以通过矩阵乘法运算 MatMul 生成重塑的背景查询特征 F q , b F_{q,b} Fq,b 的像素与完整查询特征 F q F_q Fq 之间的亲和矩阵 A A A

      在这里插入图片描述

    • 最后,亲和矩阵通过 softmax 运算沿第一维进行归一化,用于对每个查询像素的背景查询特征进行加权汇总,生成自适应自支持背景原型 P q , b ∗ P^*_{q,b} Pq,b

    在这里插入图片描述

用自适应自支持背景原型更新自支持原型: P q = { P q , f , P q , b ∗ } P_q = \{ P_{q,f}, P^*_{q,b} \} Pq={Pq,f,Pq,b}

4.5. Self-support Matching

本文对支持原型 Ps 和自支持原型 Pq 进行了加权组合:

在这里插入图片描述

计算增强支持原型 P s ∗ P^*_s Ps 与查询特征 F q F_q Fq 之间的余弦距离,生成最终的匹配预测结果:

在这里插入图片描述

然后,在生成的距离图上应用训练监督:

在这里插入图片描述

为了进一步简化自支持匹配过程,本文提出了一种新的查询自支持损失:

在这里插入图片描述

通过在支持特征上使用相同的步骤,可以引入支持自匹配损失 L s \mathcal{L}_s Ls

最后,通过联合优化上述所有损失,以端到端的方式训练模型:

在这里插入图片描述


总结

算法优点:

  1. 第一个优点是自支持算法会更加受益于更好的 backbone 和 support 数量,因为它们可以带来更准确的初始 query mask 预测结果,可以提取更准确的 self-support prototype,进而得到更好的分割结果
  2. 第二个优点是更高置信度的预测结果。分割算法会使用阈值将预测结果中的连续 [ 0 , 1 ] [0,1] [0,1] 值变为 0-1 值,但是初始的预测结果质量也很重要,尤其是对于困难样本。如果预测值在 0.5 附近,这个点上的预测就很容易失败。本文希望得到更加鲁棒和高置信度的预测结果。因此,本文使用 MAE 对预测结果的连续 [ 0 , 1 ] [0,1] [0,1] 值进行评估
  3. 第三个优点是自支持算法非常通用,没有额外的参数量,且额外的计算量也很小,模型很小,训练和测试都很快,并可以直接应用在其他的小样本分割算法上

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/308053.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

代理IP连接不上?网速过慢?自检与应对方法来了

当您使用代理时,您可能会遇到不同的代理错误代码显示代理IP连不通、访问失败、网速过慢等种种问题。 在本文中中,我们将讨论您在使用代理IP时可能遇到的常见错误、发生这些错误的原因以及解决方法。 一、常见代理服务器错误 当您尝试访问网站时&#…

用户管理第一节课,阿里生成代码包

鱼皮教程生成所用到的 一、网址 网址: Cloud Native App Initializer (aliyun.com) 二、仿照生成 2.1 Maven Project & Java 2.2 Spring Boot版本 2.3 高级选项 2.3.1 项目名称可根据需求改 注意:不要有空格 2.4 应用架构 选择:单…

彻底关闭win10的自动更新Update

停止更新服务 任务管理器中search windows update,停止服务,以及禁止恢复里面的action 停止任务计划 computer 右键 电脑管理,停止全部工作计划。

慕课热搜01

uniapp过滤器使用 创建一个过滤器: 在入口函数注册过滤器 // 注册过滤器 import * as filters from "./filters/index.js"Object.keys(filters).forEach(key>{Vue.filter(key,filters[key]) })使用过滤器: onPageScroll , uniapp监听滚动…

Web APIs知识点讲解

学习目标: 能获取DOM元素并修改元素属性具备利用定时器间歇函数制作焦点图切换的能力 一.Web API 基本认知 1.作用和分类 作用: 就是使用 JS 去操作 html 和浏览器分类:DOM (文档对象模型)、BOM(浏览器对象模型) 2.DOM DOM(Document Ob…

嵌入式培训机构四个月实训课程笔记(完整版)-Linux系统编程第六天-Linux信号(物联技术666)

更多配套资料CSDN地址:点赞+关注,功德无量。更多配套资料,欢迎私信。 物联技术666_嵌入式C语言开发,嵌入式硬件,嵌入式培训笔记-CSDN博客物联技术666擅长嵌入式C语言开发,嵌入式硬件,嵌入式培训笔记,等方面的知识,物联技术666关注机器学习,arm开发,物联网,嵌入式硬件,单片机…

GBASE南大通用 GBase 8a 产品构建数仓系统架构

l GBASE南大通用 GBase 8a 产品构建数仓应用的系统架构: 架构 技术实现特点 适用场景 独立数据仓库(集市)系统架构 一套GBase 8a物理集群 适用于数据规模较小的业务场景 适用于各业务之间数据互访较频繁的业务场景 适用于单一独立的业务…

k8s源码阅读环境配置

源码阅读环境配置 k8s代码的阅读可以让我们更加深刻的理解k8s各组件的工作原理,同时提升我们Go编程能力。 IDE使用Goland,代码阅读环境需要进行如下配置: 从github上下载代码:https://github.com/kubernetes/kubernetes在GOPATH目…

Python之文件的相关操作

文件和文件夹的移动、复制、删除、重命名 一、概述 Python中对文件和文件夹进行移动、复制、删除、重命名,主要依赖os模块和shutil模块,以下用实例集中演示文件的移动、复制、删除、重命名,用到的时候直接查询即可。 二、实例 1 #!/usr/bi…

C++11教程:C++11新特性大汇总(第六部分)

C11是2011年发布的C标准,是C的一次重大升级。 第十二部分:C多文件编程 十一、C11列表初始化(统一了初始化方式) 我们知道,在 C98/03 中的对象初始化方法有很多种,请看下面的代码: //初始化列…

C#编程-实现在文本文件中的读和写

实现在文本文件中的读和写 Stream类用于从文本文件读取数据和向文本文件写入数据。它是一个抽象类,支持向流读写字节。如果文件的数据仅是文本,那么您可以使用StreamReader类和StreamWriter类来完成相应的读和写任务。 StreamReader类 StreamReader类继承自从抽象类TextRea…

大家都在问的牛仔外套来啦

经典永不过时的牛仔外套, 绝对是衣橱里必不可少的时尚单品之一 重工水洗破洞乞丐风,个性潮流感十足 时尚帅气,男宝女宝都能穿还有妈妈款哦 经典宽松版型,不挑身材不挑人穿对身材包容性很强 怎么穿都好看,简单搭配…

手轮脉冲平滑处理笔记

这是一个求手脉倍率((Hw_Control.mult_ratio)与手脉脉冲计数延迟次数即累计过去n次的平均值(Hw_Control.lag_num)之间关系算法的计算过程笔记文档 1、已知 mult_ratio=1时 lag_num=10; mult_ratio=10时 lag_num=20; .mult_ratio==100时 lag_num=30; 以此类推 2、设lag_num…

如何实现两台Linux虚拟机ssh免密登录

实验开始前 1.准备好两台虚拟机(下载好镜像文件的) 2.实验步骤 公钥验证:(免密登陆验证方式) (1)生成非对称秘钥 [rootclient ~]# ssh-keygen -t rsa Generating public/private rsa key pai…

无线与局域网技术期末划题自制答案

简答题 1.描述5G的三大应用场景? 5G的三大应用场景包括增强型移动宽带(eMBB)、超可靠低延迟通信(URLLC)和大规模机器类型通信(mMTC)。增强型移动宽带(eMBB)主要用于支持…

数字化转型究竟是什么意思?

在这个飞速发展的数字时代,数字化转型已成为各个行业不可回避的趋势。从企业到组织,都在努力借助先进的数字技术,以迎合时代潮流,提升效率、创造价值。数字化转型不仅仅是技术的升级,更是一场全方位的变革,…

3d模型为什么只显示线是什么原因怎么解决---模大狮模型网

在3D建模中,有时我们会遇到模型只显示线框,而没有填充色或纹理的情况。这种问题可能会导致场景的不协调和视觉效果的不理想,影响到我们的设计效率和效果。本文将探讨一些可能导致该问题的原因,并提供解决方法,以帮助您…

DUET: Cross-Modal Semantic Grounding for Contrastive Zero-Shot Learning论文阅读

文章目录 摘要1.问题的提出引出当前研究的不足与问题属性不平衡问题属性共现问题 解决方案 2.数据集和模型构建数据集传统的零样本学习范式v.s. DUET学习范式DUET 模型总览属性级别对比学习正负样本解释: 3.结果分析VIT-based vision transformer encoder.消融研究消…

导波光学理论基础

导波光学理论基础 一、电磁场基本方程 1.1 麦克斯韦方程组、物质方程、边值关系 麦克斯韦方程组 麦克斯韦方程组是一组微分方程,只能求得通解 如果需要唯一的确定各场矢量,还需补充一些边界条件 线性、静止、各向同性介质的物质方程 D ⃗ ε E ⃗ …

限流式保护器在户外汽车充装的应用

摘 要:国家标准GB51348-2019中规定储备仓库、电动车充电等场所的末端回路应设置限流式电气防火保护器。电气防火限流式保护器可以有效克服传统断路器、空气开关和监控设备存在的短路电流大、切断短路电流时间长、短路时产生的电弧火花大,以及使用寿命短等…