Paper Reading: MixTeacher:半监督目标检测中利用混合尺度教师挖掘有前景的标签

在这里插入图片描述

目录

  • 简介
  • 目标/动机
  • 工作重点
  • 方法
    • 训练
  • 实验
  • 总结

简介

题目:《MixTeacher: Mining Promising Labels with Mixed Scale Teacher for Semi-Supervised Object Detection》, CVPR 2023

日期:2023.3.16

单位:腾讯,上海交通大学,浙江大学,荣旗工业科技公司

论文地址:http://arxiv.org/abs/2303.09061

GitHub:https://github.com/lliuz/MixTeacher

  • 作者

在这里插入图片描述

一作的研究领域方向不是很固定,有关于模型架构研究、重识别、图像生成、目标检测、图像分割、无监督、自监督、半监督都有涉及,我看了一下其为一二作的文章,主要是自监督无监督还有最近的半监督,而且有很多是关于标签或是伪标签的优化方法

  • 其他作者

  • 通讯作者

  • 摘要

对象实例之间的比例变化仍然是对象检测任务中的一个关键挑战。尽管现代检测模型取得了显著进展,但这一挑战在半监督案件中尤为明显。虽然现有的半监督对象检测方法依赖于严格的条件来从网络预测中过滤出高质量的伪标签,但我们观察到,具有极端尺度的对象往往置信度较低,导致对这些对象缺乏积极的监督。在本文中,我们提出了一种新的框架,通过引入混合规模教师来改进伪标签生成和规模不变学习,来解决规模变化问题。此外,我们建议使用跨尺度预测的分数提升来挖掘伪标签,这得益于混合尺度特征的更好预测。我们在各种半监督设置下对MS COCO和PASCAL VOC基准进行的大量实验表明,我们的方法实现了最先进的性能

目标/动机

固有问题:目标检测中不同目标实例之间存在较大的尺度变化,半监督目标检测中尤为明显

现有解决方案:现有的半监督物体检测方法依赖于严格的条件来筛选网络预测中的高质量伪标签

现有方法的不足:尺度极端的物体往往具有较低的置信度,导致这些物体缺乏正向监督

新提出的解决方案:

  1. 引入混合尺度教师来解决尺度变化问题
  2. 引入一个新的指标来挖掘潜在的高质量伪标签

为了保证高精度,大多数现有的半监督对象检测方法采用严格条件(如score>0.9)来过滤得到高置信度的伪标签。产生的问题:对于那些极端尺度的目标,很多低置信度的对象被错误地分配为背景。

表格是关于图像输入尺度对不同大小目标的检测性能的影响:常规尺度1x的输入在整体指标上具有明显优势;缩小尺度0.5x的图像对于大目标具有优势

在这里插入图片描述

输入规则1×尺度和0.5×下采样尺度图像的检测结果。我们绘制了COCO val2017中(a)所有对象和(b)大型对象在不同得分阈值下的精确度和召回率,这些对象具有相同的模型但不同的输入量表。(c)中给出了两个未标记图像的例子。1x输入在总体度量方面具有明显的优势,但下采样图像更适合大型对象。

现有工作已经证明,结合未标记图像的额外下采样视图,并在标签级别(SED)或特征级别(PseCo)上使用一致性约束对网络进行正则化,可以显著提高半监督对象检测的性能

img

**现有的解决方案:**引入一个额外的缩小尺度(0.5x)视图,以获得模型预测结果的尺度不变性。

  1. SED提出从常规尺度到缩小尺度对目标的分类进行预测蒸馏,约束两个尺度上所有proposals的定位的一致性。

  2. PseCo采用从常规尺度生成的相同伪标签作为两个尺度上的标签。

    这些方法主要关注跨尺度预测的一致性,间接改善了模型的性能。

**存在的问题:**高度依赖在常规尺度下教师网络中生成的伪标签,这些方法仍然存在由不恰当尺度引起的错误负样本问题。

在这里插入图片描述

多尺度学习在半监督对象检测方法中的比较。先前的方法[10,17]仅侧重于鼓励对具有不同尺度的输入图像进行一致的预测。所提出的MixTeacher明确引入了混合尺度特征金字塔,以自适应融合来自适当尺度的特征,从而能够检测不同大小的对象。混合尺度特征生成更准确的伪标签,并有助于挖掘有前景的标签,作为一个插件,可以在训练后丢弃。

工作重点

本文提出了一种半监督目标检测框架MixTeacher,该框架利用混合尺度特征金字塔生成高质量的伪标签。

本文提出了一种挖掘伪标签的方法,该方法利用预测的改进作为挖掘有潜力的伪标签的指标。

在各种半监督设置下,本文的方法在MS COCO和PASCAL VOC基准中获得了最先进的性能。

方法

注意:以下大量图片来源于知乎博主的PR,PR地址:https://zhuanlan.zhihu.com/p/649988041

在这里插入图片描述

在这里插入图片描述

在训练过程中,该模型首先使用特征提取模块f(θf)分别为规则尺度1x和下采样尺度0.5x构建两个特征金字塔。接下来,通过特征融合模块g(θg)建立一个额外的混合尺度特征金字塔。学生模型在三个尺度上进行训练,共享检测头h(θh)将教师模型混合尺度生成的伪盒作为监督。此外,使用PLM策略挖掘具有低置信度分数的有前景的标签。教师中的权~θ由学生中的权重θ的EMA更新。在测试中,使用了具有原始架构和常规输入规模的模型。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

请注意,混合尺度金字塔中的第一级是从常规视图直接复制而来,而降采样视图中不存在相应级别

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

训练

在训练过程中,该模型首先分别构建了规则尺度下的特征金字塔和基于特征提取模块的下采样尺度下的特征金字塔。然后,利用特征融合模块,构建混合尺度特征金字塔。学生模型在三个尺度上进行训练,共享检测头,以混合尺度的教师模型生成的pseudo boxes作为监督。
在这里插入图片描述

实验

  • 与SOTA比较
    在这里插入图片描述

指标为在val2017集上的AP50:95。在\textit{部分标记}设置下,结果是五折交叉验证的平均值,±后面的数字表示标准差。在Additional设置下,箭头前面的数字表示有监督基线。†:使用带标签/不带标签的批次大小8/32,*表示32/32,其余结果使用批次大小8/8。 粗体表示最佳结果,而下划线表示次佳结果。

在这里插入图片描述

在COCO数据集上使用FCOS进行的实验结果。在这个设置中不使用PLM。

在这里插入图片描述

关于 VOC Additional 设置的实验结果。

在这里插入图片描述

关于 VOC Mixture 设置的实验结果。

  • 消融实验

在这里插入图片描述

各组成部分的分析。MST 表示从混合尺度特征金字塔生成伪标签,PLM 表示潜在标签挖掘策略

在这里插入图片描述

与其他多视图方法的比较。

SCR表示SED中的尺度一致性正则化。MSIL表示PseCo中的多视图尺度不变学习。MST ‡表示随机丢弃大尺度路径和混合尺度的学生网络损失中的一个,以保持与其他多尺度方法相当的训练时间

在这里插入图片描述

特征融合方法的比较。

“CONV-ADD”表示采用两个3x3卷积层对于常规尺度和下采样尺度的特征进行对齐,然后进行逐元素相加,“CAT-CONV”表示按通道连接后再进行卷积以减少通道数。

在这里插入图片描述

使用不同特征尺度进行测试的模型性能

FPS:检测器每秒能处理图片的张数

在这里插入图片描述

所提出的MixTeacher的不同超参数的比较。

  • 可视化

在这里插入图片描述

MixTeacher中组件的定性可视化。(a) 从规则比例和混合比例特征棱锥体生成的伪标签的比较。(b) 不同得分阈值下伪标签的比较以及我们有希望的标签挖掘结果。绿色方框表示真阳性。红色方框突出显示假阳性,橙色方框表示假阴性。此外,挖掘的标签会用一个青色框高亮显示。

总结

  • conclusion

在这项工作中,我们深入研究了半监督对象检测中的尺度变化问题,并通过引入混合尺度教师来改进伪标签的生成和尺度不变学习,提出了一种新的框架。此外,得益于混合尺度特征的更好预测,我们建议挖掘伪标签,以提高跨尺度预测的分数。在各种半监督设置下对MS COCO和Pascal VOC基准进行的大量实验表明,我们的方法实现了最先进的性能。虽然我们已经展示了MixTeacher的优越性,但该方法是建立在一个旧的时尚检测器上的,具有最简单的FPN和原始的标签分配策略。SSOD中的规模变化问题是否可以用更先进的FPN架构或标签分配方法来解决尚不清楚,这是一项有趣的未来工作


  • 补充材料

在这里插入图片描述

不同设置的培训设置摘要。

在这里插入图片描述

不同特征金字塔中图层的EigenCAM可视化。γ=0.18使P×6与P−5更相似。

在这里插入图片描述

不同数据集和不同设置的训练设置摘要。我们遵循Soft Teacher[40]、STAC[35]和FixMatch[34]的实践,采用不同的超参数进行标记数据扩充和未标记强弱扩充。

在这里插入图片描述

COCO部分标记设置下模型收敛速度的比较。(a) 将MixTeacher与Soft Teacher[40]在10%的标签比例下进行比较。(b) 将MixTeacher与PseCo[17]在1%的标签比例下进行比较。(c) 在10%的标记比率下,将MixTeacher与MixTexer RD进行比较,该比率在每次迭代中从常规尺度和混合尺度中随机丢弃未标记图像的路径。在图例中,括号中的数字表示最终mAP。根据教师模式评估绩效。

在这里插入图片描述

训练过程中伪标签质量的比较。(a) 将MixTeacher与Soft Teacher[40]在10%的标签比例下进行比较。(b) 比较MixTeacher在不同条件下的伪标签。IoU与gt重叠大于0.5的伪标签被视为正样本

在这里插入图片描述

在COCO基准上与最先进的方法进行比较。报道了val2017集合上的AP50:95。在“部分标记”设置下,结果是所有五次折叠的平均值,±后面的数字表示标准偏差。在附加设置下,箭头前面的数字表示监督的基线。还报告了在每次迭代中使用的未标记图像的视图。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/535963.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Ceph学习 -4.Ceph组件介绍

文章目录 1.Ceph组件介绍1.1 组件介绍1.2 流程解读1.2.1 综合效果图1.2.2 数据存储逻辑 1.3 小结 1.Ceph组件介绍 学习目标:这一节,我们从组件介绍、流程解读、小结三个方面来学习。 1.1 组件介绍 无论是想向云平台提供 Ceph 对象存储和 Ceph 块设备服务…

Go语言mac环境搭建详解

Go语言mac环境搭建详解见视频,视频下方也有讲解具体的操作步骤。 Golang Mac电脑环境搭建、开发工具Vscode配置 Go语言mac环境搭建步骤如下: 1、下载安装Golang Go官网下载地址:https://golang.org/dl/ Go官方镜像站(推荐&…

大数据架构的演变与多种大数据架构类型说明——解读大数据架构(一)

文章目录 前言数据架构的演变关系型数仓数据湖现代数仓数据网络数据湖仓数据网格 前言 在搭建和使用大数据组件前,预先投入时间设计和构建正确的数据架构绝对至关重要。如果在前期没有设计正确的数据架构就开始实施方案,在后期想更改架构设计是十分困难…

uniapp-IOS自定义启动页面模版的修改

启动界面设置 在打包IOS包时,需要我们选择app的启动页面配置 在HBuilderX内,有三个样式的选择 第一个,是通用界面,就是一个启动页是一个圆形的应用图标加上应用名称 第二个,自定义的启动图,目前无法通过App…

企业级网络安全:入侵防御实时阻止,守护您的业务安全

随着互联网技术的快速发展,企业级网络安全问题日益凸显。在这个数字化时代,企业的业务安全不仅关系到企业的形象和声誉,还直接影响到企业的生存和发展。因此,加强企业级网络安全,预防和抵御各种网络攻击已成为企业的重…

lua学习笔记17(面相对象之继承)

print("*****************************面相对象继承*******************************") object{} object.id1 function object:new()local obj{}self.__indexself setmetatable(obj,self)return obj end function object:text()--面相对象的类其实就是基于table来实现…

备考ICA----Istio实验20---跨网络Primary-Remote主从架构部署

备考ICA----Istio实验20—跨网络Primary-Remote主从架构部署 按照本实验在 cluster1(主集群)上安装 Istio 控制平面,并将 cluster2(远程集群)配置为使用 cluster1 中的控制平面。群集 cluster1 在 network1 网络上&am…

基于Springboot的笔记记录分享网站(有报告)。Javaee项目,springboot项目。

演示视频: 基于Springboot的笔记记录分享网站(有报告)。Javaee项目,springboot项目。 项目介绍: 采用M(model)V(view)C(controller)三层体系结构…

提升法律文书起草效率:AlphaGPT 助力律师快速生成诉讼和仲裁文件

法律文书起草对于法律专业人士而言是一项基础而关键的任务。无论是民事、刑事还是行政诉讼,以及仲裁案件,精确的法律文书撰写对于案件的成功至关重要。然而,这一过程往往既耗时又复杂,尤其是在处理复杂的案情和面对当事人难以理解…

浅谈网络安全威胁与防御策略

企业网络安全威胁概述 外部威胁:来自网络安全威胁,比如DDOS攻击,病毒,sql注入,木马,蠕虫,等网络入侵,网络扫描,垃圾邮件,钓鱼邮件,针对web的攻击…

Docker Redis Debian服务器版

1.使用官方安装脚本自动安装docker 安装命令如下: curl -fsSL https://get.docker.com -o get-docker.shsudo sh get-docker.sh 如果安装提示 -bash sudo command not found 则需要 #update sudo apt-get update sudo apt-get install sudo再执行安装脚本1 安装…

WS2812B彩灯

目录 1、介绍 2、参数 3、引脚功能 4、应用电路 5、Code 1、介绍 WS2812是一种智能控制LED灯源,集成了控制电路和RGB芯片在一个5050封装组件中。它的主要特点和技术规格如下: 集成设计:WS2812将控制电路和RGB芯片集成在同一个封装中&…

Redis(三) String字符串

文章目录 前言常见命令SETGETMSETMGETINCRINCRBYDECRDECRBYINCRBYFLOATAPPENDGETRANGESETRANGESTRLEN命令小结 前言 Redis 的数据有很多种数据类型,包括字符串类型、列表类型、哈希类型、集合类型、有序集合类型等。这几种数据类型是针对于 value 来说的&#xff0…

数据应用OneID:ID-Mapping Spark GraphX实现

前言 说明 以用户实体为例,ID 类型包含 user_id 和 device_id。当然还有其他类型id。不同id可以获取到的阶段、生命周期均不相同。 device_id 生命周期通常指的是一个设备从首次被识别到不再活跃的整个时间段。 user_id是用户登录之后系统分配的唯一标识&#xff…

ELK及ELFK排错

目录 一、ELK及ELFK排错思路 1.1filebeat侧排查 1.2logstash侧排查 1.3ES、kibana侧问题 一、ELK及ELFK排错思路 1.1filebeat侧排查 第一步:排查filebeat上的配置文件有没有写错,filebeat的配置文件是yml文件,一定要注意格式。 第二步…

Harmony鸿蒙南向驱动开发-HDMI接口使用

功能简介 HDMI(High Definition Multimedia Interface),即高清多媒体接口,主要用于DVD、机顶盒等音视频Source到TV、显示器等Sink设备的传输。 HDMI以主从方式工作,通常有一个Source端和一个Sink端。 HDMI接口定义了…

Harmony鸿蒙南向驱动开发-MIPI CSI接口使用

功能简介 CSI(Camera Serial Interface)是由MIPI联盟下Camera工作组指定的接口标准。CSI-2是MIPI CSI第二版,主要由应用层、协议层、物理层组成,最大支持4通道数据传输、单线传输速度高达1Gb/s。 物理层支持HS(High …

Flutter - 环境配置提示 cmdline-tools component is missing

问题: flutter doctor运行命令 flutter doctor 报错: Android toolchain - develop for Android devices (Android SDK version 30.0.2) ✗ cmdline-tools component is missing Run path/to/sdkmanager --install "cmdline-tools;lates…

NI-LabView的DAQ缺少或丢失的解决办法(亲测有效)

DAQmx在Labview中不显示或缺失 问题:在NI Packasge Manager安装完DAQ后在labview中不显示控件解决办法 问题:在NI Packasge Manager安装完DAQ后在labview中不显示控件 在打开测量I/O时,见不到 DAQmx,或者在Express中见不到DAQ助手…

《战神4》和《战神5》有什么联系吗 苹果电脑如何运行《战神4》苹果电脑玩战神 Mac玩游戏 战神5攻略 crossover激活码

《战神4》(God of War 2018)和《战神5》(God of War: Ragnark)是一对引人注目的游戏作品,它们不仅在游戏界引起了广泛的关注,也给玩家带来了深入探索北欧神话世界的机会。这两部游戏之间的联系不仅体现在剧…