论文速读:完全测试时域适应(Test-time Adaptation)目标检测(CVPR2024)

原文标题:Fully Test-time Adaptation for Object Detection

中文标题:完全测试时间适应目标检测

通过百度网盘分享的文件:Fully_Test-time_Adaptation_for_Obje...

链接: 百度网盘 请输入提取码

提取码:yrvz

代码地址: https://github.com/XiaoqianRuan1/IoU-filter

1Abstract

虽然目标检测性能在过去十年中有了很大的提高,但目前的目标检测器往往容易在训练数据和测试图像之间受到域转移的影响。领域自适应技术的发展是为了使在源领域训练的目标检测器适应目标领域。然而,他们假设目标领域是已知且固定的,并且目标数据集是可用于训练的,这在许多现实世界的应用中是无法满足的。为了弥补这一差距,本文对目标检测的测试时间自适应进行了全面的研究。这意味着在进行预测之前,在单个测试图像上更新已经训练好的目标检测器,而无需访问训练数据。通过对基线自我训练框架的诊断研究,我们发现该任务的一个巨大挑战是由域漂移引起的伪标签的不可靠性。然后,我们提出了一个简单而有效的方法,称为IoU过滤器,以解决这一挑战。它由两个新的基于IoU的指标组成,这两个指标都是对检测置信度的补充。在五个数据集上的实验结果表明,我们的方法可以有效地使训练好的检测器适应测试时的各种域移位,并带来可观的性能提升。

2、Introduction

目标检测是计算机视觉中的一项基本任务,它处理识别和定位图像中的目标。尽管深度学习方法在标准基准上极大地推动了最先进的目标检测性能,但目前的目标检测器通常容易受到训练数据和测试图像之间的域转移的影响,例如看不见的风格、天气、照明条件和噪声。

2.1、域适应面临的挑战

领域自适应(Domain adaptation)技术是将在源域训练的目标检测器适应到目标域,使其对领域偏移具有鲁棒性。无监督域自适应(UDA)方法需要标记的源数据和未标记的目标数据。这是不可取的,因为出于隐私和利润考虑,源数据通常不可用。无源域自适应(source - free domain adaptation, SFDA)方法就是为了克服这一限制而开发的,它能使得在源数据上训练的检测器无需访问源数据即可适应目标域。UDA 和 SFDA 都假设目标域已知且固定,并且从该域采样的目标数据集可用于训练。然而现实世界是复杂且非平稳的,不可能被任何固定的数据集覆盖。 在测试时,检测器必须动态适应未知和变化的域偏移。 这在许多现实世界的应用中都是需要的,从帮助视障人士阅读图像的智能助手和自动标记用户上传照片的社交媒体,到随着地点、天气和行人密度变化而安全行驶的自动驾驶汽车。

2.2、测试时间域适应TTA

1测试时间适应(Test-time adaptation,TTA)的发展就是为了解决这个具有挑战性但很重要的问题。它不预测分布的变化,而是在测试时从中学习:在进行预测之前,会根据单个测试样本来更新已经训练好的模型。然而,这一工作的重点是图像分类,需要访问源数据。最近,TENT 解决了完全测试时自适应问题,这是无源的,但它依赖于一批测试样本来估计归一化统计数据,并且仍然专注于图像分类。

2为了弥补这一差距,本文对目标检测的测试时间自适应进行了全面的研究。如图1所示,它意味着在不访问训练数据的情况下,在进行预测之前,在单个测试图像上更新已训练好的目标检测器,例如FasterRCNN。与UDA和SFDA相比,我们既没有假设一个固定和已知的目标域,也没有目标数据集。它将促进许多应用,例如针对社交媒体和视障人士的图像理解系统,其中目标域因图像而异,因此只能从一个样本中学习适应。

3我们首先介绍该任务的基线方法,该方法建立在经典的自我训练框架之上。它根据检测置信度迭代地获得测试图像上的伪标签,并使用伪标签来更新检测器。 最后,检测器会在最后一次迭代的时候对测试图像进​​行预测。我们的诊断研究表明,该框架很有前途,但其性能很大程度上受到域转移引起的低质量伪标签的瓶颈。即使在高置信度阈值下,伪标签也非常嘈杂。

2.3、本文提出的办法

1我们提出了一种新的方法,称为IoU(Intersection over Union)过滤器,用于在存在域移位的情况下获得更高质量的伪标签。它由两个新的基于IoU的指标组成,这两个指标都是对检测置信度的补充。第一个指标是连续迭代之间的 IoU (IoU-CI),根据类别和位置将当前自训练迭代中的目标检测与上一次迭代中的目标检测进行匹配。然后在这些匹配成功的检测IoU之中选择伪标签。第二个指标是重叠检测之间的IoU (IoU- od),它消除了在域移位下由于分类模糊而导致的相同实例却被当作不同类别的重复检测。我们的统计结果表明,这两个指标都增加了正确伪标签的百分比,从而显著提高了测试时的目标检测性能。

2值得注意的是,我们的任务设置不同于一次性无监督跨域检测(one-shot unsupervised cross-domain detection,OSHOT)和在线域自适应目标检测(online domain adaptive,ODA)。OSHOT通过在测试时只对一个目标样本求解自监督辅助任务(即旋转分类)来执行跨域的无监督自适应。但是它需要在检测模型中加入一个辅助的预测头,并在训练数据上学习自监督任务,因此它不是无源代码的。此外,我们表明本文提出的方法在这种情况下也是有效的,这表明了其多功能性。ODA 以在线方式使检测器适应目标数据集,每个样本依次到达并不断更新模型,在源模型对目标数据集中的所有样本进行训练后,进行测试和评估。此外,他们方法的核心是一种新颖的内存模块(MemXformer),它存储目标分布的原型模式以避免遗忘。添加的 MemXformer 是在源数据上进行预训练的,因此不是无源的。

2.4、本文贡献

本文的贡献总结如下:

1据我们所知,这是第一个针对目标检测进行完全测试时间适应的工作。与流行的 UDA 和 SFDA 相比,它既不假设固定且已知的目标域,也不需要访问目标数据集。这在许多图像理解应用中是需要的,其中目标域事先未知并且因图像而异。

2通过对基线自我训练框架的诊断研究,我们表明该任务的巨大挑战是域转移引起的伪标签的不可靠性。我们提出了一种简单而有效的方法,即 IoU Filter 来应对这一挑战。它包括两个新的基于 IoU 的指标,并在存在域转移的情况下选择更高质量的伪标签。

3五个数据集的实验结果表明,我们的方法可以有效地使训练有素的检测器适应测试时的各种域转换,并带来显著的性能提升。

3、Related Work

3.1、Test-time Adaptation

测试时间适应或训练的目的是在进行预测之前,在单个未标记测试样本上更新已经训练好的模型,以提高模型对分布变化的鲁棒性。有研究通过创建一个自监督辅助任务(旋转分类)在这个单个测试样本上训练模型。有研究提出了基于自监督对比学习和在线伪标记方案的AdaContrast。有研究通过利用事件的时间结构,专注于基于事件的目标识别的测试时间适应。然而这些方法需要访问训练数据。为了解决这一限制,TENT 引入了完全的测试时间自适应,它直接最小化了模型在测试时间预测的熵。最近,也有研究将TENT扩展到不断变化的环境中,他们运用加权和增强平均预测来减少误差积累,并随机恢复权重以避免灾难性遗忘。所有这些测试时间自适应方法都集中在分类任务上。

3.2、Domain-adaptive Object Detection

人们已经开发了多种方法来使在源域中训练的目标检测器适应目标域,如基于对抗性特征学习,自训练,图像到 -图像翻译 和域随机化。然而它们通常需要源数据,而在某些实际场景中,源数据是不可用的。这种限制激发了无源无监督域自适应目标检测的工作。有些方法是建立在自我训练框架之上的。有研究将预测不确定性视为自熵,并提出了一种称为自熵下降(self-entropy descent,SED)的新度量来搜索最佳置信度阈值。有研究引入了一种用于噪声过滤和伪标签细化的负集成学习(Negative Ensemble Learning,NEL)技术,该技术通过增强集成成员的多样性来处理噪声伪标签。有研究提出联合模型数据结构(Joint Model-Data Structure,JMDS)评分,包括对数概率间隙(Log Probability Gap,LPG)和伪标签模型概率(Model Probability of Pseudo-Label,MPPL)评分,来衡量样本的重要性。然而这一系列工作假设目标域已知且固定,并且从该域采样的目标数据集可用于训练。

与现有工作不同,我们既不假设固定且已知的目标域,也不需要访问目标数据集。 相反,我们的目标是在进行预测之前在单个测试图像上更新经过训练的目标检测器,而无需访问训练数据。此外,我们提出了一种新方法,即 IoU 滤波器,来有效解决这一具有挑战性但重要的任务。

4、Problem Setting

我们正式引入目标检测的完全测试时间适应。在测试时,我们提供一个训练好的目标检测器,例如Faster RCNN,参数为θ0,和单个测试图像I,并且无法获得检测器最初训练的源数据,也无法获得从已知目标域采样的目标数据集。然后我们在测试图像I上调整目标检测器,得到更新后的参数θT。遵循以往在分类任务中的测试时间适应设置,我们允许模型在此单个测试图像I上多次迭代更新。最后,我们将使用更新后的检测器θT对测试图像I进行预测。

5、Discussion of Limitation

我们的方法的主要限制是,所提出的IoU过滤器可以排除一些不正确的检测,但同时也会从伪标签中排除一些正确的检测。它增加了正确伪标签的百分比,但减少了伪标签的绝对数量。虽然我们的方法可以明显改善存在域移位的目标检测,但我们相信如果能提高伪标签质量的同时减少正确伪标签的误删,性能可以进一步提高。

6、Conclusion

本文提出了第一种解决目标检测的完全测试时间自适应问题的方法。与目前的领域自适应目标检测器相比,它既不假设目标分布是固定的且已知的,也不需要访问目标数据集,而这在许多应用中是需要的。我们首先研究了一个基线自训练框架,但发现它的性能受到由域移位引起的低质量伪标签的瓶颈。为了克服这个障碍,我们引入了IoU滤波器;它包括两个基于iou的指标,可以在存在域移位的情况下选择更高质量的伪标签。在三个数据集上的实验结果表明,我们的方法可以有效地使训练好的检测器适应测试时的各种域移位,并带来可观的性能提升。通过消融研究,我们发现每个指标都是有效的,并且它们是互补的,阈值可能会影响性能,并且训练过多的迭代可能会降低测试时的完全适应性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/905622.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

深度学习:卷积神经网络中的im2col

im2col 是一种在卷积神经网络(CNN)中常用的技术,用于将输入图像数据转换为适合卷积操作的矩阵形式。通过这种转换,卷积操作可以被高效地实现为矩阵乘法,从而加速计算。 在传统的卷积操作中,卷积核&#xff…

深度学习模型入门教程指南

在当前的人工智能生成内容(AIGC)领域中,深度学习模型无疑是支撑其技术核心的关键组件。深度学习模型的广泛应用极大地推动了图像生成、自然语言处理和自动化工作流的发展,本文将从多个角度介绍深度学习模型的概念、构建过程、实际…

计算机网络:网络层 —— IPv4 数据报的首部格式

文章目录 IPv4数据报的首部格式IPv4数据报分片生存时间 TTL字段协议字段首部检验和字段 IPv4数据报的首部格式 IPv4 数据报的首部格式及其内容是实现 IPv4 协议各种功能的基础。 在 TCP/IP 标准中,各种数据格式常常以32比特(即4字节)为单位来描述 固定部分&#x…

Java_Springboot核心配置详解

Spring Boot以其简洁、高效和约定优于配置的理念,极大地简化了Java应用的开发流程。在Spring Boot中,核心配置是应用启动和运行的基础。本文将详细介绍Spring Boot中的两种配置文件格式、基础注解的配置方式、自定义配置以及多环境配置。 一、Spring Bo…

【GESP】C++一级知识点研究,cout和printf性能差异分析

一道简单循环输出练习题(BCQM3148,循环输出),由于cout的代码超时问题,让我注意到二者在使用上的差异,遂查阅研究如下。 全文详见:https://www.coderli.com/gesp-knowledge-cout-printf/【GESP】C一级知识点研究&#…

【网络安全】揭示 Web 缓存污染与欺骗漏洞

未经许可,不得转载。 文章目录 前言污染与欺骗Web 缓存污染 DoS1、HTTP 头部超大 (HHO)2、HTTP 元字符 (HMC)3、HTTP 方法覆盖攻击 (HMO)4、未键入端口5、重定向 DoS6、未键入头部7、Host 头部大小写规范化8、路径规范化9、无效头部 CP-DoS10、HTTP 请求拆分Web 缓存污染与有害…

《数字图像处理基础》学习03-图像的采样

在之前的学习中我已经知道了图像的分类:物理图像和虚拟图像。《数字图像处理基础》学习01-数字图像处理的相关基础知识_图像处理 数字-CSDN博客 目录 一,连续图像和离散图像的概念 二,图像的采样 1, 不同采样频率采样同一张图…

微服务实战系列之玩转Docker(十七)

导览 前言Q:如何实现etcd数据的可视化管理一、创建etcd集群1. 节点定义2. 集群成员2.1 docker ps2.2 docker exec2.3 etcdctl member list 二、发布数据1. 添加数据2. 数据共享 三、可视化管理1. ETCD Keeper入门1.1 简介1.2 安装1.2.1 定义compose.yml1.2.2 启动ke…

MobileNetv2网络详解

背景: MobileNet v1中DW卷积在训练完之后部分卷积核会废掉,大部分参数为“0” MobileNet v2网络是由Google团队在2018年提出的,相比于MobileNet v1网络,准确率更高,模型更小 网络亮点: Inverted Residu…

巨好看的登录注册界面源码

展示效果 源码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta http-equiv"X-UA-Compatible" content"IEedge" /><meta name"viewport" content"widthdevic…

机械臂建模之DH表

本文配图 取自哔哩哔哩机器人学视频 林沛群老师的PPT 机械臂几何直观描述 首先要知道DH表中四个参数的含义&#xff1a; 对于 a 、 α 、 d 、 θ i a、 \alpha 、 d 、 \theta_i a、α、d、θi​ 四个参数&#xff0c;上图采用MDH的方式&#xff0c;对于一个轴的这四个参数&a…

Flink CDC系列之:学习理解核心概念——Data Pipeline

Flink CDC系列之&#xff1a;学习理解核心概念——Data Pipeline 数据管道sourcesink管道配置Table IDroutetransform案例 数据管道 由于 Flink CDC 中的事件以管道方式从上游流向下游&#xff0c;因此整个 ETL 任务被称为数据管道。 管道对应于 Flink 中的一系列操作。 要描…

Git 本地操作(2)

会以下操作就可以完成本地的版本控制了&#xff0c;就不需要再复制文件每次改一个东西就复制整个工程保存下来啦&#xff01; 建议先看上一篇文章噢 &#xff01;&#xff01;&#xff01; 一、新建项目git本地操作 1、初始化仓库 创建一个 project 文件夹&#xff0c;将需…

Python Requests 的高级使用技巧:应对复杂 HTTP 请求场景

介绍 网络爬虫&#xff08;Web Crawler&#xff09;是自动化的数据采集工具&#xff0c;用于从网络上提取所需的数据。然而&#xff0c;随着反爬虫技术的不断进步&#xff0c;很多网站增加了复杂的防护机制&#xff0c;使得数据采集变得更加困难。在这种情况下&#xff0c;Pyt…

Linux中NFS配置

文章目录 一、NFS介绍1.1、NFS的工作流程1.2、NFS主要涉及的软件包1.3、NFS的主要配置文件 二、安装NFS2.1、更新yum2.2、安装NFS服务2.3、配置NFS服务器2.4、启动NFS服务2.5、配置防火墙&#xff08;如果启用了防火墙&#xff0c;需要允许NFS相关的端口通过&#xff09;2.6、生…

MATLAB发票识别系统

课题介绍 该课题为基于MATLAB的发票识别系统。主要识别发票的编号。可定做发票的日期&#xff0c;金额等字段的识别。通过输入图片&#xff0c;校正&#xff0c;定位目标区域&#xff0c;分割&#xff0c;字符分割&#xff0c;模板匹配识别&#xff0c;得出结果。整个设计包含…

前端拖拽库方案之react-beautiful-dnd

近期&#xff0c;知名 React 拖拽库 react-beautiful-dnd 宣布了项目弃用的决定&#xff0c;未来将不再维护。这一决定源于其存在的缺陷与局限性&#xff0c;促使作者转向开发一个更加现代化的拖拽解决方案——Pragmatic drag and drop&#xff08;下面会介绍&#xff09;&…

Rust 力扣 - 643. 子数组最大平均数 I

文章目录 题目描述题解思路题解代码题解链接 题目描述 题解思路 我们遍历长度为k的窗口&#xff0c;我们只需要记录窗口内的最大和即可&#xff0c;遍历过程中刷新最大值 结果为窗口长度为k的最大和 除以 k 题解代码 impl Solution {pub fn find_max_average(nums: Vec<…

Linux——五种IO模型

目录 一IO基本理解 二五种IO模型 1五种IO模型示意图 2同步IO和异步IO 二非阻塞IO 1fcntl 2实现非阻塞IO 三多路复用 1select 1.1定位和作用 1.2介绍参数 1.3编写多路复用代码 1.4优缺点 2poll 2.1作用和定位 2.2介绍参数 2.3修改select代码 3epoll 3.1介绍…