Focaler-IoU:更聚焦的IoU损失

摘要

边界框回归在目标检测领域中起着至关重要的作用,而目标检测的定位精度在很大程度上取决于边界框回归的损失函数。现有的研究通过利用边界框之间的几何关系来提高回归性能,而忽略了难易样本分布对边界框回归的影响。本文分析了难易样本分布对回归结果的影响,并提出了Focaler-IoU方法,该方法通过关注不同的回归样本,可以在不同的检测任务中提高检测器的性能。最后,通过使用现有的先进检测器和回归方法进行比较实验,进一步提高了使用本文提出的方法的检测性能。代码可在https://github.com/malagoutou/ Focaler-IoU上获取。

关键词:目标检测、损失函数、边界框回归

一、介绍

目标检测是计算机视觉的基本任务之一,其目的是在图像中定位和识别目标。根据是否生成锚点,可以将它们分为基于锚点和无锚点的方法。基于锚点的算法包括Faster R-CNN [1]、YOLO(You Only Look Once)系列 [2]、SSD(Single Shot MultiBox Detector) [3]和RetinaNet [4]。无锚点检测算法包括CornerNet [5]、CenterNet [6]和FCOS(Fully Convolutional One Stage Object Detection) [7]。在这些检测器中,边界框回归损失函数作为定位分支的重要组成部分,发挥着不可替代的作用。

A. 边界框回归损失

随着计算机视觉的发展,目标检测任务得到了研究人员的更多关注。为了评估各种算法在检测任务上的性能,需要引入适当的度量标准。在IoU(Intersection over Union) [8]被提出之前, l_{n} 范数损失 [13]被用作早期边界框回归问题的评估度量,然而,由于 l_{n} 范数损失对异常值非常敏感,这导致异常值对损失的影响更大,使得模型中存在异常值时性能不稳定。为了更好地解决上述问题,提出了一个更合适的度量标准:IoU(Intersection over Union) [8]。在基于IoU的评价准则下,大多数目标检测任务的检测精度得到了进一步提高,但IoU损失本身也存在一些缺点,例如,当GT框与锚点之间没有重叠时,它们的梯度会消失,这无法准确描述两个边界框之间的位置关系。为了弥补这一缺陷,GIoU [9]提出使用包含GT框和锚点的最小封闭框来计算损失可以提高检测性能。在CIoU和DIoU [10]中,为了弥补GIoU收敛速度慢的缺点,CIoU通过进一步考虑GT框与锚之间的宽高比来加速收敛,而DIoU通过归一化两个边界框质心之间的距离来加速收敛。EIoU [12]在CIoU的基础上进一步考虑了形状损失,通过最小化GT框与锚的宽度和高度之间的差异来加速收敛。SIoU [13]进一步考虑了连接两个边界框中心线的角度,并根据角度重新定义了距离损失和形状损失,并将其添加到损失函数中作为一个新的损失项,这使得基于IoU的当前损失函数达到了最佳的检测效果。

B. Focal Loss

在边缘回归过程中,训练样本不平衡的问题仍然存在。训练样本可以根据是否包含目标类别分为正样本和负样本。针对训练样本不平衡的一些传统解决方案是在训练过程中对困难样本进行采样和重新加权,然而,这种方法的效果并不显著。在Focal Loss [14]中,它提出容易识别的负样本在总损失中占主导地位,并主导梯度。Focal Loss [14]通过调整正负样本的权重,提高了模型识别稀有目标类别的能力,使模型更加关注难以分类的正样本,并减少相对容易分类的负样本的权重。在Libra R-CNN [15]中,提出了一种简单有效的平衡学习框架,其中在目标层使用平衡L1损失将训练样本分为离群点和内点。离群点被视为困难样本,与内点相比可以产生更大的梯度,这对训练过程是有害的。因此,Libra R-CNN使用梯度回归来促进内点并裁剪由离群点产生的较大梯度,以获得更好的分类结果。在EIoU [12]中,训练样本被分为高质量样本(锚点)和低质量样本(离群点),并在L1损失的基础上提出了FocalL1损失,以增加高质量样本对训练过程的梯度贡献。同时,将EIoU损失作为变量添加到FocalL1损失中,使模型能够更加关注高质量样本,以进一步提高检测效果。

本文的主要贡献如下:

  • 我们分析了困难样本和易样本分布对边界框回归的影响。基于现有的边界框回归方法,我们提出了Focaler-IoU,通过线性区间映射来关注不同的回归样本。
  • 我们使用先进的一阶段检测器进行了实验,验证了我们的方法可以有效提高检测性能,并弥补现有方法的不足之处。

II. 相关研究
近年来,随着检测器的发展,边缘回归损失得到了迅速发展。起初,IoU [8]被提出用于评估边界回归状态,然后基于IoU等,陆续提出了新的约束条件,如GIoU [9],DIoU [10],CIoU [10],EIoU [12]和SIoU [11]等。

A. IoU度量

IoU(交集与并集之比)是最受欢迎的目标检测评估标准,其定义如下:
I o U = ∣ B ∩ B g t ∣ ∣ B ∪ B g t ∣ I o U=\frac{\left|B \cap B^{g t}\right|}{\left|B \cup B^{g t}\right|} IoU=BBgtBBgt
其中 B 和 B^{g t} 分别表示预测框和GT框。

B. GIoU度量

为了解决IoU损失在边界框回归中由于GT框和Anchor框之间无重叠而导致的梯度消失问题,提出了GIoU(通用交集与并集之比) [9]。其定义如下:
G I o U = I o U − ∣ C − B ∩ B g t ∣ ∣ C ∣ G I o U=I o U-\frac{\left|C-B \cap B^{g t}\right|}{|C|} GIoU=IoUCCBBgt
其中 C 表示 GT 框和 Anchor 框之间的最小外接框。

C. DIoU度量

与GIoU相比,DIoU [10]考虑了边界框之间的距离约束,并在IoU的基础上添加了质心归一化距离损失项,从而使其回归结果更加准确。其定义如下:
D I o U = I o U − ρ 2 ( b , b g t ) c 2 D I o U=I o U-\frac{\rho^{2}\left(b, b^{g t}\right)}{c^{2}} DIoU=IoUc2ρ2(b,bgt)

其中 b 和 b^{g t} 分别是锚框和GT框的中心点,\rho(\cdot) 表示欧几里得距离,其中 c 是 b 和 b^{g t} 之间的最小外接框的对角线距离。

CIoU [10]进一步通过在DIoU中添加新的形状损失项来考虑GT框和锚框之间的形状相似性,以减少锚框和GT框之间的纵横比差异。其定义如下:
C I o U = I o U − ρ 2 ( b , b g t ) c 2 − α v α = v ( 1 − I o U ) + v v = 4 π 2 ( arctan ⁡ w g t h g t − arctan ⁡ w h ) 2 \begin{array}{c} C I o U=I o U-\frac{\rho^{2}\left(b, b^{g t}\right)}{c^{2}}-\alpha v \\ \alpha=\frac{v}{(1-I o U)+v} \\ v=\frac{4}{\pi^{2}}\left(\arctan \frac{w^{g t}}{h^{g t}}-\arctan \frac{w}{h}\right)^{2} \end{array} CIoU=IoUc2ρ2(b,bgt)αvα=(1IoU)+vvv=π24(arctanhgtwgtarctanhw)2
其中 w^{g t} 和 h^{g t} 分别表示GT框的宽度和高度,w 和 h 分别表示锚框的宽度和高度。

D. EIoU度量

EIoU [12]重新定义了基于CIoU的形状损失,并通过直接减少GT框和锚框之间的纵横比差异,进一步提高了检测精度。其定义如下:

E I o U=I o U-\frac{\rho^{2}\left(b, b^{g t}\right)}{c{2}}-\frac{\rho{2}\left(w, w^{g t}\right)}{\left(w{c}\right){2}}-\frac{\rho^{2}\left(h, h^{g t}\right)}{\left(h{c}\right){2}}

其中 w^{c} 和 h^{c} 分别表示覆盖GT框和锚框的最小外接框的宽度和高度。

E. SIoU度量

在先前研究的基础上,SIoU [11]进一步考虑了边界框之间的角度对边界框回归的影响,旨在通过减小锚框和GT框之间的角度(水平或垂直方向)来加速收敛过程。其定义如下:
S I o U = I o U − ( Δ + Ω ) 2 Λ = sin ⁡ ( 2 sin ⁡ − 1 min ⁡ ( ∣ x c g t − x c ∣ , ∣ y c g t − y c ∣ ) ( x c g t − x c ) 2 + ( y c g t − y c ) 2 + ϵ ) Δ = ∑ t = w , h ( 1 − e − γ ρ t ) , γ = 2 − Λ { ρ x = ( x c − x c g t w c ) 2 ρ y = ( y c − y c g t h c ) 2 Ω = ∑ t = w , h ( 1 − e − ω t ) θ , θ = 4 { ω w = ∣ w − w g t ∣ max ⁡ ( w , w g t ) ω h = ∣ h − h g t ∣ max ⁡ ( h , h g t ) \begin{array}{l} S I o U=I o U-\frac{(\Delta+\Omega)}{2} \\ \Lambda=\sin \left(2 \sin ^{-1} \frac{\min \left(\left|x_{c}^{g t}-x_{c}\right|,\left|y_{c}^{g t}-y_{c}\right|\right)}{\sqrt{\left(x_{c}^{g t}-x_{c}\right)^{2}+\left(y_{c}^{g t}-y_{c}\right)^{2}}+\epsilon}\right) \\ \Delta=\sum_{t=w, h}\left(1-e^{-\gamma \rho_{t}}\right), \gamma=2-\Lambda \\ \left\{\begin{array}{l} \rho_{x}=\left(\frac{x_{c}-x_{c}^{g t}}{w^{c}}\right)^{2} \\ \rho_{y}=\left(\frac{y_{c}-y_{c}^{g t}}{h^{c}}\right)^{2} \end{array}\right. \\ \Omega=\sum_{t=w, h}\left(1-e^{-\omega_{t}}\right)^{\theta}, \theta=4 \\ \left\{\begin{array}{l} \omega_{w}=\frac{\left|w-w_{g t}\right|}{\max \left(w, w_{g t}\right)} \\ \omega_{h}=\frac{\left|h-h_{g t}\right|}{\max \left(h, h_{g t}\right)} \end{array}\right. \\ \end{array} SIoU=IoU2(Δ+Ω)Λ=sin(2sin1(xcgtxc)2+(ycgtyc)2 +ϵmin(xcgtxc,ycgtyc))Δ=t=w,h(1eγρt),γ=2Λ ρx=(wcxcxcgt)2ρy=(hcycycgt)2Ω=t=w,h(1eωt)θ,θ=4{ωw=max(w,wgt)wwgtωh=max(h,hgt)hhgt

在这里插入图片描述

III. 方法
A. 分析

在各种目标检测任务中都存在样本不平衡的问题,根据目标检测的难度,可以将其分为困难样本和简单样本。从目标规模分析的角度来看,一般检测目标可以视为简单样本,而极小目标由于难以精确定位,可以视为困难样本。对于以简单样本为主的检测任务,在边界框回归过程中关注简单样本有助于提高检测性能。相反,对于困难样本比例较高的检测任务,需要关注困难样本的边界框回归。

B. Focaler-IoU

为了在不同的回归样本中关注不同的检测任务,我们使用线性间隔映射方法重构IoU损失,这有助于提高边缘回归。其公式如下:
I o U focaler  = { 0 , I o U < d I o U − d u − d , d ≪ I o U ≪ u 1 , I o U > u I o U^{\text {focaler }}=\left\{\begin{array}{ll} 0, & I o U<d \\ \frac{I o U-d}{u-d}, & d \ll I o U \ll u \\ 1, & I o U>u \end{array}\right. IoUfocaler = 0,udIoUd,1,IoU<ddIoUuIoU>u

其中 I o U^{\text {focaler }} 是重构的Focaler-IoU,IoU是原始的IoU值,而 [d, u] \in[0,1] 。通过调整 d 和 u 的值,我们可以使 I o U^{\text {focaler }} 关注不同的回归样本。其损失定义如下:
L Focaler-IoU  = 1 − I o U focaler  L_{\text {Focaler-IoU }}=1-I o U^{\text {focaler }} LFocaler-IoU =1IoUfocaler 
将Focaler-IoU损失应用于现有的基于IoU的边界框回归损失函数,L_{\text {Focaler-GIoU }},L_{\text {Focaler-DIoU }},L_{\text {Focaler-CIoU }},L_{\text {Focaler-EIoU }}和L_{\text {Focaler-SIoU }}如下所示:

L Focaler-GIoU  = L G I o U + I o U − I o U Focaler  L Focaler-DIoU  = L D I o U + I o U − I o U Focaler  L Focaler-CIoU  = L C I o U + I o U − I o U Focaler  L Focaler-EIoU  = L E I o U + I o U − I o U Focaler  L Focaler-SIoU  = L S I o U + I o U − I o U Focaler  \begin{array}{l} L_{\text {Focaler-GIoU }}=L_{G I o U}+I o U-I o U^{\text {Focaler }} \\ L_{\text {Focaler-DIoU }}=L_{D I o U}+I o U-I o U^{\text {Focaler }} \\ L_{\text {Focaler-CIoU }}=L_{C I o U}+I o U-I o U^{\text {Focaler }} \\ L_{\text {Focaler-EIoU }}=L_{E I o U}+I o U-I o U^{\text {Focaler }} \\ L_{\text {Focaler-SIoU }}=L_{S I o U}+I o U-I o U^{\text {Focaler }} \end{array} LFocaler-GIoU =LGIoU+IoUIoUFocaler LFocaler-DIoU =LDIoU+IoUIoUFocaler LFocaler-CIoU =LCIoU+IoUIoUFocaler LFocaler-EIoU =LEIoU+IoUIoUFocaler LFocaler-SIoU =LSIoU+IoUIoUFocaler 

IV. 实验
A. YOLO v8 在PASCAL VOC上的实验

PASCAL VOC数据集是目标检测领域最受欢迎的数据集之一,本文使用VOC2007和VOC2012的训练和验证集作为训练集,包括16551张图像,并将VOC2007的测试集作为测试集,包含4952张图像。在本实验中,我们选择最先进的一阶检测器YOLOv8s和YOLOv7-tiny在VOC数据集上进行比较实验,选择SIoU作为实验的比较方法。实验结果如表I所示:
在这里插入图片描述

B. YOLOv5在AI-TOD上的实验

AI-TOD是一个遥感图像数据集,与一般数据集不同的是,它包含大量的小目标,目标的平均大小只有12.8像素。在本实验中,选择YOLOv5s作为检测器,比较方法为SIoU。实验结果如表II所示:
TABLE II: The performance of SIoU and Focaler-SIoU on Yolov5.

V. 结论

本文分析了难易样本分布对目标检测的影响。当难样本占据主导时,需要重点关注难样本以提高检测性能;当简单样本占比相对较大时,情况相反。接着,我们提出了Focaler-IoU方法,通过线性区间映射重构原始IoU损失,实现了关注难易样本的目标。最后,对比实验证明,所提方法能有效提升检测性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/358984.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

在linux上进行编译调试

1.相关疑问 1. 为什么在代码里使用了一个未定义过的函数&#xff08;如add()&#xff09;&#xff0c;在编译阶段不会报错&#xff0c;在链接阶段会报错呢&#xff1f; 答&#xff1a;先说几个代码编译的结论&#xff1a; 单个\.c源文件文件被编译成机器码文件时&#xff0c…

DC-Windows备份(23国赛真题)

2023全国职业院校技能大赛网络系统管理赛项–模块B:服务部署(WindowServer2022) 文章目录 题目配置步骤在DC1上备份系统状态到D:\共享文件夹所有用户具有读/写权限验证查看DC1备份成功的截图在InsideCli上查看备份文件(查看文件夹安全属性)题目 在DC1上备份系统状态到D:\,…

Linux实验记录:使用firewalld

前言&#xff1a; 本文是一篇关于Linux系统初学者的实验记录。 参考书籍&#xff1a;《Linux就该这么学》 实验环境&#xff1a; VmwareWorkStation 17——虚拟机软件 RedHatEnterpriseLinux[RHEL]8——红帽操作系统 备注: RHEL8系统中集成了多款防火墙管理工具&#xf…

Qt之QLabel介绍

概述 QLabel是QT界面中的标签类&#xff0c;它从QFrame下继承&#xff0c;QLabel 类代表标签&#xff0c;它是一个用于显示文本或图像的窗口部件。我们主要介绍一下QLabel的一些简单的使用。 设置颜色背景色和字体的颜色大小 字体及颜色 设置文字使用的是setText函数。 QStri…

一文彻底搞懂redis数据结构及应用

文章目录 1. Redis介绍2.五种基本类型2.1 String字符串2.2 List列表2.3 Set集合2.4 Zset有序集合2.5 Hash散列 3. 三种基本类型3.1 Bitmap &#xff08;位存储&#xff09;3.2 HyperLogLogs&#xff08;基数统计&#xff09;3.3 geospatial (地理位置) 4. Stream详解4.1 Stream…

小土堆pytorch学习笔记002

目录 1、TensorBoard的使用 &#xff08;1&#xff09;显示坐标&#xff1a; &#xff08;2&#xff09;显示图片&#xff1a; 2、Transform的使用 3、常见的Transforms &#xff08;1&#xff09;#ToTensor() &#xff08;2&#xff09;# Normalize() &#xff08;3&…

Java基础—面向对象—19static关键字详解、抽象类、接口、N种内部类

1、static关键字 匿名代码块、静态代码块、构造方法 静态代码块是在类加载的时候执行&#xff0c;仅执行一次 匿名代码块在调用构造函数之前 验证如下图&#xff1a; 2、静态导入包&#xff08;可能很多人听都没听过&#xff09; 3、Math是用final关键字的&#xff0c;fina…

Mybatis-Plus扩展

7 MybatisX插件[扩展] 7.1 MybatisX插件介绍 MybatisX 是一款基于 IDEA 的快速开发插件&#xff0c;为效率而生。 安装方法&#xff1a;打开 IDEA&#xff0c;进入 File -> Settings -> Plugins -> Browse Repositories&#xff0c;输入 mybatisx 搜索并安装。 功…

【Midjourney】如何自定义一套参数

使用Midjourney有时候会遇到需要调整某些参数的时候&#xff0c;例如宽高之类的&#xff1a; --hd --ar 7:4 而Midjourney中提供了一条指令用于自定义一套参数方便重复使用。 以下指令创建一个名为“mine”的选项&#xff0c;翻译过来就是 --hd --ar 7:4: 创建成功后会有类似…

112. 路径总和详解!!三种解法,总有一款适合你(Java)

513.找树左下角的值 题目链接&#xff1a;513. 找树左下角的值 BFS&#xff08;迭代&#xff09;法&#xff1a; /*** Definition for a binary tree node.* public class TreeNode {* int val;* TreeNode left;* TreeNode right;* TreeNode() {}* TreeNod…

在Meteor Lake上测试基于Stable Diffusion的AI应用

上个月刚刚推出的英特尔新一代Meteor Lake CPU&#xff0c;预示着AI PC的新时代到来。AI PC可以不依赖服务器直接在PC端处理AI推理工作负载&#xff0c;例如生成图像或转录音频。这些芯片的正式名称为Intel Core Ultra处理器&#xff0c;是首款配备专门用于处理人工智能任务的 …

外包干了8个月,技术退步明显...

先说一下自己的情况&#xff0c;大专生&#xff0c;18年通过校招进入武汉某软件公司&#xff0c;干了接近4年的功能测试&#xff0c;今年年初&#xff0c;感觉自己不能够在这样下去了&#xff0c;长时间呆在一个舒适的环境会让一个人堕落! 而我已经在一个企业干了四年的功能测…

Java 的 Map 與 List

通過重新new 一個ArrayList 轉化 resTask.setList(new ArrayList<Group>(custMap.values())); 无序的Map List 有序的数据放到Map&#xff0c;就变成无序。 List排序 按照code 的字母进行排序A-Z resTask.getListData().sort(Comparator.comparing(Gmer::getCode));…

深度强化学习(王树森)笔记08

深度强化学习&#xff08;DRL&#xff09; 本文是学习笔记&#xff0c;如有侵权&#xff0c;请联系删除。本文在ChatGPT辅助下完成。 参考链接 Deep Reinforcement Learning官方链接&#xff1a;https://github.com/wangshusen/DRL 源代码链接&#xff1a;https://github.c…

【论文阅读|半监督小苹果检测方法S3AD】

论文题目 &#xff1a; : Semi-supervised Small Apple Detection in Orchard Environments 项目链接&#xff1a;https://www.inf.uni-hamburg.de/en/inst/ab/cv/people/wilms/mad.html 摘要&#xff08;Abstract&#xff09; 农作物检测是自动估产或水果采摘等精准农业应用不…

盘点热门的GPTS智能体,生产力远超原生ChatGPT4

OPENAI开放了GPTS智能体商店&#xff0c;类似于appstore的应用商店&#xff0c;在GPTS商店里面你可以发现并创建自定义版本的ChatGPT&#xff0c;这些版本结合了指令、额外知识和任何技能组合&#xff01; 本周精选 GPTS智能体不仅可以通过API的方式将你的私有化的数据和能力…

双链表的基本知识以及增删查改的实现

满怀热忱&#xff0c;前往梦的彼岸 前言 之前我们对单链表进行了非常细致的剖析&#xff0c;现在我们所面临的则是与之相对应的双链表&#xff0c;我会先告诉诸位它的基本知识&#xff0c;再接着把它的增删查改讲一下&#xff0c;ok&#xff0c;正文开始。 一.链表的种类 我…

机器学习和深度学习中的normalization(归一化)

在机器学习和深度学习中&#xff0c;normalization&#xff08;归一化&#xff09;是一种重要的数据预处理步骤&#xff0c;它的目的是改变数值数据的形式&#xff0c;以使其在一个固定的范围内&#xff0c;通常是 0 到 1&#xff0c;或者使其均值为 0&#xff0c;标准差为 1。…

Jenkins+Python自动化测试持续集成详细教程

&#x1f525; 交流讨论&#xff1a;欢迎加入我们一起学习&#xff01; &#x1f525; 资源分享&#xff1a;耗时200小时精选的「软件测试」资料包 &#x1f525; 教程推荐&#xff1a;火遍全网的《软件测试》教程 &#x1f4e2;欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1…

基于Prompt Learning的信息抽取

PTR: Prompt Tuning with Rules for Text Classification 清华&#xff1b;liuzhiyuan&#xff1b;通过规则制定subpromptRelation Extraction as Open-book Examination: Retrieval-enhanced Prompt Tuning Relation Extraction as Open-book Examination: Retrieval-enhance…