【深度学习基础知识】IOU、GIOU、DIOU、CIOU

这里简单记录下IOU及其衍生公式。

为了拉通IOU及其衍生版的公式对比,以及方便记忆,这里用一个统一的图示来表示出所有的参数在这里插入图片描述

  • 【A】目标框的区域
  • 【B】预测框的区域
  • 【C】A与B的交集
  • 【D】A与B的并集 = A+B-C
  • 【E】A与B的最小外接矩形框
  • 【F】最小外接框内非重叠的区域 = E - D,
  • 【d】A中心到B中心的欧式距离
  • 【L】E的对角线距离

将IOU的衍生公式要当做损失函数时,其损失函数为 IOU loss = 1 − IOU \text{IOU loss}=1-\text{IOU} IOU loss=1IOU


IOU

  • 公式:
    IOU = C D \text{IOU} = \frac{C}{D} IOU=DC
  • 优点
    • 优化了原有的L1 loss,L2 loss和Smooth L1 loss,这三个loss都是基于独立的点来进行计算的。
    • 直观的反映预测检测框与真实检测框的检测效果。判断Predbox 和GTbox的距离最直接的指标。
  • 缺点
    • 如果两个框没有相交,C=0,不能反映A与B的距离。此时损失函数不可导,没有梯度回传,loss无法优化两个框不想交的情况。
    • IoU无法精确的反映两者的重合度大小。如下图所示,三种情况IoU都相等,但看得出来他们的重合度是不一样的,左边的图回归的效果最好,右边的最差。

GIOU

  • 提出
    在CVPR2019中,论文Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression 的提出了GIoU的思想。
  • 公式
    GIOU = C D − F E \text{GIOU} = \frac{C}{D}-\frac{F}{E} GIOU=DCEFIOU越大的同时,非重叠区域占比越小,此时两个框越贴合。
  • 优点
    • 加入了非重叠区域的影响,改善了IOU的计算过程
    • 在A和B不相交时,可以进行学习训练
  • 缺点
    • 当目标框A 和 检测框 B 完全互相包含时,F=0,即GIOU退化为IOU。此时无法区分A与B的相对位置,无法进行有效的学习
      在这里插入图片描述

DIOU

  • 提出于 Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression
  • 公式
    GIOU = C D − d L \text{GIOU} = \frac{C}{D}-\frac{d}{L} GIOU=DCLd用对角距离把检测框和预测框的中心点距离进行归一化。在IOU值相同时,两个框的中心点归一化距离越小,代表预测框和目标框的更贴合。
    IOU越大的同时,中心点归一化距离越近,此时两个框越贴合。
  • 优点
    • DIOU Loss可以直接最小化两个目标框的距离,比GIOU收敛的更快。
    • 对于GIOU的缺点,即目标框包裹预测框的这种情况,DIOU Loss可以使回归非常快,而GIOU Loss几乎退化为IOU Loss。
      在这里插入图片描述
  • 缺点
    • 框的长宽比指标没有考虑
    • 如图9所示,当IOU值和两个框的中心点距离一样时,即检测框中心点在以目标框中心点为圆心半径相同的圆弧上时,DIOU没办法区分。

CIOU

  • 公式: CIOU = C D − d F − α v v = 4 π 2 ( a r c t a n ( w g t h g t ) − a r c t a n ( w p r e d h p r e d ) ) \text{CIOU} = \frac{C}{D}-\frac{d}{F}-\alpha v \\ v=\frac{4}{\pi^2}(arctan(\frac{w^{gt}}{h^{gt}})-arctan(\frac{w^{pred}}{h^{pred}})) CIOU=DCFdαvv=π24(arctan(hgtwgt)arctan(hpredwpred))
  • 解释:加入了长宽比相似性的指标, α \alpha α 是权重系数,在论文里有相关计算, 是两个框长宽比指标的相似性计算。
    通俗意思是在IOU值和中心点距离值相同时,两个框的长宽比指标越相似,说明预测框与目标框的对比效果越好。
  • 优点:添加了长宽比的惩罚项,使得评估更加准确。
  • 缺点:CIOU Loss涉及到反三角函数,在计算的过程中会消耗一定的算力,整体训练时间会慢一点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/479176.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

关于TEMU 亚马逊美国哺乳枕(Nursing Pillow)法规16 CFR 1242介绍

美国首个哺乳枕法规16 CFR 1242发布 美国消费品安全委员会CPSC于2023年9月26日在联邦公报上发布了哺乳枕新法规16 CFR 1242的草案,旨在降低哺乳枕使用带来的伤害和死亡风险。该法规草案提到了在使用哺乳枕时由于婴儿睡着或无人看护而导致的窒息、陷落和跌落风险。在…

2024:RAG年

如果 2023 年都是关于 ChatGPT 和 Llama-2 等基础LLM,那么我的预测是 2024 年将是关于检索增强一代(RAG)的。 在这篇博文中,我阐述了为什么 RAG 将在 2024 年飞速发展,不仅是企业采用率,而且消费者采用率也…

BigDecimal类的使用,用于精确计算任意精度的数字

BigDecimal类 BigDecimal 是 Java 中用于精确表示任意精度的十进制数的类。在很多情况下,使用基本数据类型(如 double 或 float)进行浮点数计算可能会导致精度丢失或舍入错误。BigDecimal 提供了一种更精确的解决方案,可以处理需要高精度计算的场景,比如财务应用或科学计算…

记录解决问题--activiti8.2 流程图图片由png改为svg前端不显示图片问题

1.说明 如果是vue svg显示,请查阅其他标准资料,类似使用svg标签。我这里讲的另外一种情况,链接返回的是svg文件,需要用v-html显示图片。 2.activiti6流程图图片格式 ①png格式。可以查看链接返回,以png开头。 ②前端…

蓝桥杯练习——神秘咒语——axios

目标 完善 index.js 中的 TODO 部分,通过新增或者修改代码,完成以下目标: 点击钥匙 1 和钥匙 2 按钮时会通过 axios 发送请求,在发送请求时需要在请求头中添加 Authorization 字段携带 token,token 的值为 2b58f9a8-…

适合新生儿的奶瓶有哪些?五款高分新生儿奶瓶分享!

每一个有新生儿的家庭都一定会挑选奶瓶,但是因为市面有太多品牌和款式,让大家难以挑选,更为重要的是还有可能会不小心选到劣质的产品,不仅奶嘴的仿真度差、易胀气,还可能高温消毒后散发有害物质!那么新生儿…

力扣 字符串解码

维护一个放数字的栈&#xff0c;一个放字母的栈 遇到[把数字和字母入栈&#xff0c;遇到]把当前字母循环加上数字栈头遍的字母栈头 class Solution { public:string decodeString(string s) {string ans"";stack<int>sz;stack<string>zm;里面是string …

2024 年 AI 辅助研发趋势将更加强调智能化、自动化和个性化

目录 前言 AI辅助研发的技术进展 行业应用案例 医药行业 汽车行业 电子行业 面临的挑战与机遇 技术挑战 伦理问题 数据安全 机遇和解决方案 未来趋势预测 1. 深度融合AI与研发流程 2. 智能研发平台的崛起 3. 强化AI与人类智慧的融合 前言 当谈到人工智能&#xff…

论文笔记:Llama 2: Open Foundation and Fine-Tuned Chat Models

导语 Llama 2 是之前广受欢迎的开源大型语言模型 LLaMA 的新版本&#xff0c;该模型已公开发布&#xff0c;可用于研究和商业用途。本文记录了阅读该论文的一些关键笔记。 链接&#xff1a;https://arxiv.org/abs/2307.09288 1 引言 大型语言模型&#xff08;LLMs&#xff…

Linux:http协议初步认识

文章目录 OSI七层模型http协议域名路径信息请求和响应 编写一个httpserver OSI七层模型 在结束了前面对于序列化反序列化等内容的学习后&#xff0c;重新回到对于OSI模型的部分 如上所示的是对于OSI接口的示意图&#xff0c;在这当中可以看到会话层的概念&#xff0c;会话层的…

CMake学习(下)

1. 嵌套的CMake 如果项目很大&#xff0c;或者项目中有很多的源码目录&#xff0c;在通过CMake管理项目的时候如果只使用一个CMakeLists.txt&#xff0c;那么这个文件相对会比较复杂&#xff0c;有一种化繁为简的方式就是给每个源码目录都添加一个CMakeLists.txt文件&#xff…

携程旅行web逆向

声明: 本文章中所有内容仅供学习交流使用&#xff0c;不用于其他任何目的&#xff0c;抓包内容、敏感网址、数据接口等均已做脱敏处理&#xff0c;严禁用于商业用途和非法用途&#xff0c;否则由此产生的一切后果均与作者无关&#xff01;wx a15018601872 本文章…

C语言:volatile关键字讲解

读音&#xff1a;vaoletail C语言中的volatile关键字是一个重要的类型修饰符&#xff0c;它用于声明一个变量具有“易变性”&#xff0c;即可能在编译器无法察觉的情况下被改变其值。Volatile意思是“易变的”&#xff0c;应该解释为“直接存取原始内存地址”比较合适。 “易变…

【高质快刊】中科院1区TOP,最新案例仅2个月14天录用!进展超顺,即将截稿!

&#xff08;一&#xff09;期刊简介概况 【期刊类型】能源工程类SCIE&EI 【出版社】ELSEVIER出版社 【期刊概况】IF&#xff1a;11.0-12.0&#xff0c;JCR1区&#xff0c;中科院1区TOP 【预警情况】2020-2024年无预警记录 【收录年份】1977年被WOS数据库收录 【年发…

【python绘图colorbar对齐】

[Toc]# 1、问题描述 python在绘图过程中&#xff0c;可能会出现colorbar高度与主图不匹配情况&#xff0c;需要进行调整&#xff0c;使得与主图高度对齐&#xff0c;使图像更美观。示例&#xff1a;colorbar位置高于主图 2、解决方法 通过调整shrink参数匹配对齐,pad调整x轴…

【CPP】C++11多线程

thread类 在C11之前&#xff0c;涉及到多线程问题&#xff0c;都是和平台相关的&#xff0c;比如windows和linux下各有自己的接口&#xff0c;这使得代码的可移植性比较差。C11中最重要的特性就是对线程进行支持了&#xff0c;使得C在并行编程时不需要依赖第三方库&#xff0c…

ARM中断实验

key_inc.c #include"key_inc.h"void key1_it_config(){//使能GPIOF外设时钟RCC->MP_AHB4ENSETR | (0x1<<5);//将PF9设置为输入模式GPIOF->MODER & (~(0x3<<18));//设置由PF9管脚产生EXTI9事件EXTI->EXTICR3 & (~(0XFF<<8));EXTI-…

Linux-线程同步

文章目录 前言一、为什么要线程同步&#xff1f;二、线程同步pthread_cond_initpthread_cond_destroypthread_cond_wait、pthread_cond_signal和 pthread_cond_broadcast 三、示例代码 前言 上节课学习了线程互斥&#xff0c;这节课针对线程互斥内容在做进一步的补充和完善&am…

鸿蒙Harmony应用开发—ArkTS(@State装饰器:组件内状态)

State装饰的变量&#xff0c;或称为状态变量&#xff0c;一旦变量拥有了状态属性&#xff0c;就和自定义组件的渲染绑定起来。当状态改变时&#xff0c;UI会发生对应的渲染改变。 在状态变量相关装饰器中&#xff0c;State是最基础的&#xff0c;使变量拥有状态属性的装饰器&a…

Elasticsearch:让你的 Elasticsearch 索引与 Python 和 Google Cloud Platform 功能保持同步

作者&#xff1a;来自 Elastic Garson Elasticsearch 内的索引 (index) 是你可以将数据存储在文档中的位置。 在使用索引时&#xff0c;如果你使用的是动态数据集&#xff0c;数据可能会很快变旧。 为了避免此问题&#xff0c;你可以创建一个 Python 脚本来更新索引&#xff0…