图解目标检测的现代历史

在这里插入图片描述

在这里插入图片描述

任务分类

图像分类

在这里插入图片描述
根据图像的主要对象对图像进行分类。

目标定位

预测包含主要对象的图像区域。然后,可以使用图像分类来识别该区域内的物体

在这里插入图片描述

目标检测

在这里插入图片描述
定位和分类出现在图像中的所有对象。这个任务通常包括:确定区域,然后对其中的对象进行分类。

语义分割

在这里插入图片描述

用图像所属的对象类来标记图像的每个像素,如示例中的人、羊和草。

实例分割

在这里插入图片描述

根据图像所属的对象类和对象实例来标记图像的每个像素

关键点检测

在这里插入图片描述

检测对象的一组预定义关键点的位置,例如人体或人脸中的关键点。

目标检测的关键核心概念

提取边界框

在这里插入图片描述
输入图像的一个矩形区域,其中可能包含一个对象。这些建议可以通过一些启发式搜索生成:客观性、选择性搜索,或通过区域建议网络(RPN)。

边界框可以表示为4元素向量,可以存储它的两个角坐标(x0、y0、x1、y1),也可以(更常见)存储它的中心位置及其宽度和高度(x、y、w、h)。边界框通常伴随着一个关于边界框包含对象的可能性的置信度分数。

两个边界框之间的差值通常用它们的向量表示的l2距离来衡量。W和h可以在距离计算之前进行对数变换。

IoU交并比

在这里插入图片描述

一个度量两个边界框之间的相似性在它们的联合区域上的重叠区域。

非极大值抑制

在这里插入图片描述
一种合并重叠边界框(建议或检测)的常用算法。任何与一个更高置信度的边界框显著重叠的边界框(IoU > IoU_threshold)都将被抑制(删除)。

边界框回归(边界框细化)

在这里插入图片描述

通过查看一个输入区域,我们可以推断出更适合于内部对象的边界框,即使该对象只是部分可见的。右边的例子说明了仅通过观察一个物体的一部分来推断地面真实框的可能性。因此,可以训练一个回归器来查看一个输入区域,并预测输入区域框和地面真实框之间的偏移量∆(x,y,w,h)。如果我们为每个对象类有一个回归变量,它被称为类特定的回归,否则,它被称为类不可知的(所有类的一个回归变量)。边界框回归器通常伴随着边界框分类器(置信度评分)来估计框中对象存在的置信度。分类器也可以是特定于类的或不依赖于类的。如果不定义先验框,输入区域框将扮演先验框的角色。

先验框

在这里插入图片描述
我们可以使用输入区域作为唯一的先验框,我们可以训练多个边界框回归器,每个查看相同的输入区域,但有不同的先验框,并学习预测自己的先验框和地面真实框之间的偏移量。通过这种方式,具有不同先验框的回归变量可以学习预测具有不同属性(高宽比、比例、位置)的边界框。先验框可以相对于输入区域进行预定义,也可以通过聚类进行学习。一个适当的边界框匹配策略是使训练收敛的关键。

边界框匹配策略

在这里插入图片描述

我们不能期望一个边界框回归器能够预测一个对象的边界框,因为它离其输入区域或其之前的边界框(更常见的是)有太远的距离。因此,我们需要一个边界框匹配策略来决定哪个先验框与真实目标匹配。每一场匹配都是一个回归的训练示例。可能的策略:(多边界框)将每个真实目标与一个IoU最高的先验框进行匹配(SSD,Faster RCNN)与任何IoU大于0.5的先验框进行匹配。

困难样本挖掘

在这里插入图片描述

对于每个先验框,都有一个边界框分类器来估计内部有一个对象的可能性。在框匹配后,所有匹配的先验框都是分类器的正例子。所有其他之前的边界框都是负样本。如果我们使用所有这些负样本,在正样本和负样本之间会有显著的不平衡。可能的解决方案:随机选择负的例子(Faster RCNN),或者选择分类器犯的错误最严重的例子(SSD),这样负和正之间的比例大约为3:1。

CNN的关键核心概念

特征

在这里插入图片描述

感受野

在这里插入图片描述
输入图像中影响特征激活的区域。换句话说,这是该特征所关注的区域。一般来说,更高层次的特征有更大的感受野,这允许它学习捕捉更复杂/抽象的模式。卷积神经网络体系结构决定了感受野如何逐层变化。

特征图

在这里插入图片描述

通过以滑动窗口的方式在输入映射的不同位置应用相同的特征检测器(即卷积)而创建的一组特征。同一特征图中的特征具有相同的接受大小,寻找相同的模式,但在不同的位置。这就创建了卷积神经网络的空间不变性属性。

Feature Volume

在这里插入图片描述
一组特征映射,每个映射在输入图上的一组固定位置上搜索特定的特征。所有的特征都有相同的感受野大小。

全连接层

在这里插入图片描述
具有k个隐藏节点的全连接层(fc层-通常连接到卷积神经网络的末端进行分类)可以看作是一个1x1xk的特征volume。这个特征volume在每个特征图中都有一个特征,其感受野覆盖了整个图像。fc层中的权值矩阵W可以转换为卷积核。将内核w x h x k卷积到CNN特性volume w x h x d将创建一个1x1xk特征volume(=具有k个节点的FC层)。将1x1xk滤波器内核卷积到1x1xd特性volume将创建一个1x1xk特征volume。用卷积层替换完全连接层,我们可以应用到任意大小的图像。

转置卷积

在这里插入图片描述
反向传播卷积运算的梯度的运算。换句话说,它是一个卷积层的向后传递。一个转置的卷积可以实现为一个在输入特征之间插入零的法向卷积。与滤波器大小k、步幅s和零填充p的卷积具有与滤波器大小k‘=k、步幅s’=1、零填充p‘=k-p-1和s-1零相关的转置卷积。

端到端目标检测流水线

在这里插入图片描述

一个目标识别管道,所有阶段(预处理、区域建议生成、候选框分类、后处理)都可以通过优化单个目标函数来训练,该目标函数是所有阶段变量的可微函数。这种端到端管道与传统的目标识别管道相反,后者以不可区分的方式连接阶段。在这些系统中,我们不知道改变一个阶段的变量如何影响整体性能,因此每个阶段必须独立或交替地训练,或者启发式地编程。

候选框或者滑窗

在这里插入图片描述

RCNN和OverFeat代表了两种早期进行目标识别的竞争方法:要么对另一种方法提出的区域进行分类(RCNN,Fast RCNN,SPPNet),要么对一组固定的均匀间隔的正方形窗口(OverFeat)进行分类。第一种方法有比其他类似网格的候选窗口更适合对象的区域建议,但要慢两个数量级。第二种方法利用卷积操作,以滑动窗口的方式对对象进行快速回归和分类

Multibox通过引入先验框和候选框网络RPN的想法,结束了这场竞争。从那时起,所有最先进的方法现在都有一组先验框(基于一组滑动窗口或通过聚类地面真实框生成),从中训练边界框回归器,以提出更好地适合内部对象的区域。新的竞争是在直接分类(YOLO,SSD)和细化分类方法(Faster RCNN,MaskRCNN)之间。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/432519.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

SpringCloudGateway工作原理与链路图

SpringCloudGateway基本介绍 Spring Cloud Gateway 构建于Spring Boot 2.x、 Spring WebFlux和Project Reactor之上。因此,在使用 Spring Cloud Gateway 时,您可能不会应用许多熟悉的同步库(例如 Spring Data 和 Spring Security)和模式。 Spring Cloud Gateway 需要 Sprin…

javaWebssh文玩竞价管理系统myeclipse开发mysql数据库MVC模式java编程计算机网页设计

一、源码特点 java ssh文玩竞价管理系统是一套完善的web设计系统(系统采用ssh框架进行设计开发),对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为TOMCAT7.0…

1909_Arm Cortex-M3编程模型

1909_Arm Cortex-M3编程模型 全部学习汇总: g_arm_cores: ARM内核的学习笔记 (gitee.com) 编程模型的部分除了单独的核心寄存器描述之外,它还包含有关处理器模式和软件执行和堆栈的特权级别的信息。 处理器有两种模式,分别是线程模式和Handle…

2024年【山东省安全员C证】考试试卷及山东省安全员C证复审模拟考试

题库来源:安全生产模拟考试一点通公众号小程序 山东省安全员C证考试试卷根据新山东省安全员C证考试大纲要求,安全生产模拟考试一点通将山东省安全员C证模拟考试试题进行汇编,组成一套山东省安全员C证全真模拟考试试题,学员可通过…

WordPress建站入门教程:小皮面板phpstudy如何安装PHP和切换php版本?

小皮面板phpstudy支持的PHP版本有很多,包括5.2.17、5.3.29、5.4.45、5.5.9、5.6.9、7.0.9、7.1.9、7.2.9、7.3.4、7.3.9、7.4.3、8.0.2、8.2.9。那么我们如何安装其他的php版本和切换网站的php版本呢?只需要简单几步即可,具体如下&#xff1a…

解决前端性能问题:如何优化大量数据渲染和复杂交互?

✨✨祝屏幕前的小伙伴们每天都有好运相伴左右,一定要天天开心!✨✨ 🎈🎈作者主页: 喔的嘛呀🎈🎈 目录 引言 一、分页加载数据 二、虚拟滚动 三、懒加载 四、数据缓存 五、减少重绘和回流 …

is not valid JSON at JSON.parse

在后台读取一个文件里的JSON数据,转换成字符串返回给前端,前端使用JSON.parse转换JSON报错。在将JSON校验和压缩后发现前端还是转换失败。在返回结果的时候可以看见一个小红点 最后排查,不带BOM的识别是Java遗留的一个bug。 解决方案&#…

OSI 的七层模型

OSI七层模型 一般指开放系统 互连参考模型 (Open System Interconnect 简称OSI) 是国际标准化组 织(ISO)和国际电报电话咨询委员会(CCITT)联合制定的开放系统互连参考模型,为开放式互连信息系 统提供了一种功能结构的框架。 应用层:各种应用程序协议,比…

第八篇:预测受众(Predictive audience)技术是如何赋能数字化营销生态的?- 我为什么要翻译介绍美国人工智能科技巨头IAB公司

IAB平台,使命和功能 IAB成立于1996年,总部位于纽约市。 作为美国的人工智能科技巨头社会媒体和营销专业平台公司,互动广告局(IAB- the Interactive Advertising Bureau)自1996年成立以来,先后为700多家媒…

CSS字体样式的使用,先收藏了

CSS 篇 link 与 import 的区别 link 是 HTML 方式, import 是CSS方式link 最大限度支持并行下载, import 过多嵌套导致串行下载,出现 FOUC (文档样式短暂失效)link 可以通过 rel"alternate stylesheet" 指定候选样式浏览器对 lin…

spark 实验二 RDD编程初级实践

目录 一. pyspark交互式编程示例(学生选课成绩统计) 该系总共有多少学生; 该系DataBase课程共有多少人选修; 各门课程的平均分是多少; 使用累加器计算共有多少人选了DataBase这门课。 二.编写独立应用程序实现数…

【深圳五兴科技】Java后端面经

本文目录 写在前面试题总览1、java集合2、创建线程的方式3、对spring的理解4、Spring Boot 和传统 Spring 框架的一些区别5、springboot如何解决循环依赖6、对mybatis的理解7、缓存三兄弟8、接口响应慢的处理思路9、http的状态码 写在前面 关于这个专栏: 本专栏记录…

微信小程序云开发教程——墨刀原型工具入门(页面交互+交互案例教程)

引言 作为一个小白,小北要怎么在短时间内快速学会微信小程序原型设计? “时间紧,任务重”,这意味着学习时必须把握微信小程序原型设计中的重点、难点,而非面面俱到。 要在短时间内理解、掌握一个工具的使用&#xf…

AlibabaCloud微服务:Linux 部署 Sentinel 流量控制

目录 一、实验 1.环境 2.Linux 部署 Sentinel 3. 微服务接入Sentinel配置 二、 问题 1.Linux本地启动Sentinel控制台 2.JDBC连接失败 一、实验 1.环境 (1)主机 表1 主机 系统软件版本IP备注Linuxopenjdk 1.8.0192.168.204.200 maven3.5.0nac…

基于QGIS的研究区域遥感影像裁切下载方法-以岳麓区为例

目录 前言 一、数据说明 1、遥感影像 2、矢量范围 二、按矢量范围导出 1、第一步、导出影像 2、第二步、设置输出格式 3、设置裁切范围 4、设置分辨率 三、按矢量范围掩膜 1、第一步、打开裁剪工具 2、第二步、参数设置 ​编辑 3、执行掩膜 四、webgis支持 1、生成运行…

【Redis】Redis持久化模式AOF

目录 引言 AOF持久化模式​编辑​编辑 AOF与RDB的混合持久化(4.x后的新特性) AOF的优缺点 修复破损aof文件 到底用RDB还是AOF 引言 AOF就相当于上面的日志形式。是追加式备份。所有发生的写操作,新增啊,修改啊,删除啊,这些命…

AI大模型与小模型之间的“脱胎”与“反哺”(第四篇)

76. **动态领域适应网络(Dynamic Domain Adaptation Networks, DDANs)**: 创建能动态调整自身参数以适应新行业特性的网络结构,使得AI大模型能在不完全重新训练的情况下快速适应新的业务场景和环境变化。 77. **元学习中的元策略优…

SoraAI优先体验资格注册教程

SoraA1视频工具优先体验资格申请 申请网址:https://openai.com/form/red-teaming-network 申请步骤: 填写基础信息 请使用英文根据内容填写以下内容,名、姓、电子邮件、居住国家、组织隶属关系(如果有)、教育水平 、学位(哪个领…

【数据结构】顺序表+链表

目录 1.顺序表 1.1初始化顺序表 1.2销毁顺序表 1.3检查容量并扩容 1.4把某个元素插入到下标为pos的位置 1.5头插和尾插 1.6删除下标为pos的元素 1.7头删和尾删 2.顺序表的问题及思考 3.链表 3.1链表的访问 3.2链表的增删查改 1.顺序表 顺序表的本质其实就是一个数组…

整合力-整合思维模型和领导力

整合力和领导力是组织成功的两大关键因素。在当今复杂多变的商业环境中,整合力和领导力的结合对于推动组织发展至关重要。本文将探讨整合力和领导力的概念、重要性以及如何有效整合二者以促进组织的成功发展。 ### 整合力的重要性 整合力指的是组织内部各个部门、…