目标检测——RCNN系列学习(一)

前置知识

包括:非极大值抑制(NMS)、selective search等

RCNN

[1311.2524] Rich feature hierarchies for accurate object detection and semantic segmentation (arxiv.org)icon-default.png?t=N7T8https://arxiv.org/abs/1311.2524

1.网络训练

2.推理流程

3.总结

1.多阶段模型:RCNN框架上看分为三个部分:预测类别的CNN特征提取网络,SVM分类器,BoundingBox回归预测模型,训练起来很麻烦;

2.计算时间长:每个提出的region proposal都需要单独计算一次feature map

3.占用空间大:需要保存所有的region proposal的feature map


SPP-Net

[1406.4729] Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition (arxiv.org)icon-default.png?t=N7T8https://arxiv.org/abs/1406.4729

1.Motivation

RCNN的问题:

  • 速度瓶颈:重复为每个region proposal提取特征是极其费时的,Selective Search对于每幅图片产生2K左右个region proposal,也就是意味着一幅图片需要经过2K次的完整的CNN计算得到最终的结果。
  • 性能瓶颈:对于所有的region proposal放缩到固定的尺寸会导致我们不期望看到的几何形变,而且由于速度瓶颈的存在,不可能采用多尺度或者是大量的数据增强去训练模型。

问题核心:

CNN网络需要固定的输入尺寸?

进一步剖析,CNN为什么需要固定的输入尺寸?

何恺明团队发现,这是由于网络中的全连接层(fc)所导致的,卷积层是不需要的,而全连接层需要指定输入张量的维度。那么有没有办法解决这一问题呢?

2.SPP-Net

SPP-Net的做法就是在CNN网络的卷积层和全连接层中加入一个新的层,叫做Spatial Pyramid Pooling(空间金字塔池化层),将卷积层的输出转化为了固定的尺度。

其实这个名字里面包含了两个要素:空间金字塔、池化:

1.空间金字塔:多尺度信息的利用

2.池化:信息的聚合,同时降低参数量,加速模型计算

具体的做法如下:

简单的描述一下:

对于卷积层的最后一层输出,尺寸为任意的H*W*C(示例图中channel为256),我们将H和W按统一规则切分,分成16份、4份、1份,每个区域(H/4*W/4*C, H/2*W/2*C, H*W*256)都进行池化操作,最后concat在一起,张量维度变成:(16+4+1)* 256 = 5376维。无论H、W为什么值,全连接的输入都是这个维度。

3.一个实现细节:如何从一个region proposal 映射到feature map的位置?

SPPNet通过 corner point将图像像素映射到feature map上,假设每一层的padding都是p/2,p为卷积核大小。对于feature map的一个像素(x',y'),其实际感受野为:(Sx‘,Sy’),其中S为之前所有层strides的乘积。然后对于region proposal的位置,我们获取左上右下两个点对应的feature map的位置,然后取特征就好了。

左上角映射为:x'=[x/S]+1

右下角映射为:x'=[x/S]-1


Fast RCNN

[1504.08083] Fast R-CNN (arxiv.org)icon-default.png?t=N7T8https://arxiv.org/abs/1504.08083

(部分内容参考:目标检测之Fast RCNN - 知乎 (zhihu.com))

1.Motivation

主要是针对RCNN中的问题:

冗余的特征提取 + 需要固定region proposal的尺度 + SVM和fc需要分开训练,无法端到端

2.推理流程

  • 拿到一张图片,使用selective search选取建议框
  • 将原始图片输入卷积神经网络之中,获取特征图(最后一次池化前的卷积计算结果)
  • 对每个建议框,从特征图中找到对应位置(按照比例寻找即可),截取出特征框(深度保持不变)
  • 将每个特征框划分为 H*W个网格(论文中是 7×7 ),在每个网格内进行池化(即每个网格内取最大值),这就是ROI池化。这样每个特征框就被转化为了 7×7×C的矩阵(其中C为深度)
  • 对每个矩阵拉长为一个向量,分别作为之后的全连接层的输入
  • 全连接层的输出有两个,计算分类得分和bounding box回归(bounding box表示预测时要画的框)。前者是sotfmax的21类分类器(假设有20个类别+背景类),输出属于每一类的概率(所有建议框的输出构成得分矩阵);后者是输出一个 20×4 的矩阵,4表示(x, y, w, h),20表示20个类,这里是对20个类分别计算了框的位置和大小
  • 对输出的得分矩阵使用非极大抑制方法选出少数框,对每一个框选择概率最大的类作为标注的类,根据网络结构的第二个输出,选择对应类下的位置和大小对图像进行标注

(1)RoI Pooling

在学习了SPP-Net之后,ROI池化就很好理解了,其实可以看成单一尺度的SPP层。

(2)全连接的思考

Q: 为什么第2个fc层要输出一个 20×4 的矩阵,而不是一个4维的向量就行呢?

A: 注意这里的两个全连接层是并行训练的,也就是第一个fc层学习到的类别信息,第二个fc层是无法共享的。因此,如果只学习4维的bounding box框,相当于需要第二个fc隐含的学习类别信息,在没有label作为gt的情况下,训练难度极大,所以学习20*4个框,对类别信息解耦,相当于告诉网络,指定类别去预测框的位置。

3.网络训练

(1)网络结构

初始化为一个预训练的VGG-16网络,改动网络结构:

  • 将最后一个最大池化层换成ROI池化层
  • 将最后一个全连接层和后面的softmax1000分类器换成两个并行层,一个是全连接层1+21分类器,另一个是全连接层2+表示每个类预测框位置的输出
  • 输入的不再只是图片,还有提取到的建议框位置信息

(2)网络训练

训练输入:图像、GT、Region proposal的坐标

为了提高训练速度,采取了小批量梯度下降的方式,每次使用2张图片的128张建议框(每张图片取64个建议框)更新参数。

每次更新参数的训练步骤如下

  • 2张图像直接经过前面的卷积层获得特征图
  • 根据ground truth标注所有建议框的类别。具体步骤为,对每一个类别的ground truth,与它的iou大于0.5的建议框标记为groud truth的类别,对于与ground truth的iou介于0.1到0.5之间的建议框,标注为背景类别
  • 每张图片随机选取64个建议框(要控制背景类的建议框占75%),提取出特征框
  • 特征框继续向下计算,进入两个并行层计算损失函数(损失函数具体计算见下面)
  • 反向传播更新参数

(3)池化层的反向传播

这里有一个之前一直忽略的操作,这里看到就一起总结了:

常见的池化层如何求反向传播?

池化分为平均池化和最大池化,这两种池化在反向传播的时候会有不同。

  1. 平均池化:在反向传播的时候将某个元素平均分成n份分配给前一层,保证池化前后的梯度之和保持不变。
  2. 最大池化:前向传播的时候记录下最大值的位置,反向传播的时候把梯度传给这个位置,其他位置为0。

ROI又如何求反向传播?

这里偷个懒,参考:Fast R-CNN论文详解-CSDN博客

(4)损失函数

简化的版本参考:Object Detection for Dummies Part 3: R-CNN Family | Lil'Log (lilianweng.github.io)

简单一点理解:

分类损失+预测框的回归损失

(1)分类损失预测21个类,1个背景类+20个物体类;而预测框只计算物体类的回归损失(为了避免大量的背景框导致的过拟合)

(2)平滑的L1损失:相比于L2损失函数,其对离群点、异常值不敏感,可控制梯度的量级使训练时不容易跑飞

(5)SVD加速

在全连接层使用SVD分解来减少计算时间,参考:Fast R-CNN论文详解-CSDN博客

4.总结

1.继承了SPP的思想,使用ROI池化,解决了RCNN的一大痛点;

2.并行训练两个fc的输出,实现了端到端的目标检测模型(个人认为相较于SPP-Net最大的提升)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/526254.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【数据库事务并发问题】脏读、丢失修改、不可重复读、幻读

文章目录 一、脏读二、丢失修改三、不可重复读四、幻读 一、脏读 第二个事务读了①修改的数据后,前一个事务回滚了 一个事务读取数据并且对数据进行了修改,这个修改对其他事务来说是可见的,即使当前事务没有提交。这时另外一个事务读取了这个…

幸运数(蓝桥杯)

该 import java.util.*; public class Main {public static void main(String[] args) {Scanner scannew Scanner(System.in);int cnt0;for(int i1;i<100000000;i) {String si"";int lens.length();if(len%2!0) continue;int sum10; //左边int sum20; //右边fo…

【Mybatis】Mybatis 二级缓存全详解教程

【Mybatis-Plus】Mybatis-Plus 二级缓存全详解 一&#xff0c;Mybatis-Plus介绍 MyBatis-Plus&#xff08;简称MP&#xff09;是一个基于 MyBatis 的增强工具&#xff0c;它简化了 MyBatis 的开发&#xff0c;并且提供了许多便利的功能&#xff0c;帮助开发者更高效地进行持久…

申请专利有用吗 好处

申请专利&#xff1a;一项值得考虑的策略 随着科技的快速发展和市场竞争的日益激烈&#xff0c;创新成为了企业或个人取得竞争优势的关键。在这样的背景下&#xff0c;申请专利成为了许多创新者保护自己创意和技术的重要手段。 申请专利真的有用吗&#xff1f; 申请专利可以…

CS162 Operating System笔记

What is an Operating System? it’s typically a special layer of software that provides the application access to hardware resources.So.it’s convenient abs fractions of complex hardware devices.

数位递增数-第12届蓝桥杯选拔赛Python真题精选

[导读]&#xff1a;超平老师的Scratch蓝桥杯真题解读系列在推出之后&#xff0c;受到了广大老师和家长的好评&#xff0c;非常感谢各位的认可和厚爱。作为回馈&#xff0c;超平老师计划推出《Python蓝桥杯真题解析100讲》&#xff0c;这是解读系列的第46讲。 数位递增数&#…

【软考】23种设计模式详解,记忆方式,并举例说明

23种设计模式详解&#xff0c;举例说明 一、创建型模式1.1、抽象工厂模式&#xff08;Abstract Factory&#xff09;1.1.1、简介1.1.2、意图与应用场景1.1.3、结构1.1.4、优缺点1.1.4、示例代码&#xff08;简化版&#xff09; 1.2、建造者模式&#xff08;Builder&#xff09;…

微信小程序-接入sse数据流并实现打字机效果( ChatGPT )

从流中获取的数据格式如下 小程序调用SSE接口 const requestTask wx.request({url: xxx, // 需要请求的接口地址enableChunked: true, // enableChunked必须为truemethod: "GET",timeout: 120000,success(res) {console.log(res.data)},fail: function (error) {//…

DNFOMP:杂乱环境中自动驾驶汽车导航的动态神经场最优运动规划器

DNFOMP&#xff1a;杂乱环境中自动驾驶汽车导航的动态神经场最优运动规划器 附赠自动驾驶学习资料和量产经验&#xff1a;链接 摘要 本文介绍了DNFOMP&#xff1a;杂乱环境中自动驾驶汽车导航的动态神经场最优运动规划器。动态变化环境中的运动规划是自动驾驶中最复杂的挑战之…

fakebook-攻防世界

题目 先目录扫描一下 dirseach 打开flag.php是空白的 访问robots.txt,访问user.php.bak <?php class UserInfo { public $name ""; public $age 0; public $blog ""; public function __construct($name, $age, $blog) { …

01 _ 分布式缘何而起:从单兵,到游击队,到集团军

这里先来聊聊什么是分布式。 与其直接用些抽象、晦涩的技术名词去给分布式下一个定义&#xff0c;还不如从理解分布式的发展驱动因素开始&#xff0c;我们一起去探寻它的本质&#xff0c;自然而然地也就清楚它的定义了。 这里将介绍分布式的起源&#xff0c;是如何从单台计算…

基于java+springboot+vue实现的健身房管理系统(文末源码+Lw)23-223

摘 要 传统办法管理信息首先需要花费的时间比较多&#xff0c;其次数据出错率比较高&#xff0c;而且对错误的数据进行更改也比较困难&#xff0c;最后&#xff0c;检索数据费事费力。因此&#xff0c;在计算机上安装健身房管理系统软件来发挥其高效地信息处理的作用&#xf…

Python异常值分析

异常值分析是检验数据是否有录入错误以及含有不合常理的数据。忽视异常值的存在是十分危险的&#xff0c;不加剔除地把异常值包括进数据的计算分析过程中&#xff0c;对结果会产生不良影响&#xff1b;重视异常值的出现&#xff0c;分析其产生的原因&#xff0c;常常成为发现问…

Grafana告警(邮件)自定义模板配置

一年前给客户部署配置过grafana&#xff0c;告警配置也是用的原始的&#xff0c;客户在使用过程中只需要一些核心点信息&#xff0c;想要实现这个就需要用Grafana的自定义告警模板以及编辑邮件模板。 通知模板 模板信息的配置中查阅了相关资料&#xff0c;自己组装了一套&…

获取淘宝销量API商品详情页原数据APP接口:测试key获取(含测试链接)

淘宝/天猫获得淘宝app商品详情原数据 API 返回值说明 item_get_app-获得淘宝app商品详情原数据 公共参数 名称类型必须描述keyString是调用key&#xff08;必须以GET方式拼接在URL中&#xff09;secretString是调用密钥api_nameString是API接口名称&#xff08;包括在请求地…

静态中间继电器 HJZ-J908 AC380V 导轨安装 JOSEF约瑟

系列型号&#xff1a; HJZ-J902静态中间继电器&#xff1b;HJZ-J905静态中间继电器&#xff1b; HJZ-J907静态中间继电器&#xff1b;HJZ-J907L静态中间继电器&#xff1b; HJZ-J908静态中间继电器&#xff1b;HJZ-J909静态中间继电器&#xff1b; HJZ-J910静态中间继电器&…

以XX公司为例的Acrel1000DP分布式光伏监控系统在5.98MW分布式光伏10KV并网系统的应用

分布式光伏监控系统 目前&#xff0c;光伏电站中装设的电力二次系统主要有光伏后台监控系统、计量系统、远动通讯屏、调度数据网屏、防孤岛保护装置、电能质量在线监测装置、频率电压紧急控制装置等&#xff0c;部分光伏电站还建设有向发电集团传输数据的系统。 分布式光伏监…

基于 SSM 物业管理系统设计与实现(内附设计LW + PPT+ 源码下载)

摘 要 进入二十一世纪以来&#xff0c;计算机技术蓬勃发展&#xff0c;人们的生活发生了许多变化。很多时候人们不需要亲力亲为的做一些事情&#xff0c;通过网络即可完成以往需要花费很多时间的操作&#xff0c;这可以提升人们的生活质量。计算机技术对人们生活的改变不仅仅包…

[C++][算法基础]模拟散列表(哈希表)

维护一个集合&#xff0c;支持如下几种操作&#xff1a; I x&#xff0c;插入一个整数 x&#xff1b;Q x&#xff0c;询问整数 x 是否在集合中出现过&#xff1b; 现在要进行 N 次操作&#xff0c;对于每个询问操作输出对应的结果。 输入格式 第一行包含整数 N&#xff0c;…

JS小项目-计算器

需求&#xff1a;根据素材制作如图所示页面&#xff0c;在页面输入第一个数和第二个数&#xff0c;单击&#xff08;加&#xff09;、&#xff0d;&#xff08;减&#xff09;、&#xff0a;&#xff08;乘&#xff09;、&#xff0f;&#xff08;除&#xff09;按钮时&#xf…