深度学习基础——SSD目标检测

SSD网络介绍

使用多个特征图作为特征预测层。

SSD (Single Shot MultiBox Detector)于2016年提出。当网络输入为300×300大小时,在VOC2007测试集上达到74.3%的mAP;当输入是512×512大小时,达到了76.9%的mAP
 

SSD_Backbone部分介绍

不变的部分

特征提取网络沿用了VGG-16(网络结构如图所示)的Conv5_3层之前的所有结构

改变的部分

将VGG-16的第5个池化层(pool_5)从2×2,步长2改为3×3,步长1(修改后的pool_5特征图的大小不变)
将VGG-16的两个全连接层(FC6 & FC7)改为两个卷积层(Conv6 & Conv7)
增加了4个卷积层

        随着网络层数的加深,提取到的特征信息抽象程度也随之加大,高层语义信息中小目标物体的特征信息会减少,因此,如图所示,网络选择用较大的特征图检测较小的目标物体,用语义信息丰富的特征图检测较大的物体。选取Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2的特征图作为预测特征层,从而实现针对不同大小物体的目标检测。

 

不同大小特征图检测不同大小目标的物体 

        左图中“猫”相较与“狗”的特征较小,所以对于“猫”这类尺寸较小的物体的检测来说选用浅层特征图,“狗”这类尺寸较大的物体用高层、含语义信息丰富的特征图来检测。
 

默认框生成机制

        类似于Faster R-CNN网络中的锚框(Anchor)生成机制用来检测图片中的目标物体,SSD中有默认框(Default Box)生成机制。在每个预测特征层的每个cell上都会生成默认框。

        左图为默认框生成效果的简单示例,黄色点为当前cell的中心点,蓝框的宽高比为1:3和3:1、绿框的宽高比为1:2和2:1、红框的宽高比为1:1
 

默认框尺寸的计算公式如下所示: 

 

式中sk为当前预测层的默认框的尺寸,smin为默认框最小尺寸,smax为默认框最大尺寸,作为网络超参数设置。m为预测特征层的数量,在SSD300网络中m为6。
默认框宽高比有1:1、1:2、2:1、1:3、3:1共5种设置,不同比例下的宽、高计算公式如下所示:

 

 式中wak、hak分别为第k个预测特征层在比例ar下对应的宽、高。对于宽高比为1:1的默认框,其对应的尺寸除了当前预测特征层的默认框尺寸sk之外,还有sk' = √(SkSk+1)

在SSD_VGG16官方源代码中默认框的设置如下表所示:

        默认框中心坐标点设置过程如下图所示。将当前特征图进行坐标遍历,图中黄色点为当前遍历到的特征图坐标点,将该点的横纵坐标值各加0.5,再分别对整个原图尺寸进行归一化操作,即得到cell相对于原图的中心坐标点,也是默认框的中心坐标点,图中绿色点为当前像素(cell)的中心坐标点。

 以计算中心坐标点的y轴坐标值为例:

  • 先将当前层特征图的高网格点化
  • 再加0.5的偏移值
  • 再乘以特征图上一步对应在原图上的跨度
  • 最后除以原图的高
  • 得到相对于原图的中心点

 正负样本匹配

正负样本选取准则:

  • 选择与Ground Truth交并比最大的默认框所对应的IOU值;
  • 将与当前标注信息中的每个Ground Truth交并比最大的默认框所对应的IOU值设为2,即选为正样本。若不进行这一步,将会有Ground Truth未匹配到默认框;
  • 将与Ground Truth交并比大于0.5的默认框也设为正样本。

假设当前5个默认框与3个真值的交并比如下:

(1)选择与GT0框交并比最大的默认框的索引值记为idx
(2)将idx所对应的IOU值置为2.0
(3)将与GT交并比大于0.5的默认框均置为正样本

SSD的损失函数

 总损失函数计算公式如下所示,式中L(·)为总损失函数,N为被选取出来的默认框的个数,包括正样本和负样本,参数a为1

 坐标回归损失函数如下所示:

式中l为预测的坐标偏移量,g为默认框与Ground Truth框d的坐标偏移量。分别为中心点坐标cx、cy的偏移损失分别为宽度w和高度h的缩放损失。计算坐标回归损失的时候只计算正样本的回归损失。
类别损失函数如下所示:


 

预测器的实现

        3×3卷积核实现类别分数预测以及坐标偏移量回归。对于每个预测特征层上的每个位置,会有k个默认框,对每个默认框进行预测,所以输出大小为:

m × n × k × (C+4)

        其中, m,n为当前特征预测层的宽高,k为预测特征层每个位置上产生的默认框的个数,c为加上背景后的类别数,4为边界框坐标(x, y,  OMEGA, h)回归参数的个数.

        定义MobileNetV2的反向残差结构(反向残差结构如下图所示,(a)为残差结构,(b)为反向残差结构)

反向残差结构

  • 先通过一个1x 1的普通卷积将h × w × d大小的特征图升维得到h×w× td大小的特征图,t对应代码中的扩展因子(expand _ratio)参数
  • 再通过3×3的深度方向的卷积(Depthwise Convolution)操作,所得到的特征图大小为

  • 最后通过1× 1的点卷积(Pointwise Convolution)降维,此时使用的激活函数不是ReLU6激活函数,而是线性激活函数反向残差结构中只有当步距(stride=1),且输入与输出特征维度相同时,会有和残差结构中的shortcut连接

当扩展因子为1时,反向残差结构第一层没有1×1的普通卷积。

        下图为MobileNetV2网络结构示意图,图中t为扩展因子,c为输出特征图深度,n为反向残差块重复次数,s为每个反向残差层中第一个反向残差块的步距

 Focal Loss损失函数

其中α,为平衡正负样本因子,y为平衡难例因子
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/400136.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

CMake的简单使用

一、一个最简单的CMake项目 在Ubuntu上使用CMake构建一个最简单的项目。 1. 安装CMake 首先安装CMake,这里使用的是Ubuntu系统。 sudo apt-get install cmake2. 编写源程序 编写代码,新建文件main.c。 // main.c #include "stdio.h"int …

国内最全的AIGC大模型软件都是免费的,不比chatgpt香吗?我都为你准备好了,又可以提前下班了

无极低码 :https://wheart.cn 豆包(云雀大模型)、文心一言、悟空、星火、百度文库、360智脑、天宫AI、智谱清言(GLM大模型)、百川模型(百川智能)、日日新(商汤)、上海人工智能实验室(书生通用大模型)、夸克。 国内最全的AIGC大模型软件都是…

devOps系列(七)grafana+prometheus监控告警

前言 作者目前打算分享一期关于devOps系列的文章,希望对热爱学习和探索的你有所帮助。 文章主要记录一些简洁、高效的运维部署指令,旨在 记录和能够快速地构建系统。就像运维文档或者手册一样,方便进行系统的重建、改造和优化。每篇文章独立…

微信小程序 -- npm 支持

目录 npm 支持 1. 构建 npm 2. 自定义构建 npm 3. Vant 组件的使用方式 4. Vant 组件的样式覆盖 npm 支持 1. 构建 npm 目前小程序已经支持使用 npm 安装第三方包,但是这些 npm 包在小程序中不能够直接使用,必须得使用小程序开发者工具进行构建后才…

【力扣 - 二叉树的直径】

题目描述 给你一棵二叉树的根节点,返回该树的 直径 。 二叉树的 直径 是指树中任意两个节点之间最长路径的 长度 。这条路径可能经过也可能不经过根节点 root 。 两节点之间路径的 长度 由它们之间边数表示。 提示: 树中节点数目在范围 [1, 10000] 内…

电流回路是分析电路图的基础,看看这个电路你会更明白

任何电器要想开始工作,都离不开供电,而要供电就离不开电源。电源有两个极即:电源正极()、电源负极(-),电源要实现向负载供电,必须是电源正极()流出电流经负载再流回电源负极(-),这时可以说这个电路构成了供电电流回路了…

tokenizer添加token的详细demo

文章目录 前言一、tokenizer添加token二、结果比较1、手动添加token2、代码验证添加token3、结果显示 前言 我们在Hugging Face不同模型对应的tokenizer映射字典,不存在某些专有词汇,我们需要新增对应的token,以便我们使用对应模型处理不存在…

消息中间件-面试题

MQ选择 一、Kafka 1、消息队列如何保证消息可靠性 消息不重复 生产者控制消费者幂等消息不丢失 生产者发送,要确认broker收到并持久化broker确认消费者消费完,再删除消息2、kafka是什么 Kafka是一种高吞吐量、分布式、基于发布/订阅的消息中间件,是Apache的开源项目。broke…

打造智能物品租赁平台:Java与SpringBoot的实践

✍✍计算机编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡ Java实战 |…

每日一题——LeetCode1470.重新排列数组

方法一 把数组的前n项看做一个数组&#xff0c;后n项看做一个数组&#xff0c;两个数组循环先后往res里push元素 var shuffle function(nums, n) {let res[]for(let i0;i<n;i){res.push(nums[i])res.push(nums[in])}return res }; 消耗时间和内存情况&#xff1a; 方法二…

WEB APIs (4)

日期对象 实例化 代码中出现new关键字&#xff0c;创建时间对象 得到当前时间&#xff1a; const date new Date&#xff08;&#xff09; 获得指定时间&#xff1a; const date new Date&#xff08;‘2022-5-1’&#xff09; 方法作用说明getFullYear()获取年份获取…

【笔试强训错题选择题】Day1.习题(错题)解析

文章目录 前言 错题题目 错题解析 总结 前言 错题题目 1. 2. 3. 错题解析 1. 解析&#xff1a;D 解题思路&#xff1a; 本题有一个父类Base&#xff1b;同时有一个子类Child继承父类Base&#xff1b; 本题考察的是子类中的方法要与父类的方法构成重写的操作&#xff1b; 相…

pikachu靶机-XSS

XSS&#xff1a; XSS&#xff08;跨站脚本&#xff09;概述 Cross-Site Scripting 简称为“CSS”&#xff0c;为避免与前端叠成样式表的缩写"CSS"冲突&#xff0c;故又称XSS。一般XSS可以分为如下几种常见类型&#xff1a; 1.反射性XSS; 2.存储型XSS; 3.DOM型XSS; …

二级等保需要什么样的SSL证书?

根据等级保护对象在国家安全、经济建设、社会生活中的重要程度&#xff0c;以及一旦遭到破坏、丧失功能或者数据被篡改、泄露、丢失、损毁后&#xff0c;对国家安全、社会秩序、公共利益以及公民&#xff0c;法人和其他组织的合法权益的侵害程度等因素&#xff0c;等级保护对象…

Vue | (三)使用Vue脚手架(下)| 尚硅谷Vue2.0+Vue3.0全套教程

文章目录 &#x1f4da;Vue 中的自定义事件&#x1f407;使用方法&#x1f407;案例练习&#x1f407;TodoList案例优化 &#x1f4da;全局事件总线&#x1f407;使用方法&#x1f407;案例练习&#x1f407;TodoList案例优化 &#x1f4da;消息订阅与发布&#x1f407;使用方法…

Java面试题:synchronized专题

王有志,一个分享硬核Java技术的互金摸鱼侠 加入Java人的提桶跑路群:共同富裕的Java人 今天是《面霸的自我修养》的第3弹,内容是Java并发编程中至关重要的关键字synchronized,作为面试中的“必考题”,这部分是你必须要充分准备的内容,接下来我们就一起一探究竟吧。数据来源…

React 事件处理 ( this问题 参数传递 ref)

React事件的命名采用小驼峰方式&#xff08;cameCase&#xff09;,而不是小写 使用JSX语法时你需要传入一个函数作为事件处理函数&#xff0c;而不是一个字符串 你不能通过返回false 的方式阻止默认行为。你必须显示式的使用preventDefault 1 this 需要谨慎对待JSX回调函数中的…

再见,Anaconda的安装和配置老大难问题!

一、什么是Anaconda&#xff1f; 1. 简介 Anaconda&#xff08;官方网站&#xff09;就是可以便捷获取包且对包能够进行管理&#xff0c;同时对环境可以统一管理的发行版本。Anaconda包含了conda、Python在内的超过180个科学包及其依赖项。 2. 特点 Anaconda具有如下特点&a…

以太坊 Dencun 升级与潜在机会

撰文&#xff1a;Biteye 核心贡献者 Fishery Isla 文章来源Techub News专栏作者&#xff0c;搜Tehub News下载查看更多Web3资讯。 以太坊网络升级 Dencun 测试网版本在 2024 年 1 月 17 日上线了 Goerli 测试网&#xff0c;1 月 30 日成功上线了 Sepolia 测试网&#xff0c;D…

使用python构建Android,探索跨平台应用开发Kivy框架

使用python构建Android&#xff0c;探索跨平台应用开发Kivy框架 1. 介绍Kivy框架 Kivy是什么&#xff1f; Kivy是一个开源的Python跨平台应用程序开发框架&#xff0c;旨在帮助开发者快速构建创新的、可扩展的移动应用和多点触控应用。Kivy采用MIT许可证&#xff0c;允许开发…