yolov3 详解

文章目录

  • 1、yolov3原理
  • 2、损失函数
  • 3、yolov3改进
  • 4、使用opencv实现yolov3
  • 5、卷积神经网络工作原理

1、yolov3原理

参考视频

darknet53:52个卷积层和1个全联接层
输入图像为416416
13
13 -》 下采样32倍
2626 -》 下采样16倍
52
52 -》 下采样8倍

在这里插入图片描述

由标注框中心点落在的grid cell中与9个anchors,IOU最大那个去预测,也称正样本,其他非最大的就不是正样本。

正样本:anchors和标记框的IOU最大,他就是正样本
不参与:anchors和标记框的IOU高于某一个阈值,但是不是最大的就忽略
负样本:一个anchors和标记框的IOU小于某一个阈值,负样本
正样本会在所有项中计算损失产生贡献(定位、置信度、分类)
负样本产生贡献(置信度)

在这里插入图片描述

2、损失函数

1、每个格子是一个grid cell
2、虚线的黑框是anchors
3、实线的蓝框是预测框是以anchors为基准偏移的(以旁边公式)
由tx、ty、th、tw反向推理出来最终结果,sigmoid函数的意义保证输出是0-1之间
cx、cy是归一化之后的长宽

在这里插入图片描述

(cx,cy):该点所在网格的左上角距离最左上角相差的格子数。
(pw,ph):先验框的边长
(tx,ty):目标中心点相对于该点所在网格左上角的偏移量
(tw,th):预测边框的宽和高
σ:激活函数,论文作者用的是sigmoid函数,[0,1]之间概率,之所以用sigmoid取代之前版本的softmax,原因是softmax会扩大最大类别概率值而抑制其他类别概率值 ,图解如下

在这里插入图片描述

评估指标:yolov3精准定位较差,所以在map@0.5:0.95上较差
map@0.5:IOU阈值为0.5的时候,各个类别PR曲线面积的均值
置信度、IOU阈值
在这里插入图片描述在这里插入图片描述
在这里插入图片描述

3、yolov3改进

多尺度目标检测:
输入任意尺度,输出3中尺度的feature map,yolov3通过多尺度融合,
改进了小物体和密集物体的检测问题:
1、增加了grid cell的个数
2、预先设置anchor
3、多尺度预测,及发挥了深层网络特化语义特征,又整合了浅层网络细腻度像素结构信息
4、损失函数惩罚小框项
5、网络结构(骨干网络、跨层连接)

4、使用opencv实现yolov3

import cv2
import numpy as np

# 倒入python绘图函数
import matplotlib.pyplot as plt
# 使用ipython的魔术方法,将绘制出的图像直接嵌入在notebook单元格中
def look_img(img):
  # opencv读图片的是BGR、matplotlib是RGB
  img_RGB = cv2.cvtColor(img,cv2.COLOR_BGR2RGB)
  plt.imshow(img_RGB)
  plt.show()


# 1、导入预训练YOLOv3模型
net = cv2.dnn.readNet('yolov3.weights','yolov3.cfg')

# 2、导入coco数据集80个类别
with open('coco.names','r') as f:
  classes = f.read().splitlines()

# 3、导入图像
img = cv2.imread('bus.jpg')
look_img(img)

# 4、对图像预处理(将所有像素除以255,尺寸改成416,416,绿色通道和蓝色通道置换,不进行裁剪)
blob = cv2.dnn.blobFromImage(img,1/255,(416,416),(0,0,0),swapRB=True,crop=False)
blob.shape

# 5、输入到网络
net.setInput(blob)

# 获取网络所有层名字
net.getLayerNames()

# 获取三个尺寸输出层的索引号
net.getUnconnectedOutLayers()

#. 获取三个尺度输出层的名称
layerNames = net.getLayerNames()
output_layers_names = [layerNames[i - 1] for i in net.getUnconnectedOutLayers()]
output_layers_names

# 6、输入yolov3神经网络,前向推断预测
prediction = net.forward(output_layers_names)


# 7、获取yolov3三个尺度的输出结果
prediction[0].shape

# 8、从三个尺度输出结果中解析所有预测框信息
# 存放预测框坐标
boxes = []

# 存放置信度
objectness = []

# 存放类别概率
class_probs = []

# 存放预测框类别索引号
class_ids = []

# 存放预测框类别名称
class_names = []


for scale in prediction: # 遍历三种尺度
  for bbox in scale: # 遍历每个预测框
    obj = bbox[4] # 获取该预测框的confidence)(objectness)
    class_scores = bbox[5:] # 获取该预测框coco数据集80个类别的概率
    class_id = np.argmax(class_scores) # 获取概率最高类别的索引号
    class_name = classes[class_id] # 获取概率最高类别名称
    class_prob = class_scores[class_id] # 获取概率最高类别的概率

    # 获取预测框中心点坐标,预测框宽高
    if np.isnan(bbox[0]):
      bbox[0] = 0
    if np.isnan(bbox[1]):
      bbox[1] = 0
    if np.isnan(bbox[2]):
      bbox[2] = 0
    if np.isnan(bbox[3]):
      bbox[3] = 0
    center_x = int(bbox[0] * width)
    center_y = int(bbox[1] * height)
    w = int(bbox[2]*width)
    h = int(bbox[3]*height)

    # 计算预测框左上角坐标
    x = int(center_x - w/2)
    y = int(center_y - h/2)

    # 将每个预测框的结果存放至上面的列表中
    boxes.append([x,y,w,h])
    objectness.append(float(obj))
    class_ids.append(class_id)
    class_names.append(class_name)
    class_probs.append(class_prob)

len(boxes)

# 将预测框置信度objectness与各类别置信度class_pred相乘,获得最终该预测框的置信度confidence
confidences = np.array(class_probs) * np.array(objectness)
len(confidences)

# objectness、class_pred、confidence三者的关系
plt.plot(objectness,label='objectness')
plt.plot(class_probs,label='class_probs')
plt.plot(confidences,label='confidences')
plt.legend()
plt.show()


# 置信度过滤、非极大值抑制NMS
CONF_THRES = 0.1 # 制定置信度阈值、阈值越大、置信度过滤越强(小于这个阈值的所有框剔除掉)
NMS_THRES = 0.4 # 指定NMS阈值,阈值越小,NMS越强(IOU大于这个阈值的框,其中较小的剔除掉,减少重复预测)

indexes = cv2.dnn.NMSBoxes(boxes,confidences,CONF_THRES,NMS_THRES)

# 过滤完剩下的框
len(indexes.flatten())

# 随机给每个预测框生成一种颜色
colors = [[255,0,255],[0,0,255],[0,255,0],[255,0,0]]

# 遍历留下的每一个预测框,可视化
for i in indexes.flatten():
  # 获取坐标
  x,y,w,h = boxes[i]
  # 获取置信度
  confidence = str(round(confidence[i],2))
  # 获取颜色,画框
  color = colors[i%len(colors)]
  cv2.rectangle(img,(x,y),(x+w,y+h),color,8)

  # 写类别名称置信度
  # 图片、添加的文字、左上角坐标、字体、字体大小、颜色、字体粗细
  string = '{} {}'.format(class_names[i],confidence)
  cv2.putText(img,string,(x,y+20),cv2.FONT_HERSHEY_PLAIN,3,(255,255,255),5)

5、卷积神经网络工作原理

卷积核(是一种特征)对原图进行卷积,是把原图中包含这种特征提取出来
1、卷积计算(通过卷积核在图像上滑动计算,相乘、求和、取平均)结果等于1表示滤框中的值和卷积核的值完全一样

计算padding填充多少?
h2是卷积之后的高度,h1是原图像高度,f卷积核高度,p是填充多少,s是卷积核步长
h2 = (h1 - F + 2p)/s + 1

计算一下
// 在不进行填充的情况下,5*5的图像,在经过3*3卷积之后的结果就变成3*3了5-3+0/1 + 1 = 3

// 如果想保证原图像不变就需要进行padding操作
5 = (5-3+2p)/1 + 1
p = 1
// 所以需要在原图像周围补充一圈,具体补充什么值可以通过borderType进行设置

在这里插入图片描述

对原图整个做一遍扫描就得到这个图feature map
原图中包含卷积核的特征提取到这个feature map中来

在这里插入图片描述

在这里插入图片描述

池化
我们对原图提取出来的feature map进行池化(选取区域内最大值作为这个卷积核的值)
在这里插入图片描述

ReLUs将图中负数磨成0(激活函数)

在这里插入图片描述

经过卷积->磨0->池化之后就是这个样子了
在这里插入图片描述

在这里插入图片描述

全连接层
将feature map进行排序,将每一个乘上不同权重最终得到结果在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

通过大量图片去训练这个模型,通过反向传播的方法,神经网络的到一个结果,将其和真实的结果进行比较误差计算(损失函数),我们的目标就是将损失函数降到最低,通过修改卷积核的参数和全连接每一层的权重来进行微调,使得损失函数最小。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/703226.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

图形学初识--定义摄像机类(实战)

文章目录 前言正文定义摄像机的操作方式键盘操作鼠标操作 定义摄像机类核心数据视图矩阵回顾:模拟摄像机的移动模拟摄像机的旋转 结尾:喜欢的小伙伴点点关注赞哦! 前言 前面一些章节讲解了图形学的比较原理性的内容,这一章节咱就实战一下&am…

Vue2后台管理:项目开发全流程(一)

​🌈个人主页:前端青山 🔥系列专栏:vue篇 🔖人终将被年少不可得之物困其一生 依旧青山,本期给大家带来vue篇专栏内容:Vue2后台管理:项目开发全流程(一) 目录 Vue项目开发 项目架构搭建 1、创建项目 2、…

SolidWorks 2016 SP5安装教程

软件介绍 Solidworks软件功能强大,组件繁多。 Solidworks有功能强大、易学易用和技术创新三大特点,这使得SolidWorks 成为领先的、主流的三维CAD解决方案。 SolidWorks 能够提供不同的设计方案、减少设计过程中的错误以及提高产品质量。SolidWorks 不仅…

开发移动端常见的问题:VW适配问题,基于 postcss 插件 实现项目vw适配

当你开发移动端的时候有一个问题是避免不了的,那就是当屏幕大小无论怎么变化时,内部尺寸也要随之发生改变,也就是适配问题。这里我们讲的是最新的VW适配,也就是用vw作为单位,100vw是整个页面的大小。而在开发的设计图中…

Mysql学习(九)——存储引擎

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 七、存储引擎7.1 MySQL体系结构7.2 存储引擎简介7.3 存储引擎特点7.4 存储引擎选择7.5 总结 七、存储引擎 7.1 MySQL体系结构 连接层:最上层是一些客户…

SAP SO定价上面2个ZPR1 其中一个不活跃

查看价格表 取定价的时候排除不活动的 即可

永磁同步电机滞环电流控制(PI双闭环)matlab仿真模型

微♥“电击小子程高兴的MATLAB小屋”获取模型 1.滞环电流控制的原理 将给定的电流信号与反馈的电流信号进行比较,然后控制它俩之间的差值稳定在一个滞环范围内,若超出范围,则进行相应的调节操作。 操作如下叙述:假设以三相中的A相…

DockerCompose+Jenkins+Pipeline流水线打包SpringBoot项目(解压安装配置JDK、Maven等)入门

场景 DockerCompose中部署Jenkins(Docker Desktop在windows上数据卷映射): DockerCompose中部署Jenkins(Docker Desktop在windows上数据卷映射)-CSDN博客 DockerJenkinsGiteeMaven项目配置jdk、maven、gitee等拉取代…

论文图片颜色提取

论文绘图的时候有些颜色不知道怎么选取,参考其他论文,将其他论文中的颜色提取下来,用取色器识别出来,记录如下: 颜色代码:#BEAED4 190,174,212 颜色代码:#C4CBCB 196,203,203 颜色代码&am…

51单片机实验05 -点阵

目录 一,熟悉矩阵led小灯 1,点亮矩阵的一只led 2,点亮矩阵的一排led 3,点亮矩阵的全部led static 关键字 unsigned 关键字 4,点阵的静态显示 2)心形矩阵显示代码 3)效果 二,课…

6.nginx负载均衡

说明 增加服务器的数量,将请求分发到各个服务器上。 将原来请求集中到单个服务器上的情况改为将请求分发到多个服务器上。 案例 浏览器请求地址http://ip/edu/a.html, 负载均衡的效果,平分到8080和8081两台服务上中。 准备工作 tomcat8080配置 tomcat8081配置 直接通过…

----几种接口的使用---

Compareable接口 对于给数组中的变量成员排序,我们能想到用sort,根据成员之间的大小进行排序,那么如果数组中的成员是对象的话,单单只是用sort去排序肯定是步成功的,因为并不知道要根据什么去排序, 这时要…

【C++】编译

三、C编译 前面给大家演示了如何从写C代码到编译代码再到执行代码的全过程。这个过程中非常重要的编译环节,被我们一个按钮或者一个ctrlF7快捷键就给带过了。其实这个环节非常重要,如果你非常了解这个环节,你开发源代码就会更加自信和清醒&a…

CorelDRAW 2024开启设计新纪元,终身永久版与中文破解版的全面解析及安装攻略

当我们谈论图形设计软件时,CorelDRAW无疑是一个响亮的名字。作为一款强大的矢量图形编辑工具,它以其丰富的功能和用户友好的界面赢得了全球设计师的喜爱。随着CorelDRAW 2024的发布,这个备受瞩目的版本带来了前所未有的创新特性,进…

Vulnhub-DC-1,7

靶机IP:192.168.20.141 kaliIP:192.168.20.128 网络有问题的可以看下搭建Vulnhub靶机网络问题(获取不到IP) 前言 1和7都是Drupal的网站,只写了7,包含1的知识点 信息收集 用nmap扫描端口及版本号 进入主页查看作者给的提示,不是暴力破解的…

ROS2底层机制源码分析

init ->init_and_remove_ros_arguments ->init ->Context::init 保存初始化传入的信号 ->install_signal_handlers→SignalHandler::install 开线程响应信号 ->_remove_ros_arguments 移除ros参数 ->SingleNodeManager::instance().…

条件判断if语句与case语句

一、条件测试 test命令进行条件测试,然后根据返回值来判断条件是否成立。 常用操作符: -e :既可以测试文件又可以测试目录是否存在 -d :测试目录是否存在 -f :测试文件是否存在 -r :测试当前用户是否…

前端加载 动画特效

效果图: 完整代码: <!DOCTYPE html> <html> <head><meta charset="UTF-8" /><title>加载动画</title><style type="text/css">/* 设置页面背景颜色 */body {background: #ECF0F1;}/* 定义加载动画容器的样式…

抖店没人做了?不是项目不行了,而是商家们都换思路去玩了

我是王路飞。 有没有发现现在很多抖店新手都在吐槽&#xff0c;抖店不好做了&#xff0c;做不起来&#xff0c;没人做了&#xff0c;太内卷了...... 对这种做不起来还在怪项目本身的&#xff0c;一定要离他远一点&#xff0c;省得被他的负能量给影响到自己的状态。 任何项目…

怎么学习汇川Codesys PLC教程?

前言 各位好&#xff0c;我在B站和抖音上都有发布视频的&#xff0c;搜索我的名称“阿凡工控分享”即可。在CSDN上发表文章也是想把我的一点见解和经验分享出来&#xff0c;进一步的方便大家进行学习。 我是正文 本文主要也是为了方便大家学习汇川的Codesys PLC而制作的&…