YOLOv8 多种任务网络结构详细解析 | 目标检测、实例分割、人体关键点检测、图像分类

前言

  本文仅根据模型的预测过程,即从输入图像到输出结果(图像预处理、模型推理、后处理),来展现不同任务下的网络结构,OBB 任务暂不包含。

Backbone

1. yolov8m

在这里插入图片描述

2. yolov8m-p2

在这里插入图片描述

3. yolov8m-p6

在这里插入图片描述

4. 细节

  • 图中 CBS = Conv2d + BatchNorm2d + SiLU,上方为卷积参数对应 size, stride, padding
  • 各模块细节至 附录 - Block Modules 查看
  • yolov8m-p2 通过增加一次上采样,与 2-P2 融合得到针对小目标的 P2 输出。
  • yolov8m-p6 通过增加一次下采样和一次上采样,与 10-P6 融合得到针对大目标的 P6 输出;因为多了一次下采样需要图像的分辨率能被64整除,所以图像预处理输出的分辨率有所不同。
  • yolov8m-p6SPPF 之后的 C2f 模块替换为了 C2 模块。
  • SPPF 之前的 C2f 模块中的 Bottleneck 启用 add,而其之后的 C2f / C2 中的 Bottleneck 未启用 add

5. Image Preprocess

在这里插入图片描述
  上图按 yolov8m-p6 绘制,LetterBox 环节先保持长宽比将图像较长边缩放至 640,再对四周做填充,使 h , w h,w h,w 都可被模型最大下采样倍率整除( p 6 → 2 6 = 64 \mathrm{p6}\to2^6=64 p626=64

img = cv2.copyMakeBorder(
	img, top, bottom, left, right, cv2.BORDER_CONSTANT, value=(114, 114, 114)
)

Head

1. Detect

在这里插入图片描述
  Detect 部分尤为重要,Segment 和 Pose 都包含 Detect Head,依赖目标检测的结果。

  实际上 Concat 后获得的 x 0 , x 1 , x 2 x_0, x_1, x_2 x0,x1,x2 就是训练阶段网络的输出,后续的步骤中不包含网络中需要训练的参数。
  Detect head 通过两个分支 cv2cv3 分别得到检测框和分类的输出。分类的输出较好理解,在后续步骤中通过 Sigmoid 直接得到对应 80 个类别的置信度。检测框的部分需要结合 DFL 理解。

class DFL(nn.Module):
    def __init__(self, c1=16):
        super().__init__()
        self.conv = nn.Conv2d(c1, 1, 1, bias=False).requires_grad_(False)
        x = torch.arange(c1, dtype=torch.float)
        self.conv.weight.data[:] = nn.Parameter(x.view(1, c1, 1, 1))
        self.c1 = c1
        
    def forward(self, x):
        b, _, a = x.shape  # batch, channels, anchors
        return self.conv(x.view(b, 4, self.c1, a).transpose(2, 1).softmax(1)).view(b, 4, a)

在这里插入图片描述
  box 中的 64 代表 4 个位置坐标,每个坐标是长度 16 的向量,经过 softmax 得到 16 个概率值;DFL 中卷积参数为固定值 0~15,卷积运算便是与这 16 个概率值做加权求和,最终得到坐标值,其范围也是 [0, 15]

lt, rb = dfl(box).chunk(2, dim=1)
x1y1 = anchor_points - lt
x2y2 = anchor_points + rb

  Anchor:以 x 0 x_0 x0 为例,按其分辨率 80 × 60 80\times60 80×60 绘制一个网格,每个格子边长为 1 1 1,左上角为原点, x x x 轴向右, y y y 轴向下,每个格子的中心点坐标就是 Anchor 坐标,例如左上角坐标为 ( 0.5 , 0.5 ) (0.5,0.5) (0.5,0.5),右下角坐标为 ( 59.5 , 79.5 ) (59.5,79.5) (59.5,79.5)
  从代码中可以看出,DFL 得到的坐标为目标框左上角和右下角坐标与 Anchor 坐标的距离。

Postprocess - NMS

  1. 根据阈值 conf_thres=0.25 筛选出置信度较高的 Anchor
  2. 若数量较多,则选取置信度较高的 max_nms=30000 项参与 NMS
  3. i = torchvision.ops.nms(boxes, scores, iou_thres)
  4. 若数量较多,则选取 i 中前 max_det=300 项作为最终检测结果

2. Segment

在这里插入图片描述
  Segment 添加了一个类似 Detect 中 cv2cv3 的分支 cv4 计算分割结果

  mc 中 6300 代表 Anchor,32 代表 Mask。在 Detect 中每个 Anchor 对应了一个检测结果,mc 则是每个检测结果对应的分割结果 Mask,而 Mask 使用一个长度为 32 的向量表示。
  p 用于将 mc 中的 Mask 解码成常规的 Mask(二值图),具体步骤如下:

  • mc @ p.view(32, -1).sigmoid().view(-1, 160, 120)
    这里的 mc 大小为 [n, 32]n 为经过 NMS 等后处理后最终目标检测的数量,通过矩阵乘法、Sigmoid、Reshape 操作得到了 Mask
  • crop_mask(masks, downsampled_bboxes)
    根据对应的检测结果,将检测框外的 Mask 数值置零
  • F.interpolate(masks, image_shape, mode="bilinear", align_corners=False)
    上采样至原图分辨率
  • masks.gt_(0.5)
    以 0.5 为阈值转为零一矩阵,即最终每个检测目标对应的 Mask

3. Pose

在这里插入图片描述
  上图以 yolov8m-p6 作为 backbone, 51 = 17 × 3 51=17\times3 51=17×3 即 17 个关键点,每个点有 ( x , y , v i s i b l e ) (x,y,\mathrm{visible}) (x,y,visible) 3 个值,visible 代表该关键点是否可见,可视化时会根据阈值(默认 0.25)判断关键点是否可见。

y = kpts.clone()
if ndim == 3:
    y[:, 2::3] = y[:, 2::3].sigmoid()
y[:, 0::ndim] = (y[:, 0::ndim] * 2.0 + (self.anchors[0] - 0.5)) * self.strides
y[:, 1::ndim] = (y[:, 1::ndim] * 2.0 + (self.anchors[1] - 0.5)) * self.strides

  上述代码为图中 decode 过程。Anchor 坐标与 Detect 部分略有不同,anchors - 0.5 可以看作以网格左上角而非中心点作为 Anchor 坐标。 x , y x,y x,y 为距离 Anchor 坐标的一半(为何采用一半?)。

Classify

1. Backbone

在这里插入图片描述

2. Head

在这里插入图片描述

3. Image Preprocess

在这里插入图片描述
Normalize 对图像数据并无影响

附录

1. 模型配置文件 yaml

https://github.com/ultralytics/ultralytics/tree/main/ultralytics/cfg/models

# yolov8.yaml

nc: 80 # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov8n.yaml' will call yolov8.yaml with scale 'n'
  # [depth, width, max_channels]
  n: [0.33, 0.25, 1024] # YOLOv8n summary: 225 layers,  3157200 parameters,  3157184 gradients,   8.9 GFLOPs
  s: [0.33, 0.50, 1024] # YOLOv8s summary: 225 layers, 11166560 parameters, 11166544 gradients,  28.8 GFLOPs
  m: [0.67, 0.75, 768]  # YOLOv8m summary: 295 layers, 25902640 parameters, 25902624 gradients,  79.3 GFLOPs
  l: [1.00, 1.00, 512]  # YOLOv8l summary: 365 layers, 43691520 parameters, 43691504 gradients, 165.7 GFLOPs
  x: [1.00, 1.25, 512]  # YOLOv8x summary: 365 layers, 68229648 parameters, 68229632 gradients, 258.5 GFLOPs

# YOLOv8.0n backbone
backbone:
  # [from, repeats, module, args]
  - [-1, 1, Conv, [64, 3, 2]]  	# 0-P1/2
  - [-1, 1, Conv, [128, 3, 2]] 	# 1-P2/4
  - [-1, 3, C2f, [128, True]]	# 2
  - [-1, 1, Conv, [256, 3, 2]] 	# 3-P3/8
  - [-1, 6, C2f, [256, True]]	# 4
  - [-1, 1, Conv, [512, 3, 2]] 	# 5-P4/16
  - [-1, 6, C2f, [512, True]]	# 6
  - [-1, 1, Conv, [1024, 3, 2]] # 7-P5/32
  - [-1, 3, C2f, [1024, True]]	# 8
  - [-1, 1, SPPF, [1024, 5]] 	# 9

# YOLOv8.0n head
head:
  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]	# 10
  - [[-1, 6], 1, Concat, [1]] 	# 11 cat backbone P4
  - [-1, 3, C2f, [512]] 		# 12

  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]	#13
  - [[-1, 4], 1, Concat, [1]] 	# 14 cat backbone P3
  - [-1, 3, C2f, [256]] 		# 15 (P3/8-small)

  - [-1, 1, Conv, [256, 3, 2]]	# 16
  - [[-1, 12], 1, Concat, [1]] 	# 17 cat head P4
  - [-1, 3, C2f, [512]] 		# 18 (P4/16-medium)

  - [-1, 1, Conv, [512, 3, 2]]	# 19
  - [[-1, 9], 1, Concat, [1]] 	# 20 cat head P5
  - [-1, 3, C2f, [1024]] 		# 21 (P5/32-large)

  - [[15, 18, 21], 1, Detect, [nc]] # Detect(P3, P4, P5)
[-1, 3, C2f, [1024, True]]	# 8
"""
from: 	-1, 代表这一层的输入为上一层的输出
repeats: 3, 代表 C2f 中有3个 Bottleneck, 实际不同尺度的模型会根据 depth 调整数量
			例如 yolov8m 该层实际的 repeats = 3*0.67 = 2
module:	C2f
args:	[1024, True], 代表 module 的参数
			1024 代表 channel 数, 实际不同尺度的模型会根据 width 和 max_channels
			例如 yolov8m 该层实际的 channel = min(1024, 768)*0.75 = 576
			True 代表 Bottleneck 中是否启用 add
"""

2. Block Modules

https://github.com/ultralytics/ultralytics/blob/main/ultralytics/nn/modules/block.py

SPP & SPPF

在这里插入图片描述
  对比下方源码可知,SPP 与 SPPF 的区别主要在于 MaxPool2dkernel size & padding,SPP 依次递增,SPPF 保持不变重复利用一个池化层。

class SPP(nn.Module):
    def __init__(self, c1, c2, k=(5, 9, 13)):
        super().__init__()
        c_ = c1 // 2  # hidden channels
        self.cv1 = Conv(c1, c_, 1, 1)
        self.cv2 = Conv(c_ * (len(k) + 1), c2, 1, 1)
        self.m = nn.ModuleList([nn.MaxPool2d(kernel_size=x, stride=1, padding=x // 2) for x in k])

    def forward(self, x):
        x = self.cv1(x)
        return self.cv2(torch.cat([x] + [m(x) for m in self.m], 1))


class SPPF(nn.Module):
    def __init__(self, c1, c2, k=5):
        super().__init__()
        c_ = c1 // 2  # hidden channels
        self.cv1 = Conv(c1, c_, 1, 1)
        self.cv2 = Conv(c_ * 4, c2, 1, 1)
        self.m = nn.MaxPool2d(kernel_size=k, stride=1, padding=k // 2)

    def forward(self, x):
        y = [self.cv1(x)]
        y.extend(self.m(y[-1]) for _ in range(3))
        return self.cv2(torch.cat(y, 1))

C2

在这里插入图片描述

C2f

在这里插入图片描述

Bottleneck

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/667960.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

2024 HN CTF WebMisc 部分 wp

Web ez_tp 判断是thinkphp 3.2 参考官方手册:https://www.kancloud.cn/manual/thinkphp/1697 判断路由模式 URL_CASE_INSENSITIVE > true, // 默认false 表示URL区分大小写 true则表示不区分大小写URL_MODEL > 1, // URL访问模式,可选参数0、1、…

【Linux-buildroot,】

Linux-buildroot, ■ buildroot■ 1、简介■ 2、下载■ 2、编译■ 问题一:buildroot 编译的时候会先从网上下载所需的软件源码,下载cmake-3.8.2.tar.gz或下载很慢的情况 ■ buildroot-构建根文件系统■ 1、配置 buildroot■ 2、■ 3、 ■ buildroot-构建…

velero实现备份还原

Velero 是一个开源的 Kubernetes 集群备份和恢复工具,它允许用户轻松安全地备份和恢复他们的 Kubernetes 资源和持久化卷。Velero 由 Kubernetes 的原生 API 驱动,并且与云服务提供商紧密集成,以支持不同的存储解决方案。 helm values文件地…

驾校无线监控系统:实现智能化、数字化与网络化的新篇章

随着科技的飞速发展,无线监控系统在各行各业的应用日益广泛。在驾校领域,无线监控系统的引入不仅提升了学员的学习体验,还显著提高了驾校的管理效率和综合水平。本文将详细探讨驾校无线监控系统的功能、优势及其在提升驾校管理水平方面的具体…

如何看待时间序列与机器学习?

GPT-4o 时间序列与机器学习的关联在于,时间序列数据是一种重要的结构化数据形式,而机器学习则是一种强大的工具,用于从数据中提取有用的模式和信息。在很多实际应用中,时间序列与机器学习可以结合起来,发挥重要作用。…

考研回顾纪录--科软考研失败并调剂兰州大学软件工程专业复试经历

1.背景 本人工作一年后决定考研,遂于2023年4月底离职。5月到家后开始学习。本科东北大学软件工程专业,绩点3.2/5,按照百分制计算是82分。本科纯属混子,只有一个四级551,一个数学竞赛省二等奖,大创学校立项…

Pytorch-Lighting使用教程(MNIST为例)

一、pytorch-lighting简介 1.1 pytorch-lighting是什么 pytorch-lighting(简称pl),基于 PyTorch 的框架。它的核心思想是,将学术代码(模型定义、前向 / 反向、优化器、验证等)与工程代码(for-…

Java大厂面试题第2季

一、本课程前提要求和说明 面试题1: 面试题2: 面试题3: 面试题4: 面试题5: 高频最多的常见笔试面试题目 ArrayList HashMap 底层是什么东东 JVM/GC 多线程与高并发 java集合类

移动系统编程-Ionic 页面(Ionic Pages)

Ionic 页面 Ionic 应用程序和大多数移动应用程序使用页面来利用小显示区域。Ionic 源代码结构中,每个页面都在一个单独的目录中,以便将页面的所有信息集中在一起。例如,tabs 启动应用程序在 app 目录中的目录结构如下。请看是否能看到与 Angu…

米博无布洗地机:颠覆清洁体验,引领家庭清洁风尚

在科技日新月异的今天,家庭清洁方式也正在经历着一场翻天覆地的变化。 传统洗地机的诸多痛点 传统的洗地机虽然在一定程度上解放了人们的双手,然而其存在的诸多问题与痛点也随着时间流逝而逐渐凸显,成为了越来越多消费者心中的困扰。 传统洗地…

css网格背景样式

空白内容效果图 在百度页面测试效果 ER图效果 注意&#xff1a;要给div一个宽高 <template><div class"grid-bg"></div> </template><style scoped> .grid-bg {width: 100%;height: 100%;background: url(data:image/svgxml;base…

深入浅出Java多线程

系列文章目录 文章目录 系列文章目录前言一、多线程基础概念介绍线程的状态转换图线程的调度一些常见问题 二、Java 中线程的常用方法介绍Java语言对线程的支持Thread常用的方法三、线程初体验&#xff08;编码示例&#xff09; 前言 前些天发现了一个巨牛的人工智能学习网站&…

LeeCode热题100(爬楼梯)

爬楼梯这个题我断断续续看了不下5遍&#xff0c;哪次看都是懵逼的&#xff0c;就会说是满足动态规划&#xff0c;满足斐波那契数列&#xff0c;也不说为什么。 本文一定让你明白怎么分析这个题的规律&#xff08;利用数学的递推思想来分析&#xff09;&#xff0c;看不懂来打我…

SleepFM:利用对比学习预训练的多模态“睡眠”基础模型

大模型技术论文不断&#xff0c;每个月总会新增上千篇。本专栏精选论文重点解读&#xff0c;主题还是围绕着行业实践和工程量产。若在阅读过程中有些知识点存在盲区&#xff0c;可以回到如何优雅的谈论大模型重新阅读。另外斯坦福2024人工智能报告解读为通识性读物。若对于如果…

Go微服务: 封装nacos-sdk-go的v2版本与应用

概述 基于前文&#xff1a;https://active.blog.csdn.net/article/details/139213323我们基于此SDK提供的API封装一个公共方法来用于生产环境 封装 nacos-sdk-go 我们封装一个 nacos.go 文件, 这个是通用的工具库 package commonimport ("fmt""github.com/nac…

如何查看谁连接到了你的Wi-Fi网络?这里提供几种方法或工具

序言 你知道谁连接到你路由器的Wi-Fi网络吗?查看从路由器或计算机连接到Wi-Fi网络的设备列表,找出答案。 请记住,现在很多设备都可以连接到了你的Wi-Fi,该名单包括笔记本电脑、智能手机、平板电脑、智能电视、机顶盒、游戏机、Wi-Fi打印机等。 使用GlassWire Pro查看连接…

蒙自源六一童趣献礼:纯真餐单,唤醒你的童年味蕾

当岁月的车轮滚滚向前&#xff0c;我们总会怀念那些逝去的时光&#xff0c;尤其是那段纯真无瑕的童年。当六一儿童节来临&#xff0c;心底的那份童趣与回忆总会被轻轻触动。从5月25日起&#xff0c;蒙自源旗下各大门店为所有小朋友&#xff0c;以及那些心怀童真的大人们&#x…

Mac vm虚拟机激活版:VMware Fusion Pro for Mac支持Monterey 1

相信之前使用过Win版系统的朋友们对这款VMware Fusion Pro for Mac应该都不会陌生&#xff0c;这款软件以其强大的功能和适配能力广受用户的好评&#xff0c;在Mac端也同样是一款最受用户欢迎之一的虚拟机软件&#xff0c;VM虚拟机mac版可以让您能够轻松的在Apple的macOS和Mac的…

华为交换机、路由器配置查询、用户界面常见配置及安全加固

华为交换机、路由器配置查询、用户界面常见配置及安全加固。 一、查询命令 1.常用的查询命令 查看当前生效的配置信息&#xff1a; display current-configuration //正在生效的配置&#xff0c;默认参数不显示。查看当前视图下生效的配置信息&#xff1a; display this //常…

数字IC基础:主要的FPGA厂商

相关阅读 数字IC基础https://blog.csdn.net/weixin_45791458/category_12365795.html?spm1001.2014.3001.5482 Xilinx&#xff08;现已被AMD收购&#xff09; Xilinx, 成立于1984年&#xff0c;是FPGA&#xff08;现场可编程门阵列&#xff09;技术的创始者和市场领导者。该公…