目标检测算法YOLOv6简介

      YOLOv6由Chuyi Li等人于2022年提出,论文名为:《YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications》,论文见:https://arxiv.org/pdf/2209.02976 ,项目网页:https://github.com/meituan/YOLOv6 ,最新发布版本为0.4.1,License为GPL-3.0。

      以下内容主要来自论文:

      1.Introduction:

      (1).我们凭经验(empirically)观察到激励我们重新设计YOLO框架的几个重要因素:

      1).RepVGG的重新参数化(reparameterization)是一种高级技术,但在检测中尚未得到充分利用。

      2).基于重参数化的检测器的量化也需要细致的处理,否则在训练和推理过程中由于其异构(heterogeneous)配置而导致性能下降将很难处理。

      3).以前的工作往往不太关注部署(deployment),其延迟(latencies)通常是在V100等高成本机器上进行比较。与真实的服务环境相比,硬件上存在差距。

      4).考虑到架构差异,标签分配(label assignment)和损失函数设计等高级领域特定策略需要进一步验证。

      5).对于部署,我们可以容忍训练策略的调整,提高准确率性能但不增加推理成本。

      (2).总结YOLOv6主要方面:

      1).我们针对不同场景(diverse scenarios)的工业应用,重塑(refashion)了一系列不同规模的网络不同规模的架构会有所不同,以实现最佳的速度和准确性权衡(trade-off),其中小型模型具有普通的单路径主干网络(single-path backbone),而大型模型则构建在高效的多分支块(multi-branch blocks)上。

      2).我们为YOLOv6注入了自蒸馏(self-distillation)策略,在分类任务和回归任务上都执行。同时,我们动态调整来自教师和标签(teacher and labels)的知识,以帮助学生模型(student model)在所有训练阶段更有效地学习知识。

      3).我们广泛验证了标签分配、损失函数和数据增强技术的先进检测技术,并有选择地采用它们来进一步提高性能。

      4).我们在RepOptimizer和逐通道蒸馏(channel-wise distillation)的帮助下改革了检测的量化方案,从而实现了快速、准确的检测器。

      2.Method:YOLOv6的改进设计由以下组件组成:网络设计、标签分配、损失函数、数据增强、易于行业应用(industry-handy)的改进以及量化和部署

      (1).Network Design:Backbone:与其他主流架构相比,我们发现RepVGG主干网络在小型网络中以相似的推理速度配备了更多的特征表示能力,但由于参数和计算成本的爆炸性增长,它很难被缩放(scaled)以获得更大的模型。在这方面,我们将RepBlock作为我们小型网络的构建块(building block)。对于大型模型,我们修改了更高效的CSP块,名为CSPStackRep Block。Neck:YOLOv6的Neck采用了继YOLOv4和YOLOv5之后的PAN拓扑。我们使用RepBlocks或CSPStackRep Blocks增强颈部(Neck)以获得RepPAN。Head:我们简化了解耦头(decoupled head),使其更加高效,称为高效解耦头(Efficient Decoupled Head)。

      单阶段(one-stage)目标检测器一般由以下部分组成:a backbone, a neck and a head。Backbone主要决定特征表示能力,同时其设计也对推理效率有着至关重要的影响,因为它承载着很大一部分计算成本。Neck用于聚合低级物理特征与高级语义特征,然后构建各级金字塔特征图Head由多个卷积层组成,它根据Neck组装(assembled)的多级特征来预测最终的检测结果。从结构的角度来看,它可以分为基于锚的和无锚的(anchor-based and anchor-free),或者更确切地说,参数耦合头和参数解耦头(parameter-coupled head and parameter-decoupled head)。

      在YOLOv6中,基于硬件友好的网络设计原则,我们提出了两个可缩放的可重参数化的Backbone和Neck以适应不同尺寸的模型,以及具有混合通道(hybrid-channel)策略的高效解耦头。YOLOv6的整体架构如下图所示:

      1).Backbone: 主干网络的设计对检测模型的有效性和效率有很大影响。之前的研究表明,多分支网络(multibranch networks)通常可以比单路径(single-path)网络实现更好的分类性能,但通常会降低并行度(parallelism)并导致推理延迟增加。相反,像VGG这样的普通单路径网络具有高并行性和更少内存占用的优势,从而带来更高的推理效率。最近在RepVGG中,提出了一种结构重新参数化(re-parameterization)方法,将训练时多分支拓扑与推理时简单架构解耦(decouple),以实现更好的速度精度权衡。

      受上述工作的启发,我们设计了一个高效的可重参数化主干网络,表示为EfficientRep。对于小型模型,在训练阶段,主干网络的主要组成部分是RepBlock,如下图(a)所示。在推理阶段,每个RepBlock通过ReLU激活函数转换为3*3卷积层堆栈(表示为RepConv),如下图(b)所示。通常,3*3卷积在主流 GPU和CPU上进行了高度优化,并且具有更高的计算密度。因此,EfficientRep Backbone充分利用了硬件的计算能力,从而显着降低了推理延迟,同时增强了表示能力。

      然而,我们注意到,随着模型容量的进一步扩大,单路径普通网络(single-path plain network)中的计算成本和参数数量呈指数级增长。为了在计算负担和准确性之间实现更好的权衡(trade-off),我们修改了CSPStackRep块来构建中型和大型网络的主干网络。如下图(c)所示,CSPStackRep Block由三个1*1卷积层和一个由两个带有残差连接的RepVGG块或RepConv(分别在训练或推理时)组成的子块堆栈组成。此外,采用跨阶段部分(cross stage partial,CSP)连接来提高性能,而无需过多的计算成本。与CSPRepResStage相比,它具有更简洁的外观,并考虑了准确性和速度之间的平衡。

      2).Neck:在实践中,多尺度的特征集成(feature integration at multiple scales)已被证明是目标检测的关键且有效的部分。我们采用YOLOv4和 YOLOv5改进的PAN拓扑作为我们的检测颈(neck)的基础。此外,我们将YOLOv5中使用的CSPBlock替换为RepBlock(针对小模型)或CSPStackRep Block(针对大模型),并相应调整宽度和深度。YOLOv6的Neck表示为Rep-PAN

      3).Head:

      Efficient decoupled head:YOLOv5的检测头是一个耦合头(coupled head),在分类和定位分支之间共享参数,而FCOS和YOLOX中的对应检测头将两个分支解耦(decouple),并在每个分支中引入额外的两个3*3卷积层以提高性能。在YOLOv6中,我们采用混合通道(hybrid-channel)策略来构建更高效的解耦头(decoupled head)。具体来说,我们将中间3*3卷积层的数量减少到只有一个。head的宽度由backbone和neck的宽度乘数共同缩放(jointly scaled)。这些修改进一步降低了计算成本,以实现更低的推理延迟。

      Anchor-free:无锚检测器因其更好的泛化能力和解码预测结果的简单性而脱颖而出。其后处理(post-processing)的时间成本大大降低。无锚检测器有两种类型:基于锚点的检测器和基于关键点的检测器。在YOLOv6中,我们采用基于锚点的范式(paradigm),其框回归分支实际上预测从锚点到边界框四个边的距离。

      (2).Label Assignment:我们通过大量实验评估了YOLOv6上标签分配策略的最新进展,结果表明TAL更有效且更适合训练。标签分配负责在训练阶段将标签分配给预定义的锚点。之前的工作提出了各种标签分配策略,从简单的基于IoU的策略和内部ground-truth方法到其他更复杂的方案。

      1).SimOTA:OTA将目标检测中的标签分配视为最优传输问题。它从全局角度为每个ground-truth目标定义正/负训练样本。SimOTA是OTA的简化版本,减少了额外的超参数并保持了性能。YOLOv6早期版本采用SimOTA作为标签分配方法。然而,在实践中,我们发现引入SimOTA会减慢训练过程。而陷入训练不稳定的情况也并不罕见。因此,我们希望有SimOTA的替代品。

      2).Task alignment learning:任务对齐学习(Task Alignment Learning, TAL)首先在TOOD中提出,其中设计了分类分数和预测框质量的统一度量(unified metric)。IoU被替换为这个指标(metric)来分配目标标签。在一定程度上缓解了任务(分类和框回归)错位(misalignment)的问题。

      TOOD的另一个主要贡献是关于任务对齐头(task-aligned head, T-head)。T-head堆叠卷积层来构建交互特征,在其之上使用任务对齐预测器(Task-Aligned Predictor, TAP)。PP-YOLOE对T-head进行了改进,将T-head中的层注意力(layer attention)替换为轻量级的ESE注意力,形成ET-head。然而,我们发现ET-head会降低我们模型中的推理速度,并且不会带来任何精度增益。因此,我们保留了高效解耦头的设计。

      此外,我们观察到TAL可以比SimOTA带来更多的性能提升并稳定训练。 因此,我们采用TAL作为YOLOv6中默认的标签分配策略

      (3).Loss Function:主流的anchor-free目标检测器的损失函数包括分类损失、框回归损失和目标损失。对于每个损失,我们使用所有可用的技术进行系统地实验,最终选择VariFocal Loss作为我们的分类损失,选择SIoU/GIoU Loss作为我们的回归损失。目标检测包含两个子任务:分类和定位,对应两个损失函数:分类损失和框回归损失。对于每个子任务,近年来提出了各种损失函数。

      1).Classification Loss:提高分类器的性能是优化检测器的关键部分。Focal Loss对传统的交叉熵损失(cross-entropy loss)进行了修改,以解决正例与负例之间、难样本与易样本(hard and easy samples)之间的类别不平衡问题。为了解决训练和推理之间质量估计和分类使用不一致的问题,质量焦点损失(Quality Focal Loss, QFL)进一步扩展了焦点损失,将分类分数和定位质量(localization quality)联合表示,用于分类监督(supervision)。而VariFocal Loss(VFL)源于Focal Loss,但它对正样本和负样本的处理不对称。通过考虑不同重要程度的正样本和负样本,它平衡了来自两个样本的学习信号。Poly Loss将常用的分类损失分解为一系列加权多项式基。它在不同的任务和数据集上调整多项式系数,通过实验证明比交叉熵损失和焦点损失更好。我们在YOLOv6上评估所有这些高级分类损失,最终采用VFL。

      2).Box Regression Loss:框回归损失提供了精确定位边界框的重要学习信号。L1损失是早期作品中原始的框回归损失。逐渐地,各种精心设计的框回归损失涌现,例如IoU系列损失和概率损失。

      IoU-series Loss:IoU损失将预测框的四个边界作为一个整体进行回归。由于其与评价指标(evaluation metric)的一致性,已被证明是有效的。 IoU有多种变体,如GIoU、DIoU、CIoU、α-IoU和SIoU等相关的损失函数。SIoU应用于YOLOv6-N和YOLOv6-T,而其他则使用GIoU

      Probability Loss:分布焦点损失(Distribution Focal Loss, DFL)将框位置的底层连续分布(underlying continuous distribution of box locations)简化为离散概率分布。它考虑了数据中的模糊性和不确定性,而不引入任何其他强先验框,这有助于提高框定位精度,特别是当真实框的边界模糊(blurred)时。在DFL的基础上,DFLv2开发了一个轻量级子网络,利用分布统计数据和真实定位质量(real localization quality)之间的密切相关性,进一步提高检测性能。然而,DFL通常会比一般框回归输出多17倍的回归值,从而导致大量开销。额外的计算成本极大地阻碍了小模型的训练。而DFLv2由于额外的子网络进一步增加了计算负担。在我们的实验中,DFLv2在我们的模型上带来了与DFL类似的性能增益。因此,我们在YOLOv6-M/L中只采用DFL

      3).Object Loss:目标损失首先在FCOS中提出,用于降低低质量边界框的分数,以便在后处理中将其过滤掉。它也被用于YOLOX中以加速收敛并提高网络精度。作为像FCOS和YOLOX这样的无锚(anchor-free)框架,我们已经尝试将目标损失引入YOLOv6。不幸的是,它并没有带来太多积极的影响。

      (4).Industry-handy improvements:我们引入了额外的常见实践和技巧来提高性能,包括自蒸馏(self-distillation)和更多的训练周期(epochs)。对于自蒸馏,分类和框回归分别由教师模型(teacher model,是一个已经充分训练且表现良好的模型,它用于指导另一个待训练或较简单的模型(通常被称为student model或学生模型)的学习过程)监督。DFL使得框回归的蒸馏成为可能。此外,软标签和硬标签(soft and hard labels)的信息比例通过余弦衰减动态下降,这有助于学生在训练过程中的不同阶段选择性地获取知识(knowledge)。另外,我们在评估时遇到了没有添加额外灰色边框(gray borders)而导致性能受损的问题,为此我们提供了一些补救措施。以下技巧可以在实际实践中使用。它们并不是为了公平比较,而是稳定地产生性能增益,而不需要太多繁琐的工作。

      1).More training epochs:经验结果表明,随着训练时间的增加,检测器的性能不断提高。我们将训练持续时间从300 epoch延长到400 epoch以达到更好的收敛(convergence)。

      2)Self-distillation:为了进一步提高模型精度,同时不引入太多额外的计算成本,我们应用经典知识蒸馏技术来最小化教师和学生(teacher and the student)预测之间的KL散度(KL-divergence)。我们将教师限制为学生本身,但经过预先训练,因此我们称之为自蒸馏。注意,KL散度通常用于衡量数据分布之间的差异。然而,目标检测中有两个子任务,其中只有分类任务可以直接利用基于KL散度的知识蒸馏。 由于DFL损失,我们也可以在框回归上执行它。

      3).Gray border of images:我们注意到,在评估YOLOv5和YOLOv7实现中的模型性能时,每个图像周围都有半步灰色边框(half-stride gray border)。虽然没有添加有用的信息,但它有助于检测图像边缘附近的目标。这个技巧也适用于YOLOv6。然而,额外的灰色像素明显降低了推理速度。没有灰色边框,YOLOv6的性能会恶化(deteriorates)。我们假设该问题与Mosaic增强中的灰色边框填充有关。进行了在最后一个epoch关闭Mosaic增强的实验(也称为淡出策略)以进行验证。对此,我们改变灰色边框的区域,并将带有灰色边框的图像直接调整为目标图像大小。结合这两种策略,我们的模型可以保持甚至提高性能,而不会降低推理速度。

      (5).Quantization and deployment:为了解决基于量化重参数化(reparameterization)模型的性能下降问题,我们使用RepOptimizer训练YOLOv6以获得PTQ友好的权重。我们进一步采用带有通道蒸馏(channel-wise distillation)和图形优化的QAT来追求极限性能。

      对于工业部署,通常的做法是采用量化来进一步加快运行时间,而不会影响太多性能。训练后量化(Post-training quantization, PTQ)仅使用较小的校准集(calibration set)直接量化模型。而量化感知训练(quantization-aware training , QAT)通过访问训练集进一步提高性能,通常与蒸馏结合使用。然而,由于YOLOv6中大量使用重新参数化块(re-parameterization blocks),以前的PTQ技术无法产生高性能,而在训练和推理过程中匹配假量化器(fake quantizers)时很难结合QAT。我们在这里展示部署过程中的陷阱(pitfalls)和解决方法。

      1).Reparameterizing Optimizer:RepOptimizer在每个优化步骤中提出梯度重新参数化。该技术还很好地解决了基于重新参数化的模型的量化问题。因此,我们以这种方式重建YOLOv6的重新参数化块,并使用RepOptimizer对其进行训练以获得PTQ友好的权重。

      2).Sensitivity Analysis:我们通过将量化敏感(quantization-sensitive)操作部分转换为浮动计算(float computation)来进一步提高PTQ性能。为了获得灵敏度分布,常用的有几个指标:均方误差(MSE)、信噪比(SNR)和余弦相似度。通常为了进行比较,人们可以选择输出特征图(在激活某一层之后)来计算有或没有量化的这些指标。作为替代方案,也可以通过打开和关闭特定层的量化来计算验证AP。我们在使用RepOptimizer训练的YOLOv6-S模型上计算所有这些指标,并选择前6个敏感层以浮动方式运行。

      3).Quantization-aware Training with Channel-wise Distillation:如果PTQ不足,我们建议采用量化感知训练(QAT)来提高量化性能。为了解决训练和推理过程中假量化器不一致的问题,有必要在RepOptimizer的基础上构建QAT。此外,在YOLOv6框架内采用了逐通道蒸馏(channel-wise distillation,后来称为CW Distill),如下图所示。这也是一种自蒸馏方法,其中教师网络就是FP32精度的学生本身。

      GitHub:https://github.com/fengbingchun/NN_Test

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/626828.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

深度学习设计模式之简单工厂模式

文章目录 前言一、简单工厂设计模式的作用?二、详细分析1.核心组成2.实现步骤3.示例代码4.优缺点优点缺点 5.使用场景 总结 前言 本文主要学习简单工厂设计模式,这个设计模式主要是将创建复杂对象的操作单独放到一个类中,这个类就是工厂类&a…

详述进程的地址空间

进程的地址空间 合法的地址 (可读或可写) 代码 (main, %rip 会从此处取出待执行的指令),只读数据 (static int x),读写堆栈 (int y),读写运行时分配的内存 (???),读写动态链接库 (???) 非法的地址 NULL,导致 se…

Gooxi发布最新AI服务器:加速生成式AI落地 更懂AI

近日,Gooxi发布最新训推一体AI服务器,以大容量内存和灵活的高速互连选项满足各种AI应用场景,最大可能支持扩展插槽,从而大幅提升智能算力性能,以最优的性能和成本为企业的模型训练推理落地应用提供更好的通用算力。 AI…

FSMC的NOR Flash/PSRAM 控制器功能介绍(STM32F4)

目录 概述 1 FSMC支持的类型 1.1 信号类型概述 1.2 FSMC的应用 2 外部存储器接口信号 2.1 I/O NOR Flash 2.2 PSRAM/SRAM 3 支持的存储器和事务 4 通用时序规则 5 NOR Flash/PSRAM 控制器异步事务 5.1 模式 1 - SRAM/PSRAM (CRAM) 5.2 模式 A - SRAM/PSRAM (CRAM…

GPU Burn测试指导

工具下载链接: https://codeload.github.com/wilicc/gpu-burn/zip/master测试方法: 上传工具到操作系统下,解压缩工具,使用make命令完成编译(确保cuda环境变量已经配置成功、 nvcc -v能显示结果)。 如果安…

图扑智慧农业——生态鱼塘数字孪生监控

智慧农业园作为新型农业经营模式,正在以其高效、环保、可持续的特点受到广泛关注。智慧鱼塘作为智慧农业中一项关键技术,结合物联网、人工智能、云计算等技术,实现对新型养殖模式的实时监控、优化与管理。 效果展示 图扑软件应用自研 HT for…

CVE-2024-4761 Chrome 的 JavaScript 引擎 V8 中的“越界写入”缺陷

分析 CVE-2024-4761 和 POC 代码 CVE-2024-4761 描述 CVE-2024-4761 是一个在 V8 引擎中发现的越界写漏洞,报告日期为 2024-05-09。这个漏洞可能允许攻击者通过特制的代码执行任意代码或者造成内存破坏,进而导致程序崩溃或其他不安全行为。 POC 代码解…

群辉部署小雅alist实现视听盛会

最近群辉搭建起来了,开始整蛊影视库,之前搞过nastool。这次折腾下小雅alist。 1.下载并安装 直接在群辉的docker里面下载映像 主要映射下端口和文件夹 #token mytoken.txt 获取地址:https://alist.nn.ci/zh/guide/drivers/aliyundriv…

IBM Granite模型开源:推动软件开发领域的革新浪潮

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

01基础篇

1、初识 JVM 1.1 什么是 JVM JVM 全称是 Java Virtual Machine,中文译名 Java虚拟机。JVM 本质上是一个运行在计算机上的程序,他的职责是运行Java字节码文件。 Java源代码执行流程如下: 分为三个步骤: 编写Java源代码文件。使用…

【Linux】线程机制解析:理解、优势与Linux系统应用

文章目录 前言:1. 线程概念1.1. 什么是线程1.2. 线程得优点:1.3. 线程的缺点线程异常线程的用途 2. 线程的理解(Linux 系统为例)2.1. 为什么要设计Linux“线程"?2.2. 什么是进程?2.3. 关于调度的问题2…

基于EBAZ4205矿板的图像处理:11阈值系数可调的图像局部阈值二值化

基于EBAZ4205矿板的图像处理:11阈值系数可调的图像局部阈值二值化 没写完,局部阈值二值化算法本身和算法的fpga部署思路没有讲,有空时补充 先看效果 还是一样拿我的pynq当模特,然后用usb——HDMI采集卡把输出图像采集到电脑上。…

每日一题12:Pandas:数据重塑-融合

一、每日一题 解答: import pandas as pddef meltTable(report: pd.DataFrame) -> pd.DataFrame:reshaped_report report.melt(id_varsproduct, var_namequarter, value_namesales)return reshaped_report 题源:Leetcode 二、总结 melt()函数是Pa…

为什么需要使用SOCKS5代理?

SOCKS代表Socket Secure,是一种网络协议,能够在网络上进行数据传输。SOCKS5是SOCKS协议的第五个版本,它提供了更加安全和灵活的数据传输方式,因此在网络安全和隐私保护方面被广泛应用。在我们的日常生活中,为什么需要使…

2024年5月13号刷题相关事项个人总结

01.01.03 LeetCode 入门及攻略(第 01 ~ 02 天) 1. LeetCode 是什么 「LeetCode」 是一个代码在线评测平台(Online Judge),包含了 算法、数据库、Shell、多线程 等不同分类的题目,其中以算法题目为主。我们…

jar包安装成Windows服务

一、前言 很多年前写过一篇《使用java service wrapper把windows flume做成服务》的文章,也是把jar包安装成windows服务,今天介绍另外一种更简便的方案。 二、正片 这次使用的工具是 winsw,一个Windows服务包装器。下面看详细介绍 首先从g…

开源禅道zentao的使用

很不幸禅道因为漏洞被人进攻了,被迫研究。 1.安装 直接使用docker进行部署,这里有非常多门道。官网的镜像easysoft-zentao是属于docker安装,而idoop的镜像虽然也是docker安装,但是实际是使用官网linux一键安装的版本&#xff0c…

默认成员函数:析构、深浅拷贝

析构函数 析构函数:与构造函数功能相反,析构函数不是完成对对象本身的销毁,局部对象销毁工作是由编译器完成的。而对象在销毁时会自动调用析构函数,完成对象中资源的清理工作。 特性 析构函数名时在类名前面加上字符~ class D…

国产华为设备:NAT地址转换实验

NAT地址转换实验 实验背景: 由于IPV4地址紧缺,企业内部一般都使用私有IP地址,然而,企业客户需要不定期访问公司内网,同时部分企业还会对外提供相应服务,此时需要配置NAT来实现这些需求。 实验目的&#xff…

WD—C++课前作业—30题

怎么会手和脚都在桌子上 目录 31,声明一个类 String,其数据成员为 char head[100],构造函数 String(char*Head)实现 head 的初始化,成员函数 void reverse()实现 head 内字符串的逆序存放,成员函数 void print()实现 head 内字符串的输出。…