目标检测算法YOLOv7简介

      YOLOv7由Chien-Yao Wang等人于2022年提出,论文名为:《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors》,论文见:https://arxiv.org/pdf/2207.02696 ,项目网页:https://github.com/WongKinYiu/yolov7 。

      以下内容主要来自论文:

      1.Introduction

      近年来,实时目标检测器仍在针对不同的边缘设备(edge device)进行开发。例如,MCUNet和NanoDet的发展重点是生产低功耗单芯片并提高边缘CPU的推理速度。至于YOLOX和YOLOR等方法,它们专注于提高各种GPU的推理速度。最近,实时目标检测器的发展主要集中在高效架构的设计上。至于可以在CPU上使用的实时目标检测器,其设计大多基于MobileNet、ShuffleNet或GhostNet。另一种主流的实时目标检测器是针对GPU开发的,它们大多使用ResNet、DarkNet或DLA,然后使用CSPNet策略来优化架构。本文提出的方法的发展方向与当前主流的实时目标检测器不同。除了架构优化之外,我们提出的方法还将重点关注训练过程的优化。我们的重点将是一些优化的模块和优化方法,这些模块和优化方法可以加强训练成本以提高目标检测的准确性,但不会增加推理成本。我们将所提出的模块和优化方法称为可训练的免费赠品(bag-of-freebies)。

      最近,模型重新参数化(re-parameterization)和动态标签分配(label assignment)已成为网络训练和目标检测中的重要主题。主要是在上述新概念提出之后,目标检测器的训练演化出了许多新的问题。在本文中,我们将介绍我们发现的一些新问题,并设计有效的方法来解决这些问题。对于模型重参数化,我们利用梯度传播路径的概念分析了适用于不同网络层的模型重参数化策略,并提出了规划(planned)的重参数化模型。此外,当我们发现使用动态标签分配技术时,具有多个输出层的模型的训练会产生新的问题。即:"如何为不同分支的输出分配动态目标?" 针对这个问题,我们提出了一种新的标签分配方法,称为从粗到细引导标签分配(coarse-to-fine lead guided label assignment)。

      本文的贡献总结如下:(1)我们设计了几种可训练的bag-of-freebies方法,使得实时目标检测可以在不增加推理成本的情况下大大提高检测精度;(2)对于目标检测方法的演变,我们发现了两个新问题,即重新参数化模块如何替换原始模块,以及动态标签分配策略如何处理对不同输出层的分配。此外,我们还提出了解决这些问题所带来的困难的方法;(3)我们为实时目标检测器提出了"扩展"和"复合缩放"("extend" and "compound scaling")方法,可以有效地利用参数和计算;(4)我们提出的方法可以有效减少最先进(state-of-the-art)的实时目标检测器约40%的参数和50%的计算量,并且具有更快的推理速度和更高的检测精度。

      2.Related work

      (1).Real-time object detectors:目前最先进的实时目标检测器主要基于YOLO和FCOS。能够成为最先进的实时目标检测器通常需要以下特性:1)更快、更强的网络架构;2)更有效的特征整合方法;3)更准确的检测方法;4)更鲁棒的损失函数;5)更高效的标签分配方法;6)更高效的训练方法。在本文中,我们不打算探索需要额外数据或大型模型的自监督学习或知识蒸馏方法。相反,我们将针对与上述4)、5)和6)相关的最先进方法衍生的问题,设计新的可训练的bag-of-freebies方法。

      (2).Model re-parameterization:模型重新参数化技术在推理阶段将多个计算模块合并为一个。模型重参数化技术可以看作是一种集成(ensemble)技术,我们可以将其分为两类,即模块级集成和模型级集成。模型级重新参数化以获得最终推理模型有两种常见做法。一种是用不同的训练数据训练多个相同的模型,然后对多个训练好的模型的权重进行平均。另一种是对不同迭代次数的模型权重进行加权平均。模块级重参数化是最近比较热门的研究问题。此类方法在训练时将一个模块拆分为多个相同或不同的模块分支,并在推理时将多个分支模块集成为完全等效的模块。然而,并非所有提出的重新参数化模块都可以完美地应用于不同的架构。考虑到这一点,我们开发了新的重参数化模块,并针对各种架构设计了相关的应用策略。

      (3).Model scaling:模型缩放是一种放大或缩小已设计模型并使其适合不同计算设备的方法。模型缩放方法通常使用不同的缩放因子,如分辨率(输入图像的大小)、深度(层数)、宽度(通道数)、阶段(特征金字塔数),从而很好的权衡了网络参数量、计算量、推理速度和准确性。网络架构搜索(Network architecture search, NAS)是常用的模型缩放方法之一。NAS可以自动从搜索空间中搜索合适的缩放因子,而无需定义过于复杂的规则。NAS的缺点是需要非常昂贵的计算才能完成模型缩放因子的搜索。通过查阅文献,我们发现几乎所有模型缩放方法都独立分析单个缩放因子,甚至复合缩放类别中的方法也独立优化缩放因子。其原因是大多数流行的NAS架构处理的缩放因子相关性不是很强。我们观察到,所有基于级联(concatenation-based)的模型(例如DenseNet或VoVNet)在缩放此类模型的深度时都会改变某些层的输入宽度。由于所提出的架构是基于级联的,我们必须为此模型设计一种新的复合缩放方法。

      3.Architecture

      (1).Extended efficient layer aggregation networks:在大多数关于设计高效架构的文献中,主要考虑的只是参数数量、计算量和计算密度。如下图所示:(b)中CSPVoVNet的设计是VoVNet的一种变体。除了考虑上述基本设计问题外,CSPVoVNet的架构还分析了梯度路径,以使不同层的权重能够学习更多样的特征。上述梯度分析方法使推理更快、更准确。(c)中的ELAN考虑了以下设计策略--"如何设计高效的网络?"。他们得出了一个结论:通过控制最短最长梯度路径,更深的网络可以有效地学习和收敛。本文在ELAN的基础上提出了Extend-ELAN(E-ELAN),其主要架构如图(d)所示。

      无论梯度路径长度和大规模(large-scale)ELAN中计算块的堆叠数量如何,它都达到了稳定状态。如果无限地堆叠更多的计算块,这种稳定状态可能会被破坏,参数利用率就会下降。所提出的E-ELAN利用expand、shuffle、merge基数(cardinality)来实现在不破坏原有梯度路径的情况下不断增强网络的学习能力。在架构方面,E-ELAN仅改变了计算块的架构,而过渡层(transition layer)的架构完全不变。我们的策略是使用组卷积来扩展计算块的通道和基数。我们将对计算层的所有计算块应用相同的组参数和通道乘数(channel multiplier)。然后,每个计算块计算出的特征图将根据设定的组参数g被洗牌(shuffled)成g组,然后将它们连接在一起。此时,每组特征图中的通道数将与原始架构中的通道数相同。 最后,我们添加g组特征图来执行合并基数。除了保持原有的ELAN设计架构外,E-ELAN还可以引导不同组的计算模块学习更多样的特征。

      (2).Model scaling for concatenation-based models:模型缩放的主要目的是调整模型的一些属性,生成不同尺度的模型,以满足不同推理速度的需求。例如,EfficientNet的缩放模型考虑了宽度、深度和分辨率。至于scaled-YOLOv4,其缩放模型是调整stages的数量。上述方法主要应用于PlainNet或ResNet等架构中。 当这些架构执行放大或缩小时,每一层的入度和出度(in-degree and out-degree)都不会改变,因此我们可以独立分析每个缩放因子对参数量和计算量的影响。然而,如果将这些方法应用于基于串联的架构,我们会发现当对深度进行放大或缩小时,紧接在基于串联的计算块之后的翻译层(translation layer)的入度会减小或增加,如下图(a)和(b)所示。

      从上述现象可以推断,对于基于级联的模型,我们不能单独分析不同的缩放因子,而必须一起考虑。以深度放大为例,这样的动作会导致过渡层的输入通道和输出通道之间的比例发生变化,这可能会导致模型的硬件使用率下降。因此,我们必须为基于级联的模型提出相应的复合模型缩放方法。当我们缩放计算块的深度因子(depth factor)时,我们还必须计算该块的输出通道的变化。然后,我们对过渡层进行相同变化量的宽度因子缩放,结果如下图(c)所示。我们提出的复合缩放方法可以保持模型在初始设计时具有的属性并保持最佳结构。

      4.Trainable bag-of-freebies

      (1).Planned re-parameterized convolution:虽然RepConv在VGG上取得了优异的性能,但是当我们直接将其应用到ResNet和DenseNet等架构上时,其精度会明显降低。我们使用梯度流传播路径(gradient flow propagation path)来分析重参数化卷积应如何与不同网络结合。我们还相应地设计了计划重新参数化卷积(planned re-parameterized convolution)。

      RepConv实际上在一个卷积层中结合了3*3卷积、1*1卷积和恒等连接(identity connection)。在分析了RepConv和不同架构的组合和相应性能后,我们发现RepConv中的恒等连接破坏了ResNet中的残差和DenseNet中的级联,这为不同的特征图提供了更多多样性的梯度。由于上述原因,我们使用无恒等连接的RepConv(RepConvN)来设计计划重参数化卷积的架构。在我们的想法中,当带有残差或级联的卷积层被重新参数化卷积替换时,不应该有恒等连接。下图显示了我们设计的"planned re-parameterized convolution"在PlainNet和ResNet中使用的示例。

      (2).Coarse for auxiliary and fine for lead loss:深度监督(deep supervision)是一种常用于训练深度网络的技术。其主要思想是在网络的中间层添加额外的辅助头(auxiliary head),并以辅助(assistant)损失为指导的浅层网络(shallow network)权重。即使对于ResNet和DenseNet这样通常收敛良好的架构,深度监督仍然可以显着提高模型在许多任务上的性能。如下图所示:(a)和(b)分别显示了"无"和"有"深度监督的目标检测器架构。在本文中,我们将负责最终输出的头称为引导头(lead head),用于辅助训练的头称为辅助头(auxiliary head)。

      接下来我们要讨论标签分配的问题。过去,在深度网络的训练中,标签分配通常直接参考ground truth,并根据给定的规则生成硬标签(hard label)。然而,近年来,如果我们以目标检测为例,研究人员经常利用网络预测输出的质量和分布,然后与ground truth一起考虑使用一些计算和优化方法来生成可靠的软标签(soft label)。在本文中,我们将这种将网络预测结果与ground truth一起考虑然后分配软标签的机制称为"标签分配器(label assigner)"。

      无论auxiliary head or lead head的情况,都需要针对目标进行深度监督训练。在开发软标签分配器相关技术的过程中,我们无意中发现了一个新的衍生问题,即"如何为auxiliary head and lead head分配软标签?"据我们所知,相关文献迄今尚未对此问题进行探讨。目前最流行的方法的结果如下图(c)所示,即将auxiliary head and lead head分开,然后使用各自的预测结果和ground truth来执行标签分配。本文提出的方法是一种新的标签分配方法,通过lead head预测来指导auxiliary head and lead head。换句话说,我们使用lead head预测作为指导来生成从粗到细的分层标签(coarse-to-fine hierarchical labels),这些标签分别用于auxiliary head and lead head学习。所提出的两种深度监督标签分配策略分别如下图(d)和(e)所示。

      1).Lead head guided label assigner:主要根据lead head的预测结果和ground truth进行计算,并通过优化过程生成软标签。这套软标签将作为auxiliary head and lead head的目标训练模型。这样做的原因是因为lead head具有比较强的学习能力,因此它生成的软标签应该更能代表源数据和目标数据之间的分布和相关性。此外,我们可以将这种学习视为一种广义的残差学习。通过让较浅的(shallower) auxiliary head直接学习lead head已学到的信息,lead head将更能够专注于学习尚未学习的剩余信息。

      2).Coarse-to-fine lead head guided label assigner:还使用lead head的预测结果和ground truth来生成软标签。然而,在这个过程中,我们生成了两组不同的软标签,即粗标签和细标签(coarse label and fine label),其中细标签与lead head引导标签分配器生成的软标签相同,而粗标签是通过允许更多网格来生成的,通过放宽正样本分配过程的约束,将其视为正目标。原因是auxiliary head的学习能力不如lead head,为了避免丢失需要学习的信息,我们将重点优化优化目标检测任务中auxiliary head的召回。对于lead head的输出,我们可以从高召回率的结果中筛选出高精度的结果作为最终的输出。然而,我们必须注意,如果粗标签的附加权重(additional weight)接近细标签的附加权重,则可能在最终预测中产生不好的先验框。因此,为了使那些额外的粗正网格(coarse positive grids)的影响更小,我们在解码器中进行了限制,使得额外的粗正网格不能完美地产生软标签。上述机制使得细标签和粗标签的重要性在学习过程中动态调整,使得细标签的可优化上限始终高于粗标签。

      (3).Other trainable bag-of-freebies:在本节中,我们将列出一些可训练的bag-of-freebies。这些赠品(freebies)是我们在训练中使用的一些技巧,但最初的概念并不是我们提出的。包括:

      1).Batch normalization in conv-bn-activation topology:这部分主要将批量归一化层直接连接到卷积层。这样做的目的是在推理阶段将批量归一化的均值和方差整合到卷积层的偏差和权重(bias and weight)中。

      2).Implicit knowledge in YOLOR  combined with convolution feature map in addition and multiplication manner:YOLOR中的隐式知识可以通过推理阶段的预计算简化为向量。该向量可以与前一个或后一个卷积层的偏差和权重相结合。

      3).EMA model:EMA是mean teacher使用的一种技术,在我们的系统中我们纯粹使用EMA模型作为最终的推理模型。

      GitHub:https://github.com/fengbingchun/NN_Test

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/612423.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

解决 git 因输入密码错误而导致的报错无法推送问题

报错内容如下: > git push origin master:master fatal: unable to access https://gitee.com/spring-in-huangxian-county/web-tts-vue.git/: OpenSSL SSL_connect: Connection was reset in connection to gitee.com:443 出错原因 根本原因是本机存储的 账户…

大型动作模型 (LAM):AI 驱动的交互的下一个前沿

1.概述 现在人工智能中几个关键的领域,包括生成式人工智能(Generative AI)、大型动作模型(Large Action Models, LAM)、以及交互式人工智能(Interactive AI)。以下是对这些概念的简要解释和它们…

数据库管理-第187期 23ai:怎么用SQL创建图(20240510)

数据库管理187期 2024-05-10 数据库管理-第187期 23ai:怎么用SQL创建图(20240510)1 安装PGX1.1 数据库配置对应用户1.2 使用RPM包安装Graph Server1.3 安装Oracle Graph Client1.4 访问PGX页面 2 SQL Property Graph2.1 创建SQL属性图2.2 关于点和边图元…

c++11 标准模板(STL)本地化库 - 平面类别(std::money_put) - 格式化货币值为字符序列以输出

本地化库 本地环境设施包含字符分类和字符串校对、数值、货币及日期/时间格式化和分析&#xff0c;以及消息取得的国际化支持。本地环境设置控制流 I/O 、正则表达式库和 C 标准库的其他组件的行为。 平面类别 格式化货币值为字符序列以输出 std::money_put template< …

聊聊ChatGPT:智能语言模型背后的原理

目录 1. ChatGPT的基础&#xff1a;GPT模型 2. 预训练与微调&#xff1a;让模型更加智能 2.1 预训练 2.2 微调 3. 多样化的应用场景 4. 未来的展望 5. 结语 在当今的人工智能领域&#xff0c;OpenAI的ChatGPT无疑是一个炙手可热的话题。它不仅能流畅地进行对话&#xff…

【ArcGISProSDK】condition属性

示例 通过caption属性可以看出esri_mapping_openProjectCondition的条件是一个工程被打开 condition的作用 由此可知示例中的Tab实在工程被打开才能使用&#xff0c;否则他禁用显示灰色&#xff0c;在未禁用的时候说明条件满足。 参考文档 insertCondition 元素 (arcgis.com…

局域网手机端远程控制手机

局域网手机端远程控制手机 随着科技的进步和智能设备的普及&#xff0c;远程控制技术在日常生活与工作中的应用越来越广泛。其中&#xff0c;局域网内的手机端远程控制手机技术&#xff0c;因其便捷性和实用性&#xff0c;受到了众多用户的关注。本文将简要介绍该技术及其应用…

#兼职副业赚钱吗?# 宝妈与上班族在水牛社的财富探索

在这个繁忙的都市节奏中&#xff0c;宝妈与上班族都面临着平衡家庭与经济的挑战。那么&#xff0c;兼职副业真的能为他们带来额外的收入吗&#xff1f;接下来&#xff0c;让我们通过两个实例&#xff0c;揭示宝妈和上班族是如何在水牛社找到兼职副业赚钱的契机的。 ✨ 宝妈的故…

Prompt|Kimi高阶技巧,99%的人都不知道

大家好&#xff0c;我是无界生长。 今天分享一条咒语&#xff0c;轻松让Kimi帮你生成流程图&#xff0c;学会了的话&#xff0c;点赞收藏起来吧&#xff01; 效果展示 我们演示一下让kimi帮忙绘制 关注微信公众号“无界生长”的流程图&#xff0c;最终效果图如下所示 效果还不…

Dijkstra求最短路 I:图解 详细代码(图解)

文章目录 题目&#xff1a;Dijkstra求最短路思路伪代码&#xff1a;代码优化优化代码&#xff1a;Java代码 总结 题目&#xff1a;Dijkstra求最短路 给定一个 n个点 m条边的有向图&#xff0c;图中可能存在重边和自环&#xff0c;所有边权均为正值。 请你求出 1号点到 n号点的…

权限束缚术--权限提升你需要知道这些

前言 欢迎来到我的博客 个人主页:北岭敲键盘的荒漠猫-CSDN博客 本文主要对渗透测试中权限提升的一些基础知识进行整理 并不包含权限提升的具体操作 适合要入门权限提升的朋友 提权的重要性 我们在渗透网站时&#xff0c;我们往往会拿到一些权限&#xff0c;但是我们的权限有…

视频批量剪辑指南:一键合并视频并添加背景音乐,高效便捷

在数字化时代&#xff0c;视频剪辑已经成为了一项常见且重要的技能。无论是制作家庭影片、工作展示还是社交媒体内容&#xff0c;掌握高效的视频剪辑技巧都能极大地提升我们的工作效率和创作质量。本文将为您介绍云炫AI智剪中高效的视频批量剪辑方法&#xff0c;让您能够一键合…

ubantu安装docker以及docker-compose

ubantu安装docker以及docker-compose 安装docker1、从官方存储库中安装Docker2、启动Docker服务3、验证 安装docker compose使用docker部署服务1、需要再opt文件夹下创建以下文件夹&#xff0c;/opt文件夹目录说明2、可将已备份对应文件夹拷至对应文件夹下3、在/opt/compose目录…

linux打包流程

因为linux有俩个python版本&#xff0c;我们需要切换到python3这个版本&#xff0c;默认是python 2.7 alias pythonpython3 切换到python3 再次执行&#xff1a;python -V 显示出python的版本了&#xff0c;然后查看pip的配置&#xff0c;我们打包里面需要的第三方需要放到pip…

Gradient发布支持100万token的Lllama3,上下文长度从8K扩展到1048K

前言 近日Gradient公司在Crusoe Energy公司的算力支持下&#xff0c;开发了一款基于Llama-3的大型语言模型。这款新模型在原Llama-3 8B的基础上&#xff0c;将上下文长度从8000 token大幅扩展到超过104万token。 这一创新性突破&#xff0c;展现了当前SOTA大语言模型在长上下…

OC foudation框架(上)学习

foundation框架 文章目录 foundation框架字符串&#xff08;NSString && NSMutableString&#xff09;NSString的其他功能NSMutableString 日期与时间 &#xff08;NSDate&#xff09;2.1 日期与时间&#xff08;NSDate&#xff09;2.2日期格式器日历与日期组件定时器&…

霍金《时间简史 A Brief History of Time》书后索引(A--D)

图源&#xff1a;Wikipedia INDEX A Abacus Absolute position Absolute time Absolute zero Acceleration Age of the universe Air resistance Albrecht, Andreas Alpha Centauri Alpher, Ralph Anthropic principle Antigravity Antiparticles Aristotle Arrows of time …

【spring】Security 密码加密算法

Spring Security 提供了多种密码加密算法&#xff0c;用于在存储用户密码时进行加密&#xff0c;以增强安全性。 查看org.springframework.security.crypto.factory.PasswordEncoderFactories 以下是一些常用的密码加密算法&#xff1a; BCryptPasswordEncoder&#xff1a; 这…

gin框架学习笔记(二) ——相关数据与文件的响应

前言 在看是今天的内容之前&#xff0c;我们收先来探究一下&#xff1a;什么是Web应用工作的原理&#xff1f;当然这个问题其实论述起来是很麻烦的&#xff0c;但是我们将它无限的缩小&#xff0c;其实可以简化为一个C/S模型&#xff0c;客户端(Client)负责发送请求&#xff0…

基于ambari hdp的kafka用户授权读写权限

基于ambari hdp的kafka用户授权读写权限 版本Kafka 2.0.0添加自定义配置修改admin密码重启kafka授权读取授权写入有效通配符部分举例 版本Kafka 2.0.0 添加自定义配置 authorizer.class.name kafka.security.auth.SimpleAclAuthorizer super.users User:admin allow.everyo…