【DETR系列目标检测算法代码精讲】01 DETR算法01 DETR算法框架和网络结构介绍

为什么要有DETR

总所周知,传统的目标检测算法非常依赖于anchor和nms等手工设计操作,非常费时费力,自然而然的就产生了取消这些操作的想法。但是我们首先需要思考的是,为什么我们需要anchor和nms?

因为我们是没有指定anchor去具体预测哪一个目标的,而且nms操作是建立在纯粹的边界框的距离上的,它完全没有利用到图像的信息,只是根据两个边界框的IoU去做判断,这样造成了两个问题。

一是非常费事,我之前写过一篇介绍NMS算法的博客,具体内容大家可以去看看,这里仅做简要的介绍,NMS的操作首先需要根据置信度的阈值过滤掉一批边界框,形成一个边界框集合B,然后从中挑选出置信度最高的边界框b,然后B集合剩下的边界框挨个去和它做IoU的计算,这个IoU值一旦大于某个阈值,我们就把这个边界框从B集合中删除,这样计算的复杂度至少就是o(n)。

二是对于密度预测,nms的这种操作就很容易把目标给漏掉。我举个例子,

在这里插入图片描述
这是斯坦福团队ICCV2015的一篇论文,这篇论文也直接启发了DETR的工作,
在这里插入图片描述
可见在B图中,挨得很近的人被忽略了,这是为什么呢?正是因为我们运用了NMS操作,它基于Iou把相近的边界框给过滤掉了。使用NMS就一定会有正样本被过滤。

说完了NMS操作的问题,我们再来说anchor的问题,关于为什么要使用anchor,我计划用一个博客专门来讲这个问题,这里也只是简要讲一下anchor的问题。
逻辑是这样的:为什么需要nms操作?——因为对同一个目标有冗余的检测框。——为什么会有冗余的检测块?——因为我们运用了anchor 那问题来了,为什么使用anchor就会产生冗余的检测框呢?
原因很简单,因为anchor之间是没有信息交互的。A anchor去预测了一个目标,其他的anchor是不知道的,他们也会去预测这个目标,只要这个目标落在anchor所在的区域内,这就是产生这个问题的根源。

那么要想解决anchor和nms的问题,解决方案就呼之欲出了,我们需要让anchor之间有信息交互,如果一个anchor预测到了目标,就必须让其他的anchor知道,那么什么方法什么机制能够实现信息交互呢?那就是循环神经网络了。这也是这篇论文的方法 CNN + LSTM

Transformer在2017年被提出来后,其全局注意力机制在NLP领域得到了广泛的应用与成功,自然而然地就会被想到运用于CV领域。

DETR就是第一个把Transformer应用于目标检测领域的工作。

在这里插入图片描述

论文的链接:
DETR论文

官方代码的链接
官方DETR代码

我讲解的DETR代码链接:
我讲解的DETR代码

DETR的算法思想、网络结构与具体实现

1.算法思想

目标是做在之前介绍的那篇CNN+LSTM的基础上实现并行的预测。
核心思想,把目标检测问题转换为集合的预测问题。把预测框集合与真实目标集合之间做完全的二分类匹配,也就是左右两边要一对一。
在这里插入图片描述
现在假设有两个集合,左边的集合是模型预测到的N个元素,N是指定的超参数,一般指定为100,因为一般的数据集比如COCO都不会有超过100种目标。如果我们预测出现的标签数量不到N怎么办?没关系,就补充ϕ,表现没有检测到目标。集合中每个元素里面包括边界框的坐标和目标的类别信息,右边的集合就是ground truth,同样,不够N怎么办,就补充ϕ,表示是背景。这样把左右两个集合做一对一的匹配,按照哦我们设定的损失函数最小的匹配方法,就实现了把预测框与真实目标的一对一匹配,这就完全避免了冗余的检测框的问题。

根据上面的算法核心思想,
那么接下来有几个问题:
①如何得到检测框,从哪里来
②如何避免检测框之间的重复
③如何在预测的检测框集合与ground truth集合之间实现最佳的一对一匹配

DETR的解决方案是这样的

对于第一个问题和第二个问题,实际上是一个问题。

答案就是利用transformer的Encoder-decoder,首先还是利用一个CNN的backbone去提取特征图,这里要插一点,为什么还是要使用CNN的主干网络提取特征图,因为在这篇论文发表的时候(2020年),当时还没有Swin Transformer这样的可以针对不同分辨率图像输入的transformer backbone,这里还要补充一点,我们输入transformer的都是一个个token,在NLP任务里面,这一个个token可以是单词、字母,那迁移到CV领域,这些token是什么呢?可以是像素、也可以是patch(图像块),但是问题就来了,如果大家对transformer的self-attention计算过程了解的话就可以知道,一般的计算量是token的平方,也就是每个query需要和包括它自己在内的所有Key相乘,因此,如果我们把一个像素作为token,对于一个100*100的原图,我们就有10000个token,那就需要计算10000的平方次,这个计算量是吃不消的,因此用CNN的主干网络的主要目的除了提取特征以外,很重要的一点就是缩减图像的尺寸,变成一个个patch。

提取完特征图后,把特征图展开,成为一个token序列,每一个token都是一个个特征图的patch,这样输入到encoder中使用self-attention进行全局推理。这样的token之间就进行了信息交互

然后,初始化object query,这个object query的数量也是人为设定的,我们要预测多少个目标就设置多少个object query,object query的初始化就是0+positional encoder

初始化的object query输入到transformer的decoder,与encoder feature 输出的key进行cross-attention,找到带有全局信息的与物体相关的区域,同时Self-attention 则在不同的 query 之间进行交互,实现类似 NMS 的效果。

最后的 prediction heads 基于每个 query 在 decoder 中提取到的特征,预测出物体的 bounding box 的位置和类别。

至于第三个问题,作者用了匈牙利算法做最优二部图匹配,这一点会在损失函数这一部分进行深入介绍
在这里插入图片描述
在这里插入图片描述

DETR把目标检测视为一个直接的集合预测问题,简化了检测管道,有效地消除了对anchor和nms这样手工设计组件需求。

2.网络结构

DETR的网络结构如上图所示:基本可以分为四个部分
①CNN Backbone
②encoder
③decoder
④FFN head

CNN Backbone

Backbone 的输出通道为 2048,图像高和宽都变为了 1/32
在这里插入图片描述

Transformer Encoder

在得到Feature Map之后,DETR首先通过一个 卷积将其通道数调整为更小的d,得到一个大小为 dHW
的新的Feature Map。DETR的下一步则是将其转换为序列数据,这一步是通过reshape操作完成的,转换之后的数据维度是 d*(HW)
。因为Transformer是与输入数据的顺序无关的,因此它需要加上位置编码加入位置信息。这一部分会作为编码器的输入。DETR的编码器的Transformer使用的是多头自注意力模型加上一个MLP。

经过 Backbone 后,将输出特征图 reshape 为 C × H W 因为 C = 2048 是每个 token 的维度,还是比较大,所以先经过一个 1 × 1 的卷积进行降维,然后再输入 Transformer Encoder 会更好。此时自注意力机制在特征图上进行全局分析,因为最后一个特征图对于大物体比较友好,那么在上面进行 Self-Attention 会便于网络更好的提取不同位置不同大物体之间的相互关系的联系,比如有桌子的地方可能有杯子,有草坪的地方有树,有一个鸟的地方可能还有一个鸟等等。所以 DETR 在大目标上效果比 Faster RCNN 好就比较容易理解到了。然后位置编码是被每一个 Multi-Head Self-Attention 前都加入了的,这个就比较狠了。为了体现图像在 x 和 y 维度上的信息,作者的代码里分别计算了两个维度的 Positional Encoding,然后 Cat 到一起。整个 Transformer Encoder 和之前的没什么不同。

Transformer Decoder

Transformer Decoder 也有几个地方需要着重强调。首先就是如何考虑同时进行一个集合预测?之前讲分类的时候都是给一个 class token,因为只进行一类预测。那么现在同时进行不知道多少类怎么办呢?因为目标预测框和输入 token 是一一对应的,所以最简单的做法就是给超多的查询 token,超过图像中会出现的目标的个数(在过去也是先生成 2000 个框再说)。所以在 DETR 中,作者选择了固定的 N = 100 个 token 作为输入,只能最多同时检测 100 个物体。据闻,这种操作可能跟 COCO 评测的时候取 top 100 的框有关。输入 100 个 decoder query slots (Object Query),并行解码N个object,对应的 Transformer decoder 也就会输出 100 个经过注意力和映射之后的 token,然后将它们同时喂给一个 FFN 就能得到 100 个框的位置和类别分数(因为是多分类,所以类别个数是 K + 1,1 指的是背景类别)。

固定预测个数更为简单,定长的输出有利于显存对齐,但是 N = 100 会不会冗杂呢?作者的实验表明,当图像内目标个数在 50 左右的时候,网络就已经区域饱和了,之后就会出现目标丢失。当图像内目标在一百个左右时,其实网络只能检测出来三四十个,这比图像中只有 50 个实例被检测到的情况还要少。作者认为出现这样反常的原因还是因为检测结果与训练分布相差甚远,是训练集中没有那么多多目标图片所造成的。

FFN

最后的 FFN 是由具有 ReLU 激活函数且具有隐藏层的 3 层线性层计算的,或者说就是 1 × 1 1 \times 11×1 卷积。FFN 预测框标准化中心坐标,高度和宽度,然后使用 softmax 函数激活获得预测类标签。

3.损失函数

通过上面对DETR的模型的分析我们知道对于一张图片DETR会输出 N个不同的bounding box,那么我们如何评估这 N个bounding box的效果的好坏呢?在DETR中的策略是对这 N个bounding box以及 N个ground truth进行最优二部图匹配,并根据匹配的结果计算loss来对模型进行优化。

上面提到了计算loss需要生成 N个ground truth,但是一张图片的待检测目标的个数往往是不足 N个的。为了解决这个问题,DETR构造了一个新的类ϕ ,它表示没有目标物体的背景类。通过调整 ϕ中的样本的大小我们可以将ground truth的样本数可控制在 N个,这样我们便得到了两个等容量的集合。

有了这 N 个ground truth,那么我们只要定义好ground truth和bounding box的匹配代价,便可以使用匈牙利匹配算法来得到ground truth和bounding box的最优二部图匹配方案了。

y y y来表示对象的真实集,而用 y ^ = { y ^ i } i = 1 N \hat{y} = \{\hat{y}_i\}^N_{i=1} y^={y^i}i=1N来表示N个预测集。假设N大于图像中对象的数量,将y也视为一组大小为N的集合,填充有∅(无对象)。找到这两个集合之间的二分匹配,

在这里插入图片描述

其中 L m a t c h ( y i , y ^ σ ( i ) ) \mathcal{L}_{match}(y_i, \hat{y}_{σ(i)}) Lmatch(yi,y^σ(i))是ground truth y i y_i yi和具有指示函数 σ ( i ) σ(i) σ(i)的预测之间的成对匹配代价

在这里插入图片描述

将类 c i c_i ci的概率定义为 p ^ σ ( i ) ( c i ) \hat{p}_{σ(i)}(ci) p^σ(i)(ci),预测框定义为 b ^ σ ( i ) \hat{b}_{σ(i)} b^σ(i)。根据这些符号,将 L m a t c h ( y i , y ^ σ ( i ) ) \mathcal{L}_{match}(y_i, \hat{y}_{σ(i)}) Lmatch(yi,y^σ(i))定义为 − 1 c i ≠ ∅ p ^ σ ( i ) ( c i ) + 1 c i ≠ ∅ L b o x ( b i , ˆ b ^ σ ( i ) ) −\mathbb{1}_{{c_i\neq∅}} \hat{p}_{σ(i)}(ci) + \mathbb{1}_{{c_i\neq∅}}\mathcal{L}_{box}(bi, ˆ\hat{b}_{σ(i)}) 1ci=p^σ(i)(ci)+1ci=Lbox(bi,ˆb^σ(i))

匈牙利算法的损失函数分为类别损失和坐标回归损失两部分

− 1 c i ≠ ∅ p ^ σ ( i ) ( c i ) −\mathbb{1}_{{c_i\neq∅}} \hat{p}_{σ(i)}(ci) 1ci=p^σ(i)(ci)这是类别的损失,前面的是一个布尔函数,也就是当类别不为背景的时候为1,否则为0
损失函数肯定是希望越小越好,只有预测是目标而不是背景才有 p ^ σ ( i ) ( c i ) \hat{p}_{σ(i)}(ci) p^σ(i)(ci),否则为0,因此在千米加上负号,后面是边界框的回归损失,肯定是希望预测的框与真实目标的越接近越好。

在这里插入图片描述
其中 λ i o u , λ L 1 ∈ R λ_{iou}, λ_{L1} ∈ \mathbb{R} λiou,λL1R是超参数。使用了L1损失和广义IoU损失 L i o u ( ⋅ , ⋅ ) L_{iou}(·, ·) Liou(⋅,⋅)的线性组合
当我们通过上面的策略得到ground truth和预测bounding box的最优二部图匹配后,便可以根据匹配的结果计算损失函数了。DETR的损失函数和匹配代价非常类似,不同的是它的类别预测使用的是对数似然,

在这里插入图片描述

它们另外一个不同是bool函数作用的位置不同,在 前者中背景目标不参与匹配代价的计算,
后 则也要计算背景目标的分类损失。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/502683.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

3D汽车模型线上三维互动展示提供视觉盛宴

VR全景虚拟看车软件正在引领汽车展览行业迈向一个全新的时代,它不仅颠覆了传统展览的局限,还为参展者提供了前所未有的高效、便捷和互动体验。借助于尖端的vr虚拟现实技术、逼真的web3d开发、先进的云计算能力以及强大的大数据处理,这一在线展…

Docker Swarm安装部署应用

一、Docker Swarm核心概念 1、什么是Docker Swarm GitHub地址 Docker Swarm 是 Docker 官方推出的容器集群管理工具,基于 Go 语言实现。使用它可以将多个 Docker 主机封装为单个大型的虚拟 Docker 主机,快速打造一套容器云平台。 Docker Swarm 是生产…

Java线程池工作原理浅析

为什么要用线程池? 1、线程属于稀缺资源,它的创建会消耗大量系统资源 2、线程频繁地销毁,会频繁地触发GC机制,使系统性能降低 3、多线程并发执行缺乏统一的管理与监控 线程池的使用 线程池的创建使用可通过Executors类来完成…

【网站项目】泉文化管理系统

🙊作者简介:拥有多年开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…

Vue2(十二):Vuex环境搭建、Vuex工作原理、几个配置项、多组件共享数据、Vuex模块化

一、Vuex 1.概念 专门在Vue中实现集中式状态(数据)管理的一个Vue插件(use引入),对vue应用中多个组件的共享状态进行集中式的管理(读/写),也是一种组件间通信的方式&…

String,StringBuffer,StringBuilder 的区别【大白话Java面试题】

String,StringBuffer,StringBuilder 的区别【大白话Java面试题】 大白话回答 1、可变/不可变类 String是不可变类。他被被final修饰,所以每一次的创建修改删除都要重新分配内存创建新的对象。 StringBuilder和StringBuffer是可变类&#xff…

Linux部署Sonarqube+Gogs+Jenkins(一)

Linux部署SonarqubeGogsJenkins 一、1.Linux安装JDK11环境1. 本地进行上传2. 进入到/usr/java目录,并且进行解压3. 配置文件/etc/profile,配置环境变量4.让对应的配置文件生效5. 验证 二、Linux安装Python环境三、Linux安装Jenkins环境1、/usr目录下创建…

ssm框架笔记-maven

html是骨头 css使皮肤 js是你能做的动作 MAVEN 依赖管理:1.声明dependenciys标签 2.maven search3。 版本号提取 3.$引用 3.2依赖传递和冲突 依赖传递指的是当一个模块或库 A 依赖于另一个模块或库 B,而 B 又依赖于模块或库 C,那么 A 会间…

ADT 创建表,并用ABAP往里面插数据

参考:Create Table Persistence and Generate Data | SAP Tutorials 4、Replace your code with following: CLASS zcl_generate_travel_data_xxx DEFINITIONPUBLICFINALCREATE PUBLIC .PUBLIC SECTION.INTERFACES if_oo_adt_classrun.PROTECTED SECTION.PRIVATE S…

基于SSM医院病历管理系统

基于SSM医院病历管理系统的设计与实现 摘要 病历管理系统是医院管理系统的重要组成,在计算机技术快速发展之前,病人或者医生如果想记录并查看自己的健康信息是非常麻烦的,因为在以往病人的健康信息通常只保存在自己的病历卡或者就诊报告中,…

【C++】vector的介绍及使用说明(类模版的实现方式,顺序存储与动态数组,迭代器iterator的运用,vector的增删查改)

目录 00.引言 01.vector的介绍 类模版 动态分配内存 顺序存储 02.vector的使用 构造函数 迭代器iterator 1.分类: 2.运用: 扩容 1.resize() 2.reverse() 增删查改 1.增加 2.删除 3.查找 4.修改 00.引言 以前我们讲过string类&#xff0…

如何系统的自学python?

系统地自学Python是一个循序渐进的过程,以下是一份详细的指南,帮助你从零开始逐步掌握这门语言: 1、了解Python及其应用场景: 阅读关于Python的简介,理解它为何流行,以及在哪些领域(如Web开发…

stream流中的坑,peek/map/filter

起因 所在系统为一个对账系统,涉及的业务为发布账单,数据结构定的是供应商账单发布,生成企业账单和个人账单。发布账单处理完本系统业务后,需要生成站内通知和调用外部接口生成短信通知。后来增加需求,需要在发布完成…

【Qt 学习笔记】Day1 | Qt 开发环境的搭建

博客主页:Duck Bro 博客主页系列专栏:Qt 专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ Day1 | Qt 开发环境的搭建 文章编号:Qt 学习笔记 / 02 文…

C++初学者:优雅创建第一个窗口

我想学习C做一些实用的程序,但是我不想在软件界面上花太多的时间,可是每每就是界面影响我的思绪。 今天学习C类的包装知识,终于整出了一个我的界面类,虽然封装水平很弱, 这次就用这个类,写了自己工作上常用…

Node.js中Router的使用

文章目录 介绍router的优点1.导入Express和创建Router:2. 定义路由:3.将router暴露到模块外:4. 将Router挂载到Express应用中:4.1.引入router4.2.使用中间件让router在Express应用中生效(三种写法) 5. 完整示例:5.1.编…

Vue3+Vite Nginx部署 跨域

打包项目 webstorm打开项目之后,在Terminal执行打包命令 pnpm run build:prod 复制到Nginx 打包完成之后,生成的包在根目录dist,把dist目录拷贝到Nginx放网站目录下:\nginx-1.25.2\html\divided ,dist改名了divided 修改配置…

【JavaSE】内部类

目录 前言 内部类 内部类的种类 1. 实例内部类 2 静态内部类 3 匿名内部类 4 局部内部类 结语 前言 内部类是我们前面学习遗留下来的知识点,在学完接口后才能更好的理解它,因此等到现在才讲 内部类 在Java中,我们可以将A类定义在B…

短视频素材哪里去找?五大网站助你轻松解决素材难题!

你好,短视频小能手们,是不是经常在为找不到好看的视频素材而烦恼?不用怕,今天我要为你们揭秘五个超赞的视频素材网站,让你的视频素材,制作事半功倍,轻松赢得点赞和关注!瞬间成为热门…

关于Windows中AppData的相关知识,看这篇文章就可以了

如果AppData文件夹占用了你电脑上的太多空间,则需要清理AppData文件夹。下面是一些帮助你在Windows计算机上进行AppData清理的方法。 什么是AppData文件夹 AppData文件夹是保存应用程序数据和设置的位置。每个Windows计算机在C驱动器上都有一个AppData文件夹。AppData文件夹…