一.前情提要
1.本文理论为主,并且仅为个人理解,能力一般,不喜勿喷
2.本文理论知识较为散碎
3.如有需要,以下是原文,更为完备
DETR 论文精读【论文精读】_哔哩哔哩_bilibili
二.正文
示意图:
1.不同与其他目标检测的技术
①端到端,其他多用非极大抑制等技术
②视为集合预测问题
③提出新的目标函数,使用二分图匹配:即不需要那么多框
eg:
2.最大优势
①简单,只要有库就能使用
②在全景分割上效果较好
③绕过anchr、nums
3.运算
计算100个框和2个框之间的matching loss,再确定哪两个相匹配因为使用了transformer,所以在大物体上的效果优于小物体,通过多尺度特征来解决小物体问题,并且解决了训练速度过慢这个问题
4.在目标检测上,detr并没有采用原始的集合预测与人工干预共同处理,因为该处理方法效率较低,速度较慢前人使用rcnn解决encoder问题效果并不理想,所以本项目使用transformer解决了这些问题。
本项目输出的集合是一定的,比如该项目输出来是100,意思是给一张图片输出来的,结果也是100种
5.损失函数:
①本项目的特点是二分图匹配,可以粗浅理解为让工人去做自己擅长的事情,因为每个工人的经历和擅长的点是不一样的,如图
(a,b,c工人,x,y,z事情)
②便利集合也可以运算,但是匈牙利算法更加高效,公式如下
目标函数最后的公式
③如图,还有两个loss,一个是出框,一个是分类,此处不同于以往因为有的计算是根据框的大小来的,所以使用,Generalized iou loss整体流程可以概括为先计算最优匹配再计算loss
④整体网络框架如下
(最后有物体类别预测和出框预测,类别是91,框是4,在decode后加ffn,此处为fnn共)享参数
7.整体代码简单易上手如图
8.通过消融实验展示优秀性能
此处自注意力做的非常完美,比如大象和小象的蹄子之间的间隔,能处理的非常好,能精确分辨出。