DETR Doesn’t Need Multi-Scale or Locality Design

论文名称:PlainDetr
发表时间:ICCV2023
开源代码
作者及组织: Yutong Lin,Yuhui Yuan等,来自西安交大,微软亚洲研究院。

前言

 自Detr以来,后续paper的改进的方向:主要是将归纳偏置重新又引入进Detr结构,比如DINO,ConditionDetr,HybridMatch等。但这与Detr原始简洁的结构设计背道而驰。于是本篇工作旨在保持Detr简洁结构设计上,提高其精度。
  关于DETR相关内容可参考:
   1)Detr
   2)DeformableDetr
   3)ConditionalDetr
   4)DAB-DETR
   5)DN-DETR
   6)DINO

1、方法

 文中首先设计了一个强的Detr的Baseline,在coco上12epoch的mAP=37.2。详细的配置参数如下图:表格中的小trick均来自其余论文。具体是啥就不详细介绍了,感兴趣可参考前言中文献 😏。

在这里插入图片描述

1.1.MIM预训练Backbone

  在目标检测中,MIM已经证实比全监督预训练的性能更好 ,消融实验表明:mim-swin-s比sup-swin-s的mAP从37.2提高到44.6。
 另外,MM中每层特征图中其实都蕴含了归纳偏置,故可以只用一层layer即可,无需FPN或者MultiHeadAttn。如下图,作者采用了©的结构,且实验表明,并没有掉点。
在这里插入图片描述
在这里插入图片描述

1.2.Box-to-Pixel Relative Position Bias

  原始Detr中cross-attention可表示为:
O = S o f t m a x ( Q K T ) V + X \begin{equation} O = Softmax(QK^ {\mathrm{T}} )V+X \end{equation} O=Softmax(QKT)V+X
  本文提出的BoxRPE可表示为:
O = S o f t m a x ( Q K T + B ) V + X \begin{equation} O = Softmax(QK^ {\mathrm{T}} +B)V+X \end{equation} O=Softmax(QKT+B)V+X
  其中,上式中的B的计算流程如下图所示:首先输入是一张图像及pred_box,两个五角星的位置分别表示pred_box的左上角和右下角角点。然后分别从X轴和Y轴对这两个角点进行编码:以 $\delta(x_1) $ 为0点,依次向左向右编码W个相对坐标[-4,7];然后经过MLP并广播得到B。
在这里插入图片描述

1.3. Bounding Box Regression re-param

  在Detr回归中,xywh均进行了归一化,但没有区分大小物体的损失权重:被大物体的损失主导。于是,作者重新编码了回归的范式:

在这里插入图片描述

 其中 l 表示第几层layer, t* 表示模型的gt值 ,然后跟预测框进行loss计算即可。

2、实验

 上述三个trick的消融实验如下图:
在这里插入图片描述

  跟其余方法对比实验:
在这里插入图片描述

思考

  相较于DeformableDetr,省去了MultiHeadAttn这个算子,且只用一层layer,结构变得简洁 。但是在源码中,作者在生成候选框时,其实还是采用了四层,作者说只用一层的话,会掉一个点左右,还需实测一下。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/454533.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何在群晖用Docker本地搭建Vocechat聊天服务并无公网ip远程交流协作

文章目录 1. 拉取Vocechat2. 运行Vocechat3. 本地局域网访问4. 群晖安装Cpolar5. 配置公网地址6. 公网访问小结 7. 固定公网地址 如何拥有自己的一个聊天软件服务? 本例介绍一个自己本地即可搭建的聊天工具,不仅轻量,占用小,且功能也停强大,它就是Vocechat. Vocechat是一套支持…

前端之用html做一个用户登陆界面

用户登陆界面 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>用户注册页面</title></head> <body><form action"https://www.baidu.com" method"post">…

C语言函数—关于静态库

具体的函数声明和定义请参考上一篇文章 如果我们成为了库的开发者&#xff0c;要卖给别人C语言库&#xff0c;该怎么办呢&#xff1f; A不会写减法&#xff0c;想找你买一个函数 但是&#xff0c;他给的太少了&#xff0c;你不想把源码卖给他 那怎么办呢&#xff1f; 首先&…

如何使用vue定义组件之——父组件调用子组件数据

首先&#xff0c;准备父子容器&#xff1a; <div class"container"><my-father></my-father><my-father></my-father><my-father></my-father><!-- 此处无法调用子组件&#xff0c;子组件必须依赖于父组件进行展示 --&…

windows的vmdk文件转qcow2运行蓝屏

背景 使用qemu-img将做好的vmware虚拟机转为qcow2到gns3中运行&#xff0c;Linux、Win7、Win10都没出现蓝屏&#xff0c;但Win XP却在开机时蓝屏了&#xff0c;错误代码&#xff1a;0x0000007B 解决方案 最终在proxmox上找到方案&#xff1a;https://pve.proxmox.com/wiki/Ad…

什么是架构?架构设计原则是哪些?什么是设计模式?设计模式有哪些?

什么是架构?架构设计原则是哪些?什么是设计模式?设计模式有哪些? 架构的本质 架构本身是一种抽象的、来自建筑学的体系结构,其在企业及IT系统中被广泛应用。 架构的本质是对事物复杂性的管理,是对一个企业、一个公司、一个系统复杂的内部关系进行结构化、体系化的抽象,…

【42 Pandas+Pyecharts | 某瓣电影Top250数据分析可视化】

文章目录 &#x1f3f3;️‍&#x1f308; 1. 导入模块&#x1f3f3;️‍&#x1f308; 2. Pandas数据处理2.1 读取数据2.2 查看数据信息2.3 查看数据描述信息2.4 将中国地区语言修改为中文 &#x1f3f3;️‍&#x1f308; 3. Pyecharts数据可视化3.1 各年份上映电影数量3.2 电…

【数据库-黑马笔记】基础-SQL

本文参考b站黑马数据库视频,总结详细全面的笔记 ,可结合视频观看1~26集 MYSQL 的基础知识框架如下 目录 一、MYSQL概述 1、数据库相关概念 2、MYSQL的安装及启动 二、SQL 1、DDL【Data Defination】 2、DML【Data Manipulation】 ①、插入 ②、更新和删除 3、 DQL【Data…

基于Java+SpringBoot+vue+element实现婚纱摄影网系统

基于JavaSpringBootvueelement实现婚纱摄影网系统 &#x1f345; 作者主页 央顺技术团队 &#x1f345; 欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; &#x1f345; 文末获取源码联系方式 &#x1f4dd; 文章目录 基于JavaSpringBootvueelement实现婚纱摄影网系统前言介…

深度学习进阶:揭秘强化学习原理,实战应用全解析!

作为机器学习领域的一大分支&#xff0c;强化学习以其独特的学习方式吸引了众多研究者和实践者的目光。强化学习&#xff0c;顾名思义&#xff0c;是通过不断地强化与环境的交互来优化决策策略。在这个过程中&#xff0c;智能体通过试错&#xff0c;根据环境给出的奖励信号来调…

反无人机电子护栏:原理、算法及简单实现

随着无人机技术的快速发展&#xff0c;其在航拍、农业、物流等领域的应用日益广泛。然而&#xff0c;无人机的不规范使用也带来了安全隐患&#xff0c;如侵犯隐私、干扰航空秩序等。为了有效管理无人机&#xff0c;反无人机电子护栏技术应运而生。 目录 一、反无人机电子护栏…

《OWASP TOP10漏洞》

0x01 弱口令 产生原因 与个人习惯和安全意识相关&#xff0c;为了避免忘记密码&#xff0c;使用一个非常容易记住 的密码&#xff0c;或者是直接采用系统的默认密码等。 危害 通过弱口令&#xff0c;攻击者可以进入后台修改资料&#xff0c;进入金融系统盗取钱财&#xff0…

现代化的轻量级Redis桌面客户端Tiny RDM

​欢迎光临我的博客查看最新文章: https://river106.cn 1、简介 Tiny RDM&#xff08;全称&#xff1a;Tiny Redis Desktop Manager&#xff09;是一个界面现代化的轻量级Redis桌面客户端&#xff0c;支持Linux、Mac和Windows。它专为开发和运维人员设计&#xff0c;使得与Red…

电脑音频显示红叉怎么办?这里提供四种方法

前言 如果你在系统托盘中看到音量图标上的红色X,则表示你无法使用音频设备。即使音频设备未被禁用,当你运行音频设备疑难解答时,仍然会看到此错误。 你的电脑将显示已安装高清音频设备,但当你将鼠标悬停在图标上时,它将显示未安装音频输出设备。这是一个非常奇怪的问题,…

yolov8模型结构

yolov8模型结构 yolo发展历史yolov8简介yolov8模型结构 yolo发展历史 YOLOv1&#xff1a;2015年Joseph Redmon和 Ali Farhadi等 人&#xff08;华盛顿大学&#xff09; YOLOv2&#xff1a;2016年Joseph Redmon和Ali Farhadi等人&#xff08;华盛顿大学&#xff09; YOLOv3&…

200W年薪的大佬 随手丢给我“Spring速成宝典”看完这些知识点直接定级P7

面试官&#xff1a;答的很好&#xff0c;最后一个问题&#xff1a;如果没有Spring&#xff0c;你打算怎么开展工作&#xff1f; 这个思考了几分钟后&#xff0c;程序员小建是这么回答的&#xff1a;Spring的核心源码&#xff0c;比如&#xff1a;IOC、AOP、Spring事务、MVC原理…

SpringBoot集成对象存储服务Minio

MinIO 是一个基于 Apache License v2.0 开源协议的对象存储服务。它兼容亚马逊 S3 云存储服务接口&#xff0c;非常适合于存储大容量非结构化的数据&#xff0c;例如图片、视频、日志文件、备份数据和容器/虚拟机镜像等&#xff0c;而一个对象文件可以是任意大小&#xff0c;从…

Linux面试题汇总!附答案详解!学习提升必备!(30w+收藏)

Linux 概述 什么是Linux Unix和Linux有什么区别&#xff1f; 什么是 Linux 内核&#xff1f; Linux的基本组件是什么&#xff1f; Linux 的体系结构 BASH和DOS之间的基本区别是什么&#xff1f; Linux 开机启动过程&#xff1f; Linux系统缺省的运行级别&#xff1f; L…

mysql server 和mysql workBench的安装

选择在线安装 选择性安装&#xff0c;只需安装server 和workBench,其中server是数据库&#xff0c;workBench是数据库的可视化

Springboot+vue的人事管理系统(有报告)。Javaee项目,springboot vue前后端分离项目。

演示视频&#xff1a; Springbootvue的人事管理系统&#xff08;有报告&#xff09;。Javaee项目&#xff0c;springboot vue前后端分离项目。 项目介绍&#xff1a; 采用M&#xff08;model&#xff09;V&#xff08;view&#xff09;C&#xff08;controller&#xff09;三层…