DETR解读,将Transformer带入CV

论文出处

[2005.12872] End-to-End Object Detection with Transformers (arxiv.org)

一个前置知识

匈牙利算法:来源于二部图匹配,计算最小或最大匹配

算法操作:在n*n的矩阵中

  1. 减去行列最小值,更新矩阵(此时行或者列最少一个0)

  2. 最少的横线来覆盖有0的行列,横线数量等于n结束算法,否则进入循环

  3. 循环操作:取未被横线覆盖的最小值k,所有未被覆盖的数都减去k(这个步骤至少增加一个0),横线的交点加上k,再次画横线判断

匈牙利算法在CV中用于对目标检测结果的匹配,前后帧之间相同目标的匹配,实现框随目标的运动。

具体的在CV任务中匈牙利算法的匹配代价用框中点之间欧式距离, 也可以是IoU(即框之间的重合度)

DETR:Transformer实现的端到端检测算法

模型训练思路

提前用超参数设置一些预测框,然后根据图像标注的信息得知图像中的物体正确的框选。预测框要和真实的那几个框一一对应,例如图中原本只标注了2个框,但是预测了100个,是从100个中选两个对应上。然后匈牙利算法计算匹配损失,反向传播

测试阶段

计算预测框的类别置信度,达到阈值则可以保留

Transformer先编码图像信息,然后解码,自注意力机制学习图像信息

object query查询图像中是否有物体

这里和NLP任务有明显的不同点。即当前输出是不依赖前一个输出,虽然是用decoder但是多目标的检测是可以并行的

具体操作步骤

  1. backbone卷积提取特征,

  2. Encoder,特征结合位置编码,两者相加生成Q,K。做多头注意力。每次编解码都使用位置编码

  3. Decoder:可以看做两层,先query初始为0,object query这两个query是学习anchor特征,两者相加生成Q,K。再加入图像特征(上一层输出再叠加object query为Q,Encoder输出加上位置编码生成K),学习预测物体类别,坐标,预测框信息等

  4. 输出:预测类别的标签,预测框的坐标

再介绍几个改进

Deformable DETR

文章出处:[2010.04159] Deformable DETR: Deformable Transformers for End-to-End Object Detection (arxiv.org)

提出可变注意力,这个改进对DETR来说十分关键。不再做全局注意力,只对关键部份做注意力。不仅仅是解决普通DETR计算量大和收敛慢的问题,做局部的注意力使得模型更能学习到关键特征,而不是无用的信息

在这个模型中,查询的Q还是来自特征提取和位置编码。但是K的查询几个点是由用户指定的,而且点的位置是由网络学习得到的。可以理解为最终值是一个点和图中的几个关键点做多头注意力得到。

先对输入Z分别做位置编码得到查询位置的偏移量和Attention Weight,还要对Z做线性变换得到Value。通过位置偏移量就能得到要查询位置的坐标,进一步去除对应位置的Value

Multi-scale Deformable Attention:

多尺度是为了在不同的尺度都能够学习到特征,大尺度对小物体的特征学习有效,小尺度学习大物体特征有效,使用多个尺度做注意力机制模型学习到更多的东西。先分别提取多张不同尺度的feature map,转换成线性之后连接起来,当做一个token,做注意力

RT-DERT

论文出处:

[2304.08069] DETRs Beat YOLOs on Real-time Object Detection (arxiv.org)

RT DETR的提出使得DETR路线的可用性和落地的可能性更进一步。这篇文章提出的实时端到端目标检测器,出发点就是提高模型训练和推理速度。

作者提到他发现模型执行时间取决于:预测框的数量,score threshold类别阈值,IoU threshold冗余框阈值

于是针对这些问题他做了几点创新:

  1. 只对最小尺度的特征图做可变注意力,其他的尺度做特征融合
  2. 基于IoU的查询选择,提高性能
  3. 推理加速,直接使用前几个decoder的输出

 

AIFI

对于最小尺度的一个特征图做Transformer encoder,以往是多个尺度的特征拉长成一个很长的一维token,这里减少了计算量。而且小尺度的语义特征更加丰富。

CCFM

每个尺寸两两之间都做特征的融合,做上采样或下采样匹配尺寸,最终拼接成一个列表

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/355352.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

(蓝桥杯每日一题)求最长回文串

问题描述 给出一个长度为 n 的小写字符串,求一个最长的子串 S,满足SXY,X,Y>1,且X,Y 均为回文串。 输入格式 输入包括一行: 第一行是一个长度为 n 的小写字符串。 输出格式 输出包括一行: 一行一个整数,表…

Java设计模式-享元模式(12)

馆长准备了很多学习资料,其中包含java方面,jvm调优,spring / spring boot /spring cloud ,微服务,分布式,前端,js书籍资料,视频资料,以及各类常用软件工具,破解工具 等资源。请关注“IT技术馆”公众号,进行关注,馆长会每天更新资源和更新技术文章等。请大家多多关注…

Vue ECharts X轴 type为value的数据格式 + X轴固定间隔并向上取整十位数 - 附完整实例

echarts:一个基于 JavaScript 的开源可视化图表库。 目录 效果 一、介绍 1、官方文档:Apache ECharts 2、官方示例 二、准备工作 1、安装依赖包 2、示例版本 三、使用步骤 1、在单页面引入 echarts 2、指定容器并设置容器宽高 3、数据处理&am…

Java: javax.net.ssl.SSLPeerUnverifiedException: peer not authenticated

我们在平时练习的时候一般使用低版本的jdk来练习,以便了解不同版本jdk的区别,下面是我们练习中遇到的问题 >>> DefaultHttpClient mHttpClient new DefaultHttpClient(new BasicHttpParams()); ClientConnectionManager ccm mHttpClien…

【Vite+Vue3+TS】基于Vite+Vue3+TypeScript+ESLint+Prettier+Stylelint搭建项目(亲测超详细)

目 录 项目搭建步骤确定node版本使用Vite创建Vue3项目规范目录结构配置环境修改Vite配置文件集成路由工具Vue Router集成状态管理工具Pinia集成CSS预编译器Sassvite-plugin-svg-icons图标组件集成UI框架Element Plus集成HTTP 请求工具 Axios 项目代码规范集成ESLint配置集成Pre…

docker环境搭建及其安装常用软件

centos安装docker Install Docker Engine on CentOS | Docker Docs 下载docker sudo yum install -y yum-utils sudo yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo sudo yum install -y docker-ce docker-ce-cli containerd.io…

Git学习,基础,安装,配置,笔记总结

Git安装与常用命令 本教程里的git命令例子都是在Git Bash中演示的,会用到一些基本的linux命令,在此为大家提前列举: ls/ll 查看当前目录 cat 查看文件内容 touch 创建文件 vi vi编辑器(使用vi编辑器是为了方便展示效果,学员可以记事本、editPlus、notPad++等其它编 辑…

【YOLO系列算法俯视视角下舰船目标检测】

YOLO系列算法俯视视角下舰船目标检测 数据集和模型YOLO系列算法俯视视角下舰船目标检测YOLO系列算法俯视视角下舰船目标检测可视化结果 数据集和模型 数据和模型下载: YOLOv6俯视视角下舰船目标检测训练好的舰船目标检测模型舰船目标检测数据YOLOv7俯视视角下舰船…

ES6.8.6 为索引映射(Mapping)创建自定义分词器,测试分词匹配效果

文章目录 环境创建索引:配置自定义分词器、字段指定分词器自定义分词器参数说明创建索引:custom_analyzer_comment 使用索引中自定义的分词器进行分词分析自定义分词器my_custom_analyzer分词测试:测试中文停用词、英文字母转小写测试敏感词替…

Parquet文件推送数据到OSS

1. 任务背景 任务说明:公司 saas 数据分析类产品,客户需要把行为数据回传到客户指定文件系统中(oss)周期:T1数据格式:parquet数据范围:部分表全量,部分表增量其他要求: …

STM32-LwESP 移植

LwESP 是一个专门解析 Espressif 公司旗下 ESP 系列芯片 AT 指令的开源库,具有以下特性: 支持 Espressif 公司 ESP32, ESP32-C2, ESP32-C3, ESP32-C6 和 ESP8266 芯片。独立平台,采用 C99 标准编写,易于移植。允许不同的配置来优…

【Linux】第三十九站:可重入函数、volatile、SIGCHLD信号

文章目录 一、可重入函数二、volatile三、SIGCHLD信号 一、可重入函数 如下图所示,当我们进行链表的头插的时候,我们刚刚执行完第一条语句的时候,突然收到一个信号,然后我们这个信号的自定义捕捉方法中,正好还有一个头…

Python模拟艾里光束:光可以不沿直线传播

文章目录 Airy光束有限能量Airy光束 Airy光束 在光学领域,傍轴近似下光束传输遵循方程 i ∂ ϕ ∂ z 1 z a ∂ 2 ϕ ∂ x 2 0 i\frac{\partial\phi}{\partial z}\frac{1}{z}\frac{a\partial^2\phi}{\partial x^2}0 i∂z∂ϕ​z1​∂x2a∂2ϕ​0 其中 k 2 π n …

【发展】不确定时代下的从容 —— 终局思维、长期主义与复利

文章目录 一、终局思维1、电影 《蝴蝶效应》2、未来是什么样的 二、长期主义1、这是一个不确定的时代2、做难但正确的事情 三、复利1、复利思维2、马太效应 一、终局思维 终局思维 在面对很多选择时,从终点出发考虑问题,来决定当下的选择。 1、电影 《蝴…

容器和虚拟机的对比

容器和虚拟机的对比 容器和虚拟机在与硬件和底层操作系统交互的方式上有所不同 虚拟化 使多个操作系统能够同时在一个硬件平台上运行。 使用虚拟机监控程序将硬件分为多个虚拟硬件系统,从而允许多个操作系统并行运行。 需要一个完整的操作系统环境来支持该应用。…

从零开始:CentOS系统下搭建DNS服务器的详细教程

前言 如果你希望在CentOS系统上建立自己的DNS服务器,那么这篇文章绝对是你不容错过的宝藏指南。我们提供了详尽的步骤和实用技巧,让你能够轻松完成搭建过程。从安装必要的软件到配置区域文件,我们都将一一为你呈现。无论你的身份是运维人员,还是程序员,抑或是对网络基础设…

GitLab16.8配置webhooks、Jenkins2.4配置GitLab插件实现持续集成、配置宝塔面板实现持续部署

看本篇文章的前提是已经部署完GItlab和Jenkins服务器,已经可以手动构建成功,并且经过了很多次实践,对这两款软件基本熟悉。 建议大家按以下顺序看 前端自动化(其一)部署gitlab https://blog.csdn.net/weixin_45062076…

DolphinScheduler + Amazon EMR Serverless 的集成实践

01 背景 Apache DolphinScheduler 是一个分布式的可视化 DAG 工作流任务调度开源系统,具有简单易用、高可靠、高扩展性、⽀持丰富的使用场景、提供多租户模式等特性。适用于企业级场景,提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方…

2024.1.24 C++QT 作业

思维导图 练习题 1.提示并输入一个字符串&#xff0c;统计该字符中大写、小写字母个数、数字个数、空格个数以及其他字符个数 #include <iostream> #include <string.h> #include <array> using namespace std;int main() {string str;cout << "…

《微信小程序开发从入门到实战》学习九十六

7.2 基础内容组件 7.2.4 progress组件 progress组件的示例代码如下&#xff1a; <progress percent"20" show-info /> 7.3 表单组件 表单组件是用于收集信息的组件。第三章介绍了许多表单组件&#xff0c;包括form、input、textarea、picker、switch、butt…