【Paper Reading】DETR:End-to-End Object Detection with Transformers

背景

Transformer已经在NLP领域大展拳脚,逐步替代了LSTM/GRU等相关的Recurrent Neural Networks,相比于传统的RNN,Transformer主要具有以下几点优势

  1. 可解决长时序依赖问题,因为Transformer在计算attention的时候是在全局维度进行展开计算的,所以不存在长时序中的梯度消失等问题。
  2. Transformer的encoder和decoder在某些场景下均可以很好的并行化,提高的计算效率。
  3. Transformer具备比较好的可解释性
  4. Transformer的可扩展性比较强,可以灵活的增加层数。

在视觉领域也有一些方法逐步的在引入Transformer来解决一些视觉挑战任务,例如基于图片分类的ViT。本文是将Transformer引入目标检测领域中来,可以端到端的解决目标检测的问题,相比于传统基于anchor/proposal/NMS的方法而言,本文的方法主要有以下优势:

  1. 摆脱了对原有的基于先验知识的依赖,不再依赖proposal/NMS等基于先验的方法,整个网络是完全learnable的,并且简化了整体的pipeline。
  2. 相比于NMS,可以在全局视角考虑整体的最优性,消除整体的冗余。

方法

本文提出的网络结构整体上如下图所示。接下来我们将从网络结构、损失函数和匹配方法分别展开介绍
Overview

网络结构

整体的网络结构如上图所示,一张图片我们通过CNN抽取其基本的视觉特征(待讨论能不能像ViT那样,做到完全的Transformer)。得到feature map F ∈ R H × W × C F \in R^{H \times W \times C} FRH×W×C,然后我们将其reshape成为 F ∈ R ( H × W ) × C F \in R^{(H \times W) \times C} FR(H×W)×C。那么我们就得到一个长度为 H × W H \times W H×W的序列,每个unit的维度的是 C C C
我们再将得到的序列输入到transformer的encoder进行特征的加工,相当于重构每个unite的表征,使其可以从全局的视角加载特征和。这里的unit相当于就是“Proposal”。
Encoder输出后的feature再会输入给decoder,decoder基于Encoder的特征和位置编码特征输出每个位置应该预测的proposal。如下图所示,object queries就是每个position的embedding。

  • QA1:Encoder和Decoder的position embedding是不是一样的?

    • 答案是不一样的,Encoder的position embedding可以理解是二维的,他针对feature map上的每一个位置进行embedding。而Decoder中的position embedding是“proposal”维度的,先验是一张图片最多会有100个框,所以Decoder中最多会有100个position。Decoder的position embedding是lookup 查表得到的,整体上第一个position代表什么含义?是否有说明?
    • 具体实现上,object queries是 N(100) 个learnable embedding,训练刚开始时可以随机初始化。在训练过程中,因为需要生成不同的boxes,object queries会被迫使变得不同来反映位置信息,所以也可以称为leant positional encoding (注意和encoder中讲的position encoding区分,不是一个东西)。
    • 由于在训练过程中,会预测100个框,然后和gt去做匹配,计算loss,这就会反推每个decoder的position embedding默认代表某个位置的框?但是实验代码并没有可视化说明?
  • QA2:Decoder中的QKV分别是什么?
    Encoder不用说,就是unit的特征。Decoder中

    • Q:查询的信息,一般就是position embedding,由于这里会引入先验,最多100个框,所以Q的size为 R 100 × d R^{100 \times d} R100×d
    • K:和基础的transformer一样,第一层的attention K和V都是上面的Q。第二层的attention K为Encoder的输入,一般大小为 R ( H × W ) × d R^{(H \times W) \times d} R(H×W)×d
    • V:和基础的transformer一样,第一层的attention K和V都是上面的Q。第二层的attention K为Encoder的输入,一般大小为 R ( H × W ) × d R^{(H \times W) \times d} R(H×W)×d
      network architecture

损失函数

损失函数整体由三部分组成,分类损失+l1loss+GIoU loss。后面两个算是位置优化的损失函数。为什么需要两个?

  1. L1的劣势:不具备尺度不变性。大物体和小物体之间的loss是不公平的。
  2. GIoU的劣势:收敛过慢(DIoU中有说)
  3. GIoU的定义
    L g i o u = I o U − C − u i o n C L_{giou} = IoU - \frac{C-uion}{C} Lgiou=IoUCCuion
  4. GIoU的特性
    1. 非负性、三角不等性
    2. 尺度不变性
    3. 取值范围[-1, 1],且GIoU <= IoU。

匹配方法

首先将整个问题抽象为匹配问题。给定N个预测的框和M个GT的框。计算min(N, M)个框之间的一个完全匹配。
具体来说,第一步我们根据上述的损失函数定义,计算一个cost矩阵, c o s t i , j cost_{i,j} costi,j代表的含义就是第i个预测框和第j个gt之间的损失函数。我们是希望寻找到一个最佳匹配,使得整体的损失函数是最小的。这里作者采用的是匈牙利算法。详情可以参考wiki。

  • QA1:没有被匹配上的预测框是否计算loss。
    这部分从代码来看,会计算分类的loss。而不会计算pos的loss。
    • pos loss
      在这里插入图片描述
  • QA2:匈牙利算法简化版本:
    1. 给定矩阵C
    2. 选择每一行中最小的数,并从C中减去,得到C1
    3. 选择每一列中最小的数,并从C1中减去,得到C2
    4. 基于C2判断,必须用尽可能少的列或行标记来覆盖矩阵中的所有零。下面的过程是完成这个要求的一种方法:
      4.1 首先,尽可能多地分配任务。
      在这里插入图片描述
      4.2 标记所有未分配的行(第 3 行)。
      4.3 标记所有新标记的行中 0所在(且未标记)的对应列(第 1 列)。
      4.4 标记所有在新标记的列中有分配的行(第 1 行)。
      4.5 对所有未分配的行重复上述过程。
    5. 现在划掉所有已标记的列和未标记的行(第 1 列和第 2, 4 行)。
      在这里插入图片描述
    6. 现在删除已画线的行和列。这将留下一个矩阵如下:重新开始步骤2。
      在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/65825.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

《论文阅读》通过生成会话模型的迁移学习会话中的情感识别

《论文阅读》通过生成会话模型的迁移学习会话中的情感识别 前言简介模型结构Source TaskTarget Task损失函数前言 你是否也对于理解论文存在困惑? 你是否也像我之前搜索论文解读,得到只是中文翻译的解读后感到失望? 小白如何从零读懂论文?和我一起来探索吧! 今天为大家…

LangChain源码逐行解密之LLMs(二)

LangChain源码逐行解密之LLMs(二) 18.3 base.py源码逐行剖析 现在我们要聚焦于源代码中的大语言模型部分。如图18-3所示,LangChain提供了许多语言模型的选择。 Gavin大咖微信:NLP_Matrix_Space 图18- 3 LangChain的llms目录 如图18-4所示,整个LangChain的模块化设计非常出…

JAVA集合框架 一:Collection(LIst,Set)和Iterator(迭代器)

目录 一、Java 集合框架体系 1.Collection接口&#xff1a;用于存储一个一个的数据&#xff0c;也称单列数据集合&#xff08;single&#xff09;。 2.Map接口&#xff1a;用于存储具有映射关系“key-value对”的集合&#xff08;couple&#xff09; 3.Iterator接口&#…

ME41询价单创建BAPI

关于ME41创建询价单系统并没有准备标准的BAPI&#xff0c;这一点在note:2115337中有说明。 但是通过查阅相关资料找到一个BAPI&#xff1a;BS01_MM_QUOTATION_CREATE&#xff0c;可以为ME41进行创建&#xff0c;但是如果不做一些增强&#xff0c;会有一些额外的错误&#xff0…

Vue 整合 Element UI 、路由嵌套、参数传递、重定向、404和路由钩子(五)

一、整合 Element UI 1.1 工程初始化 使用管理员的模式进入 cmd 的命令行模式&#xff0c;创建一个名为 hello-vue 的工程&#xff0c;命令为&#xff1a; # 1、目录切换 cd F:\idea_home\vue# 2、项目的初始化&#xff0c;记得一路的 no vue init webpack hello-vue 1.2 安装…

【代码】表格封装 + 高级查询 + 搜索 +分页器 (极简)

一、标题 查询条件按钮&#xff08;Header&#xff09; <!-- Header 标题搜索栏 --> <template><div><div class"header"><div class"h-left"><div class"title"><div class"desc-test">…

Flutter系列文章-实战项目

在本篇文章中&#xff0c;我们将通过一个实际的 Flutter 应用来综合运用最近学到的知识&#xff0c;包括保存到数据库、进行 HTTP 请求等。我们将开发一个简单的天气应用&#xff0c;可以根据用户输入的城市名获取该城市的天气信息&#xff0c;并将用户查询的城市列表保存到本地…

语音同声翻译软件到底谁更胜一筹呢

嘿&#xff01;你是否曾经遇到过需要在不同语言之间进行实时翻译的情况&#xff1f;别担心&#xff0c;现在有许多翻译软件可供选择&#xff0c;让你的沟通变得更加简便和愉快。无论你是旅行者、国际商务人士还是语言爱好者&#xff0c;这些软件都将成为你的得力助手&#xff0…

领航优配:暑期旅游市场热度持续攀升,相关公司业绩有望持续释放

到发稿&#xff0c;海看股份涨停&#xff0c;中广天择、探路者、众信旅行等涨幅居前。 8月8日&#xff0c;在线旅行板块震动上涨&#xff0c;到发稿&#xff0c;海看股份涨停&#xff0c;中广天择、探路者、众信旅行等涨幅居前。 今年以来&#xff0c;国内旅行商场逐渐恢复。文…

arcgis--数据库构建网络数据集

1、打开arcmap软件&#xff0c;导入数据&#xff0c;如下&#xff1a; 该数据已经过处理&#xff0c;各交点处均被打断&#xff0c;并进行了拓扑检查。 2、在文件夹下新建文件数据库&#xff0c;名称为路网&#xff0c;在数据库下新建要素类&#xff0c;并导入道路shp文件&…

网络编程的使用

文章目录 基础代码URL类进行传输编码解码 协议TCPUDPhttp PORT端口协议的实现TCPUDP 模拟服务器 基础代码 最后一个是&#xff1a;只要再timeout时间内连接上就是true URL类 导了一个common-iojar包&#xff0c;那个IOUtils就是那个里面的工具类 进行传输编码解码 协议 TC…

应用在室外LED电子显示屏中的MiniLED背光

LED电子显示屏是一种通过控制半导体发光二极管的显示方式&#xff0c;是由几万–几十万个半导体发光二极管像素点均匀排列组成。它利用不同的材料可以制造不同色彩的LED像素点&#xff0c;以显示文字、图形、图像、动画、行情、视频、录像信号等各种信息的显示屏幕。 LED显示屏…

前端进阶html+css04----盒子模型

1.一个盒子由content&#xff08;文本内容)&#xff0c;padding,border,margin组成。 2.盒子的大小指的是盒子的宽度和高度。一般由box-sizing属性来控制。 1&#xff09;默认情况下, 也就是box-sizing: content-box时&#xff0c;盒子的宽高计算公式如下&#xff1a; 盒子宽…

rocketMq消息队列详细使用与实践整合spring

文章目录 一、RocketMQ原生API使用1、测试环境搭建2、RocketMQ的编程模型3、RocketMQ的消息样例3.1 基本样例3.2 顺序消息3.3 广播消息3.4 延迟消息3.5 批量消息3.6 过滤消息3.7 事务消息3.8 ACL权限控制 二、SpringBoot整合RocketMQ1、快速实战2、其他更多消息类型&#xff1a…

axios接受文件流并下载

需求场景 前端发送请求&#xff0c;后端传回文件流&#xff0c;前端接受到后立刻打开下载窗口下载文件 注意事项 请求api需要添加&#xff1a;responseType:blob&#xff0c; axios拦截器拦截错误状态码 (假设是code) 那里的if从res.code ! 200改为res.code && res.…

AI和GPT的崛起,对未来项目管理的影响与变革︱原微软项目经理陆敏

原微软项目经理和产品经理人才顾问陆敏先生受邀为由PMO评论主办的2023第十二届中国PMO大会演讲嘉宾&#xff0c;演讲议题&#xff1a;AI和GPT的崛起&#xff0c;对未来项目管理的影响与变革。大会将于8月12-13日在北京举办&#xff0c;敬请关注&#xff01; 议题简要&#xff1…

Not All Features Matter:Enhancing Few-shot CLIP with Adaptive Prior Refinement

APE是ICCV2023的一篇文章&#xff0c;也是我在这个领域里接触的第一篇文章&#xff0c;这里主要做一下记录。 论文链接&#xff1a;2304.01195.pdf (arxiv.org) 代码链接&#xff1a;yangyangyang127/APE: [ICCV 2023] Code for "Not All Features Matter: Enhancing Fe…

Java多线程(七)

目录 一、线程池参数介绍 二、线程池的工作流程 三、使用Executors创建常见的线程 一、线程池参数介绍 为了深入的了解线程池&#xff0c;这里就需要明白线程中的各种参数的含义。下述的图片中是来自于Java标准库中对线程池描述。 1.corePoolSize 与 maximumPoolSize 其中core…

pytorch模型转化为tensorflow模型

前言 目前大多数模型都是pytorch格式&#xff0c;部署上很多tfserving用的比较多&#xff0c;因此模型格式需要是save_model.pb的格式&#xff0c;本篇文章介绍将pytorch转化为tensorflow格式模型方式。 核心过程&#xff1a;pytorch>onnx>tensorflow 一、pytorch转onn…

git clean 命令

git clean -n //显示要删除的文件&#xff0c;clean的演习&#xff0c;告诉哪些文件删除&#xff0c;只是一个提醒。 git clean -dn //显示要删除的文件和目录 git clean -f //删除未追踪的文件 git clean -dff //删除未追踪的目录 git clean -df //清除所有未跟踪文件&#xf…