LW-DETR:实时目标检测的Transformer, Apache-2.0 开源可商用,论文实验超 YOLOv8

LW-DETR:实时目标检测的Transformer, Apache-2.0 开源可商用,论文实验超 YOLOv8

      • LW-DETR 架构
        • 实例化
        • 高效训练
        • 高效推理
      • 目的与解法拆解
        • ViT编码器和DETR解码器
        • 多级特征图聚合
        • 变形交叉注意力
        • 窗口注意力和全局注意力

 

论文:https://arxiv.org/pdf/2406.03459

代码:https://github.com/Atten4Vis/LW-DETR

DETR系列和YOLO系列,当今目标检测两大分支。

好的,我来简化解释这些内容。

LW-DETR 架构

LW-DETR是一个目标检测模型,主要由三部分组成:ViT编码器,投影器,和DETR解码器。

  1. ViT编码器:这是处理图像的第一部分,它将图像划分成小块(称为patches),然后对这些小块进行分析,提取特征。

    这个过程包括全局自注意力操作,这种操作虽然能够很好地捕捉图像特征,但计算量很大。

    为了降低这部分的计算复杂度,我们引入了窗口自注意力,即只在图像的局部窗口内进行注意力操作。

  2. DETR解码器:解码器的任务是根据编码器提供的特征来识别图像中的具体对象,并确定它们的位置。

    我们使用了一种特殊的注意力机制(可变形交叉注意力),这可以更高效地计算,从而加快处理速度。

    一般DETR模型会用6层解码器,但我们简化为3层,以进一步减少处理时间。

  3. 投影器:投影器是连接编码器和解码器的桥梁,它处理由编码器生成的特征图,为解码器提供必要的输入信息。

    我们还为大型和超大型的模型版本设计了特别的投影器,以处理不同精度(尺寸)的特征图。

实例化

我们设计了不同大小(从微型到超大型)的检测器,以适应不同的需求和资源条件。

每种大小的检测器都有其特定的配置,比如不同层数的编码器和不同数量的对象查询(用于确定图像中的对象)。

高效训练

我们采用了多种技术来加速DETR的训练过程,包括更多的监督信号和预训练技术。

例如,我们使用了一种名为Group DETR的变体,这种方法在训练时使用多个解码器,但在实际使用时只选用其中一个。

高效推理

为了在实际应用中快速处理图像,我们对注意力机制进行了优化,引入了交错的窗口和全局注意力。

这意味着模型在处理一些层时使用窗口注意力,在其他层使用全局注意力,以此减少计算需求并加速处理。

想象你正在组织一个大型晚宴,你需要迅速而准确地识别和迎接每位宾客。

在这个情景中,你的大脑就像一个"检测器",宾客就是需要识别的"目标"。

  1. 轻量级的DETR方法:这就像是你用一个更简洁高效的方法来检查和确认宾客的身份,比如通过一种特别快速的签到程序。这个方法不需要复杂的设备,只需要基本的工具就能快速完成工作。

  2. ViT编码器和DETR解码器:这个可以比喻为你有一个名单(编码器),上面记录了所有宾客的特征。每当有宾客到来,你就通过一个特殊的流程(解码器)来检查他们是否在名单上,并且确保每个人的身份都正确无误。

  3. 多级特征图聚合:想象你不仅仅是看宾客的脸,还要观察他们的穿着、行为等多个方面的特征,这样可以更准确地识别每个人。

  4. 变形交叉注意力:这就像你在与多个宾客交谈时,能够根据对话中的重要信息(如他们提到的名字或他们提到的其他宾客)来迅速调整你的注意力焦点。

  5. 窗口注意力和全局注意力:这可以理解为你在宴会中采用两种策略:一种是专注于一个小群体的宾客(窗口注意力),另一种是时不时地扫视整个房间以确保不漏掉任何人(全局注意力)。通过这样的策略,你可以更有效地管理你的注意力,避免因为同时注意太多事情而导致混乱。

精细拆解:

  1. ViT编码器和DETR解码器:ViT编码器处理输入的图像以提取特征,而DETR解码器则使用这些特征来精确识别和定位图中的对象。

  2. 多级特征图聚合:通过结合不同层次的特征图,该技术增强了模型对图像中各种尺寸和复杂度对象的识别能力。

  3. 变形交叉注意力:这是一种高级注意力机制,能够根据目标对象的具体特征动态调整关注区域,从而提高检测的精度和效率。

  4. 窗口注意力和全局注意力:窗口注意力专注于图像的局部区域以减少计算负担,而全局注意力覆盖整个图像,确保广泛的环境因素被考虑,两者交替使用以优化性能。

目的与解法拆解

ViT编码器和DETR解码器

解法 = 图像特征提取 + 目标定位与识别

  • 图像特征提取:使用ViT编码器从输入图像中提取复杂的特征图。

    • 之所以用图像特征提取,是因为高质量的特征图可以更好地表示图像中的内容,从而提高后续处理的准确性。
    • 例如,在一个人群照片中,精确的特征提取可以帮助模型区分不同个体的面部特征。
  • 目标定位与识别:通过DETR解码器利用特征图来精确识别和定位图像中的各种对象。

    • 之所以用目标定位与识别,是因为准确的对象识别和位置定位对于实时检测系统至关重要。
    • 例如,自动驾驶车辆需要实时准确地识别和定位行人和其他车辆以避免碰撞。

变压器编码器:
在这里插入图片描述
这张图展示了变压器编码器中多级特征图聚合和交错窗口及全局注意力的应用。

编码器处理输入的特征图,通过不同的注意力机制(窗口注意力和全局注意力)增强这些特征图的信息。在这里:

  • 窗口注意力:仅在输入特征图的特定区域内计算注意力,有助于降低计算复杂度。
  • 全局注意力:覆盖整个特征图,捕捉远程依赖关系。

这种设计的目的是在保持模型性能的同时减少计算负担。

单尺度投影器和多尺度投影器:
在这里插入图片描述
这张图说明了用于不同模型大小(微型、小型、中型和大型、超大型)的投影器配置。

  • 图3a:适用于微型、小型和中型模型的单尺度投影器。在这种设置中,编码器输出的特征图通过一个投影器处理,然后输入到变压器解码器中。
  • 图3b:适用于大型和超大型模型的多尺度投影器。这里,输入的特征图先经过不同尺度的处理(例如,通过上采样或下采样),然后这些不同尺度的特征图分别通过各自的投影器处理后,共同输入到变压器解码器中。

这种多尺度处理方法允许模型更有效地处理不同大小的输入特征图,从而提高了模型对于不同尺寸目标的检测能力。

这对于需要处理广泛尺寸变化的实时目标检测任务尤其重要。

多级特征图聚合

解法 = 特征图层叠 + 特征图优化

  • 特征图层叠:将来自不同网络层的特征图合并,形成一个更加丰富的特征表示。

    • 之所以用特征图层叠,是因为不同层次的特征图包含不同尺度和细节的信息,聚合这些信息可以增强模型对复杂场景的理解能力。
    • 例如,在监控视频中,层叠特征图可以帮助模型同时识别远处的小物体和近处的大物体。
  • 特征图优化:通过算法优化加工合并后的特征图,以提高特征的有效性和检测性能。

    • 之所以用特征图优化,是因为简单的合并可能不足以充分利用各层特征的潜力,优化处理可以进一步提升特征的表达力。
    • 例如,在复杂的交通场景中,优化的特征图可以更好地区分交通标志与其他街道元素。
变形交叉注意力

解法 = 动态焦点调整

  • 动态焦点调整:根据目标的形状和位置动态调整注意力焦点。
    • 之所以用动态焦点调整,是因为不同的对象和场景要求模型在不同区域集中资源和计算力,以提高效率和准确性。
    • 例如,在处理运动中的对象时,动态调整可以帮助模型跟踪目标并减少背景干扰。
窗口注意力和全局注意力

解法 = 局部关注 + 整体评估

  • 局部关注:聚焦于图像的小窗口区域,进行细致的分析。

    • 之所以用局部关注,是因为它可以减少不必要的全局计算,专注于可能含有关键信息的区域。
    • 例如,在一个拥挤的市场场景中,局部关注可以帮助模型集中处理可能存在安全威胁的特定区域。
  • 整体评估:定期扫描整个图像,确保没有错过任何重要的全局信息。

    • 之所以用整体评估,是因为单纯的局部关注可能遗漏一些关键的全局事件或背景变化,整体评估确保全面覆盖。
    • 例如,在自然灾害监测中,整体评估可以帮助识别突发事件的全貌,如洪水或火灾的扩散。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/702400.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

1124. 表现良好的最长时间段 (python) 前缀和 分类讨论 最大长度 力扣 面试题

给你一份工作时间表 hours,上面记录着某一位员工每天的工作小时数。 我们认为当员工一天中的工作小时数大于 8 小时的时候,那么这一天就是「劳累的一天」。 所谓「表现良好的时间段」,意味在这段时间内,「劳累的天数」是严格 大…

什么是 URL 过滤?是如何保障浏览体验的?

互联网是一个无边无际的空间,几乎包含了你能想象到的一切。不幸的是,这意味着也存在着从不合适到非常危险的网站。这就是 URL 过滤可以发挥作用的地方。 一、URL 过滤的含义 我们希望您已经熟悉 URL(统一资源定位器),…

在韩国遇到阿姨叫“아줌마”还是“이모”?都不如称呼好!柯桥学韩语来银泰附近基础教学通俗易懂

认识母音 母音,又叫元音,共21个,包含10个基本母音和11复合母音(又称双元音)。 10个基本母音:ㅏ(a)、ㅑ(ya)、ㅓ(eo)、ㅕ(yeo)、ㅗ(o)、ㅛ(yo)、ㅜ(u)、ㅠ(yu)、ㅡ(eu)、ㅣ(i) 11个复合母音:ㅐ(a…

【ETAS CP AUTOSAR基础软件】BswM模块详解

文章包含了AUTOSAR基础软件(BSW)中BswM模块相关的内容详解。本文从AUTOSAR规范解析,ISOLAR-AB配置以及模块相关代码分析三个维度来帮读者清晰的认识和了解BswM这一基础软件模块。文中涉及的SOLAR-AB配置以及模块相关代码都是依托于ETAS提供的…

pdf添加书签的软件,分享3个实用的软件!

在数字化阅读日益盛行的今天,PDF文件已成为我们工作、学习和生活中不可或缺的一部分。然而,面对海量的PDF文件,如何高效地进行管理和阅读,成为了许多人关注的焦点。其中,添加书签功能作为提高PDF文件阅读体验的重要工具…

数据结构01 栈及其相关应用

栈是一种线性数据结构,栈的特征是数据的插入和删除只能通过一端来实现,这一端称为“栈顶”,相应的另一端称为“栈底”。 栈及其特点 用一个简单的例子来说,栈就像一个放乒乓球的圆筒,底部是封住的,如果你想…

c++线性关系求值

目的 线性关系是最简单的关系,但也是编程当中最常用的一种关系,很多行业,都用。 可以说,其是准确的,有时利用了正比例的关系,其具有预测性,检验其它数据是否正确,应用实在太多了。 生活中太多的东西可以认为成线性的,比如:年龄越大,经验越丰富,这也是线性关系,因…

揭秘湖北工程类助理工程师证书:纸质版 vs 电子版,哪个更靠谱

"揭秘湖北工程类助理工程师证书:纸质版 vs 电子版,哪个更靠谱?" 2024年湖北工程类助理工程师证书纸质版VS电子版 很多人会疑惑不是从2021年底就发布相关文件,湖北初级、中级、高级职称进入电子版证书时代,为…

分组聚集查询-GROUP BY子句

一、GROUP BY子句位置 SELECT 【ALL|DISTINCT】<目标列表达式1>【,<目标列表达式2>,...】 FROM <表名或视图名1>【&#xff0c;<表名或视图名2>&#xff0c;...】 【WHERE <元组选择条件表达式>】 【GROUP BY <属性列名1>【&#xff0…

2024 年 5 月公链研报:监管调整与市场新动向

作者&#xff1a;stellafootprint.network 数据来源&#xff1a;公链 Research 页面 五月份&#xff0c;加密货币市场经历了重要的监管和政治动态。美国证券交易委员会&#xff08;SEC&#xff09;批准了现货以太坊 ETF 的初步申请文件&#xff0c;这一举措提振了以太坊及其…

pom学习笔记:kimi的自动化操作

1.先看结构&#xff1a; 声明&#xff1a;我是初学&#xff0c;可能有不合理的地方。 2.Base层。 我是把原来一个kimi的自动问答的代码改过来。 分析&#xff1a;其实我是新手&#xff0c;因为我用的浏览器是固定的&#xff0c;也没有打算和别人用。所以浏览器层面年的全部写…

蓝牙芯片TD5322A,蓝牙5.1数传芯片介绍—拓达半导体

蓝牙芯片原厂&#xff0c;拓达芯片TD5322A是一颗支持蓝牙BLE和SPP的数传芯片&#xff0c;蓝牙5.1版本。芯片的优点是尺寸小(SOP-8封装&#xff09;&#xff0c;性能强&#xff0c;价格低&#xff0c;以及简单明了的透传和串口AT控制功能&#xff0c;大大降低了在其它电子产品中…

React 渲染流程分析

React 页面是由组件组成的&#xff0c;从根组件直到叶组件&#xff0c;内部的组件数通过 Fiber 来保存并触发并发更新。页面的展示分为两部分&#xff0c;首先是初始化&#xff0c;所有组件首次展示&#xff0c;都要进行渲染&#xff0c;之后是更新流程&#xff0c;也就是页面产…

团队知识管理首选:12款优秀开源Wiki系统推荐

文章介绍了12款好用的开源Wiki&#xff1a;PingCode、DokuWiki、MediaWiki、Tiki Wiki CMS Groupware、XWiki、BookStack、PMWiki、Foswiki、GitBook、Wiki.js、TiddlyWiki、Slite。以及对比了一款非开源但提供免费版本的Wiki工具&#xff0c;以供大家选择。 在企业知识管理和团…

Vue3+vite部署nginx的二级目录,使用hash模式

修改router访问路径 import { createRouter, createWebHashHistory } from vue-routerconst router createRouter({history: createWebHashHistory (/mall4pc-bbc/),routes: [XXX,] })配置package.json文件 "build:testTwo": "vite build --mode testing --ba…

python dropna怎么用

pandas的设计目标之一就是使得处理缺失数据的任务更加轻松些。pandas使用NaN作为缺失数据的标记。 使用dropna使得滤除缺失数据更加得心应手。 dropna常用参数&#xff1a; # DataFrame.dropna(axis0, howany, threshNone, subsetNone, inplaceFalse) 主要的2个参数&#xff…

运筹学基础与应用(简洁版总复习)

第一章 线性规划及单纯形法 图解法 单纯形法 大m法 看案例&#xff08;综合题&#xff09; 化标准形式 目标函数的转换 min z变为max z 变量的变换 变量取值无约束 约束方程的转换 ≤&#xff1a;加一个松弛变量 ≥&#xff1a;减一个剩余变量 变量符号≤0的变换 保持变量≥…

618家用智能投影仪推荐:这个高性价比品牌不容错过

随着科技的不断进步&#xff0c;家庭影院的概念已经从传统的大屏幕电视逐渐转向了更为灵活和便携的家用智能投影仪。随着618电商大促的到来&#xff0c;想要购买投影仪的用户们也开始摩拳擦掌了。本文将从投影仪的基础知识入手&#xff0c;为您推荐几款性价比很高的投影仪&…

绘唐一键追爆款2.5免费版

一键追爆款是指通过某种技术手段&#xff0c;可以快速找到当下市场上热销的商品&#xff0c;并进行追踪和购买的方法。这样做可以帮助商家快速抓住市场热点&#xff0c;提高销售业绩。 实现一键追爆款的方法有很多&#xff0c;例如利用大数据分析技术&#xff0c;通过对市场数据…

零售行业会员管理有哪些业务场景?解析不同业务场景的分析指标

在当今竞争激烈的零售市场中&#xff0c;会员管理不再仅仅是收集和存储数据&#xff0c;而是要求企业能够从数据中获取洞察&#xff0c;并据此制定策略。会员板块的业务场景涵盖了多个方面&#xff0c;每一个场景都为企业提供了一个独特的视角&#xff0c;帮助企业了解和服务于…