FOCUS-AND-DETECT: A SMALL OBJECTDETECTION FRAMEWORK FOR AERIAL IMAGES

摘要

为了解决小对象检测问题,提出了一个叫做 Focus-and Detect 的检测框架,它是一个两阶段的框架。 一阶段包括由高斯混合模型监督的对象检测器网络,生成构成聚焦区域的对象簇 第二阶段 也是一个物体探测器网络,预测聚焦区域内的物体 为了克服区域搜索方法的截断效应,还提出了不完全盒抑制 IBS )方法。

1、介绍

一般来说,检测网络由主干网、颈部和头部组成。在这种情况下,主干网模型是为检测任务提取特征的网络,头部是预测边界框和类的实际检测模型,颈部位于主干网和头部网络之间,并融合来自主干网模型不同阶段的特征图。
航空目标检测是一个新兴领域,近年来取得了很大的进展。早些时候,几项研究提出了将为自然图像建立的方法适应航空图像[8 9] 。然而,由于这种方法,出现了各种困难 [10] 。首先, 在航空图像中,方位 和纵横比可能与自然图像显著不同 。其次, 类内和类间样本的航空图像中的尺度变化非常严重 [11] 。例如,[12] 报告了 MS COCO VisDrone[13] 数据集中 汽车 类的统计数据。结果表明,在 VisDrone 数据集中, 汽车 对象大小的方差几乎是 MS COCO 数据集的五倍。 第三, 航空图像中的物体小而密集 。例如,VisDrone检测数据集中的单个图像中可能存在多达 902 个对象 [14] 。此外,航空图像中存在类不平衡问题[14] ,这使得样本数量较少的类的小目标检测问题更加困难。因此,小物体检测任务需要解决上述问题的专用方法。
为此,我们提出了一个由两个阶段组成的框架,即聚焦阶段和检测阶段。 在第 阶段中,通过 由高斯混 合模型监督的检测器来确定要聚焦的区域 。第 阶段由这些 主要是物体集群的区域提供,预测这些区域 内的物体 。在 合并这些区域的预测时,利用 NMS 和所提出的 IBS 方法来消除重叠和截断的边界框。
贡献
提出了一个基于区域搜索的航空图像小目标检测框架,即 聚焦与检测 。我们提出了一个使用高斯模型生成目标聚类的方法,其中生成的聚类是尺度归一化的。我们还提出了“ 不完全盒抑制 IBS )方法来抑制由重叠焦区引起的不完全盒。
总结
针对航空图像中存在的问题,提出了一个两阶段的检测框架,即聚焦阶段和检测阶段。
第一阶段:由高斯混合模型监督的检测器来确定要聚焦的区域。
第二阶段:主要由物体集群的区域提供,预测这些区域内的物体。在合并区域的预测时,利用 NMA 和所提出的IBS 方法来消除重叠和截断的边界框。

2、相关工作

由于图像上小物体覆盖区域的信息不足、小对象定位的可能性高以及适用于中大型物体等问题,大多数物体检测方法都难以处理小物体。
航空图像检测困难是因为, 它们大多包括小物体、不同类别的样本数量之间的大差异以及类别间和类别 内的高尺度方差。 为了缓解这些困难,以前提出了许多方法。例如, [45] 中针对类不平衡问题提出了一种自适应增强方法,称为AdaResampling 。在 [46] 中,提出了一种硬芯片挖掘方法作为航空图像的数据增强。此外,[11] 提出了对获得多尺度特征的改进,以减少尺度方差对目标检测的影响。由于航空图像大多由小而密集的物体组成,一些方法侧重于改进区域搜索[46 47 48 49 16 50 ,15, 51] 。例如, [48] 提出了基于 平铺的方法来实时检测航空图像中的行人和车辆 。在 [16] 中, 使用均值 偏移算法来确定困难的聚类区域 ,以提供对象检测器。 [50] 为基于裁剪的方法提出了三种增强方法,即 镶嵌增强、自适应裁剪和掩模重采样 。在 [12] 中,提出了一种 基于 FPN[20] 的自适应图像裁剪方法 来解决航空图像中的尺度挑战。[47] 构造密度图以确定要裁剪的区域 。然后由这些作物以及整个图像提供对象检测器。[15] 利用聚类获得图像裁剪。
我们的方法仅使用预测区域,而不使用对整个图像的检测 。另一方面, 高斯混合模型提供了跨预测区域 的尺度归一化 ,而无需额外计算,因为 将预测区域调整为固定大小,产生了每个混合分量的平均值的偏 移,并产生了边界框的归一化。
与以往的研究不同,我们 提出使用高斯混合模型( GMM )进行区域搜索 。此外,我们 提出了不完全盒抑 制( IBS ),以抑制由 GMM 监督下的第一检测器生成的重叠区域内的不完全盒 。图 2 展示了所提出的 IBS方法的贡献。
总结
航空图像检测困难是因为,它们大多包括小物体、不同类别的样本数量之间的大差异以及类别间和类别内的高尺度方差。
本文仅使用预测区域,而不使用对整个图像的检测 。另一方面, 高斯混合模型提供了跨预测区域的尺度归一化,而无需额外计算,因为 将预测区域调整为固定大小,产生了每个混合分量的平均值的偏移,并产生了边界框的归一化。提出了不完全盒抑制( IBS ),以抑制由 GMM 监督下的第一检测器生成的重叠 区域内的不完全盒

3 Focus-and-Detect

3.1 Overview

如图 1 所示,对航空图像的检测由两个阶段组成: 检测由物体簇组成的焦点区域的焦点网络 检测焦点区 域中物体的检测网络 。在 合并预测之后应用后处理方法 。具体而言,我们提出了 不完全盒抑制( IBS )机 制来抑制重叠焦区的不完全盒 。我们还 使用标准的非最大值抑制( NMS )来抑制合并预测后的重叠框。

3.2 Focus satge

Focus stage 阶段 由一个物体检测网络组成,经过训练可以检测焦点区域 焦点区域是通过 GT 边界框使 用高斯模糊模型生成的。选择广义聚焦损失( GFL )作为基本检测方法 。该模型的 backbone 是具有可 变形卷积层的 ResNet-50 网络 [52]
模型的 第二部分,是 FPN ,旨在开发和细化从 ResNet-50 的不同阶段获得的特征图, 最后一部分是预测 焦点区域边界框的模型的检测头。可变形卷积用于主干的最后三个阶段
传统的网络架构不能很好地转移焦点区域检测任务。焦点特征的可迁移性不如传统物体特征的可转移性。
为了提高学习特征的可转移性,可变形卷积层 [52] 已在 ResNet-50 中使用,因为可变形卷积可以动态地改变接收场。拟议的改变有助于更好地代表重点区域。
整体框架的性能主要取决于聚焦阶段 。理想情况下,预测的焦点区域必须包括所有对象边界框,而不进行任何截断。但是,这些区域中可能存在重叠的区域和截断的对象。这些问题通过采用 IBS 方法作为后处 理阶段 来解决。
总结
Focus stage 有一个物体检测网络组成。 焦点区域是通过 GT 边界框使用高斯模糊模型生成
backbone 部分由可变形卷积层的 Resnet-50 网络构成,第二部分是 FPN ;最后一部分是 预测聚焦区域 边界框的模型的检测头 。可变形卷积用于主干的最后三个阶段。

3.2.1用高斯混合模型生成聚焦区域的GT

在物体定位问题中,同一类物体的区域可以用高斯分布建模,因为物体的大小变化不大。高斯混合模型不是单个高斯模型,而是更好的选择,而与单个高斯模型相反,当对象位置被用作混合模型的输入时, 混合模型由具有较小偏差的高斯组成
在这种情况下, 焦点区域可以被定义为使用高斯混合模型获得的物体簇 该高斯混合模型将 GT 框的位置 信息作为输入。位置信息由边界框到图像中均匀采样点网络的距离矢量组成 ,如图 3 所示, 与直接使用方 框坐标相比,这种方法产生了更好的结果
物体簇
根据相应图像的 GT 框的数量来选择聚焦区域的数量。聚焦区域的数量( Nf) 可以写成
其中是 N_{gt}是GT框的数量,设 是图像中第i个GT框的1xM大小的距离向量,X是特征向量 N_f \times M的大小矩阵。 高斯混合模型可以定义为:
其中 j 个聚类的均值和方差。
使用期望最大化算法对模型进行拟合。一旦 EM 算法运行完成,拟合的模型就可以用于对 GT 边界框进行聚类。给定模型的参数,GT 边界框属于集群的概率计算为:
在计算聚类之后,焦点区域被选择为最小尺寸的框,该模型包括各个聚类中每侧具有 20 像素间隙的所有边界框。由于间隙的原因,焦点区域可能存在被截断的物体。生成的焦点区域被用作焦点阶段的 ground  truth GT 边界框 ,如图 4 所示。
3.3 Detection stage
在获得焦点区域之后,使用专用检测器对这些区域进行物体检测。所获得的区域被调整大小以获得更高的分辨率。这种方法提高了小物体检测的性能。
在这一阶段,采用广义聚焦损耗( GFL )作为基本探测器。模型的主干被选择为具有可变形卷积层的ResNeXt-101网络。在 neck 中,使用 FPN ,最后是预测对象边界框的模型的检测头。可变形卷积层用于最后三个阶段。
检测阶段,用 GMM 获得的焦点区域被裁剪并调整大小,作为一个新的数据集 。获得 GT 边界框,并将其细化为焦点区域作物。如果至少30% GT 框位于裁剪区域内,则包括裁剪后的 GT 框。
3.4 后处理
为了获得物体边界框的最终预测,必须将检测阶段的预测合并为焦点区域的模型输出预测。用于提高性能的后处理步骤包括不完全盒抑制(IBS )和非最大值抑制( NMS )。
不完全盒抑制( IBS 利用区域搜索的模型存在某些问题 。例如,合并目标区域的检测可能很困难,因为可能存在重叠的区域和截断的对象。这个问题在同一个对象上产生多个边界框预测。由于截断、预测的边界框没有完全重叠。因此,非极大值抑制不能抑制这些类型的错误预测。但是 ,这些预测会降低AP 得分。通常,非极大值抑制用于消除高度重叠的方框。但是,在大多数区域搜索方法中,最后一步是合并目标区域的预测。这就产生了一个新的问题,这些区域中的重叠区域和阻断对象降低了整体性能,因为检测器可能会预测完整版本的边界框,以及相同对象的截断版本的边界盒,如图5 所示。通常,这些边界框并集上的交集很小。因此,他们能够逃离NMS 。截断的对象本身也是一个问题。错误的类预测对于截断的对象很常见。结果,假阳性增加,AP 得分降低。不完全盒抑制( IBS )是为了减少这类问题而提出的。从本质上说,IBS NMS 算法具有相同的原理:找到重叠的边界框,选择具有最高置信度值的框,并抑制其他框。虽然NMS 使用简单的并集交集( IoU) 阈值来寻找重叠,但 IBS 中,重叠的焦点区域和对象
边界框都被用来决定要抑制哪个框
C_i and B_{i,j}是该区域 中的第 i 个焦点区域坐标和第 j 个框坐标
第一步:计算聚焦区域 Ci 和其他聚焦区域之间的 IoU ,以找到 Ci 的重叠。再将阈值应用于所计算的 IoU之后,获得重叠的聚焦区域。
第二步是 将重叠焦点区域中的对象框坐标裁剪到第 i 个焦点区域的坐标,并收集面积大于零的框
最后一步是计算裁剪框和 B_{i,j} 之间的 IoU 。如果任何 IoU分数大于所选阈值,则抑制 B_{i,j}焦点区域 IoU 阈值被实验性地选择为 0.05 ,边界框的 IoU 门限再次被实验性的选择为 0.5。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/484269.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

10基于访问权限控制和细粒度控制的方式访问资源

访问权限控制 RBAC 基于角色的访问控制(Role-Based Access Control)是按角色进行授权,如主体的角色为总经理时才可以查询企业运营报表和员工工资信息等 缺点:查询工资所需要的角色变化为总经理和部门经理,此时就需要修改判断逻辑为判断用户角色是否为…

【Django开发】0到1美多商城项目md教程第3篇:用户注册业务实现,1. 用户注册页面绑定Vue数据【附代码文档】

美多商城完整教程(附代码资料)主要内容讲述:欢迎来到美多商城!,项目准备。展示用户注册页面,创建用户模块子应用。用户注册业务实现,用户注册前端逻辑。图形验证码,图形验证码接口设…

vue 隐藏导航栏和菜单栏,已解决

初始效果: 效果: 出现问题: 解决方法:

【数字图像处理matlab系列】使用数组索引进行简单的图像裁剪、二次取样操作

【数字图像处理matlab系列】使用数组索引进行简单的图像裁剪、二次取样操作 【先赞后看养成习惯】求点赞+关注+收藏! pout.tif是一张matlab自带的图片,图像尺寸是291*240,使用imread读取该图像>> a = imread(pout.tif); >> imshow(a);对图像a进行上下翻转操作,…

【浅尝C++】类和对象第一弹=>类的定义/访问限定符/实例化/类对象大小计算/this指针

🏠专栏介绍:浅尝C专栏是用于记录C语法基础、STL及内存剖析等。 🚩一些备注:之前的文章有点杂乱,这里将前面的知识点重新组织了,避免了过多冗余的废话。 🎯每日努力一点点,技术变化看…

小程序英文口语发音评测

一、英文口语评测需求 在全球化的今天,英语已经成为了世界上最重要的国际语言之一。无论是在国际商务、科技研究、教育还是日常生活中,英语都扮演着举足轻重的角色。因此,掌握英文口语的能力对于个人的职业发展、学术研究以及跨文化交流都具…

【C语言】指针基础知识(二)

一,指针变量类型的意义 1,指针的类型决定了,对指针解引⽤的时候有多⼤的权限(⼀次能操作⼏个字节)。 例如:char* 的指针解引⽤访问⼀个字节,int* 的指针解引⽤访问四个字节,short*…

DolphinScheduler运维-页面加载缓慢

一、问题描述 DolphinScheduler调度平台的UI界面加载缓慢,项目中的任务实例加载时间过长,需要解决这个问题,提高DolphinScheduler平台UI页面的加载速度。 二、原因分析 经过分析发现,任务实例过多是导致UI加载缓慢的主要原因。由于任务实例无法直接删除,根据文档了解到需…

集成学习 | 集成学习思想:Boosting

目录 一. Boosting思想1. Adaboost 算法1.1 Adaboost算法构建流程1.2 sklearn库参数说明 2. Gradient Boosting 算法2.1 Gradient Boosting算法构建流程2.2 Gradient Boosting算法的回归与分类问题2.2.1 Gradient Boosting回归算法均方差损失函数绝对误差损失函数 2.2.2 Gradie…

SpringMVC结合设计模式:解决MyBatisPlus传递嵌套JSON数据的难题

🎉🎉欢迎光临,终于等到你啦🎉🎉 🏅我是苏泽,一位对技术充满热情的探索者和分享者。🚀🚀 🌟持续更新的专栏《Spring 狂野之旅:从入门到入魔》 &a…

有道翻译实现接口加密解密

文章目录 目标简单逆向分析源码深度逆向分析参考文献目标 实现对网易有道 sign 等参数的加密 及 返回的密文数据解密实现 简单逆向分析 首先在右上角提前登录好账号信息。 输入中文:你好 要求翻译成:英文 全局搜索:你好 或 hello,结果没有发现什么。 切换 Fetch/XHR …

QML ShapePath绘制虚线

一.qml PathLine介绍 在 QML(Qt Modeling Language)中,PathLine 是 Path 元素的一个子类型,用于创建两点之间的直线段。Path 类型用于描述一个二维路径,可以用来绘制形状、曲线和直线。PathLine 是所有路径曲线中最简单…

Day60:WEB攻防-PHP反序列化POP链构造魔术方法流程漏洞触发条件属性修改

目录 PHP-DEMO1-序列化和反序列化 序列化操作 - 即类型转换 序列化案例 PHP-DEMO2-魔术方法触发规则 __construct(): //当对象new的时候会自动调用 __destruct()://当对象被销毁时会被自动调用 __sleep(): //serialize()执行时被自动调用 __wakeup(): //uns…

高中信息技术教资刷题笔记_选择题篇

1.信息技术基础 位与字节的换算 模2除法运算 网页保存 进制之间的计算 教你快速学会二进制、十进制、十六进制之间的转换 - 知乎 (zhihu.com) 原码、补码、反码计算 物联网技术 位运算 按位与:同位置为1,则为1,其他都是0按位或:有…

2024年产品品牌化深度分析:消费者心理与品牌化、产品质量的权衡

随着市场竞争的加剧和消费者需求的多样化,产品品牌化已经成为企业不可或缺的战略选择。在2024年,当消费者面对众多商品时,品牌化与产品质量之间的权衡成为了消费者决策的重要因素。那么,在消费者心理中,品牌化重要还是…

Docker 之 数据卷

目录 1. 数据卷是什么 1.1 运行一个带有容器卷存储功能的容器实例 2.能干什么 3. 容器卷案例 3.1 宿主机vs容器之间映射添加容器卷 3.1.1 命令添加: 3.1.2 查看数据卷是否挂载成功 3.1.3 容器和宿主机之间数据共享 3.2 读写规则映射添加说明 3.2.1 读写&…

详解:JS异步解决方案之回调函数,及其弊端

「异步编程」是前端工程师日常开发中经常会用到的技术,异步的实现有好几种方式,各有利弊,本篇先讲通过回调来实现来异步 。 一、同步和异步 同步编程和异步编程是两种不同的编程方式。 同步编程是指按照代码的顺序执行,每一行代…

前端小卡片:vue3路由是什么,有什么作用,该如何配置?

在 Vue 3 中,路由的处理使用了 Vue Router,它是官方提供的路由管理器。Vue Router 用于实现单页应用中的路由功能,通过将不同的 URL 映射到对应的组件,实现页面之间的切换和导航。 Vue Router 的作用包括: 实现页面之…

Python并发编程:线程和多线程的使用

前面的文章,我们讲了什么Python的许多基础知识,现在我们开始对Python并发编程进行学习。我们将探讨 Python 中线程和多线程的使用。帮助大家更好地理解如何使用这种技术。 目录 1. 线程(Threads) 1.1 Python 中的线程工作原理 …

《妈妈是什么》笔记(五) 一切负面经验都必须转化为正面角度

经典摘录 我的引导原则是,一切负面经验都必须转化为正面角度。我们不能选择孩子的经历,但是可以帮助孩子选择如何看待这些事情,以及如何积极地利用这些事情,锤炼自己的社会交往能力。 比如, 别人(老师、同…