优秀博士学位论文分享:复杂场景下高精度有向目标检测的研究

优秀博士学位论文代表了各学科领域博士研究生研究成果的最高水平,本公众号近期将推出“优秀博士学位论文分享”系列文章,对人工智能领域2023年优秀博士学位论文进行介绍和分享,方便广大读者了解人工智能领域最前沿的研究进展。

“博士学位论文激励计划”(原优秀博士学位论文奖)是对博士研究生学位论文的一项重大奖励,由各大学会通过严格评选后颁布。中国计算机学会、中国自动化学会、中国人工智能学会等各大学会每年都会颁布该奖项。该奖项的目的是促进学术研究的卓越性,并鼓励产出高质量的博士论文。博士研究生如果能够荣获该奖项,则表明其学术研究生涯早期的成果受到了很高的认可。

本推文主要介绍上海交通大学杨学博士的研究成果,其博士论文《复杂场景下高精度有向目标检测的研究》荣获了2023年中国计算机学会“博士学位论文激励计划”(原优秀博士学位论文奖)。该论文聚焦研究复杂场景下高精度的有向目标检测算法。论文以有向目标检测为研究重点,在鲁棒有向目标检测器搭建、高效位姿参数估计、弱监督算法探索以及有向目标检测工具设计这四个方面来扩展和完善现有的算法。目前该论文已获得“博士学位论文激励计划”奖项。此外,本推文还对其指导老师严骏驰教授进行了介绍,以方便读者了解更多相关信息。本推文的作者为龙佰超,审校为许东舟和朱旺。

一、论文介绍

深度学习作为一门新兴的学科,它在海量数据和复杂数据的处理上展现出了强大的能力,因此被广泛应用于计算机视觉和图像处理任务中。

目标检测作为计算机视觉的基本任务之一,是包括实例分割,目标跟踪、行人再识别等视觉任务在内的基础,并在近二十年得到了广泛研究和快速发展。目标检测是指,针对给定的图像,通过图像处理和计算机视觉等算法,找到图中所感兴趣的目标并定位其精确的位置坐标以及识别出具体的类别信息。目标检测可以分为“通用目标检测”和“检测应用”两个研究课题,前者旨在探索在统一框架下检测不同类型目标的通用方法,以模拟人的视觉和认知,后者则是指特定应用场景下的检测,如行人检测、人脸检测、场景文字检测和遥感检测等。近年来,深度学习技术的飞速发展,促使目标检测领域取得显著突破,进而将目标检测推向空前关注的研究热点。然而,经典的水平框目标检测算法已经无法满足当前许多特殊场景(如遥感影像、场景文字等)的需求,因此有向目标检测技术应运而生。文章主要探究如何在复杂环境下设计高精准的有向目标检测器。

1文章研究内容的整体脉络

鉴于有向目标检测巨大的应用前景、以及现存的困难与挑战,文章以有向目标检测为研究重点,在鲁棒有向目标检测器搭建(基准算法)、高效位姿参数估计(参数优化)、弱监督算法研究(训练数据)以及有向目标检测工具设计(集成工具)这四个方面来扩展和完善现有的算法,图1从这四个方面梳理了文章核心内容的整体脉络。

1. 有向目标检测器的网络架构设计

有向目标检测作为水平目标检测的一个扩展研究方向,其主要特点是估计框的冗余区域较少,在目标表示上更加精准。这对于密集场景非常友好。更重要的是有向目标检测保留了目标的方向信息,能为后续相关的任务提供重要的信息。目前有向目标检测算法均是基于经典水平检测算法改进的。第三章首先介绍了如何简单地将水平目标检测器改进成有向目标检测,包括介绍旋转框的不同定义、不同形式的锚框、旋转框重叠率的计算、回归参数的估计以及损失函数等基础知识。为了追求速度与精度的平衡,第三章提出了一种基于单阶段检测方法的级联有向检测器,该检测器采用了一种从粗到细的渐进式回归方法来快速准确地定位目标。考虑到级联检测器中存在的特征不对齐的问题,还设计了一个用于获得更准确特征的特征精修模块来提高检测性能。在多个公开的有向目标检测数据集上的大量实验结果表明,所提方法均有不错的表现。

第三章介绍了如何从一个水平目标价检测器(如单阶段检测器RetinaNet)到有向目标检测器的搭建,主要介绍了旋转框的不同定义、不同形式的锚框、旋转框重叠率的计算、回归参数的估计以及损失函数等基础知识,并在实验中比较和分析了不同锚框设置下有向目标检测器(RetinaNet-H和RetinaNet-R)的优缺点。然后设计了一个级联检测器R3Det来平衡速度与精度,同时通过设计了一个特征精修模块首次解决了单阶段有向目标检测中特征不对齐的问题。所提方法在众多公开数据集上得到了验证,并在当时的多个数据集上取得了最先进的性能。

2. 有向目标检测器的目标位姿表征

目标检测器定位的精准程度有很大一部分因素取决于检测器定位损失的设计,即位姿参数的估计机制。区别于水平框目标检测,有向目标检测往往会引入角度参数,这使得定位损失的设计变得更为复杂。第四章首先阐述了不同旋转框定义法下由角度参数和长宽两条边参数引起的边界不连续问题,并在特定旋转框定义法下通过将角度估计从回归问题转换成精细的分类问题予以初步解决,同时还通过分类的方式进一步实现了目标头部检测。随后第四章进一步提出了类正方形检测问题以及评估方式和回归损失不一致问题,并通过使用高斯分布建模与距离度量的方法统一解决了不同定义法下的边界不连续问题、类正方形检测问题和不一致问题,还进一步分析了高斯分布建模与距离度量可以实现高精度目标检测的原因。最后,在保留高斯分布建模的优势下继续采用相似性度量完善了对旋转重叠率损失的近似,并通过各类实验对第四章所提方法进行了有效性的验证以及给出总结与讨论。

第四章针对有向目标检测提出了三种亟待解决的问题:边界不连续问题、类正方形检测问题以及评估方式与损失函数不一致问题。第四章主要由三部分组成:

1) 第四章总结了发生边界不连续问题的主要原因是理想的估计结果超出了定义的范围,因此提出了一种在特定旋转框定义下方法,将角度估计从回归转为分类,以初步解决这一问题。同时为了实现精细的角度分类,第四章先提出了兼顾角度周期性和相邻角度容忍性的环形循环标签CSL,随后提出了密集编码标签DCL来降低模型的参数量和计算量,最后通过构建数据集、评价指标和头部分类的方式提出了目标头部检测任务。

2) 第四章提出了高斯分布建模来作为上述三种问题的统一解决方案,并将高斯分布距离(GWD,BCD和KLD)作为回归损失来优化检测器。通过梯度分析和尺度不变性证明,第四章发现使用KLD作为最终的回归损失可以取得显著的性能提升,尤其在高精度指标上表现突出。

3) 保留高斯分布建模优越性的前提下,第四章基于高斯分布相乘提出了相似性度量KFIoU来取代距离度量(如KLD)作为检测器最终的回归损失。相比之下,KFIoU可以更好地近似SkewIoU以更好地解决评估方式与损失函数不一致问题,并且不会引入任何超参数使得模型的训练变得稳定鲁棒。

虽然第四章所提出的方法均取得了不错的效果,但依然存在些许问题:

1) 目前文章分两步实现了头部检测,其流程还可以简化。如根据目标头部定义旋转框,则此时角度范围应该是[0◦,360◦),这样就可以通过CSL或者DCL同时实现有向/头部检测;

2) 第四章中的公式4.16只能进行五参数旋转矩形框的转换,即它不能直接应用于四边形/多边形检测。一种可行的方案是使用极大似然估计来估计点集对应的高斯分布,相关工作目前已在G-Rep中被提出;

3) 正方形目标的高斯分布是一个各向同性的圆形,这不适用于4.1.2小节提出的目标头部检测以及3-D目标检测中行人类别的朝向估计。目前,已有初步的朝向矫正方案在GWD和KLD的期刊扩展版本中被提出,期待未来更好的方法被提出。

3. 有向目标检测器的高效标注训练

目前有向目标检测已经在遥感影像、场景文字、自动驾驶等领域得到了初步的发展,然而许多现有的目标检测数据集均是用成本更低的水平边界框进行标注的,这导致暂时无法将这些数据集直接用到有向目标检测器的训练。第五章提出一种新的弱监督目标检测任务:基于水平边界框标注的有向目标检测。该类方法可以充分利用已有的海量水平框标注的目标检测数据集,减少重新标注的成本,同时提高检测器的性能。第五章首先阐述研究该项弱监督目标检测任务的动机,然后介绍“水平框-掩码-旋转框”和“水平框-旋转框”两种设计范式,最后通过实验分析这两种范式的优缺点并进行方法的总结与讨论。

第五章首次在目标检测领域中提出了基于水平框标注训练的弱监督有向目标检测任务,并提出了“水平框-掩码-旋转框”(HBox-Mask-RBox)和“水平框-旋转框”(HBox-to-RBox)两种范式进行实现。前者主要结合水平框监督的实例分割算法(如BoxInst和BoxLevelSet)和取最小外接矩形的后处理操作进行实现,经过实验分析这类方法存在性能低、速度慢和显存高等诸多问题。而后者采用了自监督的网络架构,通过衡量输入图片在不同视图下估计结果的一致性实现了精准的旋转框估计,实验表明所提出的H2RBox方法不管在精度还是速度方面均优于HBox-Mask-RBox类方法,并与强监督有向目标检测方法在各方面都比较接近。虽然H2RBox已经在在弱监督有向目标检测上取得了初步的进展,但是H2RBox其实在AP75等高精度指标上表现并不好。一个原因是弱监督分支训练的模型所估计的水平框不一定准,另一个原因可能是有些类别水平标注框不一定就是旋转标注框的水平外接矩形,如图 2中的飞机所示。

 2 水平标签框、旋转标签框和旋转标签框水平外接矩形的关系

在后续的研究中,H2RBox-v2通过引入对称自监督学习使得H2RBox的性能进一步提升,在部分数据集上追平甚至超越强监督算法。对称自监督学习近期也被逐渐应用于基于点监督的有向目标检测算法,如Point2RBox和PointOBB,简化流程的同时均有不错的性能。

4. 有向目标检测器的开源工具建设

目前最受欢迎的几个目标检测工具都是专注于水平目标检测,如MMDetection,Detectron2和SimpleDet。相比之下,有向目标检测在发展前期始终缺乏一个整合了大部分先进有向检测模型的工具用于评估和使用。为了解决这个问题,相关的工具陆续被开发出来。AerialDetection是较早基于MMDetection开发的专注于遥感影像的有向目标检测工具,然而它只提供了一些基准方法和有限的先进算法,并且缺乏维护以及后续新算法的集成。OBBDetection是另一个基于MMDetection开发的用于有向目标检测的开源工具,它支持了近9种不同的检测方法以及提供了一系列高效的处理大规模遥感影像的工具。可以看出目前的有向目标检测基准工具都使用PyTorch进行开发,具有深度学习框架类型单一、支持算法/数据集种类少、使用文档缺失、维护不完善等缺陷,阻碍了有向目标检测技术研究的进一步发展。第六章从学术研究、工业部署和国产化三个角度出发,分别基于TensorFlow、PyTorch和Jittor搭建了三种各具特色的有向目标检测工具:MMRotate、AlphaRotate和JDet。

第六章介绍了三种基于不同深度学习框架的有向目标检测工具。先从支持的算法/数据集的数量、使用文档、维护情况等角度将这三个检测工具与其他同类进行了比较。然后介绍了各检测工具的设计亮点以及使用教程,同时也列出了它们所支持的有向目标检测算法。每个检测工具都在标准数据集上比较了不同算法的性能,并且提供了相应权重和配置文件。论文希望所设计的有向目标检测工具能给学术界和工业界带来方便。三个有向目标检测工具还存在许多待提高的地方,会根据社区反应和讨论进行不断完善,也呼吁更多相关研究者加入到有向目标检测相关内容讨论和开发的队伍中来。

二、个人成果

杨学,浙江省绍兴人,电子信息与电气工程学院计算机科学与工程系2023届博士,首届吴文俊人工智能博士班成员,师从严骏驰教授。现任上海人工智能实验室青年研究员,研究方向为基础视觉。累计发表包括TPAMI、IJCV、NeurIPS 、CVPR等在内的CCF-A类论文24篇,其中以第一作者共发表论文16篇。谷歌学术总引用超5500次,2篇入选PaperDigest最具影响力AAAI21论文列表(第1名和第10名)。曾获CCF博士学位论文激励计划(全国9人)、CCF-CV新锐学者奖(全国3人)、上海交通大学优秀博士论文(全校15人/工学8人)、上海交通大学“学术之星”提名奖(全校20人)、并入选2022和2023年度由斯坦福大学评选的全球前2%顶尖科学家榜单。所开源的代码在社区累积获得星数超过万次,包括两个有较大影响力的有向目标检测框架AlphaRotate和MMRotate,同时还参与了国产开源框架Jittor版本有向目标检测框架JDet的维护。更多信息请查阅杨学博士个人主页:https://yangxue0827.github.io/。

、指导老师——严骏驰教授简介

严老师为上海交通大学人工智能学院和电子信息与电气工程学院计算机系教授,研究领域主要集中在计算机视觉、机器学习及人工智能与其它学科的交叉领域。更多关于严老师团队研究工作的介绍,请读者查阅其实验室网站:​​https://thinklab.sjtu.edu.cn/。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/630242.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

牛客热题:二叉树与双向链表

📟作者主页:慢热的陕西人 🌴专栏链接:力扣刷题日记 📣欢迎各位大佬👍点赞🔥关注🚓收藏,🍉留言 文章目录 牛客热题:二叉树与双向链表题目链接方法一…

【LInux】<基础IO> 文件操作 | 文件描述符 | 重定向

👦个人主页:Weraphael ✍🏻作者简介:目前正在学习c和算法 ✈️专栏:Linux 🐋 希望大家多多支持,咱一起进步!😁 如果文章有啥瑕疵,希望大佬指点一二 如果文章对…

【easyX】动手轻松掌握easyX 1

01 简单绘图 在这个程序中&#xff0c;我们先初始化绘图窗口。其次&#xff0c;简单绘制两条线。 #include <graphics.h>//绘图库头文件 #include <stdio.h> int main() {initgraph(640, 480);//初始化640✖480绘图屏幕line(200, 240, 440, 240);//画线(200,240)…

NAT技术总结与双向NAT配置案例

NAT的转换方式&#xff1a; 1.静态转换&#xff1a;固定的一对一IP地址映射。 interface GigabitEthernet0/0/1 ip address 122.1.2.24 nat static global 122.1.2.1 inside 192.168.1.1 #在路由器出接口 公网地址 私网地址。 2.动态转换&#xff1a;Basic NAT nat address-gr…

centos7下使用docker安装fastdfs服务

先查看容器是否已经存在 docker ps -a 删除掉之前的tracker及storage服务 docker rm tracker docker rm storage 1、没有镜像先下载镜像 docker pull morunchang/fastdfs 2、运行服务 a、不指定物理服务器路径 docker run -d --name tracker --nethost morunchang/fastdfs sh…

【Linux】系统登录,调用shell,shell配置文件,shell命令,特殊符号,shell快捷键,Linux运行级别,解决无限登录问题,修改提示符

目录 Linux系统的登录方式 以及 调用shell Linux shell 以及 shell配置文件 shell 命令 shell 特殊符号 shell 快捷键 Linux操作系统运行级别 单用户模式下解决无限登录问题 centos7修改命令行提示符 PS1 补充、centos7没有滚动条 Linux系统的登录方式 以及 调用shell…

AWS简介

AWS AWS&#xff0c;全称为Amazon Web Services&#xff0c;是亚马逊公司旗下的云计算服务平台&#xff0c;自2006年起向全球用户提供广泛而深入的云计算服务。AWS是全球最全面、应用最广泛的云平台之一&#xff0c;它从全球的数据中心提供超过200项功能齐全的服务&#xff0c…

每周一算法:恰好经过K条边的最短路

题目描述 牛站 给定一张由 M M M 条边构成的无向图&#xff0c;点的编号为 1 ∼ 1000 1\sim 1000 1∼1000 之间的整数。 求从起点 S S S 到终点 E E E 恰好经过 K K K 条边&#xff08;可以重复经过&#xff09;的最短路。 注意: 数据保证一定有解。 输入格式 第 1 …

维护表空间中的数据文件

目录 向表空间中添加数据文件 从表空间中删除数据文件 删除users表空间中的users02.dbf数据文件 对数据文件的自动扩展设置 Oracle从入门到总裁:​​​​​​https://blog.csdn.net/weixin_67859959/article/details/135209645 维护表空间中的数据文件主要包括向表空间中添…

C#【进阶】委托和事件

委托和事件 文章目录 1、委托1、委托概念2、基本语法3、定义自定义委托4、使用自定义委托5、委托变量可以存储多个函数6、系统定义好的委托思考 怪物死亡数据更新 2、事件1、事件概念2、事件的使用3、为什么有事件思考 热水器 3、匿名函数1、匿名函数概念2、基本语法3、使用4、…

电工能混到这份上

最近看到某电工师傅发了一篇帖子&#xff0c;大致内容是他在处理一个简单故障的时候居然花了很长的时间。我们一起来看看他遇到的是什么故障吧! plc 控制的一台设备&#xff0c;行走部分靠 2 个脚踏开关控制&#xff08;内部开关量控制方向&#xff0c;电位器控制速度&#xff…

jspXMl标记语言基础

1.打开命令框进入数据库 打开eclipse创建需要连接的项目 粘贴驱动程序 查看驱动器 使用sql的包 int代表个 conlm代表列名 <%page import"java.sql.ResultSet"%> <%page import"java.sql.Statement"%> <%page import"java.sql.Connect…

fl studio试用版文件保存无法打开??一个方法教你免费打开!

前言 当下&#xff0c;各款编曲软件五花八门&#xff0c;而这其中最有声誉的必为FL Studio莫属 这个软件呢国人习惯叫他水果&#xff0c;拥有强大的录音、编曲、混音等功能&#xff0c;所以广受音乐圈欢迎。如今&#xff0c;大部分水果一旦有编曲所需&#xff0c;一般都要使用…

阿里云 服务之前设置的密钥登陆,关闭了密码登录,现在打开密码登录

通过网页远程链接 切换用户 sudo -i 输入vim /etc/ssh/sshd_config 进入配置文件 找到 将这一项设置为yes 重启系统 systemctl restart sshd.service

std::remove-----std::remove_if

std::remove和std::remove_if 是 C11 标准库中的一个算法函数. std::remove 作用 遍历一遍容器&#xff0c;将容器中所有不是指定元素的元素往前复制。 总之就是一句话&#xff1a; 把不该删除的移动到前面&#xff0c;后面的就是应该删除的。 注意&#xff1a; 1&#…

汇聚荣科技:拼多多上架商品后需要做页面推广吗?

在电商平台上&#xff0c;商品的曝光率和销量往往成正比。那么&#xff0c;当您在拼多多上架了新品&#xff0c;是不是就意味着坐等订单呢?答案显然是否定的。商品一旦上架&#xff0c;接下来需要做的就是通过有效的页面推广来增加商品的可见度&#xff0c;吸引潜在买家的注意…

Golang RPC实现-day02

导航 Golang RPC实现一、客户端异步并发多个请求1、 客户端结构体2、 一个客户端&#xff0c;异步发送多个请求&#xff0c;使用call结构体代表客户端的每次请求3、客户端并发多个请求4、客户端接收请求 Golang RPC实现 day01 我们实现了简单的服务端和客户端。我们简单总结一…

Pencils Protocol Season 2 收官在即,展望Season 3 及其权益

此前 Scroll 生态 LaunchPad &聚合收益平台 Pencils Protocol&#xff08;原 Penpad&#xff09;&#xff0c;推出了首个资产即其生态代币 PDD 的 Launch&#xff0c;Season 2 活动主要是用户通过质押 ETH 代币、组件战队等方式&#xff0c;来获得 Point 奖励&#xff0c;并…

mysql的explain

explain可以用于select&#xff0c;delete&#xff0c;insert&#xff0c;update的statement。 当explain用于statement时&#xff0c;mysql将会给出其优化器&#xff08;optimizer&#xff09;的执行计划。 通过explain字段生成执行计划表。下面来解析这个执行计划表的每一列…

正则表达式和sed

一、正则表达式 主要用来匹配字符串&#xff08;命令结果&#xff0c;文本内容&#xff09;&#xff0c; 通配符匹配文件&#xff08;而且是已存在的文件&#xff09; 基本正则表达式 扩展正则表达式 1.元字符 . 匹配任意单个字符&#xff0c;可以是一个汉字 […