当视觉遇到毫米波雷达:自动驾驶的三维目标感知基准

文章:Vision meets mmWave Radar: 3D Object Perception Benchmark for Autonomous Driving

作者: Yizhou Wang, Jen-Hao Cheng, Jui-Te Huang , Sheng-Yao Kuan , Qiqian Fu , Chiming Ni 

编辑:点云PCL

欢迎各位加入知识星球,获取PDF论文,欢迎转发朋友圈。文章仅做学术分享,如有侵权联系删文。

公众号致力于点云处理,SLAM,三维视觉,高精地图等领域相关内容的干货分享,欢迎各位加入,有兴趣的可联系dianyunpcl@163.com。侵权或转载联系微信cloudpoint9527。

摘要

传感器融合对于自动驾驶车辆上的准确和鲁棒的感知系统至关重要。大多数现有的数据集和感知解决方案侧重于将摄像机和激光雷达进行融合。然而,摄像机和毫米波雷达之间的融合未被显著的充分利用。从摄像机获取丰富的语义信息,以及从雷达获取可靠的三维信息,潜在地可以实现对于3D目标感知任务的高效、廉价和便携的解决方案。由于毫米波雷达具有适应不同光照或全天候驾驶场景的能力,这种解决方案还可以具有健壮性。在本文中,我们介绍了CRUW3D数据集,包括在各种驾驶场景中同步和校准的66,000帧摄像机、毫米波雷达和激光雷达数据。与其他大规模自动驾驶数据集不同,我们的雷达数据采用射频(RF)张量的格式,其中包含了不仅有3D位置信息还有时空语义信息。这种毫米波雷达格式使得机器学习模型能够在摄像机和雷达之间相互交互和融合信息或特征后生成更可靠的目标感知结果。

主要贡献

有关雷达RF张量的标注的公共数据集有限,如表1所示。

为了填补这方面的不足,我们引入了一个新的数据集名为CRUW3D,其中包含66,000帧同步的摄像机、毫米波雷达和激光雷达数据,涵盖了各种驾驶场景,并带有对象3D边界框和轨迹标注。图1显示了我们在CRUW3D中的数据和注释的一些示例。

图1:CRUW3D数据集中的示例,每个示例包含摄像机RGB图像和一个雷达RF张量对。为了更好地可视化,RF张量被转换为笛卡尔坐标。我们提供了不同驾驶场景和照明条件下的数据示例,相应的3D边界框注释分别投影到RGB和RF张量上。

为了提高数据标注的精度,我们在数据收集系统中包含了一个激光雷达。基于激光雷达点云,我们在每个时间帧内仔细标注了对象的3D边界框,并在整个时间序列中标注了对象的轨迹。我们还提供了传感器之间的校准参数,以允许在不同模态之间进行数据/信息转换或进行传感器融合设置。我们希望CRUW3D数据集能够促进更多关于可靠和健壮协同感知的研究。CRUW3D数据集将很快公开提供。总体而言,我们的CRUW3D数据集具有以下主要贡献:

  • 据我们所知,这是第一个具有同步摄像机RGB图像、原始雷达模数转换器(ADC)数据、带有相位的雷达RF张量和激光雷达点云的公共数据集。

  • 它包括3D边界框和3D对象轨迹的对象标注,对于各种对象感知任务,例如3D目标检测和3D多目标跟踪具有一定价值。

  • 它包含不同的光照条件,对于基于视觉的对象感知方法具有挑战性,因此为基于传感器融合的对象感知算法提供了一个很好的基准。

内容概述

数据收集 

我们提出了一个使用双目摄像机、毫米波雷达和激光雷达的数据集收集流程,包括一个传感器平台、一个数据收集软件和一个传感器校准方法。通过我们提出的流程,从三个传感器模态收集的数据可以在时间上同步和在空间上进行精确校准。

传感器平台 

我们的数据集收集传感器系统如图2所示,有两个FLIR BFS-U3-16S2C-CS摄像机,一个TI AWR1843雷达板和一个Livox Horizon激光雷达。详细规格列在表2中。

图2:我们CRUW3D数据集的传感器坐标和传感器平台,包括两个摄像机、一个毫米波雷达和一个激光雷达。请注意,我们的雷达没有俯仰角分辨率(即y轴),因此在两个传感器之间应用平移向量之后,它等效于摄像机的鸟瞰图。

传感器同步 

我们的数据集收集软件基于Ubuntu下的机器人操作系统(ROS)。对于摄像机和激光雷达,由于它们提供开源API,我们直接将它们集成到ROS系统中。然而TI只提供基于Windows和MATLAB的软件。因此我们在Ubuntu系统中创建了一个Windows虚拟机,并通过ROS进行进程间通信。我们使用由右侧摄像机生成的Transistor-Transistor Logic(TTL)信号进行摄像机和激光雷达之间的硬件时间同步。摄像机和激光雷达传感器都通过它们的API支持TTL信号时间同步。在软件层面上,我们使用ROS库提供的ApproximateTime同步策略将三个传感器的数据对齐到30 FPS的时间槽中。为了在雷达和其他传感器之间同步,我们使用软件触发器启动数据序列收集。服务客户端在收到响应后触发雷达数据的收集过程,并在开始其他传感器数据的收集过程时启动另一个过程。根据我们的实验证明,软件触发器的延迟在几毫秒以下,是可以忽略的。

传感器校准 

首先使用Zhang的方法校准了双目摄像机,该方法给出了两个摄像机的内参、畸变系数和外参,这些结果将用于立体矫正。对于摄像机和激光雷达之间的传感器校准,我们采用了Dhall等人提出的校准算法。这将给我们两个变换矩阵,分别表示左摄像机和激光雷达之间的变换,以及右摄像机和激光雷达之间的变换。至于雷达,它根据其俯仰角度仔细安装和与摄像机和激光雷达对齐,其坐标平行于摄像机的鸟瞰图(BEV)。还测量了传感器之间的平移向量,以形成摄像机和雷达之间的完整变换矩阵。

数据处理

摄像头数据处理:首先,由双目摄像头捕捉的图像序列根据摄像头校准进行去畸变和矫正。然后针对由于不良光照条件导致的低质量图像,我们进行图像增强,以提高收集到的视频的质量和光照稳定性。在这里实现了一种基于深度学习的方法,名为RRDNet,使用三分支CNN在零镜头拍摄中恢复曝光不足的图像。为了实现对视频序列的稳定增强结果,我们仅使用每个序列的第一帧对网络进行训练,并对其余帧进行推理。

雷达数据处理:我们的雷达数据处理类似于[28]中提到的预处理,其中雷达范围-方位坐标中的RF张量被描述为俯视图(BEV)表示,其中x轴表示方位(角度),y轴表示距离(距离)。从原始雷达数据中,我们首先对接收到的样本进行范围快速傅里叶变换(FFT)以估算反射的范围。然后我们对不同接收天线上的样本进行第二次角度FFT,以估算反射的方位角。此外,我们还将RF张量转换为笛卡尔坐标,以更好地与摄像机对齐并进行更清晰的可视化。我们的雷达数据处理的更详细描述在补充文件中提到。

激光雷达数据处理:Livox激光雷达采用了一种称为非重复水平扫描的特殊激光扫描技术,与大多数传统激光雷达传感器提供的重复线性扫描显著不同。它积累了在FOV内捕获的点,以在集成时间窗口内获得更密集的点云。然而,基于这项技术,激光雷达的点云无法在相机帧(即1/30秒)内覆盖整个FOV。为确保每个相机/雷达帧都有一个相应的激光雷达帧进行注释,我们将连续三帧(即1/10秒时间窗口)内捕获的点云累积为一个完整的帧,这意味着我们的激光雷达的帧率为10 FPS,如表2中所述。

数据标注

在CRUW3D数据集中,我们在LiDAR点云上标注3D边界框。与KITTI数据集中的3D边界框标签不同,我们使用三个欧拉角来表示每个边界框的方向,因为CRUW3D数据集中的街道不像KITTI数据集中的街道那样平坦。在此,我们在标注过程中考虑以下5个对象类别:行人、汽车、货车、卡车和公共汽车。除了3D边界框之外,我们还为后续的多目标跟踪(MOT)任务标注了对象跟踪ID。然而,由于不同的传感器具有不同的视场(FOV),而且远处物体的点云通常是稀疏的,我们只在重叠区域内标注了对象,如图3所示。在LiDAR点云上标记了3D边界框之后,我们通过来自传感器校准的转换矩阵将所有边界框投影到摄像机和雷达坐标系中。然后,可以使用这些注释分别训练摄像机和雷达的网络。

数据统计

我们的CRUW3D数据集包含约66,000帧各种驾驶场景下的同步摄像机、雷达和激光雷达数据,具有不同的光照条件。大约70%的数据是在正常的驾驶场景中捕获的,具有良好的光照条件。其余30%是在不利的光照条件下捕获的,例如夜间或强光照。表3中显示了一些数据统计信息。在所有数据帧中,我们在训练集中标注了19,000帧,在测试集中标注了10,000帧。

CRUW3D数据集的标注

至于CRUW3D数据集的标注,我们在图4中分析了我们标记的对象的不同分布,包括3D边界框的数量、3D对象轨迹的数量、对象深度、对象方位角和对象尺寸。

图4:CRUW3D数据集中的对象标注分布,包括(a)对象3D边界框分布,(b)对象轨迹分布,(c)对象深度分布,(d)对象方位角分布和(e)对象长度分布。

实验

在CRUW3D数据集上进行了一系列基线实验,包括基于相机的3D目标检测、基于相机的3D目标跟踪、基于雷达的目标检测以及相机-雷达融合的基线。在接下来的实验中,我们只考虑行人和汽车作为我们感知的目标类别。

基于相机的3D目标检测

对于自动驾驶应用来说,单目3D目标检测是至关重要的。用于3D目标检测的神经网络提取图像特征,并在透视图或鸟瞰图中检测对象。我们在我们的基准测试中实现了SMOKE和 DD3D作为基线。

SMOKE 是基于 CenterNet的单级3D目标检测方法。给定输入图像,它检测目标对象在图像平面上投影的3D中心。然而,该算法最初是为KITTI数据集设计的,其3D边界框方向仅包括偏航角。我们通过忽略俯仰和横滚将每个边界框的四元数方向标签转换为偏航角,假设其他旋转角度可以忽略。在此,我们在实现过程中使用DLA-34作为SMOKE的骨干网络。

DD3D 建立在另一个2D目标检测器 FCOS 之上。它使用大规模深度数据集 DDAD15M 对网络进行预训练,以从图像中获得更好的深度感知特征,从而在单目3D目标检测方法中取得了最先进的效果。在实现过程中,我们尝试了两个不同的骨干网络,即 DLA-34和 V2-99 。

与KITTI类似,评估指标包括3D边界框的平均精度(AP)和在IOU阈值为0.5或0.7(对于汽车)以及0.3或0.5(对于行人)时的BEV 2D边界框的平均精度。定量结果如表4所示。从实验结果可以看出,与SMOKE相比,DD3D在各个方面都表现更好。使用更大的骨干V2-99,DD3D在汽车和行人方面均取得了最佳性能。

基于相机的3D目标跟踪

在预测对象3D检测结果之后,我们进一步实现了一个3D多目标跟踪(MOT)算法,称为AB3DMOT,以获得对象3D边界框轨迹。我们根据表4中的3D目标检测结果,即 SMOKE 和 DD3D,进行了基于AB3DMOT框架的实验。AB3DMOT单独跟踪不同的对象类别,并在最后阶段将它们合并,因此我们也分别评估汽车和行人的3D MOT性能,如表5所示。

对于3D MOT的评估指标,我们采用了[31]中提出的指标,包括缩放平均多目标跟踪准确度(sAMOTA)、平均多目标跟踪准确度(AMOTA)和平均多目标跟踪精度(AMOTP)。从表5可以看出,“DD3D+AB3DMOT”的组合在3D MOT性能方面表现最佳。由于前一阶段3D检测质量较差,“SMOKE+AB3DMOT”在行人跟踪方面的性能非常差。

毫米波雷达目标检测

对于基于毫米波雷达的目标检测,它将每个对象检测为RF张量中的一个点,我们使用RODNet作为基线方法。评估指标包括使用不同对象位置相似度(OLS)阈值的平均精度(AP)和平均召回率(AR),这与我们先前的CRUW数据集相同。定量结果如表6所示。整体性能低于CRUW数据集,显示出我们的CRUW3D数据集要更具挑战性,使用HGwI骨干和时间变形卷积的RODNet取得了最佳性能。

总结

本文介绍了一个名为CRUW3D的新基准数据集,其中包含了同步且校准良好的相机、雷达和激光雷达数据,并附有目标3D边界框和轨迹标注。据我们所知,这是第一个具有雷达RF张量、包含幅度和相位信息的公开数据集,可用于3D目标检测和多目标跟踪任务。通过CRUW3D数据集,相机和毫米波雷达之间的传感器融合可以进一步利用,以提高自动驾驶的可靠性和鲁棒性。

以上内容如有错误请留言评论,欢迎指正交流。如有侵权,请联系删除

让我们一起分享一起学习吧!期待有想法,乐于分享的小伙伴加入知识星球注入爱分享的新鲜活力。分享的主题包含但不限于三维视觉,点云,高精地图,自动驾驶,以及机器人等相关的领域。

分享与合作:微信“cloudpoint9527”(备注:姓名+学校/公司+研究方向) 联系邮箱:dianyunpcl@163.com。

为分享的伙伴们点赞吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/236829.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Web安全-SQL注入【sqli靶场第11-14关】(三)

★★实战前置声明★★ 文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与学习之用,读者将其信息做其他用途,由用户承担全部法律及连带责任,文章作者不承担任何法律及连带责任。 0、总体思路 先确认是否可以SQL注入&#xff0…

Q_GDW1819-2013电压监测装置协议结构解析

目录 一 专业术语二 基本功能2.1 基础功能2.2 数据存储2.3 显示功能(设备能够看到的)2.4 参数设置与查询2.5 事件检测与告警功能 三 其他内容3.1 通信方式3.2 通信串口 四 帧结构解析4.1 传输方式4.2 数据帧格式4.2.1 报文头(2字节&#xff0…

wvp gb28181 pro 配置https访问

准备工作 必须要有域名。虽然数字证书也有ip证书,但是会很麻烦,多数ca机构验证服务器需要用到80或443端口,也就是必须先备案,所以最好还是使用域名证书。购买域名证书。根据安全级别要求自行配置。单域名(不支持通配符的),阿里云的域名都是可以免费申请的。完成域名到服…

2024美赛备战1--数据处理(数据预处理,异常值处理,预测模型,插值拟合 *****必看****)

1.数据预处理 所谓数据预处理,就是指在正式做题之前对数据进行的一些处理。在有些情 况下,出题方提供的数据或者网上查找的数据并不能直接使用,比如缺少数据甚 至是异常数据,如果直接忽略缺失值,或者没发现异常数据&am…

Axure RP 9 入门教程

1. Axure简介 Axure 是一个交互式原型设计工具,可以帮助用户创建复杂的交互式应用程序和网站。Axure 能够让用户快速构建出具有高度可交互性的原型,可以在团队中进行协作、分享和测试。 使用 Axure 可以设计出各种不同类型的原型,包括网站、移…

企业网站运营不稳定有什么影响

如果一个公司的网站打开都有困难,那么用户会对这个企业的实力产生怀疑,企业网站除了作为企业的名片外,更多的是承担增加企业交易订单的任务。因此很多网站会做有关的网络广告或者搜索引擎优化的工作。如果网站无法正常打开,那么用…

HNU计算机体系结构-实验3:多cache一致性算法

文章目录 实验3 多cache一致性算法一、实验目的二、实验说明三 实验内容1、cache一致性算法-监听法模拟2、cache一致性算法-目录法模拟 四、思考题五、实验总结 实验3 多cache一致性算法 一、实验目的 熟悉cache一致性模拟器(监听法和目录法)的使用&am…

类人智能体概念、能力与衍生丨AI Agents闭门研讨观点集锦

导读 在智源社区举办的「青源Workshop第27期:AI Agents 闭门研讨会」上,来自英伟达的高级应用科学家王智琳、CAMEL一作李国豪、AutoAgents一作陈光耀,以及相关技术专家们共同参与交流讨论,分享了最新的研究成果,共同探…

【UE5】初识MetaHuman 创建虚拟角色

步骤 在UE5工程中启用“Quixel Bridge”插件 打开“Quixel Bridge” 点击“MetaHumans-》MetaHuman Presets UE5” 点击“START MHC” 在弹出的网页中选择一个虚幻引擎版本,然后点击“启动 MetaHuman Creator” 等待一段时间后,在如下页面点击选择一个人…

mysql:建议使用INT UNSIGNED类型存储IPv4地址

建议使用INT UNSIGNED类型存储IPv4地址,而不要使用INT类型,也不建议使用VARCHAR(15)类型存储。 在mysql中,内嵌函数INET_ATON(expr)可以将IP地址字符串转换为整数,内嵌函数INET_NTOA(expr)可以将整数转换为ip地址字符串。 例如&a…

【基础知识】SAR成像:从背景到应用的全方位概述

最近有项目接触到SAR成像图像,为了对SAR有一个全面的认识,本文结合自身研究经验,从背景到应用做一下简要概述。 背景 SAR(Synthetic Aperture Radar,合成孔径雷达)成像是一种先进的雷达技术,…

Kalman滤波、扩展Kalman滤波、无迹Kalman滤波和异步滤波的原理及其Matlab代码

目录 引言Kalman滤波代码及其结果展示 扩展Kalman滤波代码及其结果展示 无迹Kalman滤波无迹变换无迹Kalman滤波代码及其结果展示 异步无迹Kalman滤波原理代码及其结果展示 引言 本文给出了Kalman Filter(卡尔曼滤波)、Extended Kalman Filter&#xff0…

新零售模式:跨境电商如何实现线上线下融合?

随着数字时代的发展,新零售模式逐渐崭露头角,成为跨境电商发展的重要趋势。线上线下融合不仅拓宽了销售渠道,更提供了更丰富、更便捷的购物体验。 本文将深入探讨新零售模式在跨境电商中的应用,以及如何实现线上线下融合&#xf…

测距传感器

测距传感器 电子元器件百科 文章目录 测距传感器前言一、测距传感器是什么二、测距传感器的类别三、测距传感器的应用实例四、测距传感器的作用原理总结前言 测距传感器广泛应用于自动化控制、机器人导航、无人驾驶、测量仪器等领域。不同类型的测距传感器具有不同的测距范围、…

ASP.NET Core 8 在 Windows 上各种部署模型的性能测试

ASP.NET Core 8 在 Windows 上各种部署模型的性能测试 我们知道 Asp.net Core 在 windows 服务器上部署的方案有 4 种之多。这些部署方案对性能的影响一直以来都是靠经验。比如如果是部署在 IIS 下,那么 In Process 会比 Out Process 快;如果是 Self Hos…

从零开始搭建企业管理系统(六):RBAC 权限管理设计

RBAC 权限管理设计 前言权限分类功能权限设计什么是 RBACRBAC 组成RBAC 模型分类基本模型RBAC0角色分层模型RBAC1角色限制模型RBAC2统一模型RBAC3 RBAC0 权限设计用户管理角色管理权限管理关联表 总结 前言 作为一个后台管理系统,权限管理是一个绕不开的话题&#…

[Linux基础知识]页表

文章目录 1.页表 环境变量2.进程 1.页表 环境变量 一个分页存储管理系统中,地址长度为 32 位,其中页号占 8 位,则页表长度是 页号即页表项的序号,总共占8个二进制位,意味着页表项的个数就是2^8 在CPU和物理内存之间进行…

基于ssm高校教师科研信息展示网站论文

摘 要 互联网发展至今,无论是其理论还是技术都已经成熟,而且它广泛参与在社会中的方方面面。它让信息都可以通过网络传播,搭配信息管理工具可以很好地为人们提供服务。针对高校教师科研项目展示信息管理混乱,出错率高&#xff0c…

【23真题】难!最后的几所985!

今天分享的是23年天津大学815的信号与系统试题及解析!985的题目做一套少一套,考研前我也发不了几所985的真题了,大家珍惜! 本套试卷难度分析:22年天津大学815考研真题,我也发布过,若有需要&…