0. 简介
激光雷达地图中基于流的全局和度量雷达定位。自主机器人的定位是至关重要的。尽管基于相机和激光雷达的方法已经得到大量研究,但是它们会受到恶劣的光照和天气条件的影响。因此,最近雷达传感器由于其对这种条件固有的鲁棒性而受到关注。在《RaLF: Flow-based Global and Metric Radar Localization in LiDAR Maps》中,我们提出了RaLF,这是一种新型的基于深度神经网络的方法,用于在环境的激光雷达地图中定位雷达扫描,通过联合学习来解决位置识别和度量定位问题。RaLF由雷达和激光雷达特征编码器、生成全局描述子的位置识别头以及预测雷达扫描和地图之间3自由度变换的度量定位头组成。我们通过跨模态度量学习来学习两种模态之间的共享嵌入空间,从而解决位置识别任务。此外,我们通过预测将查询雷达扫描与激光雷达地图对齐的像素级流向量来执行度量定位。我们在多个现实世界驾驶数据集上广泛评估本文方法,并且表明RaLF在位置识别和度量定位方面均达到了最先进的性能。此外,我们证明,与训练期间使用的传感器设置相比,本文方法可以有效地泛化到不同的城市和传感器设置。代码已经在https://ralf.cs.uni-freiburg.de/上开源了。
1. 主要贡献
本文的主要贡献如下:
- 本文提出了一种用于先验激光雷达地图中雷达定位的新型RaLF,其解决了位置识别和度量定位任务;
- 本文提出了通过预测雷达和激光雷达鸟瞰图(BEV)图像之间流场形式的像素级匹配来解决度量定位任务;
- 本文在三个现实世界数据集上评估了RaLF相比于最先进的位置识别和度量定位方法的性能;
- 本文通过在不同的城市评估本文方法,并且使用与训练过程中不同的传感器设置来研究本文方法的泛化能力;
- 本文开源了代码和训练模型。
2. 总括
在本节中,我们描述了我们提出的用于LiDAR地图中的地点识别和度量雷达定位的RaLF。RaLF的概述如图2所示。我们的方法的架构基于RAFT [30],这是一个用于光流估计的最先进的网络。RaLF包括三个主要组件:特征提取、位置识别头和度量定位头。在本节的其余部分,我们详细介绍每个组件和相应的损失函数,然后描述推理过程。
图2:我们提出的RaLF架构用于雷达扫描在LiDAR地图中的联合地点识别和度量定位的概述。它由特征编码器、位置识别头部提取全局描述符和度量定位头部估计查询雷达扫描在LiDAR地图中的3自由度姿态组成。
3. 特征提取
两个编码器的架构,即雷达编码器和LiDAR编码器,基于RAFT [30]的特征编码器,它由一个步长为2的卷积层组成,后面跟着六个残差层,在第二和第四层之后进行下采样。与RAFT的原始特征编码器不同,RaLF为每种模态使用单独的特征提取器,因为雷达和LiDAR数据的性质不同。形式上,给定雷达BEV图像 R ∈ R H × W × 1 R ∈ \mathbb{R}^{H×W×1} R∈RH×W×1和LiDAR BEV图像 L ∈ R H × W × 1 L ∈ \mathbb{R}^{H×W×1} L∈RH×W×1,两个编码器 g r g_r gr和 g l g_l gl在原始分辨率的1/8处提取特征 g r , g l : R H × W × 1 → R H / 8 × W / 8 × D g_r, g_l: \mathbb{R}^{H×W×1} → \mathbb{R}^{H/8×W/8×D} gr,gl:RH×W×1→RH/8×W/8×D。两个编码器提取的特征在位置识别头和度量定位头之间共享。
4. 位置识别头
地点识别头具有两个目的:首先,它将特征提取器中的特征图聚合成全局描述符。其次,它将雷达和激光雷达数据的特征映射到共享嵌入空间中,其中可以将雷达扫描和激光雷达子地图的全局描述符相互比较。位置识别头的架构是一个由四个卷积层组成的浅层卷积神经网络,特征大小分别为(256,128,128,128)。每个卷积层后面都跟着批归一化和ReLU激活。与特征编码器不同,位置识别头在雷达和激光雷达模态之间是共享的。