3D目标检测数据集—

3D目标检测数据集——Waymo数据集

Waymo数据集簡介

发布首页：
https://waymo.com/open/
论文：
https://openaccess.thecvf.com/content_CVPR_2020/papers/Sun_Scalability_in_Perception_for_Autonomous_Driving_Waymo_Open_Dataset_CVPR_2020_paper.pdf
github：
https://github.com/waymo-research/waymo-open-dataset.git

Waymo Open Dataset是Waymo公司为了促进自动驾驶技术、机器感知和相关领域的研究而公开发布的一个大型数据集。该数据集包含了Waymo自动驾驶车队在多个城市和郊区环境中收集的高分辨率传感器数据，涵盖了白天和夜晚、晴天和雨天等多种天气和光照条件下的驾驶场景。
Waymo 数据集包含 3000 段驾驶记录，时长共16.7小时，平均每段长度约为 20 秒。整个数据集一共包含 60 万帧，共有大约 2500万3D 边界框、2200 万2D 边界框。

数据采集传感器规格

使用五个激光雷达传感器和五个高分辨率针孔摄像头进行数据采集。我们限制激光雷达数据的范围，并为每个激光脉冲的前两次返回提供数据。表2包含我们的激光雷达数据的详细规格。相机图像是通过滚动快门扫描拍摄的，精确的扫描模式可能会因场景而异。所有相机图像都被下采样并从原始图像中裁剪；表3提供了摄像机图像的规格。与数据集相关的传感器布局见图1。

表3. 前（F）、左前（FL）、右前（FR）、左侧（SL）、右侧（SR）摄像头的摄像头规格。图像大小反映了裁剪和下采样原始传感器数据的结果。摄像机水平视野（HFOV）作为相机传感器帧x-y平面中x轴的角度范围提供（图1）。

坐标系

所有坐标系都遵循右手规则，数据集包含在运行段内任意两个帧之间转换数据所需的所有信息。
全局帧在车辆运动之前设置。它是一个东北向上的坐标系：向上（z）与重力向量对齐，正向上；东（x）点沿纬度线直接向东；北（y）指向北极。
车辆帧随车辆移动。其x轴向前为正，y轴向左为正，z轴向上为正。车辆姿态定义为从车辆帧到全局帧的4x4变换矩阵。全局帧可以用作不同车辆帧之间变换的代理。在该数据集中，近帧之间的变换非常准确。
为每个传感器定义了传感器帧。它表示为4x4变换矩阵，将数据从传感器帧映射到车辆帧。这也被称为“外在”矩阵。
LiDAR传感器帧的z指向上。x-y轴取决于激光雷达。

相机传感器帧放置在镜头的中心。x轴指向镜头外的镜筒。z轴指向上。y/z平面与图像平面平行。
图像帧是为每个相机图像定义的2D坐标系+x是沿着图像宽度（即从左侧开始的列索引），+y是沿着图像高度（即从顶部开始的行索引）。原点位于左上角。
LiDAR球面坐标系基于LiDAR传感器帧中的笛卡尔坐标系。LiDAR笛卡尔坐标系中的点（x，y，z）可以通过以下方程唯一地转换为LiDAR球面坐标系中（距离、方位角、倾角）的元组：

真值标签

对于任何标签，将长度、宽度和高度分别定义为沿x轴、y轴和z轴的大小。数据集中对汽车、行人、交通标志、自行车人员进行了详细标注。
对于激光雷达数据，将每一个物体标注为7自由度3D bbox ： ( cx , cy , cz , l , w , h , θ ) 。其中cx,cy,cz表示为bbox中心坐标，l,w,h表示为物体长宽高，θ表示为物体偏航角，此外对于每一个物体还标注了一个唯一的追踪ID编号。
图像标注中将每一个物体标注为4自由度2D bbox：(cx,cy,l,w) ，其中cx,cy表示为bbox中心图像坐标，l表示为物体长度，w 表示为物体宽度。
此外，还将标注物体划分为了两个难度：LEVEL_2为物体对应激光雷达点数少于5个，其余则划分为LEVEL_1。

传感器数据

LiDAR数据在该数据集中被编码为距离图像，每个LiDAR返回一个；提供了前两次返回的数据。
距离图像格式与滚动快门相机图像相似，从左到右逐列填充。每个距离图像像素对应于激光雷达回波。高度和宽度由LiDAR传感器帧中倾斜和方位角的分辨率确定。提供每个距离图像行的每个倾斜。行0（图像的顶行）对应于最大倾斜。列0（图像的最左列）对应于负x轴（即，向后方向）。图像的中心对应于正x轴（即，正向）。需要进行方位角校正，以确保距离图像的中心与正x轴相对应。
距离图像中的每个像素都包含以下属性。图4展示了一个示例距离图像。

距离：LiDAR传感器帧中LiDAR点与原点之间的距离。
强度：表示产生激光雷达点的激光脉冲返回强度的测量值，部分基于激光脉冲撞击目标的反射率。
伸长率：激光脉冲的伸长率超过其标称宽度。例如，长脉冲延长可以指示激光反射可能被涂抹或折射，从而使返回脉冲在时间上被拉长。
无标签区域：该字段指示LiDAR点是否属于无标签区域，即标记时忽略的区域。
车辆姿态：捕捉激光雷达点时的姿态。
相机投影：我们提供精确的LiDAR点对相机图像投影，并对滚动快门效果进行补偿。图5显示了LiDAR点可以通过投影精确地映射到图像像素。

同步精度计算如下：

其中，camera_center_time是图像中心像素的曝光时间；
frame_start_time是此数据帧的开始时间；
camera_center_offset是每个相机传感器帧的+x轴相对于车辆向后方向的偏移；
camera_center_offset为90°对于SIDE_LEFT相机，90°+ 45° 对于FRONT_LEFT相机等；
所有相机的同步精度见图3。同步误差的范围为[-6ms，7ms]，置信度为99.7%，[-6ms、8ms]，置信率为99.9995%。
相机图像：是JPEG压缩图像。滚动快门定时信息被提供给每个图像。