Waymo数据集簡介
发布首页:
https://waymo.com/open/
论文:
https://openaccess.thecvf.com/content_CVPR_2020/papers/Sun_Scalability_in_Perception_for_Autonomous_Driving_Waymo_Open_Dataset_CVPR_2020_paper.pdf
github:
https://github.com/waymo-research/waymo-open-dataset.git
Waymo Open Dataset是Waymo公司为了促进自动驾驶技术、机器感知和相关领域的研究而公开发布的一个大型数据集。该数据集包含了Waymo自动驾驶车队在多个城市和郊区环境中收集的高分辨率传感器数据,涵盖了白天和夜晚、晴天和雨天等多种天气和光照条件下的驾驶场景。
Waymo 数据集包含 3000 段驾驶记录,时长共16.7小时,平均每段长度约为 20 秒。 整个数据集一共包含 60 万帧,共有大约 2500万3D 边界框、2200 万2D 边界框。
数据采集传感器规格
使用五个激光雷达传感器和五个高分辨率针孔摄像头进行数据采集。我们限制激光雷达数据的范围,并为每个激光脉冲的前两次返回提供数据。表2包含我们的激光雷达数据的详细规格。相机图像是通过滚动快门扫描拍摄的,精确的扫描模式可能会因场景而异。所有相机图像都被下采样并从原始图像中裁剪;表3提供了摄像机图像的规格。与数据集相关的传感器布局见图1。
表3. 前(F)、左前(FL)、右前(FR)、左侧(SL)、右侧(SR)摄像头的摄像头规格。图像大小反映了裁剪和下采样原始传感器数据的结果。摄像机水平视野(HFOV)作为相机传感器帧x-y平面中x轴的角度范围提供(图1)。
坐标系
所有坐标系都遵循右手规则,数据集包含在运行段内任意两个帧之间转换数据所需的所有信息。
全局帧在车辆运动之前设置。它是一个东北向上的坐标系:向上(z)与重力向量对齐,正向上;东(x)点沿纬度线直接向东;北(y)指向北极。
车辆帧随车辆移动。其x轴向前为正,y轴向左为正,z轴向上为正。车辆姿态定义为从车辆帧到全局帧的4x4变换矩阵。全局帧可以用作不同车辆帧之间变换的代理。在该数据集中,近帧之间的变换非常准确。
为每个传感器定义了传感器帧。它表示为4x4变换矩阵,将数据从传感器帧映射到车辆帧。这也被称为“外在”矩阵。
LiDAR传感器帧的z指向上。x-y轴取决于激光雷达。
相机传感器帧放置在镜头的中心。x轴指向镜头外的镜筒。z轴指向上。y/z平面与图像平面平行。
图像帧是为每个相机图像定义的2D坐标系+x是沿着图像宽度(即从左侧开始的列索引),+y是沿着图像高度(即从顶部开始的行索引)。原点位于左上角。
LiDAR球面坐标系基于LiDAR传感器帧中的笛卡尔坐标系。LiDAR笛卡尔坐标系中的点(x,y,z)可以通过以下方程唯一地转换为LiDAR球面坐标系中(距离、方位角、倾角)的元组:
真值标签
对于任何标签,将长度、宽度和高度分别定义为沿x轴、y轴和z轴的大小。数据集中对汽车、行人、交通标志、自行车人员进行了详细标 注。
对于激光雷达数据,将每一个物体标注为7自由度3D bbox : ( cx , cy , cz , l , w , h , θ ) 。其中cx,cy,cz表示为bbox中心 坐标,l,w,h表示为物体长宽高,θ表示为物体偏航角,此外对于每一个物体还标注了一个唯一的追踪ID编号。
图像标注中将每一个物体标注为4自由度2D bbox:(cx,cy,l,w) ,其中cx,cy表示为bbox中心图像坐标,l表示为物体长度,w 表示为物体宽度。
此外,还将标注物体划分为了两个难度:LEVEL_2为物体对应激光雷达点数少于5个,其余则划分为LEVEL_1。
传感器数据
LiDAR数据在该数据集中被编码为距离图像,每个LiDAR返回一个;提供了前两次返回的数据。
距离图像格式与滚动快门相机图像相似,从左到右逐列填充。每个距离图像像素对应于激光雷达回波。高度和宽度由LiDAR传感器帧中倾斜和方位角的分辨率确定。提供每个距离图像行的每个倾斜。行0(图像的顶行)对应于最大倾斜。列0(图像的最左列)对应于负x轴(即,向后方向)。图像的中心对应于正x轴(即,正向)。需要进行方位角校正,以确保距离图像的中心与正x轴相对应。
距离图像中的每个像素都包含以下属性。图4展示了一个示例距离图像。
距离:LiDAR传感器帧中LiDAR点与原点之间的距离。
强度:表示产生激光雷达点的激光脉冲返回强度的测量值,部分基于激光脉冲撞击目标的反射率。
伸长率:激光脉冲的伸长率超过其标称宽度。例如,长脉冲延长可以指示激光反射可能被涂抹或折射,从而使返回脉冲在时间上被拉长。
无标签区域:该字段指示LiDAR点是否属于无标签区域,即标记时忽略的区域。
车辆姿态:捕捉激光雷达点时的姿态。
相机投影:我们提供精确的LiDAR点对相机图像投影,并对滚动快门效果进行补偿。图5显示了LiDAR点可以通过投影精确地映射到图像像素。
同步精度计算如下:
其中,camera_center_time是图像中心像素的曝光时间;
frame_start_time是此数据帧的开始时间;
camera_center_offset是每个相机传感器帧的+x轴相对于车辆向后方向的偏移;
camera_center_offset为90°对于SIDE_LEFT相机,90°+ 45° 对于FRONT_LEFT相机等;
所有相机的同步精度见图3。同步误差的范围为[-6ms,7ms],置信度为99.7%,[-6ms、8ms],置信率为99.9995%。
相机图像:是JPEG压缩图像。滚动快门定时信息被提供给每个图像。