【数据集】2023自动驾驶开源数据集-学习笔记

文章目录

- - 1. 自动驾驶有哪些公开数据集
  - 2. 预测相关的数据集有哪些

1. 自动驾驶有哪些公开数据集

waymo open dataset
- 适应任务:
  - 域适应，2D追踪，2D检测，3D追踪，3D检测，实时2D检测，实时3D检测，交互预测，动作预测
- 数据描述:
  - (1) 全天候全光照；
  - (2) Perception Dataset中包括1950段20s的 1920x1280px的视频和对应的点云数据，采样频率为10Hz；标签为Vehicles, Pedestrians, Cyclists, Signs 四类，有2D & 3D bounding box标注，在视频和点云数据集上都有;
  - (3) Motion Dataset有100,000段总计超过200,000,000帧的数据，但是好像只有激光雷达采集的数据和对应的地图还原结果。标签为Vehicles, Pedestrians, Cyclists三类;
  - (4) 大小有上百G
- 传感器方案:

Cityscapes
- 适应任务:
  - 面向分割方面的任务（语义/实例/全景分割）
- 数据描述:
  - (1) 城市景观数据集，主打城市内的交通场景，可能是这一领域最好的数据集
  - (2) 50座德国及周边国家的城市中春夏秋的数据采集。图像中包含 5000 fine pixel-level annotations和20000 coarse pixel-level annotation。标注分结果分为8大类下的30类标签，简化版标签中含有19类

CADC
- 适应任务:
  - 雪天驾驶数据集，场景极具针对性
- 数据描述:
  - (1) 原始数据的类型很全，美中不足是标注的数据类型太少，只有3D bounding box，标签类型也比较粗糙；采集路线固定，场景较为单调
  - (2) 大小500G+100G
- 传感器方案:

nuScenes
- 适应任务:
  - 提供了Detection, Tracking, Prediction, Lidar Segmentation四类任务的挑战榜，还可以支持语义分割，实例分割，多模态数据融合，端对端决策等问题的研究
- 数据描述:
  - (1) 全天候全光照数据集
  - (2) 2019年3月正式发布完整版nuScenes datasdet。1000个场景，每个场景约20秒。750 for train + 150 for validation，150 for test。包括图像、雷达、激光雷达数据，全部都是360度视野。由于相机采样频率为12Hz，激光雷达采样频率为20Hz，有一些激光雷达数据没有对应照片帧。train+val有标记，标记的关键帧采样频率为2Hz。标记信息包括2D bounding box，语义分割，实例分割。目标分为23类
  - (3) 2020年先后补充了地图、车辆总线数据、和激光雷达的3D语义分割。地图中包括11类道路信息。激光雷达的分割仅针对750 for train + 150 for validation中的关键帧（应该是与2D的标注信息相对应的），分了32类语义标签
  - (4) 2020年8月发布了nuImages v1.0，仅包含图像信息，93k=67k training+16k val+10k test
  - (5) 总数据量在300GB以上
- 传感器方案:

Mapillary Vistas
- 适应任务:
  - 主要为语义分割和实例分割服务的数据集
- 数据描述:
  - (1) 目前唯一全球范围的自动驾驶数据集
  - (2) 全天候全光照
  - (3) 本质上属于“众筹”数据集。采集设备参数不统一，传感器安装方案不明，但应该不影响使用

Lyft L5
- 适应任务:
  - 感知任务和预测任务
- 数据描述:
  - (1) 数据构成基本与nuScenes一致
  - (2) 业内最大的自动驾驶公共数据集, 涵盖了Prediction Dataset及Perception Dataset
  - (3) Prediction Dataset涵盖了自动驾驶测车队在Palo Alto沿线遇到的各类目标，如Cars，Cyclists和Pedestrians
  - (4) Perception Dataset则涵盖了自动驾驶车队装置的LiDARs和摄像机采集的真实数据，并通过人工方式标注了大量的3D边界框
- 传感器方案:

Oxford RobotCar
- 适应任务:
  - 目前可以用这个数据集练一练多模态的联合标定任务
- 数据描述:
  - (1) 全天候全光照
  - (2) 数据集只提供了图像、雷达、激光雷达和GPS/IMU的原始数据，并没有进行额外的标注
  - (3) 数据质量还需观望

BDD100K
- 适应任务:
  - 官方推荐使用此数据集的十个自动驾驶任务：图像标注、道路检测、可行驶区域分割、交通参与物检测、语义分割、实例分割、多物体检测追踪、多物体分割追踪、域适应和模仿学习
- 数据描述:
  - (1) 全天候全光照大型数据集，包含1,100小时的HD录像、GPS/IMU、时间戳信息，100,000张图片的2D bounding box标注，10,000张图片的语义分割和实例分割标注、驾驶决策标注和路况标注
  - (2) 总数据量接近2TB

A2D2
- 适应任务:
  - 此数据集支持物体检测、物体追踪、语义理解、基于端对端学习的驾驶决策的研究; SLAM
- 数据描述:
  - (1) 来自Audi
  - (2) 全天候全光照，提供了图像、点云、GPS、时间戳、车辆总线的原始数据，语义分割、实例分割和3D bounding box的标记信息
  - (3) 总数据量为2.3TB
- 传感器方案:

Argoverse
- 适应任务:
  - 3D追踪和动作预测
- 数据描述:
  - (1) 全天候全光照
  - (2) 提供了360度的视频和点云信息，并根据点云重建了地图。标注了视频和点云中的3D bounding box。3D追踪的数据集包含113段15-30秒的视频，动作预测中包含323,557段5秒的视频（总计320小时）
  - (3) 共113个场景，室外，包括USA，Pennsylvania，Miami，Florida等
  - (4) 共15类，包括Vehicle，Pedestrian，Stroller，Animal等
  - (5) 数据量具体数值不明，预计几百GB
- 传感器方案:

Argoversev2
- 数据描述:
  - (1) 首批包含用于机器学习和计算机视觉研究的高清地图的数据发布之一
  - (2) Argoverse 2包括四个开源数据集:
    - ① 传感器数据集: 包含1000个带有激光雷达、立体图像和环形摄像头图像的3D注释场景。该数据集改进了Argoverse 1 3D跟踪数据集
    - ② 运动预测数据集: 包含250000个场景，其中包含许多对象类型的轨迹数据。该数据集改进了Argoverse 1运动预测数据集
    - ③ 激光雷达数据集: 包含20000个未标记的激光雷达序列
    - ④ 地图更改数据集: 包含1000个场景，其中200个场景描述了真实世界的高清地图更改

ApolloScape
- 适应任务:
  - 交通场景理解（视频语义分割），车辆实例检测，道路分割，自定位，轨迹预测，目标检测与追踪，立体场景还原，场景补全
- 传感器方案:

D^2-city
- 适应任务:
  - 适用于检测和追踪任务
- 数据描述:
  - 很粗糙、很差

CULane
- 适应任务:
  - 针对道路检测的数据集
- 数据描述:
  - (1) 包含了55个小时133,235帧的图像数据和道路标注，标注形式和不同交通场景的数据比例如下图所示
  - (2) 数据量不是很大，模态较为单一，总共有50GB
  - (3) 数据集可用性不强，更像是为了保证文章完整性公布的

DBNet
- 适应任务:
  - 针对基于端对端学习的驾驶决策任务
- 数据描述:
  - (1) 厦门大学和上海交通大学合作采集的数据集
  - (2) 数据集包括视频、点云、GPS和车辆总线数据，需要注册后下载。采集了约200km的数据，2018年挑战赛的数据总量大约500GB
- 传感器方案:

KAIST Multispectral
- 适应任务:
  - 物体检测、视觉增强、深度估计等CV任务
- 数据描述:
  - (1) 少见的提供了热像仪数据的数据集
  - (2) 数据集包含95k张图像+热图

DR(eye)VE
- 适应任务:
  - 通过预测注意力（图像不同区域的权重）辅助实现驾驶决策
- 数据描述:
  - (1) 数据体量不算大，任务也比较单一小众，感觉对现在的自动驾驶研究帮助不大

KITTI
- 适应任务:
  - 环境重建、光流、深度补全/预测、SLAM、2D/3D物体检测、2D/3D物体追踪、语义/场景分割; 端对端学习的决策任务
- 传感器方案:

Caltech Pedestrian
- 适应任务:
  - 只干了一件事，就是行人检测
- 数据描述:
  - (1) 整个数据集包括10小时的640 x 480 30 Hz的视频数据
  - (2) 从实用意义上来说Caltech Pedestrian估计是没有太大用处了

H3D-HRI-US
- 适应任务:
  - 3D多目标检测和跟踪
- 数据描述:
  - (1) 使用3D LiDAR扫描仪收集的大型全环绕3D多目标检测和跟踪数据集
  - (2) 其包含160个拥挤且高度互动的交通场景，在27,721帧中共有100万个标记实例
Udacity
LaRA
LISA
DeepTesla
- 数据描述:
  - 主要包括tesla在两种不同驾驶模式（human driving和autopilot）下的前置相机录制的视频和车辆的转向控制信号

Berkeley DeepDrive Video dataset
- 数据描述:
  - 具有各种注释的大型驾驶视频数据集

ETH pedestrian dataset
- 数据描述:
  - 在人满为患的市中心拍摄的立体图像，行人众多

Occ3D
- 数据描述:
  - (1)清华大学和英伟达出品，第一个大规模占用栅格benchmark
  - (2) 两个3D占用预测数据集: Occ3D nuScenes + Occ3D Waymo
  - (3) 包含600个用于训练的场景、150个用于验证的场景和150个用于测试的场景，总计40000帧
  - (4) Occ3D Waymo包含798个用于训练的序列，202个用于验证的序列，累积了200000帧

nuPlan
- 适应任务:
  - 规划任务
- 数据描述:
  - 世界上第一个自动驾驶的大规模规划基准

ONCE (One Million Scenes)
- 适应任务:
  - 3D物体检测
- 数据描述:
  - (1) 华为2021发布
  - (2) 100 万个 LiDAR 帧，700 万个相机图像 200 平方公里的驾驶区域，144 个驾驶小时 15k 个完全注释的场景，分为 5 个类别（汽车、公共汽车、卡车、行人、骑自行车的人）多样化的环境（白天/夜晚、晴天/雨天、城市/郊区）

YouTube Driving Dataset
- 数据描述:
  - (1) 第一视图驾驶视频
  - (2) 收集总长度超过120小时的134视频。这些视频涵盖了具有各种天气条件 (晴天，雨天，下雪等) 和区域 (农村和城市地区) 的不同驾驶场景
OpenLane
- 适应任务:
  - 场景结构感知和推理
- 数据描述:
  - (1) 迄今为止第一个真实世界和规模最大的 3D 车道数据集
  - (2) OpenLane 拥有 200K 帧和超过 880K 仔细注释的车道