《RCooper: 一个真实世界的大规模道路边协同感知数据集》学习笔记

paper：2403.10145

GitHub：AIR-THU/DAIR-RCooper: [CVPR2024] Official implementation of "RCooper: A Real-world Large-scale Dataset for Roadside Cooperative Perception"

摘要

1、介绍

2、相关工作

2.1 道路边感知

2.2 协同感知

2.3 道路系统中的感知数据集

3、RCooper 数据集

3.1 数据采集

3.1.1 场景选择

3.1.2 传感器系统设计

3.1.3 数据采集

3.2 坐标系与数据标注

3.2.1 坐标系统

3.2.2 标注方法

3.3 数据统计与场景分析

3.3.1 数据统计

4、任务

4.1 任务概述

4.2 路侧协同检测

4.3 路侧协同跟踪

5、基准实验

5.1 实现细节

5.2 道路合作检测结果

5.3 道路合作跟踪结果

摘要

道路边感知的价值，能够扩展自动驾驶和交通管理的边界，近年来逐渐变得更加突出并得到认可。然而，现有的道路边感知方法仅关注单一基础设施传感器系统，因其有限的感知范围和盲区，无法实现对交通区域的全面理解。为了实现高质量的道路边感知，我们需要道路协同感知（RCooper）来实现对限制交通区域的实用覆盖。RCooper面临着特定领域的挑战，但由于缺乏数据集，进一步的探索受到限制。因此，我们发布了第一个真实世界的大规模RCooper数据集，以促进实际道路协同感知研究，包括检测和跟踪。该手工注释的数据集包含50k张图像和30k个点云，涵盖了两个代表性交通场景（即交叉口和走廊）。构建的基准证明了道路协同感知的有效性，并展示了进一步研究的方向。

1、介绍

随着物联网（IoT）、5G和人工智能技术的发展，道路边感知的价值逐渐变得更加突出，近年来引起了广泛关注[13, 42-46]。道路边感知对于自动驾驶和交通管理都具有重要意义。对于自动驾驶，道路边传感器系统为智能车辆提供了车载视角之外的补充道路信息，帮助车辆更加全面、清晰地理解周围环境，从而趋向于更好、更安全的L5级自动驾驶[18]。至于智能交通系统，下游的交通管理任务，例如交通流量控制、交通参与者监控以及非法活动监控，可以通过道路边感知提供更全面的理解，进一步得到提升[50]。因此，为了实现高质量的自动驾驶和交通管理，如何在限制交通区域内实现实用的道路边感知覆盖是一个重要任务。以往的道路边感知方法[13, 21, 42–44, 53]主要集中在独立道路边视角的感知上，这通常是由于可获取的数据集[45, 46]的限制。然而，这些方法无法实现对交通区域的全面理解。单一基础设施的道路边感知受限于安装视角，导致感知范围有限且存在盲区，而这种问题可以通过跨基础设施的合作来解决。通过不同视角的观察，可以扩展感知范围、减少盲区，并进一步增强对同一实例的理解。为了实现实际应用，道路协同感知（RCooper）被期望能够在限制交通区域内实现道路边感知覆盖，如图1所示。

图2中展示了RCooper在扩展感知范围和减少盲区方面的能力。

在技术上，RCooper面临三个主要挑战：1）数据异质性。考虑到建设成本，实际中采用了多种传感器类型（如多线激光雷达、MEMS激光雷达和摄像头），导致协同感知中数据的异质性问题[4, 15]。2）协同表示的优点有待进一步增强。大多数现有的协同感知方法，包括广泛研究的车与车（V2V）和车与基础设施（V2I）合作，都是为以车为中心的协作任务设计的[24, 28, 31, 34, 39, 47, 51]。然而，据我们所知，关于道路边协作的方法尚未被充分研究。道路边传感器的固有特性（如滚转、俯仰角、安装高度）使得道路边协作表示成为一个与以车为中心的协作完全不同的研究领域[43-45, 52]。3）感知性能需要改进。如何在基于道路边协同表示的基础上实现高质量的下游感知任务，例如检测、跟踪、计数和监控，还需要进一步研究。例如，复杂交叉口场景中不稳定的检测结果造成的跟踪问题仍然具有挑战性。因此，有必要深入研究这些挑战，但由于缺乏数据集，探索过程受到了限制。因此，我们发布了第一个真实世界的大规模数据集RCooper，以帮助这个具有挑战性的领域打开大门，促进道路边协同感知的发展。

我们遵循了在实际应用中广泛采用的安装方案，将复杂的道路边系统简化为两个典型的道路边场景，即交叉口和走廊。我们为每个交通场景选择了几个具有不同交通流量水平的代表性位置，最终创建了一个包含50,000张图像和30,000个点云的手工注释数据集，涵盖了不同的天气和光照变化。

我们的贡献总结如下：

发布了第一个真实世界的大规模数据集RCooper，推动实际道路协同感知研究的开展。所有帧和场景均采集自真实世界场景。
提供了超过50,000张图像和30,000个点云，手工注释了10个语义类别的3D边界框和轨迹，使得基于真实世界场景的道路协同感知方法的训练和评估成为可能。
引入了两项协同感知任务，包括3D目标检测和跟踪，并报告了与现有最先进方法的全面基准。实验结果表明道路协同感知的有效性，并展示了进一步研究的方向。

2、相关工作

2.1 道路边感知

得益于道路边公共数据集的发布，如Rope3D[45]和DAIR-V2X-I[46]，近年来出现了几种开创性的道路边感知方法。在Rope3D[45]数据集的基础上，提出了一种简单而有效的方法，利用摄像头规格和地面知识进行感知。MonoGAE[43]进一步提出了地面感知嵌入，将隐式的道路边地面信息与高维语义特征进行整合。BEVHeight[44]发现了预测到地面的高度对于优化基于摄像头的道路边感知过程的重要性，后续工作BEVHeight++[42]通过融合高度和深度表示进一步提升了性能。考虑到标定噪声的实际挑战，CBR[13]通过解耦特征重构实现了无需标定的道路边感知。由于可用数据集的限制，现有方法尽力在独立道路边传感器系统中追求更好的、更稳健的感知性能。然而，“两只眼睛比一只眼睛好”，我们认为跨基础设施的合作可以进一步提升道路边感知的性能。

2.2 协同感知

根据协作的阶段，协同感知可以分为早期、间接和晚期融合[3, 6, 18]。由于3D点云具有固有的聚合便利性，早期融合方法通常采用激光雷达作为传感器[2, 8]，通过与原始数据的协作来提供全面的信息，使其成为协同感知的上限。然而，大量的数据也带来了高传输和计算成本。另一方面，晚期融合则是带宽经济的，只传输感知结果[2, 46]。这种融合策略是物理上可以解释的，但依赖于准确的单独预测。最近的方法更多地关注于中期融合，以平衡性能和成本之间的权衡。它们要么专注于某一种融合策略以提高性能[7, 10, 20, 25, 27, 33, 37, 40]，要么注重特征选择以提高传输效率[19, 49]。与场景级别的特征合作不同，提出了实例级查询协作来实现可解释的灵活特征交互[14]。与已经广泛研究的以车为中心的协同感知相比，道路边系统的潜力尚未得到充分利用。我们在此引入了一种新的道路边协同感知领域——RCooper。

2.3 道路系统中的感知数据集

数据驱动的自动驾驶和交通管理感知的蓬勃发展，极大地受益于大量公共交通场景数据集的发布。开创性工作KITTI[16]发布了第一个广为人知的自动驾驶数据集，而nuScenes[5]提供了360度视角的多模态数据，进一步推动了单车感知研究的发展。为了促进协同感知的发展，近年来涌现了各种多代理数据集，但由于收集实际数据的困难，大多数数据集来自模拟器（例如CARLA[12]和OpenCDA[36]）[1, 2, 26, 30, 37, 38]。DAIR-V2X[46, 48]和V2V4Real[41]是两个大规模的真实世界数据集，用于车为中心的协同感知，对于自然场景中的实际应用具有重要意义。道路边感知因其综合感知能力而引起了更多关注，且已有若干单基础设施数据集[9, 11, 17, 32, 45]公开发布。然而，缺乏用于道路边协同感知的公共数据集。为了促进这一令人兴奋且具有挑战性的领域的探索，本文发布了第一个真实世界的大规模数据集RCooper。表1中报告了道路系统中代表性公共数据集的对比。

3、RCooper 数据集

3.1 数据采集

3.1.1 场景选择

图3将道路网络表示为图形，其中线段和环路分别代表走廊和交叉口。这些构成了两个主要交通场景类型的基础。此外，通过在一年中的不同时间和天气条件下采集场景，数据集得以丰富，确保了环境和光照的多样性。

3.1.2 传感器系统设计

我们遵循实际应用中基础设施端传感器系统的典型安装方案，如图4所示。考虑到场景的特点和建设成本，基础设施代理有三种安装方案。与车辆端传感器系统不同，由于安装高度的原因，单个LiDAR无法感知其正下方的区域，因此将两种不同波束的LiDAR（80波束和32波束）组合成一组用于道路侧系统。下文详细介绍了三种具体的安装方案，见图4。

2个相机 + 多波束LiDAR组：该方案用于走廊场景。走廊区域长而狭窄，单个传感器很难覆盖整个区域。如图2（a.1）所示，两个相邻LiDAR系统的感知区域相交，从而实现了全区域覆盖。两个相机安装在同一代理上，并且相邻代理的相机可以捕捉到直接位于其下方的盲区（如图2（b）所示）。
1个相机 + 多波束LiDAR组：该方案用于交叉口场景。相机安装在交叉口方向，用于捕获RGB视频，而多波束LiDAR能够感知场景的一半区域。两个代理被安置在对面，以覆盖大部分区域。
1个相机 + MEMS LiDAR：也用于交叉口场景，用于覆盖盲区。与走廊场景相比，交叉口的交通流量更繁忙且更复杂，容易发生遮挡，因此这种设置在交叉口尤为重要。具体参数列于表2。

3.1.3 数据采集

从大量原始数据池中选择了最具代表性的410个场景，每个场景持续15秒。采样频率设置为3Hz，最终得到了30K帧LiDAR点云（PC）和50K帧RGB图像。走廊场景的每帧包括4张RGB图像和2个预合并的PC（多波束LiDAR组的PC已预合并），而交叉口场景的每帧包括4张RGB图像和4个PC（2个预合并PC和2个MEMS LiDAR的原始PC）。传感器代理之间的同步误差小于50毫秒。

3.2 坐标系与数据标注

3.2.1 坐标系统

RCooper 数据集包含三种不同的坐标系统，即 LiDAR 坐标系统、相机坐标系统和世界坐标系统。LiDAR 坐标系统被视为桥梁，我们为每一帧提供了 LiDAR 到相机和 LiDAR 到世界的校准参数。此外，我们基于每个基础设施的 LiDAR 坐标系统分别标注了 3D 边界框，以确保每个代理的传感器数据也可以被视为独立的道路边感知任务。场景中两个基础设施之间的相对位置通过世界坐标系统进行映射，系统的原点是本地地图的虚拟点。

3.2.2 标注方法

我们采用了三步标注方法，包括单一基础设施标注的手动标注、协同标注的自动标注和最后的手动优化步骤。我们聘请了专业标注小组，逐一标注点云中的每个物体，使用包含 x、y、z（表示物体中心位置）和 l、w、h、yaw（表示边界框的范围和方向）的 7 个自由度的 3D 边界框。数据集中总共有十个语义类别，分别属于五个主要类别：

车辆（汽车、公交车、卡车和大型车辆）
骑行者（自行车、三轮车和摩托车）
行人
建筑物（交通标志和建筑物）

每个标注的物体都会分配一个唯一的物体 ID，用于跟踪任务，即使在某些帧中物体完全被遮挡，物体 ID 在同一序列中也是唯一的。为了自动生成基于独立标注的协同标注，我们将不同 LiDAR 坐标中的物体转换为统一的世界坐标，并通过匈牙利算法和欧几里得距离匹配 3D 边界框。匹配到的物体将被分配相同的物体 ID，并根据所有相应的标注来优化边界框。如果没有匹配的物体，将其作为补充引入。最后，我们手动监督和调整协同标注和物体 ID，以获得更准确的标注。此外，数据集在公开发布之前会进行去敏感化处理。

3.3 数据统计与场景分析

3.3.1 数据统计

从图 5 可以看出，RCooper 中大部分物体（60%）属于“汽车”类，其他三类车辆在走廊场景中占比 10%，在交叉路口场景中占比 20%。骑行者类排名第二，其中摩托车数量最多。由于我们更侧重于车辆而非其他道路使用者，因此行人的比例较低。此外，在交叉路口场景中，建筑物类的标签更多。

典型场景差异分析

这两个典型场景之间有两个主要差异：

数据的空间分布差异
由于拓扑特征的不同，走廊和交叉路口的空间分布存在差异。走廊长而窄，而交叉路口在空间上较为集中。如图 2(a.1) 所示，走廊场景中的跨基础设施数据空间分布较为明确，扩展了感知范围并补充了盲区。而交叉路口场景中，多基础设施的数据交织在一起，从不同角度增强了观察视角。因此，在走廊场景中，以感知补充为主，而在交叉路口场景中，以增强观察为主。
交叉路口场景中的数据异质性
由于如图 4 所示的混合型 LiDAR 系统，交叉路口场景中的数据异质性是实际应用中的一个特定挑战。为了考虑建设成本，使用了多线激光雷达和 MEMS LiDAR（它们有不同的工作原理），这引入了严重的数据异质性，可能导致现有协同感知方法的失败（见表 4）。

上述差异使得我们的数据集成为一个有趣但充满挑战的试验场。针对每种场景的专门化方法，以及对整个路侧系统的统一方法，都亟需找到合适的解决方案。

4、任务

4.1 任务概述

从理论上讲，本文中的任务可以简化为两个主要的顺序子任务：路侧协同三维检测和路侧三维跟踪。一种直接的协作方法是实现结果级融合，即晚期融合，将多视角检测结果合并为最终的检测结果。主流的协同三维检测框架采用早期或中间融合技术，这些方法首先对路侧协同表示进行编码，并使用三维检测器输出三维边界框的坐标和物体类别。基于检测到的三维边界框，基于检测的跟踪框架匹配物体并形成轨迹 ID。以下将详细说明这两个子任务。

4.2 路侧协同检测

任务描述

路侧协同检测任务要求利用多个 LiDAR 视角对相应区域进行三维物体检测。与单视角路侧检测相比，路侧协同检测面临以下挑战：前文提到的数据异质性问题和协同表示的进一步增强需求。我们当前的基准并不旨在完全解决这些挑战，而是希望展示这些差距的存在，并为后续研究铺平道路。

输入和地面真值

路侧协同检测的输入包括多个代理的顺序帧及其相对姿态。以交通区域图 G 中的基础设施节点 i 为例：

基础设施节点 i 的顺序帧 $\left \{ C_i(t'_i)|t'_i\leq T_i \right \}$ 和相邻节点的顺序帧 $\left \{ C_{N_i}(t'_{N_i})|t'_{N_i}\leq T_{N_i} \right \}$ ，其中 $T_i$ 为感知时刻， $T_{N_i}\leq T_i$ 为相邻节点的捕获时刻， $C(\cdot)$ 表示捕获函数。
相对姿态 $M_i$ 和 $M_{N_i}$ 。

感知输出为在固定交通区域内检测到的物体，通常包括检测到的三维边界框的坐标和物体类别的置信度得分。相应的，地面真值是该区域内任何时间和任何位置出现的物体集合，公式化为 $GT = (GT_i \cup GT_{N_i}) \cap R$ ，其中 $GT_i$ 和 $GT_{N_i}$ 分别是来自节点 $i$ 和相邻节点的地面真值， $R$ 是固定位置的感兴趣区域。

基准方法

为了评估路侧协同感知，采用了当前最常用的四种融合策略：

无融合：仅使用单个 LiDAR 点云进行检测，这是比较协同与非协同方法的基线。
晚期融合：对每个 LiDAR 利用其传感器观测进行三维物体检测，然后采用非最大抑制合并并产生最终输出。
早期融合：将来自多个 LiDAR 的所有点云聚合，形成更为全面的点云，以保留完整信息。然后，遵循无融合的流程生成检测结果。
中间融合：将每个 LiDAR 的点云投影到选定的坐标系统中，之后送入神经特征提取器进行中间特征编码。然后，将编码后的特征进行合并进行协同特征融合。我们的基准使用了几种代表性的中间融合方法，包括 AttFuse[38]、F-Cooper[7]、Where2Comm[19] 和 CoBEVT[40]。

评估指标

选择固定交通场景的 400m×400m 区域进行感知评估。常用的检测指标 AP 被用于三维物体检测评估。具体来说，报告了不同三维 IoU 阈值下的 AP 值，以便进行更全面的评估。

4.3 路侧协同跟踪

任务描述

路侧协同跟踪任务旨在展示路侧协同时间感知的优势。通常有两种典型的物体跟踪模式：联合检测与跟踪和基于检测的跟踪。本文关注后者。

输入和地面真值

路侧协同跟踪的输入是路侧协同检测的预测结果，包括检测到的三维边界框的坐标和物体类别的置信度得分。此外，地面真值是轨迹 ID 与物体 ID 之间的关联。

基准方法

我们遵循之前的工作[41, 48]，在基准中实现了 AB3Dmot 跟踪器[35]。基于协同检测模型的预测，AB3Dmot 跟踪器使用三维卡尔曼滤波器和匈牙利算法来实现高效且高质量的跟踪。

评估指标

采用与[5]和[35]中相同的评估指标来评估路侧协同跟踪，包括：

平均多物体跟踪准确率（AMOTA）
平均多物体跟踪精度（AMOTP）
标准化平均多物体跟踪准确率（sAMOTA）
多物体跟踪准确率（MOTA）
最多跟踪的轨迹数（MT）
最多丢失的轨迹数（ML）

5、基准实验

5.1 实现细节

数据集按照 4:1 的比例进行训练集/验证集的划分（场景比例）。与[41]一致，不同类别合并为同一类。对于 RCooper 检测任务，PointPillar [23] 被采用为所有模型的骨干网络，用于从点云中提取特征。它们训练了50个 epoch，批次大小为16。初始学习率设置为 $2 \times 10^{-3}$ ，并根据余弦退火进行调度 [29]。采用Adam优化器[22]，权重衰减设置为 $1 \times 10^{-4}$ 。对于跟踪任务， $F_{min}=1$ 和 $Age_{max}=2$ 被设置为轨迹的出生和死亡内存模块的参数，符合轨迹标签标准。在数据关联模块中，使用 $GIoU3D_{min} = -0.2$ 作为阈值来过滤匹配，这与原始的AB3Dmot跟踪器[35]一致。

5.2 道路合作检测结果

表3和表4分别报告了在走廊场景和交叉口场景中的道路合作检测基准结果。

从表3可以看出，所有合作方法的表现都优于无融合方法，这与我们的预期一致。在走廊场景中，跨基础设施合作以典型模式发挥作用，实现了对长而窄的交通区域的全面理解。由于感知范围的扩展，性能显著提高。基于LiDAR的CoBEVT[40]在AP@0.5和AP@0.7上取得了最佳表现，而早期融合方法在AP@0.3上表现最佳。走廊场景为合作检测研究提供了一个典型的实验场景，但主要是从路侧视角。

在表4中报告的交叉口场景的检测实验结果显示，与走廊场景中的补充角色不同，交叉口的合作期望从多个视角学习合作表示，以便更好地理解复杂的交通场景。需要注意的是，延迟融合在AP@0.3和AP@0.5上的表现优于所有合作方法，而早期融合方法甚至表现比无融合方法还差。至于中间融合，CoBEVT[40]在AP@0.7上表现较好。

考虑到交叉口场景中的数据异质性挑战，前述现象既出乎意料又可以理解。首先，数据异质性对早期融合的影响更为明显，因为简单的集成（没有细粒度设计）无法应对异质性问题，甚至使得数据分布变得更加复杂，从而导致性能比无融合方法更差。其次，延迟融合理论上通过结果级融合克服了该问题，性能优势表明合作感知在交叉口场景中的有效性。中间融合方法通过特征级合作能够在某种程度上处理这一挑战，合作表示的优势导致在更高的IoU阈值下（即AP@0.7）取得了更好的表现。

为了进一步探讨数据异质性的影响，图6中报告了数据级消融研究。排除MEMSLiDAR点云数据直接导致合作方法以不典型的方式表现。因此，未来的研究可以利用RCooper进一步研究如何充分利用感知数据，并克服实际场景中的异质性挑战。参考多模态学习技术，我们认为一个可能的解决方案是通过特征提取将异质数据编码到统一的特征空间中，结合分布一致性约束，如通过KL散度对齐分布。

除了交叉口场景中的SOTA方法失效外，一些SOTA方法在这两个场景中也未必比简单的融合方法（早期或延迟融合）更有效。另一个原因可能在于场景差距。一些SOTA方法是为车辆中心场景设计的，能够利用车辆端感知技术的快速发展，但在基础设施特定的挑战（例如，相比车辆端，更大的安装高度变化和俯仰角度变化）面前，表现较差[44, 45]。针对道路合作感知的特定方法仍需要进一步研究。

5.3 道路合作跟踪结果

表5和表6分别报告了在走廊场景和交叉口场景中的道路合作跟踪基准结果。

在走廊场景中，合作跟踪的表现优于无融合方法，证明了道路合作时序感知的有效性，如表5所示。比较方法表现激烈竞争：早期融合方法在AMOTA、AMOTP、MT和ML指标上表现最佳，而Where2Comm[19]在sAMOTA指标上表现最佳，CoBEVT[40]在MOTA指标上表现最佳。

在交叉口场景中，延迟融合策略的表现优于其他方法，如表6所示。由于检测预测受到数据异质性的影响，AB3Dmot的实验结果呈现出与检测相似的模式。此外，跟踪结果也依赖于检测预测的时序连续性，因此，如果实例在相邻帧中未被稳定检测到，则无法生成满意的轨迹，这导致F-Cooper的表现较差（MT值降至11.52%）。基于检测的跟踪策略对检测性能较为敏感。如何为跟踪任务学习道路合作表示，并在端到端的方式中充分利用时空上下文，在道路场景中的研究仍然需要进一步探索。