Abstract
在自动驾驶的3D目标检测领域,激光雷达-摄像头(LC)融合是表现最好的传感器配置。然而,激光雷达的成本相对较高,这阻碍了该技术在消费者汽车中的普及。相反,摄像头和雷达已经普遍部署在现有车辆上,但摄像头-雷达(CR)融合的性能却落后于LC融合。在这项工作中,我们提出了摄像头-雷达知识蒸馏(CRKD)方法,通过一种新的跨模态知识蒸馏框架来弥合LC和CR检测器之间的性能差距。我们使用鸟瞰图(BEV)表示作为共享特征空间,以实现有效的知识蒸馏。为了适应独特的跨模态知识蒸馏路径,我们提出了四种蒸馏损失,帮助学生模型从教师模型中学习关键特征。我们在nuScenes数据集上进行了广泛的评估,证明了所提出的CRKD框架的有效性。
代码地址:https://songjingyu.github.io/CRKD
Instruction
最近的研究集中在应用知识蒸馏(KD)技术来缓解这种差距。KD具有一个教师-学生框架,旨在传播来自性能良好的教师模型的有用知识,以促进学生模型的学习过程。与简单地在同一任务上训练学生模型相比,这通常会带来性能的提升。KD技术已经在3D目标检测中以单模态或跨模态配置中得到了应用。虽然许多跨模态方法使用单一模态检测器作为教师模型,以利用在开源数据集中广泛可用的特权激光雷达数据,但它们主要集中于将知识蒸馏到基于激光雷达或摄像头的学生检测器中。我们认为设计从LC教师检测器到CR学生检测器的蒸馏路径非常重要,这可以从现有的LC检测器的优越设计和激光雷达与雷达测量之间共享的点云表示中受益。
受到上述观察的启发,我们提出了CRKD:一种增强的摄像头-雷达3D目标检测器,通过跨模态知识蒸馏(图1)将知识从LC教师检测器蒸馏到CR学生检测器。据我们所知,CRKD是第一个支持融合到融合蒸馏路径的KD框架。由于激光雷达传感器仅在训练期间使用,我们强调了CRKD的价值,因为它可以促进具有低成本且稳健的CR传感器配置的感知自主性的实际应用。
Method
我们在图2中展示了CRKD的概述。我们设置了具有类似基于BEV(鸟瞰图)编码器-解码器头架构的教师和学生模型。利用共享的BEV特征空间,我们基于高度优化的BEVFusion代码库构建了CRKD。我们使用BEVFusion-LC作为教师模型,使用BEVFusion-CR作为基线学生模型。两种模型中的检测器头部都设置为CenterHead用于响应KD。
1、模型架构优化
我们在BEVFusion中添加了一个门控网络,使模型能够学习在单模态特征图上生成注意力权重,以自适应地融合互补模态。门控网络的输出进一步通过BEVFusion中的卷积融合模块融合。我们将自适应门控网络应用于我们的教师和学生模型,以学习输入模态之间的相对重要性。这一修改提高了教师和学生模型的检测性能,也使基于特征的蒸馏更有效,因为门控特征图编码了来自两种输入模态的信息丰富的场景几何。
2、跨阶段雷达蒸馏(CSRD)
尽管雷达和激光雷达的测量都表示为点云,但它们背后的物理意义略有不同。与激光雷达相比,雷达点更加稀疏,可以解释为具有速度测量的对象级点列表,而激光雷达则更密集,捕获几何级信息。观察到这一差距,我们认为常用的直接特征模仿方法在这种情况下可能效果不佳。相反,由于雷达测量稀疏且表示场景级对象分布,我们提出了一种新的跨阶段雷达蒸馏(CSRD)方法。具体来说,我们设计了一个蒸馏路径,在雷达特征图与LC教师模型预测的场景级对象热图之间。由于雷达通常被认为在距离和方位角测量上存在噪声,我们设计了一个校准模块来学习补偿噪声。
3、掩码缩放特征蒸馏(MSFD)
我们提出了用于对齐摄像头特征图和融合特征图的特征蒸馏。许多研究承认,由于前景和背景之间显著的不平衡,教师和学生模型之间的直接特征模仿在3D目标检测任务中可能效果不佳。因此,常见的解决方法是生成一个掩码,仅从前景区域蒸馏信息。同时,更多的研究表明,前景的边界区域也可以促进有效的知识蒸馏。我们遵循这一发现,提出了掩码缩放特征蒸馏(MSFD),它能够感知对象范围和运动。对于学生CR模型,检测性能主要依赖于图像的深度预测和雷达点的几何准确性。由于范围和对象运动会对视图转换为BEV空间造成额外挑战,我们放大了前景区域的面积,以应对潜在的错位。
4、关系蒸馏(RelD)
虽然前述的CSRD和MSFD可以有效地处理特征级蒸馏,但我们遵循MonoDistill,强调在场景级教师和学生模型之间保持相似几何关系的重要性。我们计算了描述融合特征图的余弦相似性的亲和矩阵。通过蒸馏关系信息,改进后的特征图可以提高检测性能。此外,为了蒸馏不同尺度的场景级关系信息,我们应用了下采样操作和卷积块。然后我们使用这些多级特征图来计算多尺度RelD损失,并取平均值作为最终损失项。
5、响应蒸馏(RespD)
响应蒸馏在图像分类和3D目标检测中已被证明是有效的。教师推断的预测作为学生的软标签。软标签和硬标签结合在一起监督学生模型的学习。我们参考了CMKD中的RespD设计,并改进了它以感知模态强度。由于雷达由于多普勒效应具有直接速度测量的独特优势,我们在RespD中为动态类别设置了更大的权重,以允许动态对象优先利用学生CR模型的优势。
Experiments
1.对CRKD与现有的进行总体比较带单帧图像输入的 CO 和 CR 探测器新场景。
2.展示了每类 AP 的完整比较,以分解 CRKD 带来的改进。
3.为了进一步分解每个模块带来的改进,我们进行了广泛的实验来讨论和验证我们的设计选择。我们首先展示主要的消融研究。
4.显示一起使用 RespD 的实验结果
5.CSRD、MSFD、RelD、RespD提升效果展示
总结
文章的主要贡献:
1. 提出了一种新颖的跨模态 KD 框架,以在 BEV 特征空间中实现 LC 到 CR 的蒸馏。和从 LC 教师检测器转移的知识,CR 学生探测器的性能优于现有基线推理过程中无需额外成本。
2. 设计了四个KD模块来解决不同传感器之间的显着差异,以实现有效的跨模态 KD。当我们在 BEV 领域运营 KD 时,所提出的损失设计可以应用于其他 K配置。我们的改进还包括添加门控网络到自适应融合的基线模型。
3. 对 nuScenes进行了广泛的评估证明 CRKD 的有效性。CRKD 可以将学生探测器的 mAP 和 NDS 提高 3.5%和3.2%。由于我们的方法侧重于小说模态差距较大的KD路径,我们提供彻底的研究和分析以支持我们的设计选择。
引用CVPR2024文章:
CRKD: Enhanced Camera-Radar Object Detection with Cross-modality
Knowledge Distillation
关注我的公众号auto_driver_ai(Ai fighting), 第一时间获取更新内容。