降本增效CRKD:通过跨模态知识蒸馏增强相机与毫米波雷达目标检测精度

Abstract

在自动驾驶的3D目标检测领域,激光雷达-摄像头(LC)融合是表现最好的传感器配置。然而,激光雷达的成本相对较高,这阻碍了该技术在消费者汽车中的普及。相反,摄像头和雷达已经普遍部署在现有车辆上,但摄像头-雷达(CR)融合的性能却落后于LC融合。在这项工作中,我们提出了摄像头-雷达知识蒸馏(CRKD)方法,通过一种新的跨模态知识蒸馏框架来弥合LC和CR检测器之间的性能差距。我们使用鸟瞰图(BEV)表示作为共享特征空间,以实现有效的知识蒸馏。为了适应独特的跨模态知识蒸馏路径,我们提出了四种蒸馏损失,帮助学生模型从教师模型中学习关键特征。我们在nuScenes数据集上进行了广泛的评估,证明了所提出的CRKD框架的有效性。

代码地址:https://songjingyu.github.io/CRKD

图片

Instruction

最近的研究集中在应用知识蒸馏(KD)技术来缓解这种差距。KD具有一个教师-学生框架,旨在传播来自性能良好的教师模型的有用知识,以促进学生模型的学习过程。与简单地在同一任务上训练学生模型相比,这通常会带来性能的提升。KD技术已经在3D目标检测中以单模态或跨模态配置中得到了应用。虽然许多跨模态方法使用单一模态检测器作为教师模型,以利用在开源数据集中广泛可用的特权激光雷达数据,但它们主要集中于将知识蒸馏到基于激光雷达或摄像头的学生检测器中。我们认为设计从LC教师检测器到CR学生检测器的蒸馏路径非常重要,这可以从现有的LC检测器的优越设计和激光雷达与雷达测量之间共享的点云表示中受益。

受到上述观察的启发,我们提出了CRKD:一种增强的摄像头-雷达3D目标检测器,通过跨模态知识蒸馏(图1)将知识从LC教师检测器蒸馏到CR学生检测器。据我们所知,CRKD是第一个支持融合到融合蒸馏路径的KD框架。由于激光雷达传感器仅在训练期间使用,我们强调了CRKD的价值,因为它可以促进具有低成本且稳健的CR传感器配置的感知自主性的实际应用。

Method

我们在图2中展示了CRKD的概述。我们设置了具有类似基于BEV(鸟瞰图)编码器-解码器头架构的教师和学生模型。利用共享的BEV特征空间,我们基于高度优化的BEVFusion代码库构建了CRKD。我们使用BEVFusion-LC作为教师模型,使用BEVFusion-CR作为基线学生模型。两种模型中的检测器头部都设置为CenterHead用于响应KD。

图片

1、模型架构优化

我们在BEVFusion中添加了一个门控网络,使模型能够学习在单模态特征图上生成注意力权重,以自适应地融合互补模态。门控网络的输出进一步通过BEVFusion中的卷积融合模块融合。我们将自适应门控网络应用于我们的教师和学生模型,以学习输入模态之间的相对重要性。这一修改提高了教师和学生模型的检测性能,也使基于特征的蒸馏更有效,因为门控特征图编码了来自两种输入模态的信息丰富的场景几何。

2、跨阶段雷达蒸馏(CSRD)

尽管雷达和激光雷达的测量都表示为点云,但它们背后的物理意义略有不同。与激光雷达相比,雷达点更加稀疏,可以解释为具有速度测量的对象级点列表,而激光雷达则更密集,捕获几何级信息。观察到这一差距,我们认为常用的直接特征模仿方法在这种情况下可能效果不佳。相反,由于雷达测量稀疏且表示场景级对象分布,我们提出了一种新的跨阶段雷达蒸馏(CSRD)方法。具体来说,我们设计了一个蒸馏路径,在雷达特征图与LC教师模型预测的场景级对象热图之间。由于雷达通常被认为在距离和方位角测量上存在噪声,我们设计了一个校准模块来学习补偿噪声。

3、掩码缩放特征蒸馏(MSFD)

我们提出了用于对齐摄像头特征图和融合特征图的特征蒸馏。许多研究承认,由于前景和背景之间显著的不平衡,教师和学生模型之间的直接特征模仿在3D目标检测任务中可能效果不佳。因此,常见的解决方法是生成一个掩码,仅从前景区域蒸馏信息。同时,更多的研究表明,前景的边界区域也可以促进有效的知识蒸馏。我们遵循这一发现,提出了掩码缩放特征蒸馏(MSFD),它能够感知对象范围和运动。对于学生CR模型,检测性能主要依赖于图像的深度预测和雷达点的几何准确性。由于范围和对象运动会对视图转换为BEV空间造成额外挑战,我们放大了前景区域的面积,以应对潜在的错位。

4、关系蒸馏(RelD)

虽然前述的CSRD和MSFD可以有效地处理特征级蒸馏,但我们遵循MonoDistill,强调在场景级教师和学生模型之间保持相似几何关系的重要性。我们计算了描述融合特征图的余弦相似性的亲和矩阵。通过蒸馏关系信息,改进后的特征图可以提高检测性能。此外,为了蒸馏不同尺度的场景级关系信息,我们应用了下采样操作和卷积块。然后我们使用这些多级特征图来计算多尺度RelD损失,并取平均值作为最终损失项。

5、响应蒸馏(RespD)

响应蒸馏在图像分类和3D目标检测中已被证明是有效的。教师推断的预测作为学生的软标签。软标签和硬标签结合在一起监督学生模型的学习。我们参考了CMKD中的RespD设计,并改进了它以感知模态强度。由于雷达由于多普勒效应具有直接速度测量的独特优势,我们在RespD中为动态类别设置了更大的权重,以允许动态对象优先利用学生CR模型的优势。

Experiments

1.对CRKD与现有的进行总体比较带单帧图像输入的 CO 和 CR 探测器新场景。

图片

2.展示了每类 AP 的完整比较,以分解 CRKD 带来的改进。

图片

3.为了进一步分解每个模块带来的改进,我们进行了广泛的实验来讨论和验证我们的设计选择。我们首先展示主要的消融研究。

图片

4.显示一起使用 RespD 的实验结果

图片

5.CSRD、MSFD、RelD、RespD提升效果展示

图片

总结

文章的主要贡献:

1. 提出了一种新颖的跨模态 KD 框架,以在 BEV 特征空间中实现 LC 到 CR 的蒸馏。和从 LC 教师检测器转移的知识,CR 学生探测器的性能优于现有基线推理过程中无需额外成本。

2. 设计了四个KD模块来解决不同传感器之间的显着差异,以实现有效的跨模态 KD。当我们在 BEV 领域运营 KD 时,所提出的损失设计可以应用于其他 K配置。我们的改进还包括添加门控网络到自适应融合的基线模型。

3. 对 nuScenes进行了广泛的评估证明 CRKD 的有效性。CRKD 可以将学生探测器的 mAP 和 NDS 提高 3.5%和3.2%。由于我们的方法侧重于小说模态差距较大的KD路径,我们提供彻底的研究和分析以支持我们的设计选择。

引用CVPR2024文章:

CRKD: Enhanced Camera-Radar Object Detection with Cross-modality

Knowledge Distillation

关注我的公众号auto_driver_ai(Ai fighting), 第一时间获取更新内容。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/801563.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Springboot整合MyBatis实现数据库查询(二)

目录 第一章、准备1.1)准备数据库表1.2)创建springboot项目,添加依赖1.3)使用mybatis逆向工程 第二章、代码开发2.1)建包并编写代码2.2)application配置文件2.3)设置编译位置 第三章、测试访问3…

用HTML和CSS实现提示工具(tooltip)及HTML元素的定位

所谓提示工具,是指将鼠标移动到某个HTML元素(工具)时会显示一些提示内容(提示文本),而鼠标移出工具元素的范围时提示文本就消失了。考虑到提示文本元素应当在鼠标进入工具元素时显示,鼠标离开工…

JDK之使用keytool安装cer证书

可针对https请求缺失证书解决报错: PKIX path building failed: sun.security.provider.certpath.SunCertPathBuilderException: unable to find valid certification path to requested target 解决办法: 先通过浏览器下载证书,再使用JDK自带…

互联网末法时代的一些思考

这篇文章也是临时起意,很长一段时间没写个人思考类的文章,主要原因也是时间完全不够用。随着年龄的增长,看待问题的视角也逐渐发生变化,例如从关注现象到关注动机,从关注结果到关注起因,2021年的时代我曾经…

时间序列问题解题(基于经验模型,使用机器学习模型)(Datawhale AI 夏令营)

示例题目:2024 iFLYTEK A.I.开发者大赛-讯飞开放平台 (xfyun.cn) 一,时间序列问题概述 1、时间序列问题定义 时间序列问题是一类重要的统计和数据分析问题,它涉及对按时间顺序排列的数据点进行分析、建模和预测。时间序列数据是由一系列随时…

【Apache Doris】周FAQ集锦:第 14 期

【Apache Doris】周FAQ集锦:第 14 期 SQL问题数据操作问题运维常见问题其它问题关于社区 欢迎查阅本周的 Apache Doris 社区 FAQ 栏目! 在这个栏目中,每周将筛选社区反馈的热门问题和话题,重点回答并进行深入探讨。旨在为广大用户…

支持CF高帧率的免费虚拟机系统

分享一个支持CF高帧率的免费虚拟机系统,这个是某UP主分享的,帧率也是能到两百帧吧,内存这些我开的是6h6g的,具体还是得看你们自己的电脑配置!文件较大,请先保存再下载,因为我也不知道哪天取消分…

Julia 初学者指南(一) | 安装、配置及编译器

唠唠闲话 Julia 是一种高性能的动态编程语言,特别适用于数值分析和计算科学领域。它拥有一个强大的类型系统和灵活的多重分派机制,这使得代码易于编写同时还能保持接近 C 语言的运行速度。此外,Julia 也能无缝调用 C 和 Fortran 库&#xff0…

有关电力电子技术的一些相关仿真和分析:⑤交-直-交全桥逆变+全波整流结构电路(MATLAB/Siumlink仿真)

全桥逆变+全波整流结构 参数:Vin=500V, Vo=200V, T=2:1:1, RL=10Ω, fs=100kHz, L=1mH, C=100uF (1)给定输入电压,输出电压和主电路参数,仿真研究电路工作原理,分析工作时序; (2)调节负载电阻,实现电流连续和断续,并仿真验证; (3)调节占空比,分析占空比与电…

公司想无偿裁员,同事赖着不走

关注卢松松,会经常给你分享一些我的经验和观点。 这招好像也不错! 事情是这样的:某公司准备把成本高的员工都裁掉,主要包含研发部和程序员,总共18个人,准备裁掉10人,因为他们工资开的太高了,…

ROS-机械臂——从零构建机器人模型

URDF建模 URDF URDF,全称为 Unified Robot Description Format(统一机器人描述格式),是一种用于描述机器人几何结构和运动学属性的标准文件格式。URDF 文件通常用于机器人模拟、路径规划、控制算法开发和可视化等领域&#xff0c…

信号和槽机制的轻量级实现,sigslot 库介绍及使用

Qt中的信号与槽机制很好用,然而只在Qt环境中。在现代 C 编程中,对象间的通信是一个核心问题。为了解决这个问题,许多库提供了信号和槽(Signals and Slots)机制。今天推荐分享一个轻量级的实现:sigslot 库。…

AWS CDN新增用户ip 地区 城市 响应头

1.需要自定义cdn缓存策略 这里的策略也是先复制之前的cdn策略哈 最后复制完了 全部新增这两条标头key CloudFront-Viewer-Country CloudFront-Viewer-City 2.然后新增cdn函数,应用你写的这个函数 function handler(event) {var request event.request;var respon…

全国农产品地理标志登记汇总表(截至2022年2月25日)

数据来源:自主整理 数据范围:省级层面 数据数量:3510条数据指标: 本数据展示了截至2022年2月25日的全国农产品地理标志登记汇总表,具体指标展示如下表: 序号 年份 产品名称 所在地域 证书持有人…

【每日刷题】Day81

【每日刷题】Day81 🥕个人主页:开敲🍉 🔥所属专栏:每日刷题🍍 🌼文章目录🌼 1. 日期累加_牛客题霸_牛客网 (nowcoder.com) 2. 打印日期_牛客题霸_牛客网 (nowcoder.com) 3. 2956.…

分享两个性价比极高的SSR方案

最近总监提出我们公司运营的一个网站运营数据有点差,亟待提升该网站的SEO(搜索引擎优化)体验。不然自然流量着实有点少,全靠氪金买百度付费流量,成本太高,显然不太现实。但是当时技术选型的时候并未考虑到S…

【Linux】权限的管理和Linux上的一些工具

文章目录 权限管理chgrpchownumaskfile指令sudo指令 目录权限粘滞位Linux中的工具1.软件包管理器yum2.rzsz Linux开发工具vim 总结 权限管理 chgrp 功能:修改文件或目录的所属组 格式:chgrp [参数] 用户组名 文件名 常用选项:-R 递归修改文…

解析 Mira :基于 Web3,让先进的 AI 技术易于访问和使用

“Mira 平台正在以 Web3 的方式解决当前 AI 开发面临的复杂性问题,同时保护 AI 贡献者的权益,让他们可以自主拥有并货币化自己的模型、数据和应用,以使先进的 AI 技术更加易于访问和使用。” AI 代表着一种先进的生产力,它通过深…

UE4-初见虚幻引擎

一.创建自己的工程 1.启动 a.通过桌面双击图标来打开对应版本的虚幻引擎 b.通过EPIC启动器开启动虚幻引擎 2.选择或新建项目 ps:高版本虚幻编辑器可以打开低版本的虚幻项目,但是高版本虚幻的项目不可以由低版本的虚幻编辑器打开。 3. 选择要打开的项目 4.选择模版 选…

mindspore打卡第24天之LSTM+CRF序列标注

LSTMCRF序列标注 概述 序列标注指给定输入序列,给序列中每个Token进行标注标签的过程。序列标注问题通常用于从文本中进行信息抽取,包括分词(Word Segmentation)、词性标注(Position Tagging)、命名实体识别(Named Entity Recognition, NER)等。以命名实…