自动驾驶中基于Transformer的传感器融合:研究综述
-
论文链接:https://arxiv.org/pdf/2302.11481.pdf
-
调研链接:https://github.com/ApoorvRoboticist/Transformers-Sensor-Fusion
附赠自动驾驶学习资料和量产经验:链接
摘要
本文介绍了自动驾驶中基于Transformer的传感器融合:研究综述。传感器融合是自动驾驶和机器人等很多感知系统中一个非常重要的主题。根据数据集排行榜,从原始传感器数据中提取特征的基于Transformer的检测头和基于CNN的特征编码器已经成为性能最好的传感器融合三维检测框架之一。在这项工作中,本文对近年来基于transformer的三维目标检测任务进行深入文献调研,主要着重于传感器融合。本文还简要介绍了视觉transformers(ViT)的基础,以便读者可以轻松阅读本文。此外,本文还简要介绍了用于自动驾驶传感器融合的一些基于non-transformer的非主流方法。最后,本文总结了transformers在传感器融合领域中发挥的作用,并且对该领域的未来研究提出建议。
主要贡献
本文的主要贡献总结如下:
1)本文对视觉Transformers(ViT)背景进行概述,以让读者了解传感器融合方法最新趋势的理论背景先决条件;
2)本文深入调研了有关通过传感器融合执行目标检测任务的最新的先进技术(SoTA)方法,着重于基于Transformers的方法;
3)本文对所讨论的SoTA方法进行定量分析,并且对该领域的未来研究工作提出建议。
论文图片和表格
总结
针对自动驾驶汽车的感知可靠性,精确的三维目标检测是我们需要解决的关键挑战之一。传感器融合通过利用平台上所有传感器的优势,有助于使得这些预测更为准确。Transformers已经成为建模这些跨模态交互的最佳方法之一,尤其是当传感器在不同的坐标空间中工作时,这使其无法完美对齐。