UA-Track：不确定性感知端到端3D多目标跟踪

论文地址：https://arxiv.org/pdf/2406.02147
主页：https://liautoad.github.io/ua-track-website/

3D多目标跟踪（MOT）在自动驾驶感知中起着至关重要的作用。最近基于端到端查询的跟踪器可以同时检测和跟踪对象，这在3D MOT任务中显示出巨大的潜力。然而，现有的方法忽略了不确定性问题，即对被跟踪对象的状态和位置缺乏精确的信心。在相机观察过程中，由于各种因素，特别是遮挡和目标物体的小尺寸，会产生不确定性，导致对物体的位置、标签和身份的估计不准确。为此，我们提出了一种不确定性感知的3D MOT框架UA Track，从多个方面解决了不确定性问题。具体来说，作者首先引入了一种不确定性感知概率解码器，以捕捉具有概率注意力的对象预测中的不确定性。其次，作者提出了一种不确定性引导的查询去噪策略，以提高训练的鲁棒性和对不确定性的收敛性。作者还利用了不确定性降低的查询初始化，它利用预测的2D对象位置和深度信息来降低查询的不确定性。

在nuScenes 上的实验结果证明了UA-Track 框架的有效性。它在测试集中以令人印象深刻的 66.3% AMOTA 实现了最先进的性能，远远超过了之前最好的端到端解决方案 8.9% AMOTA。这些结果强调了解决 3D MOT 中不确定性问题的重要性，并展示了不确定性感知框架在推动自动驾驶感知领域发展的潜力。

3D 多目标跟踪 (MOT) 是自动驾驶系统感知的重要组成部分。在动态环境中准确而稳健地跟踪目标的能力对于确保平稳安全的导航和合理的决策至关重要。传统的 3D MOT 方法依赖于检测器结果，设计数据关联和轨迹过滤等后处理模块，从而导致流程复杂。为了避免基于检测的跟踪器中人为的启发式设计，端到端基于query查询的最新方法已显示出通过同时检测和跟踪目标来解决 3D MOT 任务的巨大潜力，这些方法在跟踪性能和效率方面表现出色。然而，它们假设周围信息已充分获得，并忽略了 3D MOT 中经常遇到的不确定性问题。如图 1 所示，之前最先进的端到端跟踪器 PF-Track（IDS目前最小）缺乏不确定性建模，无法在具有不确定性问题的复杂场景中跟踪目标。

尽管不确定性问题（指神经网络无法提供确定性估计或信心不足）已在某些领域得到应用，例如动作识别和伪装（camouflaged）目标检测等领域，但在 3D MOT 领域尚未得到探索。由于驾驶场景的复杂环境和跟踪任务的独特特点，3D MOT 中的不确定性问题尤其具有挑战性，以前针对其他特定领域的解决方案不能直接应用于此。在驾驶场景中，环境可能非常复杂，通常在城市驾驶时，车辆和行人等众多目标在场景中交织，并且它们的运动模式存在很大变化。此外，被跟踪的目标通常覆盖很大的空间跟踪范围和很长的时间跟踪序列。因此，经常会出现遮挡情况和目标物体的尺寸太小情况，这通常会导致一些目标未被检测或被遮挡的跟踪丢失。这些不确定因素对实现准确和鲁棒的 3D MOT 提出了重大挑战。

所以，在这个工作中，作者提出了一个不确定性感知的 3D MOT 框架 UA-Track，如图2，从多个方面解决不确定性问题。首先，作者引入了一个不确定性感知的概率解码器来捕获和建模对象预测过程中的不确定性（UPD-蓝色模块）。具体来说，如图3，将注意力得分建模为高斯分布而不是确定性的输出，以量化预测不确定性。其次，提出了一种不确定性引导的查询去噪策略来进一步改进训练过程（UQD-绿色模块）。在训练阶段，向真实边界框添加噪声以形成噪声查询，并根据其不确定性水平有选择地对查询进行去噪，从而增强了训练过程的鲁棒性和对不确定性的收敛性。此外，作者提出了减少不确定性的query初始化模块（UQI-黄色模块），该模块利用预测的 2D目标位置和深度信息，减少query初始化的不确定性，即通过结合学习到的先验知识，提高初始query的准确性，从而获得更可靠的跟踪结果。

Uncertainty-aware Probabilistic Decoder

如图3，该组件旨在解决3D多目标跟踪（MOT）中的不确定性问题。UPD通过引入概率注意力机制来捕获和建模目标预测过程中的不确定性。具体来说，UPD将传统的确定性注意力分数替换为高斯分布，从而量化预测的不确定性。

在传统的transformer中，注意力分数是通过确定性计算得到的，这限制了模型有效量化预测不确定性的能力。为了解决这个问题，UPD采用多层感知机（MLP）来拟合查询（q）和键（k）的均值（µ）和标准差（σ），从而构建高斯分布。通过重参数化技巧，从构建的高斯分布中采样得到注意力值α。

UPD的主要贡献包括：

通过概率注意力机制，将注意力分数表示为高斯分布，增强了模型在处理3D MOT中的变异和噪声时的鲁棒性。
引入了均值（µ）和标准差（σ）这两个不确定性参数，允许在训练过程中适应不确定性。
使用缩放点积注意力来约束概率注意力，并采用负对数似然损失来监督解码器。

通过这种方式，UPD能够有效地捕捉目标在复杂驾驶场景中的轨迹变化，特别是在目标尺寸和可见性变化较大时，如大型卡车和小孩等不同大小的目标，以及在遮挡情况下的目标。这使得UA-Track框架能够在存在不确定性因素的情况下，如遮挡和小目标尺寸，实现更准确和鲁棒的3D多目标跟踪。

Uncertainty-guided Query Denoising

UQD旨在增强模型在训练过程中对不确定性的鲁棒性和收敛性。UQD通过查询去噪策略来应对3D多目标跟踪（MOT）中的复杂情况，如遮挡和小目标尺寸，这些情况可能会显著阻碍基于查询的方法的学习过程和快速收敛。

UQD组件的主要特点和贡献包括：

噪声查询生成：通过扰动真实标注框（ground truth boxes）来生成带有噪声的查询（noised queries），模拟训练过程中可能遇到的不确定性。
不确定性阈值：定义了不确定性的上下界阈值（βlower 和 βupper），根据这些阈值将噪声查询分类为三类：低不确定性的正样本（Pos）、高不确定性的负样本（Neg）以及不确定性水平居中的样本（Ign）。正样本是那些与真实标注框的3D交并比（IoU）超过βupper阈值的查询，而负样本是IoU低于βlower阈值的查询。忽略（Ign）那些不确定性水平不明确的查询，以避免干扰正常的查询学习过程。
选择性去噪：基于不确定性水平，选择性地对查询进行去噪处理。这一策略有助于模型专注于那些最需要改进的查询，从而提高训练的稳定性和效率。
损失函数设计：为正样本和负样本计算损失，以形成优化目标。这包括用于分类和边界框损失的焦点损失（focal loss）和L1损失，以及用于区分背景的负样本分类的焦点损失。
注意力掩码：应用注意力掩码来分离匹配部分和去噪部分，防止信息泄露，确保模型在去噪过程中能够正确地学习和更新。