UA-Track:不确定性感知端到端3D多目标跟踪

论文地址:https://arxiv.org/pdf/2406.02147
主页:https://liautoad.github.io/ua-track-website/

3D多目标跟踪(MOT)在自动驾驶感知中起着至关重要的作用。最近基于端到端查询的跟踪器可以同时检测和跟踪对象,这在3D MOT任务中显示出巨大的潜力。然而,现有的方法忽略了不确定性问题,即对被跟踪对象的状态和位置缺乏精确的信心。在相机观察过程中,由于各种因素,特别是遮挡和目标物体的小尺寸,会产生不确定性,导致对物体的位置、标签和身份的估计不准确。为此,我们提出了一种不确定性感知的3D MOT框架UA Track,从多个方面解决了不确定性问题。具体来说,作者首先引入了一种不确定性感知概率解码器,以捕捉具有概率注意力的对象预测中的不确定性。其次,作者提出了一种不确定性引导的查询去噪策略,以提高训练的鲁棒性和对不确定性的收敛性。作者还利用了不确定性降低的查询初始化,它利用预测的2D对象位置和深度信息来降低查询的不确定性。

在nuScenes 上的实验结果证明了UA-Track 框架的有效性。它在测试集中以令人印象深刻的 66.3% AMOTA 实现了最先进的性能,远远超过了之前最好的端到端解决方案 8.9% AMOTA。这些结果强调了解决 3D MOT 中不确定性问题的重要性,并展示了不确定性感知框架在推动自动驾驶感知领域发展的潜力。


3D 多目标跟踪 (MOT) 是自动驾驶系统感知的重要组成部分。在动态环境中准确而稳健地跟踪目标的能力对于确保平稳安全的导航和合理的决策至关重要。传统的 3D MOT 方法依赖于检测器结果,设计数据关联和轨迹过滤等后处理模块,从而导致流程复杂。为了避免基于检测的跟踪器中人为的启发式设计,端到端基于query查询的最新方法已显示出通过同时检测和跟踪目标来解决 3D MOT 任务的巨大潜力,这些方法在跟踪性能和效率方面表现出色。然而,它们假设周围信息已充分获得,并忽略了 3D MOT 中经常遇到的不确定性问题。如图 1 所示,之前最先进的端到端跟踪器 PF-Track(IDS目前最小)缺乏不确定性建模,无法在具有不确定性问题的复杂场景中跟踪目标。

尽管不确定性问题(指神经网络无法提供确定性估计或信心不足)已在某些领域得到应用,例如动作识别和伪装(camouflaged)目标检测等领域,但在 3D MOT 领域尚未得到探索。由于驾驶场景的复杂环境和跟踪任务的独特特点,3D MOT 中的不确定性问题尤其具有挑战性,以前针对其他特定领域的解决方案不能直接应用于此。在驾驶场景中,环境可能非常复杂,通常在城市驾驶时,车辆和行人等众多目标在场景中交织,并且它们的运动模式存在很大变化。此外,被跟踪的目标通常覆盖很大的空间跟踪范围和很长的时间跟踪序列。因此,经常会出现遮挡情况和目标物体的尺寸太小情况,这通常会导致一些目标未被检测或被遮挡的跟踪丢失。这些不确定因素对实现准确和鲁棒的 3D MOT 提出了重大挑战。

所以,在这个工作中,作者提出了一个不确定性感知的 3D MOT 框架 UA-Track,如图2,从多个方面解决不确定性问题。首先,作者引入了一个不确定性感知的概率解码器来捕获和建模对象预测过程中的不确定性(UPD-蓝色模块)。具体来说,如图3,将注意力得分建模为高斯分布而不是确定性的输出,以量化预测不确定性。其次,提出了一种不确定性引导的查询去噪策略来进一步改进训练过程(UQD-绿色模块)。在训练阶段,向真实边界框添加噪声以形成噪声查询,并根据其不确定性水平有选择地对查询进行去噪,从而增强了训练过程的鲁棒性和对不确定性的收敛性。此外,作者提出了减少不确定性的query初始化模块(UQI-黄色模块),该模块利用预测的 2D目标位置和深度信息,减少query初始化的不确定性,即通过结合学习到的先验知识,提高初始query的准确性,从而获得更可靠的跟踪结果。


Uncertainty-aware Probabilistic Decoder

如图3,该组件旨在解决3D多目标跟踪(MOT)中的不确定性问题。UPD通过引入概率注意力机制来捕获和建模目标预测过程中的不确定性。具体来说,UPD将传统的确定性注意力分数替换为高斯分布,从而量化预测的不确定性。

在传统的transformer中,注意力分数是通过确定性计算得到的,这限制了模型有效量化预测不确定性的能力。为了解决这个问题,UPD采用多层感知机(MLP)来拟合查询(q)和键(k)的均值(µ)和标准差(σ),从而构建高斯分布。通过重参数化技巧,从构建的高斯分布中采样得到注意力值α。

UPD的主要贡献包括:

  1. 通过概率注意力机制,将注意力分数表示为高斯分布,增强了模型在处理3D MOT中的变异和噪声时的鲁棒性。

  2. 引入了均值(µ)和标准差(σ)这两个不确定性参数,允许在训练过程中适应不确定性。

  3. 使用缩放点积注意力来约束概率注意力,并采用负对数似然损失来监督解码器。

通过这种方式,UPD能够有效地捕捉目标在复杂驾驶场景中的轨迹变化,特别是在目标尺寸和可见性变化较大时,如大型卡车和小孩等不同大小的目标,以及在遮挡情况下的目标。这使得UA-Track框架能够在存在不确定性因素的情况下,如遮挡和小目标尺寸,实现更准确和鲁棒的3D多目标跟踪。


Uncertainty-guided Query Denoising

UQD旨在增强模型在训练过程中对不确定性的鲁棒性和收敛性。UQD通过查询去噪策略来应对3D多目标跟踪(MOT)中的复杂情况,如遮挡和小目标尺寸,这些情况可能会显著阻碍基于查询的方法的学习过程和快速收敛。

UQD组件的主要特点和贡献包括:

  1. 噪声查询生成:通过扰动真实标注框(ground truth boxes)来生成带有噪声的查询(noised queries),模拟训练过程中可能遇到的不确定性。

  2. 不确定性阈值:定义了不确定性的上下界阈值(βlower 和 βupper),根据这些阈值将噪声查询分类为三类:低不确定性的正样本(Pos)、高不确定性的负样本(Neg)以及不确定性水平居中的样本(Ign)。正样本是那些与真实标注框的3D交并比(IoU)超过βupper阈值的查询,而负样本是IoU低于βlower阈值的查询。忽略(Ign)那些不确定性水平不明确的查询,以避免干扰正常的查询学习过程。

  3. 选择性去噪:基于不确定性水平,选择性地对查询进行去噪处理。这一策略有助于模型专注于那些最需要改进的查询,从而提高训练的稳定性和效率。

  4. 损失函数设计:为正样本和负样本计算损失,以形成优化目标。这包括用于分类和边界框损失的焦点损失(focal loss)和L1损失,以及用于区分背景的负样本分类的焦点损失。

  5. 注意力掩码:应用注意力掩码来分离匹配部分和去噪部分,防止信息泄露,确保模型在去噪过程中能够正确地学习和更新。

通过UQD,UA-Track框架能够在训练时更加鲁棒地处理不确定性,提高模型对遮挡和小目标尺寸等复杂情况的处理能力,从而在3D MOT任务中取得更好的跟踪性能。


Uncertainty-reduced Query Initialization

UQI专注于改善查询初始化阶段的不确定性,从而提高目标跟踪的精度和快速收敛。在多目标跟踪中,尤其是在存在遮挡和小目标尺寸等复杂情况下,高质量的初始查询对于实现精确的跟踪至关重要。

UQI模块的主要特点和贡献包括:

  1. 辅助任务:引入额外的辅助任务,包括2D检测和深度预测,以利用从网络训练中学到的先验知识。

  2. 特征提取:使用共享图像主干和特征金字塔网络(FPN)层从每个摄像头提取图像特征。

  3. 深度网络:结合多个残差块构建深度网络,并使用投影的激光雷达点进行监督,以预测深度信息。

  4. 坐标转换:通过坐标转换估计3D位置,将2D边界框和深度信息转换为相机坐标系到激光雷达坐标系的转换矩阵和相机的内在参数。

  5. 查询初始化:利用预测的2D对象位置和深度信息初始化对象查询,减少查询初始化阶段的不确定性。

  6. 随机初始化保留:除了基于学习的初始化外,还保留随机初始化以探索可能遗漏的对象。

  7. 优化目标:为两个辅助任务定义了优化目标,包括2D检测损失和深度损失。

通过UQI模块,UA-Track能够在查询初始化阶段就减少不确定性,提高初始对象定位的准确性,从而在整个跟踪过程中实现更可靠的跟踪结果。这种初始化策略有助于提高模型对于遮挡和小目标尺寸等复杂情况的鲁棒性,进而在3D多目标跟踪任务中取得更好的性能。


Experiment

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/967269.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

CSS入门学习笔记(二)

学习视频:https://www.bilibili.com/video/BV1zN2UYoEEo/ 目录 浮动浮动的几种应用效果设置img浮动,去掉空隙设置div重叠,位于上下层多个div水平排列宽度不足时,会自动换行li元素水平排列 浮动的副作用解决副作用——清除浮动方法…

解锁 DeepSeek 模型高效部署密码:蓝耘平台深度剖析与实战应用

💖亲爱的朋友们,热烈欢迎来到 青云交的博客!能与诸位在此相逢,我倍感荣幸。在这飞速更迭的时代,我们都渴望一方心灵净土,而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识,也…

打家劫舍3

今天和打家讲一下打家劫舍3 题目: 题目链接:337. 打家劫舍 III - 力扣(LeetCode) 小偷又发现了一个新的可行窃的地区。这个地区只有一个入口,我们称之为root。 除了 root 之外,每栋房子有且只有一个“父“…

redis项目

短信登录 这一块我们会使用redis共享session来实现 商户查询缓存 通过本章节,我们会理解缓存击穿,缓存穿透,缓存雪崩等问题,让小伙伴的对于这些概念的理解不仅仅是停留在概念上,更是能在代码中看到对应的内容 优惠…

每日一题洛谷P5733 【深基6.例1】自动修正c++

#include<iostream> #include<string> using namespace std; int main() {string t;cin >> t;for (int i 0; i < t.length(); i){if (t[i] > a && t[i] < z){t[i] A - a;}cout << t[i];}return 0; }

windows + visual studio 2019 使用cmake 编译构建静、动态库并调用详解

环境 windows visual studio 2019 visual studio 2019创建cmake工程 1. 静态库.lib 1.1 静态库编译生成 以下是我创建的cmake工程文件结构&#xff0c;只关注高亮文件夹部分 libout 存放编译生成的.lib文件libsrc 存放编译用的源代码和头文件CMakeLists.txt 此次编译CMak…

【含文档+PPT+源码】基于微信小程序的校园志愿者管理系统的设计与实现

项目介绍 本课程演示的是一款 基于微信小程序的校园志愿者管理系统的设计与实现&#xff0c;主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的 Java 学习者。 1.包含&#xff1a;项目源码、项目文档、数据库脚本、软件工具等所有资料 2.带你从零开始部署运行本…

SOME/IP--协议英文原文讲解5

前言 SOME/IP协议越来越多的用于汽车电子行业中&#xff0c;关于协议详细完全的中文资料却没有&#xff0c;所以我将结合工作经验并对照英文原版协议做一系列的文章。基本分三大块&#xff1a; 1. SOME/IP协议讲解 2. SOME/IP-SD协议讲解 3. python/C举例调试讲解 这一章节…

Linux之Http协议分析以及cookie和session

Linux之Http协议分析以及cookie和session 一.分析请求行与响应行1.1请求行1.1.1资源的URL路径1.1.2常见的方法1.2响应行 二.cookie和session2.1cookie2.2session 一.分析请求行与响应行 在我们简单了解了请求和响应的格式以及模拟实现了请求和响应后我们已经可以通过网页来访问…

vue+element-ui简洁完美实现ju动漫网站

目录 一、项目介绍 二、项目截图 1.项目结构图 2.首页 3.日漫 4.更多>排行榜 5.详情页 6.简单登陆页 三、源码实现 1.路由配置 2.首页 四、总结 一、项目介绍 本项目在线预览&#xff1a;点击访问 本项目为vue项目&#xff0c;以动漫为主题来设计元素&#xff…

协议-WebRTC-HLS

是什么&#xff1f; WebRTC&#xff08;Web Real-Time Communication&#xff09; 实现 Web 浏览器和移动应用程序之间通过互联网直接进行实时通信。允许点对点音频、视频和数据共享&#xff0c;而无需任何插件或其他软件。WebRTC 广泛用于构建视频会议、语音通话、直播、在线游…

本地部署DeepSeek-R1模型(新手保姆教程)

背景 最近deepseek太火了&#xff0c;无数的媒体都在报道&#xff0c;很多人争相着想本地部署试验一下。本文就简单教学一下&#xff0c;怎么本地部署。 首先大家要知道&#xff0c;使用deepseek有三种方式&#xff1a; 1.网页端或者是手机app直接使用 2.使用代码调用API …

有关网络安全的案例分享 如何保障网络安全

网络发展是非常迅速的&#xff0c;互联网在给人们带来生活娱乐便利的同时&#xff0c;也带来了一些安全隐患&#xff0c;这就需要大家做好防骗规范&#xff0c;确保网络安全&#xff0c;51CTO学堂为大家分享下有关网络安全的案例&#xff0c;以供各位参考。 非法获取公民个人信…

2025新鲜出炉--前端面试题(一)

文章目录 1. vue3有用过吗, 和vue2之间有哪些区别2. vue-router有几种路由, 分别怎么实现3. webpack和rollup这两个什么区别, 你会怎么选择4. 你能简单介绍一下webpack项目的构建流程吗5. webpack平时有手写过loader和plugin吗6. webpack这块你平时做过哪些优化吗&#xff1f;7…

变化检测论文阅读合集

1. ChangeCLIP: Remote sensing change detection with multimodal vision-language representation learning 作者&#xff1a;Sijun Dong a, Libo Wang b, Bo Du c, Xiaoliang Meng a,* 年份&#xff1a;2024 研究方法/模型&#xff1a; 重构原始CLIP&#xff1a;提取双时…

viem库

viem是一个用于和以太坊进行交互的javascript库&#xff0c;它提供了简单的API进行智能合约的读取和写入操作&#xff0c;你可以使用它来与区块链上智能合约进行交互&#xff0c;查询链上数据等。 基本功能 1&#xff0c;创建公有客户端 createPublicClient 可以创建一个链接…

2025影视泛目录站群程序设计_源码二次开发新版本无缓存刷新不变实现原理

1. 引言 本设站群程序计书旨在详细阐述苹果CMS泛目录的创新设计与实现&#xff0c;介绍无缓存刷新技术、数据统一化、局部URL控制及性能优化等核心功能&#xff0c;以提升网站访问速度和用户体验。 2. 技术概述 2.1 无缓存刷新技术 功能特点&#xff1a; 内容不变性&#x…

OpenEuler学习笔记(二十三):在OpenEuler上部署开源MES系统

在OpenEuler上部署小企业开源MES&#xff08;制造执行系统&#xff0c;Manufacturing Execution System&#xff09;是一个非常有价值的项目&#xff0c;可以帮助企业实现生产过程的数字化管理。以下是基于开源MES系统&#xff08;如 Odoo MES 或 OpenMES&#xff09;的部署步骤…

大数据项目2:基于hadoop的电影推荐和分析系统设计和实现

前言 大数据项目源码资料说明&#xff1a; 大数据项目资料来自我多年工作中的开发积累与沉淀。 我分享的每个项目都有完整代码、数据、文档、效果图、部署文档及讲解视频。 可用于毕设、课设、学习、工作或者二次开发等&#xff0c;极大提升效率&#xff01; 1、项目目标 本…

c++ haru生成pdf输出饼图

#define PI 3.14159265358979323846 // 绘制饼图的函数 void draw_pie_chart(HPDF_Doc pdf, HPDF_Page page, float *data, int data_count, float x, float y, float radius) { float total 0; int i; // 计算数据总和 for (i 0; i < data_count; i) { tot…