ICCV2023 Tracking paper汇总(一)(多目标跟随、单目标跟随等)

一、PVT++: A Simple End-to-End Latency-Aware Visual Tracking Framework

paper:
https://openaccess.thecvf.com/content/ICCV2023/papers/Li_PVT_A_Simple_End-to-End_Latency-Aware_Visual_Tracking_Framework_ICCV_2023_paper.pdf
github: https://github.com/Jaraxxus-Me/PVT_pp.git

1、摘要

视觉物体跟踪对智能机器人至关重要。现有的大多数方法都忽略了在现实处理过程中所带来的在线延迟可能导致严重的性能下降。特别是对于无人机(uav),其中鲁棒跟踪更具挑战性,机载计算有限,延迟问题可能是致命的。在这项工作中,我们提出了一个简单的端到端延迟感知跟踪框架,即端到端预测视觉跟踪(PVT++)。与现有的在跟踪器之后添加卡尔曼滤波器的解决方案不同, PVT++可以联合优化,因此它不仅需要运动信息,还可以利用大多数预训练的跟踪器模型中丰富的视觉知识进行鲁棒预测。 此外,为了弥合训练-评估领域的差距,我们提出了一个 相对的运动因子 ,使PVT++能够推广到具有挑战性和复杂的无人机跟踪场景中。这些精心的设计使小容量轻型PVT++成为一个广泛有效的解决方案。此外,这项工作提出了一个扩展的延迟感知评估基准,用于评估在线设置中的任意速度跟踪器。从空中角度在机器人平台上的实验结果表明,PVT++可以在各种跟踪器上获得显著的性能提高,并且比之前的解决方案具有更高的精度,在很大程度上减轻了延迟带来的退化。

🔺该思路能在uav场景提点的原因在于处理好了高帧率。对于uav场景,无人机的运动加上目标运动,会造成目标在画面中有较大的位移,有一定概率会脱离sot tracker的search范围,提高帧率可以避免该情况。然而相机的旋转等运动也会让目标在画面中有较大的形变,仅仅依靠卡尔曼滤波来做propagation是不具有准确框的回归预测能力的。这篇工作中加入了视觉特征弥补了这一点。

2、方法

在这里插入图片描述
在这里插入图片描述
作者提出了一个predictor网络,与SOT tracker一起结合,实现real-time的跟随。
perdictor网络利用历史帧的图像视觉信息和运动预测信息(速度,编码方式文中做了些巧妙的编码处理)为输入,结合帧间间隔,预测在中间帧的box。
predictor网络结构如下图所示,由于feature encoder部分可以共用之前的结构,predictor网络的计算量不大,这也使得其推理速度得到保证。
在这里插入图片描述


二、Tracking by 3D Model Estimation of Unknown Objects in Videos

paper:
https://openaccess.thecvf.com/content/ICCV2023/papers/Rozumnyi_Tracking_by_3D_Model_Estimation_of_Unknown_Objects_in_Videos_ICCV_2023_paper.pdf

1、摘要

大多数无模型的视觉目标跟踪方法将跟踪任务表述为由每个视频帧中的mask或者box的iou matching。我们认为这种表示是有限的,而是建议用一个显式的物体表示来指导和改进二维跟踪,即在每个视频帧中的纹理三维形状和6自由度姿态。我们的表示解决了一个复杂的长期密集的所有三维点之间的对应问题,包括一些点是不可见的帧。为了实现这一点,估计是通过重新渲染输入的视频帧以及可能通过可微渲染来驱动的,这是以前没有用于跟踪的。提出的优化最小化一个新的损失函数,以估计最佳三维形状,纹理和6自由度姿态。我们改进了最先进的二维分割跟踪在三个不同的数据集与大多数刚性对象。

2、方法

在这里插入图片描述
所提出的方法处理一系列的图像和粗糙的mask,估计三维物体的形状、纹理和6个自由度姿态。类似于训练一个GAN的生成网络。在inference的使用通过原始图像和mask信息来渲染目标,目的利用目标渲染的方式去除mask的错误分割(如下图所示),获得精确的跟踪结果。
在这里插入图片描述

三、TrackFlow: Multi-Object tracking with Normalizing Flows

paper:
https://openaccess.thecvf.com/content/ICCV2023/papers/Mancusi_TrackFlow_Multi-Object_tracking_with_Normalizing_Flows_ICCV_2023_paper.pdf

1、摘要

多目标跟踪领域最近出现了人们对Tracking-by-detection模式重新产生的兴趣,因为它的简单性和强大的先验使它免于像Tracking-by-attention方法一样需要复杂的设计和细致的设定。鉴于这一点,我们的目标是将通过检测的跟踪扩展到多模态设置,其中必须从异构信息中计算出综合成本,如二维运动线索、视觉外观和姿态估计。更准确地说,我们遵循一个案例研究,其中对3D信息的粗略估计也是可用的,并且必须与其他传统指标(例如,IoU)合并。为了实现这一点,最近的方法诉诸于简单的规则或复杂的启发式方法来平衡每个成本的贡献。然而 i)它们需要仔细调整dataset上的超参数,并且 ii)它们暗示这些成本是独立的,而这在现实中并不成立。我们通过建立一个优雅的概率公式来解决这些问题,该公式将候选关联的代价视为由深度密度估计器产生的负对数似然,通过训练来建模正确关联的条件联合概率分布。我们在模拟和真实基准上进行的实验表明,我们的方法持续地提高了几Tracking-by-detection算法的性能。

2、方法

文中主要分为两部分。
1、提出了一个单目标深度估计网络来估计深度
在这里插入图片描述
网络从一个短视频剪辑中预测每个物体的距离。文中额外提供了每个边界框的中心作为一个额外的输入通道。在几个卷积块独立处理每一帧之后: i)设计了一个时间模块来提取时间模式;ii)激活地图经历FPN分支,以保留局部细节。最后,来自不同层的特征映射被堆叠并传递到RoI池化层。后者产生每个行人的向量表示,我们最后用它来预测行人的期望距离µ和不确定性σ2。

2、计算匹配距离
简单来说,本文通过位置、框的大小和深度联合计算了一种匹配距离,如下式。
在这里插入图片描述
之后通过匈牙利匹配找到最优解。


四、A Fast Unified System for 3D Object Detection and Tracking

paper:
https://openaccess.thecvf.com/content/ICCV2023/papers/Heitzinger_A_Fast_Unified_System_for_3D_Object_Detection_and_Tracking_ICCV_2023_paper.pdf
github: https://github.com/theitzin/FUS3D

1、摘要

我们提出了FUS3D,一个快速和轻量级的系统,用于实时三维目标检测和跟踪边缘设备。我们的方法无缝地将三维目标检测和多目标跟踪的阶段集成到一个单一的、端到端可训练的模型中。FUS3D是专门为室内3D人类行为分析,目标应用于环境辅助生活(AAL)或监测。该系统进行了优化,从而使潜在的敏感数据可以在传感器内处理。此外,我们的系统完全依赖于较少的隐私侵入性的三维深度成像模式,从而进一步突出了我们的方法在敏感领域的应用潜力。当FUS3D在联合检测和跟踪配置中使用时,取得了最好的结果。然而,如果需要,所提出的检测阶段可以作为一个快速独立的目标检测模型。我们在MIPT数据集上对FUS3D进行了广泛的评估,并展示了它在3D对象检测、多目标跟踪和最重要的运行时方面优于现有的最先进方法的性能。

2、方法

在这里插入图片描述
FUS3D基本结构和步骤如下:
1、输入帧预处理,有点像是通过相机的内外参和预估深度将图片中的特征投影到三维空间中
2、2D CNN主干,将特征重组为3D表示和输出初步的基于单帧的三维边界框、摄像机姿态的估计以及联合了上下文信息的特征(文中指用于后续匹配预测的补充信息)。
3、跟随,将历史的track query和当前帧的obj query进行信息融合,用融合后的特征预测匹配结果,类似Trackformer。
4、输出结果。

本文基于轻量化网络可以在嵌入式设备中跑出较快的速度。


五、MixCycle: Mixup Assisted Semi-Supervised 3D Single Object Tracking with Cycle Consistency

paper: https://openaccess.thecvf.com/content/ICCV2023/papers/Wu_MixCycle_Mixup_Assisted_Semi-Supervised_3D_Single_Object_Tracking_with_Cycle_ICCV_2023_paper.pdf
github: https://github.com/Mumuqiao/MixCycle

1、摘要

三维单目标跟踪(SOT)是自动驾驶中不可缺少的组成部分。现有的方法严重依赖于大型的、密集标记的数据集。然而,注释点云既昂贵又耗时。受到在无监督的2D SOT中循环跟踪的巨大成功的启发,我们引入了第一种半监督的3D SOT方法。具体来说,我们引入了两种周期一致性的监督策略: 1)自我跟踪周期,利用标签帮助模型在训练的早期阶段更好地收敛;2)前后向循环,增强了跟踪器对运动变化和模板更新策略引起的模板噪声的鲁棒性。此外,我们提出了一种名为SOTMixup的数据增强策略,以提高跟踪器对点云多样性的鲁棒性。SOTMixup通过以混合速率在两点云中采样点生成训练样本,并根据混合速率为训练分配合理的损失权重。由此产生的混合循环方法可以推广到基于外观匹配的跟踪器。在KITTI基准上,基于P2B跟踪器[16],使用10%标签训练的MixCycle优于使用100%标签训练的P2B,当使用1%标签时,精度提高了28.4%。

2、方法

在这里插入图片描述
简单来说,这是一个比较经典的自监督方法,用tracking的方式预测一个clip的每一个目标,再反向预测回来,最后用反向预测回来的框和GT算loss(即文中的Forward-backward tracking cycle)。
此外,文中还通过一些随机刚性变换(Trans.)来生成伪标签,用于监督中间过程。


六、Foreground-Background Distribution Modeling Transformer for Visual Object Tracking

paper: https://openaccess.thecvf.com/content/ICCV2023/papers/Yang_Foreground-Background_Distribution_Modeling_Transformer_for_Visual_Object_Tracking_ICCV_2023_paper.pdf

1、摘要

视觉目标跟踪是一个具有广泛应用前景的基础研究课题。由于Transformer的快速发展,Transformer tracker取得了很大的进步。然而,这些基于Transformer的跟踪器的特征学习很容易受到复杂背景的干扰。为了解决上述局限性,我们提出了一种用于视觉目标跟踪的前景-背景分布建模Transformer网络(FBDMTrack),包括一个前背景代理学习(FBAL)模块和一个分布感知注意(DA2)模块。提出的F-BDMTrack有几个优点。首先,所提出的FBAL模块可以通过设计的前背景代理有效地挖掘前背景信息。其次,DA2模块可以通过建模前背景分布相似性来抑制前景和背景之间的错误交互。最后,F-BDMTrack可以在不断变化的跟踪场景下提取鉴别特征,以实现更准确的目标状态估计。大量的实验表明,我们的F-BDMTrack在8个跟踪基准上优于之前最先进的跟踪器。
在这里插入图片描述
🔺核心思想是通过分布感知让目标与自己更像,与周边其他目标更具有差异性。

2、方法

在这里插入图片描述
F-BDMTrack的架构由L个堆叠的前背景分布建模transformer模块组成,其中每个块都有两个关键组件,包括前背景代理学习(FBAL)模块和分布感知注意(DA2)模块。
1、FBAL模块
用于为temple和search生成一个高注意力的相应位置。通过计算相似性生成pseudo box,并用该box为权重增强前景的信息。在训练过程中,文中使用搜索区域的真相bbox bx来监督更准确的pseudo bbox生成。
2、DA2模块
通过对前-背景分布进行建模来进行特征聚合(其被作为query和key,而不是外观特性。)。从第1个transformer模块的输出被表示为[Hl z;Hl x]。最后,我们从最后一个块中重塑搜索区域标记特征HL x,并将它们发送到一个盒预测头中,以估计目标状态。


七、Tracking Anything with Decoupled Video Segmentation

paper: https://openaccess.thecvf.com/content/ICCV2023/papers/Cheng_Tracking_Anything_with_Decoupled_Video_Segmentation_ICCV_2023_paper.pdf
github: hkchengrex.github.io/Tracking-Anything-with-DEVA

1、摘要

用于视频分割的训练数据的注释成本很高。这阻碍了将端到端算法扩展到新的视频分割任务,特别是在大词汇量设置中。为了在不对每个单独任务的视频数据进行训练的情况下“跟踪任何东西”,我们开发了一种解耦视频分割方法(DEVA),由具有特定任务的图像级分割和类/任务无关的双向时间传播组成。由于这种设计,我们只需要一个针对目标任务的图像级模型(训练成本更低)和一个通用的时间传播模型,该模型只需要训练一次并跨任务进行推广。为了有效地结合这两个模块,我们使用双向传播对来自不同帧的分割假设进行(半)在线融合,以生成一个一致的分割。结果表明,在一些数据稀缺的任务中,大词汇量视频全景分割、开放世界视频分割、参考视频分割等方法都优于无监督视频对象分割。

2、方法在这里插入图片描述

在这里插入图片描述
简单来说,就是算相邻帧的iou,并计算iou的总和为支持度。如果一个instance mask的支持度越高,就越可能被关联。


八、ReST: A Reconfigurable Spatial-Temporal Graph Model for Multi-Camera Multi-Object Tracking

paper: https://openaccess.thecvf.com/content/ICCV2023/papers/Cheng_ReST_A_Reconfigurable_Spatial-Temporal_Graph_Model_for_Multi-Camera_Multi-Object_Tracking_ICCV_2023_paper.pdf
github: https://github.com/chengche6230/ReST

1、摘要

多摄像机多对象跟踪(MC-MOT)利用来自多个视图的信息来更好地处理遮挡和拥挤场景的问题。近年来,利用基于图的方法来解决跟踪问题已经变得非常流行。然而,目前许多基于图形的方法并没有有效地利用有关时空一致性的信息。相反,他们依赖于单摄像头跟踪器作为输入,这很容易出现碎片化和ID开关错误。在本文中,我们提出了一种新的可重构图模型,该模型首先将所有检测到的物体进行空间关联,然后将其重新配置为时间关联的时间图。这种两阶段的关联方法使我们能够提取鲁棒的空间和时间感知特征,并解决碎片化轨迹的问题。此外,我们的模型是为在线跟踪而设计的,使其适合于真实世界的应用程序。
在这里插入图片描述

2、方法在这里插入图片描述

提出的ReST框架。
(a)推理体系结构:给定来自t时刻所有视图的输入检测,执行空间关联,然后进行图重构和时间关联。
(b)图模型学习:GS和GT都按照以下步骤进行训练:初始化、消息传递网络和边缘分类。
©后处理模块:通过修剪和分割两种方案输出一个细化的图(卡阈值,利用一些空间信息做策略)。
(d)图重新配置:从GT t−1和GS t中聚合图节点,并重新配置一个新的时间图GT t。


九、Heterogeneous Diversity Driven Active Learning for Multi-Object Tracking

paper: https://openaccess.thecvf.com/content/ICCV2023/papers/Li_Heterogeneous_Diversity_Driven_Active_Learning_for_Multi-Object_Tracking_ICCV_2023_paper.pdf

1、摘要

现有的单级多目标跟踪(MOT)算法,利用大量的标记数据,取得了令人满意的性能。然而,在实际应用中,获取label时间长费力。为了降低人工注释的成本,我们提出了异构多样性驱动的主动多对象跟踪(HD-AMOT),通过观察样本的异构线索来推断任何MOT跟踪器的信息最丰富的帧。HD-AMOT通过对几何信息和语义信息进行编码来定义多样化的信息表示,并将框架推理策略制定为一个马尔可夫决策过程,基于所设计的信息表示来学习最优抽样策略。具体来说,HD-AMOT由一个多样化的信息表示模块和一个信息帧选择网络组成。前者产生表征帧分集和分布的信号,后者接收信号并进行多帧合作,使批帧采样。
在这里插入图片描述
🔺作者认为无监督学习不能均匀采样,因为不同帧的信息不同(如上述例子)。文中的方法有利于选出高信息帧。

2、方法

在这里插入图片描述
在HD-AMOT方法中执行多次迭代,直到获得标记帧的预算B(采样频率)。在第t次迭代中,步骤如下:
(I) 采用单级MOT跟踪器ft获取各帧上的语义特征Ff和几何信息Gh、Gb等异构线索;
(II)估计设置级差异和帧级多样性,并构建MDP状态-动作对(st,at);
(Ⅲ)进行基于(st、at)的多帧合作;
(Ⅳ) IFSN在多帧合作的协助下,推断出N个需要进行高分标注的未标记帧。同时,通过将新标注的帧从XL t替换到XU t,XL t更新为XU t+1,XL t+1。
(V) 跟踪器ft在XL t+1上重新训练,以获得更新的ft+1。
(Ⅵ)基于XR计算基于ft和ft+1的奖励rt+1,以更新IFSN的参数(在训练数据集中一个奖励集,在这个奖励集合上inference,用实际的MOTA和IDF1来做奖励)。


十、Humans in 4D: Reconstructing and Tracking Humans with Transformers

paper: https://openaccess.thecvf.com/content/ICCV2023/papers/Goel_Humans_in_4D_Reconstructing_and_Tracking_Humans_with_Transformers_ICCV_2023_paper.pdf
github: https://shubham-goel.github.io/4dhumans/

1、摘要

我们提出了一种重建人类并随时间跟踪它们的方法。在我们方法的核心,我们提出了一个完全“transformer”版本的人类网格恢复网络。这个网络,HMR 2.0,进步了最先进的技术水平,并展示了分析过去难以从单一图像中重建的不寻常姿态的能力。为了分析视频,我们使用HMR 2.0的3D重建作为输入到3D操作的跟踪系统的输入。这使我们能够处理多人,并通过遮挡事件来保持身份。我们完整的方法,4DHumans,在单摄像头跟踪(类别为人)中实现了最先进的结果。此外,我们还展示了HMR 2.0在动作识别的下游任务上的有效性,与以往的基于姿态的动作识别方法相比,它取得了显著的改进。
在这里插入图片描述

2、方法

在这里插入图片描述
在这里插入图片描述
文中思想是通过pose网络预测物体在3D上的外观、位置和姿态,用这些信息做关联。


十一、Realistic Full-Body Tracking from Sparse Observations via Joint-Level Modeling

paper: https://openaccess.thecvf.com/content/ICCV2023/papers/Zheng_Realistic_Full-Body_Tracking_from_Sparse_Observations_via_Joint-Level_Modeling_ICCV_2023_paper.pdf
github: https://zxz267.github.io/AvatarJLM

1、摘要

为了为快速开发的VR/AR应用程序连接物理世界和虚拟世界,现实地驱动3D全身化身的能力具有重要意义。虽然仅使用头戴式显示器(hmd)和手控制器的实时身体跟踪约束严重不足,但精心设计的端到端神经网络通过大规模运动数据学习具有解决这个问题的巨大潜力。为此,我们提出了一个两阶段的框架,它可以仅通过头部和手的三个跟踪信号来获得准确和平滑的全身运动。我们的框架在第一阶段明确地建模了联合级特征,并利用它们作为交替时空转换块的时空标记,以捕获第二阶段的联合级相关性。此外,我们设计了一组损失项来约束高自由度的任务,这样我们就可以利用我们的联合级建模的潜力。通过对累积运动数据集和真实捕获数据的大量实验,我们验证了我们设计的有效性,并表明与现有的方法相比,我们提出的方法可以实现更准确和平滑的运动。
在这里插入图片描述

2、方法

在这里插入图片描述
该方法分为两个阶段。
在第一阶段,我们将一系列稀疏信号(head和heand的跟随观测)嵌入到高维输入特征中。然后,我们利用一个MLP从这些特征中获得初始的全身姿态。然后,我们结合初始全身姿态和稀疏输入信号,生成初始关节级特征。
在第二阶段,我们将初始的联合级特征转换为联合级标记,然后将这些标记输入Transformer网络中,以交替捕获空间和时间维度上的联合级依赖关系。在每个空间transformer块中,我们补充了一个由高维输入特征生成的附加嵌入式输入特征令牌。最后,我们使用SMPL回归器将时空建模的关节级特征转换为三维全身姿态序列。


十二、PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point Tracking

paper: https://openaccess.thecvf.com/content/ICCV2023/papers/Zheng_PointOdyssey_A_Large-Scale_Synthetic_Dataset_for_Long-Term_Point_Tracking_ICCV_2023_paper.pdf
github: https://pointodyssey.com

1、摘要

我们介绍了PointOdyssey,一个大规模的合成数据集和数据生成框架,用于训练和评估长期的细粒度跟踪算法。我们的目标是通过目标自然运动的长视频来推进最先进的技术的发展。为了实现自然主义的目标,我们使用真实世界的动作捕捉数据对可变形角色进行动画,我们构建3D场景来匹配动作捕捉环境,我们使用真实视频中通过结构挖掘的轨迹来渲染摄像机视点。我们通过随机化角色外观、运动轮廓、材料、照明、3D资产和大气效果来创建组合多样性。我们的数据集目前包括104个视频,平均2000帧长,比之前的工作多几个数量级。我们展示了现有的方法可以在我们的数据集中从头开始训练,并且优于已发布的变体。最后,我们对pip点跟踪方法进行了修改,极大地扩大了其时间接受域,提高了其在PointOdyssey和两个真实基准测试上的性能。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

十三、MeMOTR: Long-Term Memory-Augmented Transformer for Multi-Object Tracking

paper: https://openaccess.thecvf.com/content/ICCV2023/papers/Gao_MeMOTR_Long-Term_Memory-Augmented_Transformer_for_Multi-Object_Tracking_ICCV_2023_paper.pdf
github: https://github.com/MCG-NJU/MeMOTR

1、摘要

多目标跟踪(MOT)作为一种视频任务,有望有效地捕获目标的时间信息。不幸的是,大多数现有的方法只显式地利用相邻帧之间的对象特征,而缺乏建模长期时间信息的能力。在本文中,我们提出了一种用于多目标跟踪的长期记忆增强变压器MeMOTR。我们的方法能够利用定制的记忆注意层,使同一对象的轨迹嵌入更加稳定和可区分。这显著提高了我们的模型的目标关联能力。在舞蹈跟踪技术上的实验结果表明,MeMOTR在HOTA和AssA指标上分别比目前最先进的方法多出了7.9%和13.0%。

2、方法

在这里插入图片描述
像大多数基于detr的方法一样,我们利用一个ResNet-50主干和一个Transformer编码器来学习输入图像的二维表示。我们使用不同的颜色来表示不同的跟踪目标,可学习的检测查询Qdet用灰色表示。然后检测解码器Ddet对检测查询进行处理,生成检测嵌入E t det,与之前帧的轨迹嵌入E t tck一致。长期记忆被记为Mt tck。蓝色虚线箭头中的初始化过程将应用于新生对象。
🔺相比于MOTR,这篇文章新增了一个Temporal Interaction Module,用于增强时序信息的使用。
在这里插入图片描述
设计思路是用了线性相加,将历史特征保存在Mt tck中,此外Temporal Intraction Module结合历史特征Mt加强了当前的Ot特征预测,输出最终的track预测Et。


十四、Robust Object Modeling for Visual Tracking

paper: https://openaccess.thecvf.com/content/ICCV2023/papers/Cai_Robust_Object_Modeling_for_Visual_Tracking_ICCV_2023_paper.pdf

1、摘要

对象建模已经成为最近跟踪框架的核心组成部分。目前流行的跟踪器使用Transformer的注意力机制来单独或与搜索区域交互地提取模板特征。然而,单独的模板学习缺乏模板与搜索区域之间的通信,这使得人们难以提取可区分的面向目标的特征。另一方面,交互式模板学习产生了混合的模板特征,这可能会通过杂乱的搜索区域引入潜在的干扰物到模板中。为了享受这两种方法的优点,我们提出了一个鲁棒的视觉跟踪对象建模框架(ROMTrack),它同时对固有模板和混合模板特征进行建模。因此,通过结合目标对象的固有特征和搜索区域的引导,可以抑制有害的干扰物。还可以使用混合模板提取与目标相关的特征,从而得到一个更健壮的对象建模框架。为了进一步增强鲁棒性,我们提出了新的变异标记来描述目标对象不断变化的外观。变异标记适用于物体变形和外观变化,可以提高整体性能,可忽略计算。实验表明,我们的ROMTrack在多个基准测试上设置了一种新的最先进的技术。
在这里插入图片描述

2、方法

在这里插入图片描述
ROMTrack框架的概述。模板和搜索区域的图像被分割成补丁,然后线性投影、连接,并输入到堆叠的编码器层中,以进行鲁棒的对象建模。it、ht和sr分别表示固有模板、混合模板和搜索区域。对象编码器层的体系结构。vt表示变异标记。
变异标记vt来自于上一帧的ht。
在这里插入图片描述


十五、Delving into Motion-Aware Matching for Monocular 3D Object Tracking

paper: https://openaccess.thecvf.com/content/ICCV2023/papers/Huang_Delving_into_Motion-Aware_Matching_for_Monocular_3D_Object_Tracking_ICCV_2023_paper.pdf
github: https://github.com/kuanchihhuang/MoMA-M3T

1、摘要

单目三维目标检测的最新进展有助于实现基于低成本摄像机传感器的三维多目标跟踪任务。在本文中,我们发现物体沿不同时间框架的运动线索在三维多目标跟踪中是至关重要的,而这在现有的单眼跟踪方法中研究较少。为此,我们提出了MoMA-M3T,一个主要由三个运动感知组件组成的框架。首先,我们将特征空间中与所有物体轨迹相关的物体的可能运动表示为它的运动特征。然后,我们通过运动Transformer网络从时空视角下沿时间框架进一步建模历史对象轨迹。最后,我们提出了一个运动感知匹配模块,将历史对象轨迹和当前观测结果作为最终的跟踪结果。我们在nuScenes和KITTI数据集上进行了广泛的实验,以证明我们的MoMA-M3T实现了与最先进的方法更有竞争力的性能。
在这里插入图片描述

2、方法

在这里插入图片描述
该网络分为以下几步。
1、在每个时间戳中,利用一个单目3D对象检测器来生成3D边界盒候选对象B。
2、我们取轨迹的最新3D位置{pl},为每个轨迹检测对生成所有可能的运动,然后用运动编码器提取轨迹条件下的运动特征{f}。简单说就是用一定形式表征位置信息,用MLP网络编码当前帧和先前帧的位置信息来生成f。
3、应用运动Transformer模块从不同时间戳的时间和空间上聚合运动线索F,得到每个被跟踪对象的运动特征˜F。
4、采用运动感知匹配策略将学习到的运动特征与轨迹与检测关联。即使用一个MLP层来预测一个两两匹配的分数,作为检测的运动特征和轨迹的运动特征之间的差异。
在这里插入图片描述


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/117299.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

java EE 进阶

java EE 主要是学框架(框架的使用,框架的原理) 框架可以说是实现了部分功能的半成品,还没装修的毛坯房,然后我们再自己打造成自己喜欢的成品 这里学习四个框架 : Spring ,Spring Boot, Spring MVC, Mybatis JavaEE 一定要多练习,才能学好 Maven 目前我们主要用的两个功能: …

图像新型拼接

道路摄像头拼接 拼接道路上的摄像头,比较麻烦,如图所示 前后的摄像头都是如此,那么如何拼接摄像头画面呢,像下面这样拼接 测试代码 测试一下代码,使用python import cv2 import numpy as npimg cv2.imread("…

antv/g6之交互模式mode

什么是mode 在 AntV G6 中,“mode” 是用于配置图表交互模式的一种属性。通过设置 “mode”,可以控制图表的行为,以满足不同的交互需求。可能在不同的场景需要展现的交互行为不一样。比如查看模式下点击一个点就选中的状态,在编辑…

数据可视化:折线图

1.初看效果 (1)效果一 (2)数据来源 2.JSON数据格式 其实JSON数据在JAVA后期的学习过程中我已经是很了解了,基本上后端服务器和前端交互数据大多是采用JSON字符串的形式 (1)JSON的作用 &#…

本地idea远程调试服务器程序

本文主要介绍idea本地调试远程服务器程序的方式。相信很多同行跟我一样,在最初接触公司项目的时候,遇到测试提出的缺陷,往往会在本地进行调试、替换jar包远程调试等方式,本地调试往往会导致数据和环境不一致的问题使得问题无法复现…

没想到这么齐全!这份 Python 实战干货yyds

今天我分享一些Python学习神器资料,有需要的小伙文末自行免费领取。 1.200Python练手案例: 2.Python全套视频教程等: 3.浙大Python学习套装: * 4.Python实战案例: 5.Pandas学习大礼包 6.学习手册大礼包 Python知识…

CSAPP BOMB LAB part3

CSAPP BOMB LAB part3 phase_4 bomb.s phase_4的代码: 格式: 40102e行,比较0x8rsp的值和0xe, 需要让0x8rsp小于0xe, 然后跳转到40103a, func函数根据bomb.s 转化为c代码: 这个直接参考了知乎网友的翻译, func4的返回值等于0, 跳转到40…

分治法——找众数

分治法——找众数 要求: 寻找整数数组的众数,如果存在多个众数,则返回权值最小的那个 第一步: 要利用分治法找众数,首先就先要使数组有序。这里,我们用C语言库中的qsort进行快排: qsort(nums…

3D高斯泼溅(Splatting)简明教程

在线工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 3D场景编辑器 3D 高斯泼溅(Splatting)是用于实时辐射场渲染的 3D 高斯分布描述的一种光栅化技术,它允许实时渲染从小图像样…

直流无刷电机(BLDC)六步换相驱动

直流无刷电机(BLDC)六步换相驱动 文章目录 直流无刷电机(BLDC)六步换相驱动1. 前言2. 六步换相原理3. 电角度与机械角度4. 动手实践4.1 霍尔输出表测量4.2 换向控制4.3 代码编写 5. 总结 1. 前言 直流无刷电机相对直流有刷电机具…

Redis之Java操作Redis的使用

🎉🎉欢迎来到我的CSDN主页!🎉🎉 🏅我是君易--鑨,一个在CSDN分享笔记的博主。📚📚 🌟推荐给大家我的博客专栏《Redis实战开发》。🎯🎯 …

Android java Handler sendMessage使用Parcelable传递实例化对象,我这里传递Bitmap 图片数据

一、Bundle给我们提供了一个putParcelable(key,value)的方法。专门用于传递实例化对象。 二、我这里传递Bitmap 图片数据,实际使用可以成功传统图像数据。 发送:Bundle bundle new Bundle();bundle.putParcelable("bitmap",bitmap);msg.setD…

【GitLab CI/CD、SpringBoot、Docker】GitLab CI/CD 部署SpringBoot应用,部署方式Docker

介绍 本文件主要介绍如何将SpringBoot应用使用Docker方式部署,并用Gitlab CI/CD进行构建和部署。 环境准备 已安装Gitlab仓库已安装Gitlab Runner,并已注册到Gitlab和已实现基础的CI/CD使用创建Docker Hub仓库,教程中使用的是阿里云的Docker…

【漏洞复现】Apache_Tomcat7+ 弱口令 后台getshell漏洞

感谢互联网提供分享知识与智慧,在法治的社会里,请遵守有关法律法规 文章目录 1.1、漏洞描述1.2、漏洞等级1.3、影响版本1.4、漏洞复现1、基础环境2、漏洞扫描3、漏洞验证 说明内容漏洞编号漏洞名称Tomcat7 弱口令 && 后台getshell漏洞漏洞评级高…

【Java】Beanshell下通过java操作Excel(xlsx格式)文件读写

一、概述 在项目开发中往往需要使用到Excel的导入和导出,导入就是从Excel中导入到DB中,而导出就是从DB中查询数据然后使用POI写到Excel上。 操作Excel目前比较流行的就是Apache POI和阿里巴巴的easyExcel ! Excel文件处理的主流技术包括: Apache POI 、 JXL 、 Alibaba Ea…

机器学习---SVM目标函数求解,SMO算法

1. 线性可分支持向量机 1.1 定义输入数据 假设给定⼀个特征空间上的训练集为: 其中,(x , y )称为样本点。 x 为第i个实例(样本)。 y 为x 的标记: 当y 1时,x 为正例;当y −1时,x…

16. 机器学习 - 决策树

Hi,你好。我是茶桁。 在上一节课讲SVM之后,再给大家将一个新的分类模型「决策树」。我们直接开始正题。 决策树 我们从一个例子开始,来看下面这张图: 假设我们的x1 ~ x4是特征,y是最终的决定,打比方说是…

合肥中科深谷嵌入式项目实战——人工智能与机械臂(六)

订阅:新手可以订阅我的其他专栏。免费阶段订阅量1000 python项目实战 Python编程基础教程系列(零基础小白搬砖逆袭) 说明:本专栏持续更新中,订阅本专栏前必读关于专栏〖Python网络爬虫实战〗转为付费专栏的订阅说明作者&#xff1…

Python最强自动化神器Playwright!再也不用为爬虫逆向担忧了!

版权说明:本文禁止抄袭、转载,侵权必究! 目录 一、简介+使用场景二、环境部署(准备)三、代码生成器(优势)四、元素定位器(核心)五、追踪查看器(辅助)六、权限控制与认证(高级)七、其他重要功能(进阶)八、作者Info一、简介+使用场景 Playwright是什么?来自Chat…

0001Java安卓程序设计-基于Android多餐厅点餐桌号后厨前台服务设计与开发

文章目录 **摘** **要****目** **录**系统设计开发环境 编程技术交流、源码分享、模板分享、网课教程 🐧裙:776871563 摘 要 移动互联网时代的到来,给人们的生活带来了许多便捷和乐趣。随着用户的不断增多,其规模越来越大&#…