Towards Frame Rate Agnostic Multi-object Tracking—迈向帧率无关的多目标跟踪

Towards Frame Rate Agnostic Multi-object Tracking—迈向帧率无关的多目标跟踪

发表在IJCV 2023年
作者:Weitao Feng, Lei Bai, Yongqiang Yao, Fengwei Yu & Wanli Ouyang
研究目标:多目标跟踪的帧率无关性研究

IJCV 在计算机视觉领域的影响力非常大,其 影响因子(Impact Factor)通常较高,是很多计算机视觉研究人员和学者首选的期刊之一。期刊的影响因子在学术界反映了它的引用和学术影响力,通常是 A 类期刊。(和CVPR相当了

在这里插入图片描述

这里是杭电的一个刚认识的朋友推荐的,学习的目标是结合论文理论了解一下复杂的关联场景是如何建立的。

背景知识—帧率与多目标跟踪的关系

帧率反映了图像序列中图像更新的速度或频率,影响目标跟踪系统对运动目标的感知和跟踪能力。

  1. 帧率高:在高帧率场景中,每秒钟捕获更多的图像帧,相邻的帧之间差距小,运动信息更加细腻和连续,跟踪系统能够更精确地捕捉到目标在空间和时间上的变化。

在高帧率场景下,运动线索更加可靠,但可能会面临计算量过大的问题。

  1. 帧率低:在低帧率场景中,视频每秒钟的帧数较少,相邻帧之间的时间间隔较长。此时,目标的运动可能在帧与帧之间跨越较大的距离,运动信息会变得不那么连续或容易丢失。此时,外观线索(如目标的颜色、形状、纹理等)变得更加重要,因为外观特征相对稳定,可以帮助跟踪系统弥补运动信息的不足。

低帧率下:虽然外观线索较为稳定,但缺乏运动线索时,目标跟踪可能会因为 目标外观变化或快速运动而出现跟踪丢失的情况。

  1. 多目标跟踪 (MOT) 领域的研究大多假设输入的视频流具有固定的采样帧率,即视频中每秒钟的图像帧数保持不变,系统在设计和实现时大多是基于这一假设进行优化的。这种假设虽然在传统的视频和图像处理任务中是常见的,但随着多种帧率场景(如动态视频流、不同帧率的视频源等)逐渐成为现实,现有的 MOT 方法可能无法很好地应对帧率变化带来的挑战。

摘要整理与总结

  1. 目前的MOT研究仍然局限于输入流的固定采样帧率。 根据经验当输入帧速率发生变化时,所有最新最先进的跟踪器的准确性都会急剧下降。

  2. 本文的研究工作主要是:将注意力转向帧率不可知 MOT (FraMOT) 问题上去了。在本文中,我们提出了一种具有定期训练方案(FAPS:具有周期性训练方案的帧率无关多目标跟踪框架(FAPS))的帧率不可知 MOT 框架,以首次解决 FraMOT 问题。

    • 提出了一个帧速率不可知关联模块(FAAM老师推荐重点学习的部分,它可以推断和编码帧速率信息,以帮助跨多帧速率输入进行身份匹配,从而提高学习模型在 FraMOT 中处理复杂运动外观关系的能力。

    • 提出定期训练方案,通过跟踪模式匹配和融合来反映训练中的所有后处理步骤

  3. 尝试在已知帧率未知帧率两种不同模式下解决新的挑战,旨在处理更复杂的情况。

在MOT17/20 dataset (FraMOT version) 版本上进行实验验证的。

介绍与相关工作

多目标跟踪算法仍然存在不完善的地方主要因为:处理具有固定帧速率的视频。 现在先进的追踪器帧率的变化表现的是很不稳定的。

在这里插入图片描述

图 1 最近最先进的跟踪器在多帧速率设置下的性能。 当帧速率降低时,MOTA 和 HOTA 分数都会急剧下降。 与以前的方法相比,我们提出的方法具有更好的处理帧速率变化的能力。

跟踪器对帧率的信息相当的敏感了,那么我们该如何去解决这一个问题呢?

尽管为每个帧速率训练和部署单独的跟踪器是可行的,但这种简单的解决方案既不方便也不高效,因为对于大型系统来说,为每个应用程序和帧速率开发、选择和部署最佳跟踪器既费力又昂贵。

引出了研究的问题:因此有必要提出能够像人类一样理解不同帧速率视频的跟踪器。 这些跟踪器应该是通用的、统一的并且与帧速率无关。

  1. 直接的方式是在具有多种不同帧率的数据集上训练经典设计的模型(即帧率不可知训练)。 然而,由于以下两个挑战,这种普通设计效果不佳。
  • 首先,运动-外观关系的最佳匹配规则在不同的输入帧速率下是不同的。

空间距离较大,具有相似外观的两个检测在较高帧速率视频中可能不太可能被判断为同一对象,但在较低帧速率视频中更有可能被判断为同一对象。

  1. 其次,传统帧对关联训练方案中涉及多帧率数据导致训练和推理之间存在较大差距。

训练阶段未包含但在推理阶段应用的后处理步骤将改变检测到的对象位置,导致训练阶段关联网络的输入数据与推理阶段不同。这些变化在正常(更高)帧率下较小,因此在传统的训练方案中可以忽略不计。然而,在低帧率下这些变化被放大,并且在多帧率训练中不可忽视。

  1. 提出了一个带有周期性训练方案(FAPS)的帧率无关MOT框架,它主要包含了两种技术来进行实现的。
  • 对于第一个挑战,提出了一个统一的帧速率不可知关联模块(FAAM)来处理各种帧速率设置。

对于测试期间确切帧率未知的情况,我们提出使用帧间最佳匹配距离向量(IBDV)来推断帧率信息

  • 设计了一个周期性训练方案(PTS),通过跟踪模式匹配和融合来增强帧率无关训练。在开始训练之前,我们通过在包含所有后处理步骤的真实推理流程上运行先前的模型检查点来采样跟踪模式。跟踪模式记录了我们在训练期间模拟推理阶段环境所需的所有信息(即位置、运动预测和缓存的特征)。我们假设在短时间内,跟踪器的这些模式变化可以忽略不计,因此我们将整个训练过程划分为几个训练周期,并在周期之间只更新模式。在训练过程中,不匹配这些模式的实例将被丢弃,因为它们可能不会出现在推理时间,从而减少了帧率无关训练的难度。剩余的实例将与记录的模式融合,以减少输入方差,并转化为关联特征。通过所提出的方法,我们成功提高了跟踪器的准确性,特别是在较低帧率设置下。

文章的贡献

文章主要提出了下面的四种贡献。

  1. 我们首次提出帧速率不可知多对象跟踪(FraMOT)问题,其目标是学习一个统一的模型来跟踪帧速率不可知的视频中的对象。 与经典的MOT相比,FraMOT更加智能,对于大型视觉系统也更加实用。

  2. 我们提出了一个具有定期训练方案(FAPS)的帧速率不可知 MOT 框架,这是第一个帧速率不可知 MOT 基线,尝试使用单个统一模型有效处理各种输入帧速率,以便在工业场景中实现更稳健的 MOT 跟踪器。

  3. 我们提出了一个帧速率不可知关联模块(FAAM),利用给定或推断的帧速率线索来帮助身份匹配,从而形成更智能的跟踪器。

  4. 我们提出了一种用于帧率无关 MOT 模型训练的定期训练方案(PTS),提供推理环境的模拟,从而减少数据关联的训练与推理差距。

对于背景知识的介绍和相关工作的一些内容并不作为重点的部分,因此在这里进行省略。主要是介绍训练和评估的一些方式。

Frame Rate Agnostic MOT Frameworkwith a Periodic Training Scheme

之后介绍的内容就是论文的核心方法部分了,首先介绍的是与帧率无关的带有周期性训练的框架

确保即使在 低帧率设置下,在 训练阶段所采用的 非参数后处理步骤 也不会导致 训练和推理阶段之间的差距扩大。这样可以保证在实际应用中,无论帧率如何变化,模型在 推理阶段的表现不会逊色于在训练阶段的表现。

介绍了我们提出的带有周期性训练方案(FAPS)的帧率无关MOT框架,该框架专门设计用于解决前述目标并克服FraMOT相关的挑战。

在这里插入图片描述

概述

这里提出的与带有周期性训练(FAPS)帧率无关的关联框架,主要有一下的三个部分组成。(该框架中有三个不同的模块

  • 联合提取器模块(JEM)
  • 关联模块(AM)
  • 轨迹管理模块(TM)
  1. JEM 从原始图像生成检测结果和相应的外观特征嵌入

  2. AM 将新的检测结果与现有轨迹关联起来。

  3. TM决定所有轨迹的起始和终止,使它们更加平滑并处理它们的状态。

The core module of the proposed framework is the Asso-
ciation Module 核心还是提出的关联模块。

我们设计了一个新的帧速率不可知关联模块,具有编码帧速率信息的机制,提供处理各种帧速率的复杂运动外观关系的能力。同时,该框架使用所提出的==定期训练方案(PTS)==进行训练,该方案考虑了所有后处理步骤,提供了推理阶段环境的模拟,从而减少了训练和推理之间数据关联的差距。

在这里插入图片描述

图二说明:框架中有多个训练周期,每个周期包含两个阶段.跟踪模式生成和模块训练。(tracking patterns generation and module training.)在跟踪模式生成中,我们使用之前的 MOT 模型生成跟踪模式.然后这些跟踪模式将用于模块训练,提供有关测试环境的简要信息。 “JEM”、“AM”和“TM”分别是联合提取模块、关联模块和目标管理的缩写

训练管道遵循所提出的PTS,包含多个训练周期,每个周期包含两个阶段,即跟踪模式生成阶段和模块训练阶段

  1. 具体来说,在跟踪模式生成阶段,使用上一周期的模型进行前向传递,并生成跟踪模式。

  2. 模块训练阶段,关联模型采用JEM的输出和跟踪模式作为输入,生成关联特征,使用所提出的帧率无关关联模块(FAAM)预测关联分数,并受到相应关联真值信号的监督。

  3. 在训练期间,不是直接将输入数据传递给FAAM,我们设计了一个关联特征生成模块,通过模式匹配和融合利用生成的跟踪模式调整关联特征。然后,调整后的关联特征将通过FAAM

在这里插入图片描述

  1. FAAM网络利用帧率信息推断出帧率感知注意力,并增强关联预测。在推理过程中,将使用上一周期的模型检查点。关联模型仅将JEM的输出作为输入,不再需要跟踪模式,并且移除了模式匹配和融合步骤。推理管道与跟踪模式生成管道相同。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/936068.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

day11 性能测试(3)——Jmeter 断言+关联

【没有所谓的运气🍬,只有绝对的努力✊】 目录 1、复习 2、查看结果树 多个http请求原因分析 3、作业 4、Jmeter断言 4.1 响应断言 4.1.1 案例 4.1.2 小结 4.2 json断言 4.2.1 案例 4.2.2 小结 4.3 断言持续时间 4.3.1 案例 4.3.2 小结 4.…

高项 - 信息化发展

个人总结,仅供参考,欢迎加好友一起讨论 博文更新参考时间点:2024-11-09 高项 - 章节与知识点汇总:点击跳转 文章目录 高项 - 信息化发展信息与信息化信息信息系统信息化 现代化基础设施新型基础设施建设工业互联网车联网 现代化创…

PostgreSQL中事件触发器Event Trigger

在PostgreSQL中,事件触发器(Event Trigger)是一种特殊的触发器类型,它允许你在特定的数据库系统事件发生时执行特定的操作。与普通的触发器不同,事件触发器并不与特定的表或视图相关联,而是与数据库级别的全…

移远EC200A-CN的OPENCPU使用GO开发嵌入式程序TBOX

演示地址: http://134.175.123.194:8811 admin admin 演示视频: https://www.bilibili.com/video/BV196q2YQEDP 主要功能 WatchDog 1. 守护进程 2. OTA远程升级 TBOX 1. 数据采集、数据可视化、数据上报(内置Modbus TCP/RTU/ASCII,GPS协…

深度学习中的多通道卷积与偏置过程详解

目录 ​编辑 多通道卷积的深入理解 🔍 卷积核的多维特性 🌌 卷积操作的细节 🔧 多通道卷积的优势 🌟 偏置过程的深入理解 🎯 偏置的两种实现方式 🛠️ 偏置的作用与重要性 🌈 多通道卷…

在服务器自主选择GPU使用

比如说,程序使用第 2 张显卡(从 0 开始计数)。它的作用是告诉系统和深度学习框架(如 PyTorch 或 TensorFlow)只可见某些 GPU。 export CUDA_VISIBLE_DEVICES1 然后再查看当前使用的显卡: echo $CUDA_VIS…

Vue3+TypeScript+AntVX6实现Web组态(从技术层面与实现层面进行分析)内含实际案例教学

摘要 用Vue3+TypeScript+AntVX6实现Web组态(从技术层面与实现层面进行分析),包含画布创建、节点设计、拖拽实现(实际案例)、节点连线、交互功能,后续文章持续更新。 注:本文章可以根据目录进行导航 文档支持 AntVX6使用文档 https://x6.antv.antgroup.com/tutorial…

jmeter CLI Mode 传参实现动态设置用户数

一.需求 CLI 运行模式下每次运行想要传入不同的用户数,比如寻找瓶颈值的场景,需要运行多次设置不同的用户数。 二.解决思路 查看官方API Apache JMeter - Users Manual: Getting Started api CLI Mode 一节中提到可以使用如下参数做属性的替换&#…

SpringCloudAlibaba教程之注册中心Nacos

目录 概念 架构 设计原则 架构分层 用户层 业务层 内核层 插件 单机部署 1.下载安装包 2.安装nacos 3.启动nacos 快速开始 1.添加Maven依赖 2.添加配置 3.启动 集群部署 搭建步骤 1.搭建数据库,初始化数据库表结构 2.配置nacos 3.启动nacos集群…

Python大数据可视化:基于python的电影天堂数据可视化_django+hive

开发语言:Python框架:djangoPython版本:python3.7.7数据库:mysql 5.7数据库工具:Navicat11开发软件:PyCharm 系统展示 管理员登录 管理员功能界面 电影数据 看板展示 我的信息 摘要 电影天堂数据可视化是…

Unity屏幕截图、区域截图、读取图片、WebGL长截屏并下载到本地jpg

Unity屏幕截图、区域截图、读取图片、WebGL长截屏并下载到本地jpg 一、全屏截图并保存到StreamingAssets路径下 Texture2D screenShot;//保存截取的纹理public Image image; //显示截屏的Imagepublic void Jietu(){StartCoroutine(ScrrenCapture(new Rect(0, 0, Screen.width…

Go 语言与时间拳击理论下的结对编程:开启高效研发编程之旅

一、引言 结对编程作为一种软件开发方法,在提高代码质量、增强团队协作等方面具有显著优势。而时间拳击理论为结对编程带来了新的思考角度。本文将以 Go 语言为中心,深入探讨时间拳击理论下的结对编程。 在当今软件开发领域,高效的开发方法和…

ArcGIS MultiPatch数据转换Obj数据

文章目录 ArcGIS MultiPatch数据转换Obj数据1 效果2 技术路线2.1 Multipatch To Collada2.2 Collada To Obj3 代码实现4 附录4.1 环境4.2 一些坑ArcGIS MultiPatch数据转换Obj数据 1 效果 2 技术路线 MultiPatch --MultipatchToCollada–> Collada --Assimp–> Obj 2.…

HTML、CSS表格的斜表头样式设置title 画对角线

我里面有用到layui框架的影响&#xff0c;实际根据你自己的框架来小调下就可以 效果如下 上代码 <!DOCTYPE html> <html lang"zh"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-wi…

DMA(Direct Memory Access):直接内存访问

DMA&#xff08;Direct Memory Access&#xff09;&#xff1a;直接内存访问 一、传统CPU存取数据 CPU不直接存取外设的原因主要有两点&#xff1a; 速度差异&#xff1a;CPU的处理速度远高于外设&#xff0c;无法直接同步。格式多样性&#xff1a;外设数据格式种类繁多&…

C语言-排序

常见的排序算法分为以下四种&#xff0c;插入排序&#xff0c;选择排序&#xff0c;交换排序&#xff0c;归并排序。 一、插入排序 (一)直接插入排序 直接插入排序&#xff0c;将一段数组看做被分成已排序序列和未排序序列&#xff0c;排序过程是从未排序序列的元素开始&…

Chrome webdriver下载-避坑

WebDriver以原生的方式驱动浏览器&#xff0c;不需要调整环境变量。 一、window版 1.chrome和chromedriver下载地址&#xff1a; Chrome for Testing availability 我下载的是如下两个安装包&#xff0c;解压即可。 2.导包 pip install selenium然后用python代码引用即可…

【卷积神经网络】LeNet实践

模型建立 数据初始化根据模型搭建前向传播打印模型结构 前向传播数据初始化 def __init__(self):super(LeNet, self).__init__()# 第一层卷积层&#xff1a;# 输入&#xff1a;灰度图像 (1通道&#xff0c;大小 28x28)# 输出&#xff1a;6个特征图 (大小 28x28, 通过padding2保…

51c~Pytorch~合集2

我自己的原文哦~ https://blog.51cto.com/whaosoft/11878447 一、PyTorch与torch-xla的桥接 文章从XLATensor开始的溯源、注册PyTorch库实现、从PyTorch调用到torch_xla三个方面来介绍PyTorch与torch-xla的桥接 XLA (Accelerated Linear Algebra)是一个开源的机器学习编…

五大短视频平台变现方式

重新整理了五个短视频平台的平台特性&#xff0c;用户分析、年龄段、用户量级和各个平台的变现方式。想在这几个平台赚&#x1f4b0;的可以多看看&#xff0c;有没有适合自己的变现方式⚡ 五个短视频平台&#xff1a; 抖音、快手、哔哩哔哩、视频号、小红书