【目标跟踪】ByteTrack详解与代码细节

文章目录

  • 一、前言
  • 二、代码详解
    • 2.1、新起航迹
    • 2.2、预测
    • 2.3、匹配
    • 2.4、结果发布
    • 2.5、总结
  • 三、流程图
  • 四、部署

一、前言

论文地址:https://arxiv.org/pdf/2110.06864.pdf

git地址:https://github.com/ifzhang/ByteTrack

ByteTrack 在是在 2021 年 10 月公开发布的,在ECCV 2022中获奖。它以一种简单的设计方式击败了当时各路“魔改”跟踪器,在 MOT17 数据上首次突破了80 MOTA,并且在单张 V100 中推理速度高达 30
FPS。 我把 ByteTrack 核心思想概括为:

  1. 区分高置信度检测框与低置信度检测框,不同置信度检测框采取不同处理方式。
  2. 保留低置信度检测框,在后续可能会重新确认为 confirm 状态。而不是像传统 MOT 算法选择删除。
图片名称

ByteTrack 可以有效解决一些遮挡,且能够保持较低的 IDSwith。目标会因为被遮挡检测置信度有所降低,当重新出现时,置信度会有所升高。可以想象:

  1. 当目标逐渐被遮挡时,跟踪目标与低置信度检测目标匹配。
  2. 当目标遮挡逐渐重现时,跟踪目标与高置信度检测目标匹配。

另外,要慎重考虑并处理检测的假阳性,无目标检测出低置信度框的情况。

网上常常把DeepSort与ByteTrack进行比较,关于ByteTrack与 DeepSort,他们各有限制,我们要根据实际情况选用合适的算法。

  • ByteTrack:跟踪效果非常依赖检测的效果。如果检测器的效果好,跟踪也会取得不错的效果。
  • DeepSort:使用了外观描述符和复杂的匹配算法,可能在某些复杂场景下计算量较大,影响实时性能。

二、代码详解

要真正理解通、理解透,啃源码是必不可少的。也不是说非要看懂源码才可以跑通项目,而是看懂之后可以吹牛,也不是为了非要吹牛,至少你自己也有成就感。

废话不多说,直接来!代码详解这一节有点难度。如果一时理解不了,可以先点赞收藏,后续再慢慢啃。。。

方便理解,不按照代码顺序,按照航迹起始到消亡顺序分析。

2.1、新起航迹

只有是高(大于 high_thrash) 置信度框才可以新起航迹。区分高低置信度检测框阈值是 track_thresh = 0.5。但一般high_thresh设定的值要比 track_thresh 大。如high_thresh = 0.6。新起的航迹中 state = Tracked,只第一帧新起航迹 is_activated =True,否则is_activated = false。

	this->state = TrackState::Tracked;
	if (frame_id == 1)
	{
		this->is_activated = true;
	}
	//this->is_activated = true;
	this->frame_id = frame_id;
	this->start_frame = frame_id;

总结:当第一帧时,航迹本身为空时,只有置信度超过 high_thresh 时,才新起始航迹, 此时state = Tracked,is_activated =
true。后续只有未匹配的且置信度很高(超过high_thresh )时才新起始航迹,此时state = Tracked,is_activated = false。

2.2、预测

合并is_activated = true 与 state = Lost 航迹。合并后进行预测,预测遵循kalman滤波预测。

每个新的检测信息都会初始化一个 STrack 对象,此对象是否能新起航迹前文已经明确了。源码中的 tlbr 顺序是个坑顺序并非是top,left,bottom,right。实际上是left,top,right,bottom。刚开始我也理解错了,至今我都未明白为什么用这种顺序命名。

	if (objects.boxes.size() > 0)
	{
		for (int i = 0; i < objects.boxes.size(); i++)
		{
			std::vector<float> tlbr_;   // x1,y1,x2,y2
			tlbr_.resize(4);
			tlbr_[0] = objects.boxes[i].x;
			tlbr_[1] = objects.boxes[i].y;
			tlbr_[2] = objects.boxes[i].x + objects.boxes[i].w;
			tlbr_[3] = objects.boxes[i].y + objects.boxes[i].h;
			float score = objects.boxes[i].score;
			STrack strack(STrack::tlbr_to_tlwh(tlbr_), score);
			if (score >= track_thresh)
			{
				detections.push_back(strack);
			}
			else
			{
				detections_low.push_back(strack);
			}
			
		}
	}

tlbr_to_tlwh 会把 x1,y1,x2,y2 转化成 x1,y1,w,h。 新起航迹时,activate 函数中 tlwh_to_xyah ,会把 x1, y1, w, h 转变为 xCenter,yCenter,w / h,h。然后放进 kalman 滤波初始化,初始化其状态与协方差。

void STrack::activate(byte_kalman::KalmanFilter &kalman_filter, int frame_id)
{
     此处省略代码
	auto mc = this->kalman_filter.initiate(xyah_box);
     此处省略代码
}

此时 _motion_mat 为一个 8*8 的矩阵。对应运动状态方程为匀速。

图片名称

box 状态 mean为:(xCenter,yCenter,w/h,h,Vx,Vy,Vr,Vh)。 预测predict 获得新状态 new_mean = _motion_mat * mean.T

	void KalmanFilter::predict(KAL_MEAN &mean, KAL_COVA &covariance)
	{
		//revise the data;
		DETECTBOX std_pos;
		std_pos << _std_weight_position * mean(3),
			_std_weight_position * mean(3),
			1e-2,
			_std_weight_position * mean(3);
		DETECTBOX std_vel;
		std_vel << _std_weight_velocity * mean(3),
			_std_weight_velocity * mean(3),
			1e-5,
			_std_weight_velocity * mean(3);
		KAL_MEAN tmp;
		tmp.block<1, 4>(0, 0) = std_pos;
		tmp.block<1, 4>(0, 4) = std_vel;
		tmp = tmp.array().square();
		KAL_COVA motion_cov = tmp.asDiagonal();
		KAL_MEAN mean1 = this->_motion_mat * mean.transpose();
		KAL_COVA covariance1 = this->_motion_mat * covariance *(_motion_mat.transpose());
		covariance1 += motion_cov;

		mean = mean1;
		covariance = covariance1;
	}

更新协方差 covariance = _motion_mat * convariance *_motion_mat.T + motion_cov 。
montion_cov为过程噪声矩阵。一般可以保持不变,初始化时可以设定,源码中设定为与 w/h 相关的对角矩阵。

2.3、匹配

这部分是整个论文思想的亮点,也是代码中容易让人混淆的地方。

第一次匹配 预测框与高置信度检测框

  • 预测框:2.2中的跟踪预测框。他们state为Tracked或Lost
  • 高置信度检测框:置信度大于track_thresh中的检测框,文中track_thresh 设定为0.5。

文中采取了计算 iou 进行匹配,预测框与检测框的交并比。 当预测框匹配上时,此时state = Tracked,is_activated = true。 匹配上后需要更新框的状态mean与协方差covariance。

kalman中update:

	KAL_DATA
		KalmanFilter::update(
			const KAL_MEAN &mean,
			const KAL_COVA &covariance,
			const DETECTBOX &measurement)
	{
		KAL_HDATA pa = project(mean, covariance);
		KAL_HMEAN projected_mean = pa.first;    // x,y,r,h
		KAL_HCOVA projected_cov = pa.second;    // _update_mat * covariance * (_update_mat.transpose()) + diag

		Eigen::Matrix<float, 4, 8> B = (covariance * (_update_mat.transpose())).transpose();
		Eigen::Matrix<float, 8, 4> kalman_gain = (projected_cov.llt().solve(B)).transpose(); // eg.8x4
		Eigen::Matrix<float, 1, 4> innovation = measurement - projected_mean; //eg.1x4
		auto tmp = innovation * (kalman_gain.transpose());
		KAL_MEAN new_mean = (mean.array() + tmp.array()).matrix();
		KAL_COVA new_covariance = covariance - kalman_gain * projected_cov*(kalman_gain.transpose());
		return std::make_pair(new_mean, new_covariance);
	}

首先进入project函数,得到 projected_mean 与 projected_con。我们先看 project 进行了什么操作。

	KAL_HDATA KalmanFilter::project(const KAL_MEAN &mean, const KAL_COVA &covariance)
	{
		DETECTBOX std;
		std << _std_weight_position * mean(3), _std_weight_position * mean(3),
			1e-1, _std_weight_position * mean(3);
		KAL_HMEAN mean1 = _update_mat * mean.transpose();
		KAL_HCOVA covariance1 = _update_mat * covariance * (_update_mat.transpose());
		Eigen::Matrix<float, 4, 4> diag = std.asDiagonal();
		diag = diag.array().square().matrix();
		covariance1 += diag;
		return std::make_pair(mean1, covariance1);
	}

mean 1*8矩阵(xCenter, yCenter, w/h, h, Vx, Vy, Vr, Vh)
mean1 相当于提取了 mean 中前四个元素。
covariance1 是为了方便后续更新 covariance 一个中间量。
diag 为测量噪声协方差,文中设定与过程噪声矩阵类似。
kalman_gain 为卡尔曼增益,原本需要求 projected_cov 的逆矩阵,再与 B 矩阵相乘求得,这里直接通过解线性方程组的形式求的,省略了一些计算步骤。
new_meannew_covariance 为新的 box 状态与 新的协方差。 预测框与高置信度检测框匹配成功后,无论此时目标 state 为Tracked 还是 Lost,都需更新为Tracked状态,且is_activated 均更新为 true。且都需要进行 kalman 中 update 操作。 一旦目标匹配后:

(1)目标的state 均变为 Tracked

(2)目标的is_activated 均变为true

(3)目标的mean与covariance均需update

第一次未匹配上的预测框与检测框额外缓存。方便后续操作。

第二次匹配 第一次未匹配的预测框与低置信度检测框

  • 第一次未匹配的预测框:第一次未匹配上,state为Tracked的预测框。state为Tracked表明该目标为上一帧匹配上的目标
  • 低置信度检测框:置信度小于track_thresh中的检测框,文中track_thresh = 0.5。

匹配仍然计算iou匹配。匹配上的目标与第一次匹配类似处理。未匹配上的目标会被标记,state后续可能会被修改为Lost。

第三次匹配 is_activated=false 的跟踪框与第一次未匹配的高置信度检测框

  • is_activated=false的跟踪框:上一帧新起的目标,只有上一帧新起的目标is_activate才为false,且此时的框并未做predict处理,也就是说用的上一帧的原始检测框匹配
  • 第一次未匹配的高置信度检测框:置信度大于track_thresh,但是第一次未与状态为is_activated跟踪目标匹配。

如果目标匹配上,则(1)state = Tracked(2)is_activated = true(3)mean 与 covariance 均 update。

如果目标未匹配上,此时状态会变为 Removed,此目标会被永久移除。为了要连续两规避偶尔出现某一帧假阳性,至少需帧高置信度的检测才可被 confirm,有机会参与后续计算。

2.4、结果发布

在发布结果前,需要变更BYTETrack类成员变量的值。

  1. 当 Lost 状态超过 max_time_lost时,state 从 Lost 变为 Removed,此目标被永久遗忘。max_time_lost 构造函数时就已经设定。设定10或者30,根据实际情况调整。
  2. 当成员 state 从 Lost 变为 Tracked 或 Remove d时,this->lost_stracks 需剔除id一致的。
this->lost_stracks = sub_stracks(this->lost_stracks, this->tracked_stracks);
this->lost_stracks = sub_stracks(this->lost_stracks, this->removed_stracks);
remove_duplicate_stracks(resa, resb, this->tracked_stracks, this->lost_stracks);    // 移除 重复路径

当有重复路径时,存活帧数一致,航迹相似。也需剔除此lost航迹。 输出结果:只有当 is_activated = true、state=Tracked 时,才会输出目标

2.5、总结

  1. 检测目标未匹配上时,只有当置信度大于 0.6 才可以新起航迹,其他情况直接被遗忘。此时新起航迹 is_activated 为 false(第一帧不同,第一帧新起航迹 is_activated 默认为 true),当与下一帧置信度大于 0.5 的检测目标在第三次匹配匹配上时(is_activated=false 的目标没资格参与前两次匹配),此时 is_activated 变为 true。此时被标记为 confirm,才有资格被输出。
  2. 跟踪航迹在匹配中成功匹配,此时无论 state = tracked、is_activated=true。可以参与下一帧匹配中的前两次匹配。如果前两次匹配都未成功,则此时 state = Lost,只能参与下一帧第一次匹配,如果连续 max_time_lost 帧在第一次匹配都未匹配上,此时会被遗忘 Removed,永久移除此航迹。

三、流程图

要是看到这里还没看明白,再给你一张我自制的流程图。

图片名称

四、部署

要是实在看不明白源码,也不想明白,只想在本地跑跑效果看看。那就直接看这里。

环境:linux cmake编译

数据集:https://motchallenge.net/data/MOT17/

git地址:https://github.com/ifzhang/ByteTrack

先 clone 源码下来。链接前文已经给出。c++ 代码在 deploy 文件夹下,博主选用的 ncnn\cpp 文件夹下的代码。下方有 include 与 src 就是全部代码了。

CMakeLists.txt 缺啥链接啥。

mian.cpp 文件 大概思路就是读取 det.txt 文件,保存每一帧的检测结果。给个大概得代码

BYTETracker byteTrack = BYTETracker(10, 30);
for (int fi = 0; fi < maxFrame; fi++) { // maxFrame 帧
    std::vector<ObjectTrack> trackResult;
    byteTrack.update(detFrameData[fi], trackResult);
}

trackResult为自己定义的结果

只需对 BYTETracker.cpp 文件引用进去, 把 update 修改为

void BYTETracker::update(const DetectInfo& objects, std::vector<ObjectTrack>& outTracks)
{
    // 在函数末尾 添加代码
	for (auto i = 0; i < output_stracks.size(); i++)
	{
		outTracks.push_back({
							static_cast<uint>(output_stracks[i].track_id), 
							static_cast<uint>(output_stracks[i].tlbr[0]),
							static_cast<uint>(output_stracks[i].tlbr[1]),
							static_cast<uint>(output_stracks[i].tlbr[2]),
							static_cast<uint>(output_stracks[i].tlbr[3]),
							output_stracks[i].score			
						});
	}
}

这时候已经拿到结果了,后续只需在相应的图片可视化相应结果就大功告成了[喝彩.jpg]。机智的你已经行动起来了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/564082.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

同元软控专业模型库系列——热流篇

一、引言 传热与流动是自然界与科学技术领域最普遍的物理现象。聚焦工业领域&#xff0c;传热、流体流动和燃烧问题是热工、核能、动力机械等行业所需研究解决的主要问题。复杂热流系统往往具有高复杂性、高成本性和高可靠性的特点&#xff0c;传统研制模式已逐渐无法满足现有…

【UE5.1 C++】提升编译速度

步骤 1. 在“C:\Users\用户\AppData\Roaming\Unreal Engine\UnrealBuildTool”目录下找到“BuildConfiguration.xml”文件 打开“BuildConfiguration.xml”&#xff0c;添加如下部分内容 <?xml version"1.0" encoding"utf-8" ?> <Configuratio…

干货:40个数据统计和分析的术语,让你的可视化大屏有理有据

1. 总体&#xff08;Population&#xff09;&#xff1a;指研究对象的全体&#xff0c;即研究问题所涉及的所有个体或事物的集合。 2. 样本&#xff08;Sample&#xff09;&#xff1a;从总体中选取的一部分个体或事物&#xff0c;用于代表总体进行研究。 3. 参数&#xff08…

MySQl-8.3.0版本安装下载教程(超详细保姆级教程)

第一步&#xff0c;去百度找到MySQl官网 第二步,找到DOWNLOAD&#xff08;下载&#xff09; 第三步 第四步 第五步 第六步.选择倒数第2个 第七步 第八步然后根据步骤安装就好了

我最重要的三个女人都生病了,两个已经住院了

往年的金三银四&#xff0c;大部分时间我都在面试&#xff0c;今年的金三银四&#xff0c;却一直往医院跑了。 我最重要的三个女人全生病了&#xff0c;病毒感染&#xff0c;20号我妈办理了住院&#xff0c;21 号我闺女小白牙办理了住院&#xff0c;她俩还不是同一家医院媳妇儿…

2024Xtu程设第一次练习题解

程设练习题谢大会专门查重 1.1531奇怪的数字 题目让我们从小到大输出1e6以内所有的答案&#xff0c;其实也没什么好的思路 就是将一个数n的所有位都拆出来&#xff0c;遍历这些位&#xff08;每次取一个x&#xff09;&#xff0c;然后通过作除法&#xff08;y n / x&#xf…

研究助理(博士后),院所两级共同资助经费80万

一、声学所介绍 1964年&#xff0c;为落实国家声学规划&#xff0c;满足国家迫切需要&#xff0c;形成全国声学学科研究中心&#xff0c;经国务院副总理聂荣臻元帅批准&#xff0c;成立中国科学院声学研究所。 声学所是从事声学和信息处理技术研究的综合性研究所&#xff0c;…

在React项目中试用Tailwind

TailwindCSS TailwindCSS 是一个套 CSS 的工具类&#xff0c;把常用的功能都进行了定义&#xff0c;下面是一个官网的例子&#xff0c;可以看到Tailwind对一元页面素写了很多类&#xff0c;日常开发中只要定义一两个类就可以搞定类似的功能了。这里写了这么多 p-6 max-w-sm mx…

线程池的核心参数有哪些???

线程池的核心参数包括以下七个&#xff1a; corePoolSize&#xff1a; 这是线程池中的核心线程数&#xff0c;即池中会保留的最少线程数。当提交任务时&#xff0c;如果当前线程数小于核心线程数&#xff0c;线程池会创建新的线程来执行任务。如果当前线程数等于或大于核心线程…

#天空星按键点灯(不中断与中断方式)

&#xff08;1&#xff09;非中断按键点灯 &#xff0c;弹起阻塞&#xff08;天空星的用户按键为PA0&#xff0c;按下高电平&#xff0c;不按下低电平&#xff0c;含有硬件消抖&#xff09; /** 立创开发板软硬件资料与相关扩展板软硬件资料官网全部开源* 开发板官网&#xff1…

MySQL修改数据表的结构

创建数据库 -- create database 创建的数据库名; create database test; 这里创建了一个名为 test 的数据库 选择需要使用的数据库 -- use 数据库名; use test; 这里使用 test 数据库 创建数据表 -- create table 表名(字段名1 数据类型(长度) 约束,字段名2 数据类型(长…

辽宁梵宁教育设计培训:赋能大学生,新技能学习再升级

辽宁梵宁教育设计培训&#xff1a;赋能大学生&#xff0c;新技能学习再升级 在当今这个日新月异、信息爆炸的时代&#xff0c;大学生们面临着前所未有的挑战与机遇。为了帮助他们更好地适应社会的快速变化&#xff0c;提升个人的综合素质和竞争力&#xff0c;辽宁梵宁教育设计…

【Node.js】01 —— fs模块全解析

&#x1f525;【Node.js】 fs模块全解析 &#x1f4e2; 引言 在Node.js开发中&#xff0c;fs模块犹如一把万能钥匙&#xff0c;解锁着整个文件系统的操作。从读取文件、写入文件、检查状态到目录管理&#xff0c;无所不能。接下来&#xff0c;我们将逐一揭开fs模块中最常用的那…

高级数据结构—树状数组

引入问题&#xff1a; 给出一个长度为n的数组&#xff0c;完成以下两种操作&#xff1a; 1. 将第i个数加上k 2. 输出区间[i,j]内每个数的和 朴素算法&#xff1a; 单点修改&#xff1a;O( 1 ) 区间查询&#xff1a;O( n ) 使用树状数组&#xff1a; 单点修改&#xff1a…

文档分享怎么用二维码?扫码获得文档的制作方法

现在日常工作和生活中&#xff0c;经常会看到可以用于展示文件的二维码图片&#xff0c;使用这种方式可以向其他人传递一些资料、通知、数据等情况。比如常见的内容有企业介绍、产品内容、使用说明、活动流程等类型的内容&#xff0c;那么这些不同类型的文件该如何制作二维码呢…

医学图像三维重建与可视化系统 医学图像分割 区域增长

医学图像的三维重建与可视化&#xff0c;这是一个非常有趣且具有挑战性的课题&#xff01;在这样的项目中&#xff0c;可以探索不同的医学图像技术&#xff0c;比如MRI、CT扫描等&#xff0c;然后利用这些图像数据进行三维重建&#xff0c;并将其可视化以供医生或研究人员使用。…

el-select多选非空校验

一、首先是前端版本&#xff08;不建立在版本上的bug修改就是耍流氓&#xff01;&#xff09;&#xff1a; 二、原来页面是下拉单选&#xff0c;新需求要改成下拉多选&#xff0c;改成多选后就发现非空校验失效了。 三、el-select多选&#xff0c;绑定v-model的就是一个数组了…

Unity导出package

C#代码导出后为一个dll&#xff0c;原有的不同平台的库不变。 以下操作均在build PC 平台下操作。 1.在要导出的文件夹下建assembly definition (Any platform) 2.将项目文件夹下的\Library\ScriptAssemblies中的相应assembly definition的dll复制到要导出的文件夹下 3.在uni…

【ES】springboot集成ES

1. 去Spring官方文档确认版本兼容性 这一版的文档里没有给出springboot的版本对应&#xff0c;但我在一个博主的文章里看到的es8.0以前的官方文档中就有给出来&#xff0c;所以还需要再去寻找spring framework和springboot的对应关系&#xff1f;&#xff1f;&#xff1f; 还…

17-软件脉冲宽度调制(SW_PWM)

ESP32-S3的软件脉冲宽度调制&#xff08;SW_PWM&#xff09; 引言 ESP32-S3 LED 控制器LEDC 主要用于控制 LED&#xff0c;也可产生PWM信号用于其他设备的控制。该控制器有 8 路通道&#xff0c;可以产生独立的波形&#xff0c;驱动 RGB LED 等设备。LED PWM 控制器可在无需C…