论文:《Learning reliable modal weight with transformer for robust RGBT tracking》
针对问题:局部线性匹配容易丢失语义信息
解决方法:为了增强特征表示和深化语义特征,分别设计了一种基于改进的Resnet-50的模态权值分配策略和骨干特征提取网络。并采用基于注意的变压器特征融合网络,改善长距离特征关联,减少语义信息的损失。最后,研究了一个分类回归子网络来准确地预测目标的状态。
①Shallow information fusion and weight optimization
融合阶段主要遵循深度特征提取阶段,这可能会大大降低跟踪过程的效率。因此,设计了一个浅层信息融合和权重优化网络
②Deep semantic feature extraction backbone network
③Transformer feature fusion network
为了提取更深层次的特征和丰富的语义信息,使用改进的Resnet-50网络作为骨干提取网络,去掉正常ResNet-50的第一阶段和最后阶段,以第四阶段的输出作为最终输出。
TC模块首先引入了一个位置编码过程,以有效地区分特征序列的位置信息。然后利用残差形式的多头交叉注意方法对来自不同输入的特征向量进行积分。此外,采用前馈网络(FEN)以残差的形式得到最终的输出。
TS模块首先引入了一个位置编码过程,以有效地区分特征序列的位置信息。然后利用多头自注意算法对不同位置的特征向量进行积分。最后,利用残差得到输出。
④Prediction with classification and regression subnetwork
该部分由分类分支、回归分支和中心性分支组成。
分类分支通过计算正、负样本的分类结果来确定目标的位置;回归分支基于先验知识放弃先验框,直接预测归一化坐标,以简化跟踪框架。由于远离目标中心的位置往往会产生低质量的预测边界框。因此,增加了一个中心分支来去除异常值,进一步提高了目标状态预测的精度。
⑤Result
精度感觉不高,主要贡献在速度快?