【Da-SimaRPN】《Distractor-aware Siamese Networks for Visual Object Tracking》

在这里插入图片描述

ECCV-2018

中科大


文章目录

  • 1 Background and Motivation
  • 2 Related Work
  • 3 Advantages / Contributions
  • 4 Method
    • 4.1 Features and Drawbacks in Traditional Siamese Networks
    • 4.2 Distractor-aware Training
    • 4.3 Distractor-aware Incremental Learning
    • 4.4 DaSiamRPN for Long-term Tracking
  • 5 Experiments
    • 5.1 Datasets and Metrics
    • 5.2 State-of-the-art Comparisons on VOT Datasets
    • 5.3 State-of-the-art Comparisons on UAV Datasets
    • 5.4 State-of-the-Art Comparisons on OTB Datasets
    • 5.5 Ablation Analyses
  • 6 Conclusion(own) / Future work


1 Background and Motivation

单目标跟踪的难点:occlusions, out-of-view, deformation, background cluttering and other variations

Siamese tracking approaches can only discriminate foreground from the non-semantic backgrounds,缺点如下

  • 背景复杂时效果可能翻车
  • 往往失去了 on-line 更新模型的机制
  • 长期跟踪的时候,full occlusion and out-of-view challenges 场景可能处理的不好

作者聚焦 accurate and long-term tracking,提出 Distractor-aware Siamese Networks,在离线训练阶段引入了 effective sampling strategy,推理阶段提出 distractor-aware module,效果显著

2 Related Work

  • Siamese Networks based Tracking
  • Features for Tracking
  • Long-term Tracking

3 Advantages / Contributions

  • 发现 imbalance of the non-semantic background and semantic distractor in the training data is the main obstacle for the learning.
  • 提出 Distractor-aware Siamese Region Proposal Networks (DaSiamRPN),训练的时候 to learn distractor-aware features,推理的时候 online tracking explicitly suppress distractors
  • 推理阶段提出 local-to-global search region strategy,提升 long-term 跟踪效果明显

4 Method

4.1 Features and Drawbacks in Traditional Siamese Networks

在这里插入图片描述
用的是 metric learning

Metric Learning,也称为距离度量学习或相似度学习,旨在学习一个能够捕捉数据高层语义信息的距离函数。这个函数通常被称为嵌入函数(Embedding Function),用于将数据映射到一个新的空间,使得在该空间中,相似样本之间的距离较小,而不同样本之间的距离较大。

训练的时候 non-semantic background occupies the majority

导致很难区分比较复杂的背景

图 1 展现的淋漓尽致

4.2 Distractor-aware Training

数据抽样方式

在这里插入图片描述

1)Diverse categories of positive pairs can promote the generalization ability

引入了 ImageNet Detection and COCO Detection 目标检测的数据集,丰富了正样本的类别,如图2(a)所示

2)Semantic negative pairs can improve the discriminative ability

负样本不仅来自于同类别,也引入了不同类别的负样本,如图2(b)和(c)

同类别的负样本可以让网络 focused on fine-grained representation

3)Customizing effective data augmentation for visual tracking

除了常规的 translation(12 pixels), scale variations(0.85 to 1.15) and illumination changes,

还引入了 motion blur 数据增强方法

25% of the pairs are converted to grayscale

4.3 Distractor-aware Incremental Learning

增量学习

增量学习(Incremental Learning)指的是一个学习系统能够不断地从新样本中学习新的知识,并能在这一过程中保存大部分以前已经学习到的知识。

在这里插入图片描述

通用的方法是用 cosine window to suppress the distractors(越近分值惩罚越低,越远越高), not guaranteed when the motion of objects are messy

作者 propose a distractor-aware module to effectively transfer the general representation to the video domain

(video domain 没有太明白指的是什么)

下面看看作者的具体增量学习方法——distractor-aware module

孪生跟踪器学习的是 similarity metric f ( z , x ) f(z,x) f(z,x),基础知识可以参考

  • 【SiamFC】《Fully-Convolutional Siamese Networks for Object Tracking》
  • 【SiamRPN】《High Performance Visual Tracking With Siamese Region Proposal Network》

在这里插入图片描述

作者在这个的基础上引入 hard negative samples (distractors)

17 ∗ 17 ∗ 5 proposals in each frame,用 NMS 筛选出 potential distractors d i d_i di in each frames,筛选的方式如下

在这里插入图片描述
h h h is the predefined threshold

z t z_t zt is the selected target in frame t t t,得分最高的 proposal 选为 z t z_t zt

the number of this set ∣ D ∣ = n |D| = n D=n

总结一下,就是和模板 z z z 相关后得分高于阈值 h h h 的 proposal 会被选定留下来作为 potential distractors

接下来 re-rank the proposals P P P which have top-k similarities with the exemplar——从 potential distractors 中挑出得分最高的 k k k 个 proposal ( p k p_k pk)进行后续操作

在这里插入图片描述

weight factor α ^ = 0.5 \hat{\alpha} = 0.5 α^=0.5

weight factor α i = 1 \alpha_i = 1 αi=1 can be viewed as the dual variables with sparse regularization

对偶变量是指在对偶线性规划问题中的变量,用于衡量资源或条件的价值。
它表示第i种资源每增加一单位对目标函数的贡献。

d i d_i di 需遍历 n n n 个 proposals

p k p_k pk 需遍历 k k k 个 proposals

使得分最高的 k 个 proposals p k p_k pk(除了得分最高的 z t z_t zt,可能就是目标 x 本身)和其他 NMS 后的 proposals 的相似度尽可能低——拉开前景和背景的差距,可以这么理解吧

exemplars and distractors can be viewed as positive and negative samples in correlation filters

作者对上述公式进行加速

在这里插入图片描述

it enables the tracker run in the comparable speed in comparisons with SiamRPN

引入学习率 β = ∑ i = 0 t − 1 ( η 1 − η ) i \beta = \sum_{i=0}^{t-1}(\frac{\eta}{1- \eta })^{i} β=i=0t1(1ηη)i η = 0.01 \eta=0.01 η=0.01

在这里插入图片描述

这就是优化目标,替代了上面的
在这里插入图片描述

训练的时候优化,推理的时候 online tracking

4.4 DaSiamRPN for Long-term Tracking

severe out-of-view and full occlusion introduce extra challenges in long-term tracking

作者引入了 a simple yet effective local-to-global search region strategy

在这里插入图片描述
目标丢失后,DaSiamRPN 的 score 明显降低了(红色曲线),这个应该是学习的网络更好导致的,和这个测试时候才使用的策略没有关系

目标丢失时,DaSiamRPN 搜索范围会增大——iterative local-to-global search strategy

以便捕捉到在常规搜索范围之外出现的目标

5 Experiments

5.1 Datasets and Metrics

数据集

  • VOT2015

  • VOT2016

  • VOT2017

  • UAV20L with 20 long-term videos

  • UAV123 with 123 videos

  • OTB2015

评价方式

  • accuracy (A)

  • robustness ®

  • expected average overlap (EAO)

  • OP: mean overlap precision at the threshold of 0.5;

  • DP: mean distance precision of 20 pixels;

  • Success and precision plots

5.2 State-of-the-art Comparisons on VOT Datasets

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

领先的很明显

5.3 State-of-the-art Comparisons on UAV Datasets

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
long-term tracking dataset can be attributed to the distractor-aware features and local-to-global search strategy.

5.4 State-of-the-Art Comparisons on OTB Datasets

All the trackers are initialized with the ground-truth object state in the first frame

在这里插入图片描述

5.5 Ablation Analyses

在这里插入图片描述

消融的实验很好的体现了本文提出的方法的提升点

6 Conclusion(own) / Future work

  • 核心提升,the distractor-aware features and local-to-global search strategy.(本博客 4.3 小节和 4.4 小节)

  • 作者写的博客ECCV视觉目标跟踪之DaSiamRPN
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/707931.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【详解Python文件: .py、.ipynb、.pyi、.pyc、​.pyd !】

今天同事给我扔了一个.pyd文件,说让我跑个数据。然后我就傻了。。 不知道多少粉丝小伙伴会run .pyd代码文件?如果你也懵懵的,请继续往下读吧。。 Python文件是存储Python代码或数据的文本文件,通常以.py作为文件扩展名。这些文件…

k8s 自动伸缩机制-------HPA 超详细解读

目录 在K8s中扩缩容分为两种: 前言 弹性伸缩是根据用户的业务需求和策略,自动“调整”其“弹性资源”的管理服务。通过弹性伸缩功能,用户可设置对定时、周期或监控策略,恰到好处地增加或减少“弹性资源”,并完成实例…

单片机课设-基于单片机的电子时钟设计(仿真+代码+报告)

基于单片机的电子时钟设计 前言一、课设任务是什么?二、系统总体方案硬件设计2.1 系统硬件总体设计2.2 键盘电路设计2.3 DS1302实时时钟芯片电路设计2.4 复位电路2.5 LCD电路设计 三、软件设计3.1 主程序流程图3.2 主要程序设计代码3.3 修改时间函数3.4 扫描键盘函数 四、仿真…

基坑监测:关键环节与深入剖析,保障施工安全与质量新标准

在建筑工程中,基坑监测是一项至关重要的工作,它涉及对基坑施工现场的实时监测数据进行分析和评估,以确保基坑施工活动的稳定、安全和高效进行。基坑监测涵盖地质勘探、基坑开挖、加固、支护、周边环境以及工程质量验收等多个环节,…

FlashDB的TS数据库的标准ANSI C移植验证

本文目录 1、引言2、环境准备3、修改驱动4、验证 文章对应视频教程: 暂无,可以关注我的B站账号等待更新。 点击图片或链接访问我的B站主页~~~ 1、引言 在当今数据驱动的时代,高效可靠的数据存储与管理对于嵌入式系统及物联网(IoT)应用至关重…

【C++继承解密】:构建层次化设计的艺术

📃博客主页: 小镇敲码人 💚代码仓库,欢迎访问 🚀 欢迎关注:👍点赞 👂🏽留言 😍收藏 🌏 任尔江湖满血骨,我自踏雪寻梅香。 万千浮云遮碧…

Qt信号槽的回调机制

问:Qt强大的地方在哪里? 答:跨平台、信号槽。。。 问:信号槽是什么? 答:回调函数 问:怎么个回调法子 答:。。。 成果 信号槽本身实现过程是有些复杂的,所以本人参考…

代理模式与静态代理、动态代理的实现(Proxy.newProxyInstance、InvocationHandler)

代理模式 代理模式是23种设计模式中比较常用的一种,属于结构型设计模式。在 Android 领域中,有大量的库都使用了代理模式,例如 Retrofit 使用动态代理来实现 API 接口的调用,Dagger 使用代码生成和反射机制来创建依赖注入的代理对…

Linux——ansible剧本

剧本(playbook) 现在,可以写各种临时命令 但如果,想把所有步骤,集合到一起,写到同一个文件里 让ansible自动按顺序执行 就必须要写“剧本” 剧本里面,也可以写临时命令,但是剧本…

大数据集成平台建设方案(Word方案)

基础支撑平台主要承担系统总体架构与各个应用子系统的交互,第三方系统与总体架构的交互。需要满足内部业务在该平台的基础上,实现平台对于子系统的可扩展性。基于以上分析对基础支撑平台,提出了以下要求: 基于平台的基础架构&…

自动驾驶---Perception之视觉点云雷达点云

1 前言 在自动驾驶领域,点云技术的发展历程可以追溯到自动驾驶技术的早期阶段,特别是在环境感知和地图构建方面。 在自动驾驶技术的早期技术研究中,视觉点云和和雷达点云都有出现。20世纪60年代,美国MIT的Roberts从2D图像中提取3D…

荣耀手机删除系统APP

1、打开开发者模式 设置–系统–关于手机–快速多次点击手机的版本号,即可进入开发者模式。 然后进入开发人员选项,开启USB调试,如下图。 2、数据线连接电脑,检查设备连接情况 按键盘winR键,在弹窗中输入cmd&#…

idea有这个类却报红,无法用快捷键找到

idea有这个类却报红,无法用快捷键找到,但是项目启动却没有任何问题,严重影响到了开发效率,关idea 重新打开没有用。 找了一圈,办法如下: 1、点击左上角的 File—>Invalidate Caches/Restar 2、点击 In…

PostgreSQL和Oracle的数据类型对比:时间类型 #PG培训

在数据库管理系统中,时间数据类型是非常关键的一部分。时间数据类型的选择和使用直接影响到数据存储、查询效率和应用程序的设计。本文将对比PostgreSQL和Oracle在时间类型方面的实现和特性。 #PG考试#postgresql培训#postgresql考试#postgresql认证 日期和时间类型…

MFC基础学习应用

MFC基础学习应用 1.基于对话框的使用 左上角为菜单键(其下的关于MFC主要功能由IDD_ABOUTBOX决定) 附图 右下角为按钮(基本功能由IDD_DIALOG决定,添加按钮使用由左上角的工具箱完成) 附图 2.自行添加功能与按钮//功能代码 void CMFCApplication4Dlg:…

渗透测试练习题解析 6 (CTF web)

1、[HCTF 2018]admin 1 考点:二次注入 先注册一个账号看看,注册 admin 会提示该用户名已存在,那我们就换一个用户名 观察页面功能,存在一个修改密码,开始的思路是想看看能否通过该密码功能抓包然后修改用户名为 admin …

react用ECharts实现组织架构图

找到ECharts中路径图。 然后开始爆改。 <div id{org- name} style{{ width: 100%, height: 650, display: flex, justifyContent: center }}></div> // data的数据格式 interface ChartData {name: string;value: number;children: ChartData[]; } const treeDep…

数据结构与算法笔记:基础篇 -图的表示:如何存储微博、微信等社交网络中的好友关系?

概述 微博、微信这些社交软件你肯定玩过吧。在微博中&#xff0c;两个人可以互相关注&#xff1b;在微信中&#xff0c;两个人可以互加好友。那你知道&#xff0c;如何存储微博、微信等这些社交网络的好友关系吗&#xff1f; 这就用到本章讲解的这种数据结构&#xff1a;图。…

watch什么场景下会被影响?

❌1、当组件通过import这种方式&#xff0c;子组件watch由于加载慢&#xff0c;不会被执行 ❌定位上发问题 1、当前页面刷新&#xff0c;以为是watch绑定的值没有改变&#xff0c;通过workflowId null 改变&#xff0c;子组件还是不会触发watch&#xff0c; 2、 当前页面刷新…

【Linux文件篇】磁盘到用户空间:Linux文件系统架构全景

W...Y的主页 &#x1f60a; 代码仓库分享 &#x1f495; 前言&#xff1a;我们前面的博客中一直提到的是被进程打开的文件&#xff0c;而系统中不仅仅只有被打开的文件还有很多没被打开的文件。如果没有被打开&#xff0c;那么文件是在哪里进行保存的呢?那我们又如何快速定位…