CVPR24已开源:刷新监督学习SOTA,无监督多目标跟踪时代来临!

论文标题:

Matching Anything by Segmenting Anything

论文作者:

Siyuan Li, Lei Ke, Martin Danelljan, Luigi Piccinelli, Mattia Segu, Luc Van Gool, Fisher Yu

导读:

在计算机视觉的征途中,多目标跟踪(MOT)扮演着至关重要的角色,尤其是在自动驾驶等前沿技术领域。然而,现有技术大多受限于特定领域的标注视频数据集,这不仅限制了模型的泛化能力,也增加了应用成本。本文介绍的MASA(Matching Anything by Segmenting Anything)方法,以其创新的无监督学习策略,为多目标跟踪领域带来了革命性的突破。©️【深蓝AI】编译

1. 背景简介

多目标跟踪是计算机视觉领域的核心问题之一,对于自动驾驶等众多机器人系统至关重要。在视频序列中,MOT的目标是识别并追踪感兴趣的对象,确保它们在不同帧之间的连续性。尽管最近在视觉基础模型方面取得了显著的进步,这些模型在目标检测、分割和深度估计方面表现出色,但在视频序列中实现目标的准确关联仍然是一个技术挑战。

在这里插入图片描述
▲图1|给定任意领域的无标注图像,对原始图像和SAM的实例分割结果应用强数据增强,获得两个具有像素级对应关系的视图作为模型输入。然后,利用密集相似度学习,获得实例级对应关系。最后,通过基于SAM的基础分割模型,来实现对任一对象的跟踪能力。©️【深蓝AI】编译

2. 方案提出

最近效果卓越的多目标跟踪方法突出了学习区分性实例嵌入的重要性,这对于确保目标在不同帧中的准确关联至关重要。然而,开发有效的目标关联算法通常依赖于大量的标注数据。虽然在静态图像集上收集目标检测的标签已经是一项艰巨的任务,但在视频数据上获取跟踪标签则更加困难。因此,现有的MOT数据集往往集中在少数固定类别或具有有限标注帧的特定领域对象上。这种数据集的限制性导致了跟踪模型在跨领域和新概念上的泛化能力受限。

另外,尽管近期的研究已经在目标检测和分割的模型泛化方面取得了一定的进展,但开发一个能够泛化到任何目标的通用关联模型仍然是一个未解决的挑战。这需要进一步的研究和创新,以克服现有数据集的局限性,并开发出能够适应多样化场景和目标的跟踪算法。

本文作者的目标是开发一种能够适应任何目标或领域的匹配方法,旨在将这种通用的跟踪技术整合到各种检测和分割算法中。通过这一整合,作者希望提升这些算法跟踪它们所识别目标的能力。

3. 方法详析

■3.1 预备知识:SAM

SAM由三个模块组成:

●图像编码器:一个基于ViT的重型骨干网络,用于特征提取。

●提示编码器:对交云点、框或蒙版提示的位置信息进行建模。

●蒙版解码器:一个基于变换器的解码器,接收提取的图像嵌入和连接的提示标记,用于最终的蒙版预测。

为了生成所有可能的蒙版候选区域,SAM采用密集采样的规则网格作为点锚点,并为每个点提示生成蒙版预测。完整的流程包括使用贪婪的基于框的NMS的块裁剪、三步过滤和蒙版上的重后处理。

在这里插入图片描述
▲图2|MASA训练流程。给定任意领域的无标注图像,SAM自动为其生成实例掩码。然后对原始图像和实例分割结果应用强数据增强变换ϕ(·)和φ(·),获得两个不同视图作为模型输入。通过联合SAM检测知识蒸馏和实例相似度学习来训练MASA Adapter。©️【深蓝AI】编译

■3.2 MASA

◆MASA核心流程

为了学习实例级的对应关系,早前的研究严重依赖于手动标注的域内视频数据。然而,当前的视频数据集只包含有限范围的固定类别。这种数据集的有限多样性导致学习的外观嵌入是为特定领域定制的,在其普遍泛化方面存在挑战。

UniTrack通过对原始图像或视频进行对比自监督学习技术,展示了可以学习通用的外观特征。这些表示利用大量未标注图像的多样性,可以在不同的跟踪领域中泛化。然而,它们通常依赖于干净、以物体为中心的图像,如ImageNet中的图像,或如DAVIS17中的视频,并专注于帧级相似性。这种专注使它们无法充分利用实例信息,导致在包含多个实例的复杂领域中难以学习到区分性的实例表示。

为了解决这些问题,作者提出了MASA训练流程。核心思想是从两个方面增加多样性:训练图像的多样性和实例的多样性。作者首先构建了一个来自不同领域的丰富的原始图像集合,以防止学习到特定领域的特征。这些图像还包含复杂环境中的大量实例,以增强实例多样性。给定图像I,通过对同一图像采用两种不同的增强方法来模拟视频中的外观变化。通过应用强数据增强ϕ(I)和ϕ(I),构建了I的两个不同视图V1和V2,从而自动获得像素级对应关系。

如果图像是干净的且只包含一个实例,如ImageNet中的图像,可以应用帧级相似性。然而,对于包含多个实例的图像,作者需要进一步挖掘这些原始图像中包含的实例信息。基础的分割模型SAM提供了这种能力。SAM自动将属于同一实例的像素分组,还提供了检测到的实例的形状和边界信息,这对于学习区分特征非常有价值。

◆MASA Adapter

MASA Adapter旨在将现有的开放世界分割和检测模型(如SAM、Detic和Grounding-DINO)扩展到对象跟踪任务中。MASA Adapter与这些模型的冻结骨干特征协同工作,确保其原有的检测和分割能力得以保留。但并非所有预训练的特征都适合跟踪,因此研究者首先需要将这些冻结的骨干特征转换为更适合跟踪的新特征。

鉴于物体形状和大小的多样性,作者构建了一个多尺度特征金字塔。对于像Detic和Grounding-DINO这样的层次化骨干(如Swin Transformer),直接使用FPN(特征金字塔网络)。对于使用平原ViT(Vision Transformer)骨干的SAM,通过转置卷积和最大池化对单尺度特征进行上采样和下采样,生成比例为1/4、1/8、1/16、1/32的层次化特征。为了有效学习不同实例的判别特征,需要使一个位置的对象能够感知其他位置实例的外观。因此,使用可变形卷积生成动态偏移,并在空间位置和特征层次上聚合信息。

对于基于SAM的模型,作者还引入了Dyhead模型中的任务感知和尺度感知注意力机制,因为检测性能对于自动生成蒙版非常重要,如图3(b)所示。在获取转换后的特征图后,通过对视觉特征应用RoI-Align(区域兴趣对齐)提取实例级特征,然后通过一个由4个卷积层和1个全连接层组成的轻量级跟踪头部处理,生成实例嵌入。

此外,作者引入了一个目标先验蒸馏分支,作为训练期间的辅助任务。该分支使用标准的RCNN检测头部学习包围每个实例的SAM蒙版预测的边界框。这有效地从SAM中学习了详尽的目标位置和形状知识,并将这些信息蒸馏到转换后的特征表示中。这一设计不仅增强了MASA Adapter的特征,从而提高了关联性能,还通过直接提供预测的框提示加速了SAM的everything模式。

在这里插入图片描述
▲图3|统一模型的推理流程©️【深蓝AI】编译

◆推理

作者展示了MASA Adapter的统一模型的测试流程,如图3所示。当将MASA Adapter与目标检测器结合使用时,在训练过程中学习的MASA检测头会被移除。此时,MASA Adapter仅作为一个跟踪器使用。检测器预测边界框,然后利用这些边界框提示MASA Adapter,MASA Adapter检索相应的跟踪特征以进行实例匹配。为了实现精确的实例匹配,本文采用了一种简单的双Softmax最近邻搜索方法。

4. 实验

本文将MASA与现有的监督学习方法进行了对比测试。在多个挑战性基准上,MASA的表现优于或媲美当前最先进的监督学习方法。例如,在TAO Track mAP基准测试中,MASA Adapter的零样本模型性能显著优于许多完全监督学习的模型。在Open-vocabulary MOT基准测试中,MASA Adapter在Base和Novel类别上都显示出更高的跟踪性能。

在这里插入图片描述
▲表1|在TAO TETA基准测试上的最新对比结果©️【深蓝AI】编译

在这里插入图片描述
▲表2|在开放词汇多目标跟踪基准测试上的最新对比结果©️【深蓝AI】编译

在这里插入图片描述
▲表3|在TAO Track mAP基准测试上的最新对比结果©️【深蓝AI】编译

在这里插入图片描述
▲表4|在BDD MOTS基准测试(验证集)上的最新对比结果©️【深蓝AI】编译

在这里插入图片描述
▲表5|在BDD MOT基准测试(验证集)上的最新对比结果©️【深蓝AI】编译

在这里插入图片描述
▲表6|与视频物体分割(VOS)方法的比较©️【深蓝AI】编译

在这里插入图片描述
▲表7|与基于自监督学习的方法的比较©️【深蓝AI】编译

在这里插入图片描述
▲表8|训练策略和模型架构的影响©️【深蓝AI】编译

在这里插入图片描述
▲表9|不同数据增强策略、候选区建议质量和数量的消融研究©️【深蓝AI】编译

在这里插入图片描述
▲图4|(a) 在UVO数据集上的定量结果;(b) 将推理时间(秒)与原始SAM进行比较,通过采样不同数量的提示点©️【深蓝AI】编译

在这里插入图片描述
▲图5|统一模型Ours-Grounding-DINO(顶部)和Ours-SAM-H(底部)的定性结果。使用SAM-H基于检测到的边界框生成掩码©️【深蓝AI】编译

5. 结论

MASA的提出不仅在技术上实现了重大突破,还为自动驾驶、视频监控、机器人视觉等领域的应用提供了新的可能性。通过无监督学习方式,MASA从未经标记的图像中提取知识,展现出强大的零样本关联能力,预示着多目标跟踪技术新时代的到来。

编译|Deep 蓝同学

审核|Los

移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/752447.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Centos安装redis(附:图形化管理工具)

第一步:下载redis wget http://download.redis.io/releases/redis-6.2.7.tar.gz 第二步:解压 tar zxvf redis-6.2.7.tar.gz 第三步:安装依赖环境 yum -y install gcc-c第四步:安装依赖环境 make install第五步:修…

开源项目-商城管理系统

哈喽,大家好,今天主要给大家带来一个开源项目-商城管理系统 商城管理系统分前后端两部分。前端主要有商品展示,我的订单,个人中心等内容;后端的主要功能包括产品管理,门店管理,会员管理&#x…

C++之STL(十)

1、适配器 2、函数适配器 #include <iostream> using namespace std;#include <algorithm> #include <vector> #include <functional>bool isOdd(int n) {return n % 2 1; } int main() {int a[] {1, 2, 3, 4, 5};vector <int> v(a, a 5);cou…

外贸人该怎么进行客户分类,怎么找出那20%的重要客户?

更多外贸干货及开发见客户的方法&#xff0c;尽在微信【千千外贸干货】 我们往往只是知道这个规则&#xff0c;却不懂怎么去进行客户分类&#xff0c;怎么找出这20%的重要客户&#xff1f; 具体而言&#xff0c;有8个指标来衡量&#xff1a; 1 利润率高 不以盈利为目的的企业…

使用python基于经纬度获取高德地图定位地址【逆地址解析】

一、高德地图api申请 1. 高德开放平台注册&#xff0c;登录 进入网址&#xff1a;高德开放平台 | 高德地图API 注册 -- 支付宝扫码认证 -- 完善个人信息 -- 登录 2. 申请API &#xff08;1&#xff09;点击头像 -- 应用管理 -- 我的应用 -- 创建新应用 &#xff08;2&…

对于恒指你了解够多吗?

不少人进入股市选择投资哪种哪种期货&#xff0c;都是因为听别人说利润大&#xff0c;于是也不管三七二十一&#xff0c;就盲目的跟着投资了&#xff0c;认为所有的期货都应该应用一样的操作办法&#xff0c;随机应变就是了&#xff0c;其实不然&#xff0c;每种期货都有着自己…

springboot3.x的优势在哪里,我们是否要选择springboot3.x

Spring Boot 3.x的优势主要体现在以下几个方面&#xff0c;这些优势使得它成为了一个值得考虑的选择&#xff1a; Java 17支持&#xff1a;Spring Boot 3.x 支持 Java 17&#xff0c;这是一个长期支持&#xff08;LTS&#xff09;版本&#xff0c;带来了许多新特性和性能改进。…

从ChatGPT代码执行逃逸到LLMs应用安全思考

摘要 11月7日OpenAI发布会后&#xff0c;GPT-4的最新更新为用户带来了更加便捷的功能&#xff0c;包括Python代码解释器、网络内容浏览和图像生成能力。这些创新不仅开辟了人工智能应用的新境界&#xff0c;也展示了GPT-4在处理复杂任务方面的惊人能力。然而&#xff0c;与所有…

亚马逊云科技快速上手训练营:模块一

课程目标 初步了解云平台与本地环境的差异初步了解亚马逊云科技平台的基础设施和部分核心服务初步了解亚马逊云科技平台上的弹性高可用架构初步了解亚马逊云科技平台上的架构设计准则初步了解本地架构迁移上云的基本知识 1.亚马逊云科技平台简介 1.1 什么是云计算&#xff1…

倒装COB封装技术与常规SMD封装技术差异对比

倒装COB显示屏与常规SMD LED显示屏一个很大的差异点就是在于封装工艺的不同&#xff0c;COB&#xff08;Chip on Board&#xff09;封装和SMD&#xff08;Surface Mounted Device&#xff09;封装是LED显示屏领域中两种常见的技术&#xff0c;所表现出来的差异主要在于封装结构…

Vue3学习笔记<->nginx部署vue项目

安装nginx vue项目通常部署到nginx上&#xff0c;所以先安装一个nginx。为了方便安装的是windows版nginx&#xff0c;解压就能用。 项目参考上一篇文章《Vue3学习笔记&#xff1c;-&#xff1e;创建第一个vue项目》《Vue3学习笔记&#xff1c;-&#xff1e;创建第一个vue项目》…

力扣随机一题 6/28 数组/矩阵

&#x1f4dd;个人主页&#x1f339;&#xff1a;誓则盟约⏩收录专栏⏪&#xff1a;IT 竞赛&#x1f921;往期回顾&#x1f921;&#xff1a;6/27 每日一题关注博主&#xff0c;后期持续更新系列文章如果有错误感谢请大家批评指出&#xff0c;及时修改感谢大家点赞&#x1f44d…

最新AI智能聊天对话问答系统源码(图文搭建部署教程)+AI绘画,文生图,TTS语音识别输入,文档分析

一、人工智能语言模型和AI绘画在多个领域广泛应用 人工智能语言模型和AI绘画在多个领域都有广泛的应用。以下是一些它们的主要用处&#xff1a; 人工智能语言模型 内容生成 写作辅助&#xff1a;帮助撰写文章、博客、报告、剧本等。 代码生成&#xff1a;自动生成或补全代码&…

Arduino - Keypad 键盘

Arduino - Keypad Arduino - Keypad The keypad is widely used in many devices such as door lock, ATM, calculator… 键盘广泛应用于门锁、ATM、计算器等多种设备中。 In this tutorial, we will learn: 在本教程中&#xff0c;我们将学习&#xff1a; How to use key…

Kompas AI用户体验与界面设计对比

一、引言 在人工智能&#xff08;AI&#xff09;产品领域&#xff0c;用户体验&#xff08;UX&#xff09;和界面设计&#xff08;UI&#xff09;是衡量产品成功与否的两个关键指标。一个优秀的AI产品不仅需要具备强大的功能&#xff0c;还需要提供流畅、直观且富有吸引力的用…

还不会写WorkFlow?“讲课“即工作流,摩根大通用一段Prompt诱导LLMs自主生成

随着各种自动生成Prompt的工具被开源&#xff0c;Prompt Engineer的生存空间也在不断被压缩&#xff0c;一个明显的转变已经出现&#xff1a;要想在ALL IN AI的状态下生存下去&#xff0c;你要能从Prompt Engineer切换成WorkFlow Engineer。而WorkFlow领域的竞争也是非常激烈的…

CSS 核心知识点 - grid

思维导图 参考网址: https://developer.mozilla.org/zh-CN/docs/Web/CSS/CSS_grid_layout 一、什么是 grid&#xff1f; CSS Grid布局是在CSS3规范中引入的一种新的布局方式&#xff0c;旨在解决传统布局方法&#xff08;如浮动、定位、表格布局&#xff09;存在的许多问题。C…

【STM32修改串口波特率】

STM32微控制器中的串口波特率调整通常涉及到USART&#xff08;通用同步接收器/发送器&#xff09;模块的配置。USART模块提供了多个寄存器来设置波特率&#xff0c;其中关键的寄存器包括BRR&#xff08;波特率寄存器&#xff09;和USART_CR1&#xff08;控制寄存器1&#xff09…

【数学建模】——【python库】——【Pandas学习】

专栏&#xff1a;数学建模学习笔记 pycharm专业版免费激活教程见资源&#xff0c;私信我给你发 python相关库的安装&#xff1a;pandas,numpy,matplotlib&#xff0c;statsmodels 总篇&#xff1a;【数学建模】—【新手小白到国奖选手】—【学习路线】 第一卷&#xff1a;【数学…

推荐系统中冷启动环节的设计实现

推荐系统中的冷启动分为物料冷启动和用户冷启动。用户冷启动主要是针对新用户&#xff0c;但有时候也用于低活用户拉活。物料冷启动主要是让优质物料得到快速下发&#xff0c;让模型可以迅速捕获到用户对该物料的关注。本文将详细讲解用户冷启动和物料冷启动。 1、用户冷启动 用…