OW-VISCap——开放世界视频实例分割方法研究

概述

论文地址:https://arxiv.org/pdf/2404.03657

本文提出了一种名为 OW-VISCap(开放世界视频实例分割和字幕)的方法。其三大贡献是

  1. 开放世界对象查询:除了已知对象查询外,还引入了开放世界对象查询,以发现未知对象。这样就可以在不需要额外输入的情况下检测到未知物体。

  2. 使用遮罩关注机制生成以对象为中心的字幕:在对象-文本转换器中引入遮罩关注机制,使其能够生成以对象为中心的描述性字幕。

  3. 对象查询之间的对比度损失:引入对比度损失是为了抑制对象查询之间的相似性,减少重叠对象的检测,同时鼓励发现新的对象。

所提出的方法在开放世界视频实例分割、视频对象字幕和封闭世界视频实例分割这三个任务中表现出色。定性结果还表明,所提出的方法可以检测未知对象并生成以对象为中心的字幕。

相关研究

首先,有关开放世界视频实例分割的研究可分为两大类。

  1. 需要提示的方法:要求用户输入信息,并事先了解地面实况等。

  2. 无提示方法:为了发现新的对象,可以使用对象建议等方法。不过,这些方法也存在一些问题,例如性能有限或无法区分开放世界和封闭世界的物体。

另一方面,DVOC-DS[58] 是目前唯一的视频物体捕捉研究成果。然而,DVOC-DS 也存在一些问题,如无法应对长视频时间和无法捕捉物体的多个动作。

还有人提出了 OWVISFormer [39] 和 IDOL [50] 等方法来抑制对象查询之间的相似性。这些方法主要在封闭世界环境中有效,但在开放世界环境中并不充分。

拟议方法(OW-VISCap)

首先,对于开放世界对象查询 q_ow,可通过使用提示编码器(图 2 左侧的紫色区域)对视频帧上等间距的网格点进行编码来获得。这种设计有利于在整个视频区域内发现新奇的物体。

它还为 q_ow 引入了一个专门设计的开放世界损失函数 L_ow,以鼓励对未知物体的检测。

其次,对于以对象为中心的字幕,在对象-文本转换器中使用掩码关注机制可生成关注对象区域的字幕(图 2,右)。具体来说,遮罩关注是利用检测头获得的物体分割遮罩来生成字幕,字幕不仅关注局部物体特征,还考虑了整个视频的上下文。

最后,对比度损失 L_cont 用于抑制对象查询之间的相似性,其效果是防止重叠检测,并促进新对象的发现。在封闭世界环境中,它有助于抑制重叠误报;在开放世界环境中,它有助于发现新的物体。

因此,OW-VISCap 通过其独特的开放世界对象发现、以对象为中心的字幕和查询到查询的相似性抑制设计,提供了综合视频理解能力。

试验

本文在三个任务中对 OW-VISCap 进行了评估:开放世界视频实例分割(OW-VIS)、视频对象字幕(Dense VOC)和封闭世界视频实例分割(VIS)。

OW-VIS 在 BURST[2]数据集(表 1)上进行了评估,结果显示,在未知(不常见)类别中,OW-VIS 的性能提高了约 6%。

对于密集 VOC,我们使用了 VidSTG[57]数据集(表 2),结果显示生成字幕的正确率提高了约 7%,尽管物体检测的准确率略低。这是因为所提出的遮罩关注机制允许生成以对象为中心的字幕。

最后,在 OVIS [36] 数据集上对 VIS 进行了评估(表 3),结果表明其性能与最新技术相当。同样可以看出,物体查询之间的对比度损失有助于抑制重复检测。

图 S1 和图 S2 分别显示了 BURST 和 VidSTG 数据集的定性结果。可以看出,该系统能够检测和分割未知物体,并生成以物体为中心的字幕。

结论

本文提出的 OW-VISCap 将视频实例分割和字幕制作整合到开放世界环境中。它具有三个要素–开放世界对象查询、基于遮罩注意力的字幕分割和对象查询之间的对比度损失–能够检测和描述未知对象。

本文提出的 OW-VISCap 核心方法也适用于更通用的视频理解,并有潜力应用于现实世界,如自主系统和 AR/VR。细粒度视频理解(包括对未知物体的理解)是一项重要的研究挑战,而本文提出的方法可以为解决这一问题做出重大贡献。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/871475.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【安全靶场】-DC-7

❤️博客主页: iknow181 🔥系列专栏: 网络安全、 Python、JavaSE、JavaWeb、CCNP 🎉欢迎大家点赞👍收藏⭐评论✍ 一、收集信息 1.查看主机是否存活 nmap -T4 -sP 192.168.216.149 2.主动扫描 看开放了哪些端口和功能 n…

WPF调用CEF插件运行时启动CefSharp.BrowserSubprocess.exe三个进程

cefsharp.browsersubprocess.exe 是CefSharp(一个基于Chromium的开源浏览器控件)的一部分。这个可执行文件通常在以下情况下启动: 渲染进程:CefSharp使用多进程架构,类似于Chrome浏览器。cefsharp.browsersubprocess.e…

ArcGIS 数据服务在三维 Cesium/SuperMap 项目中使用遇到的一些问题及其解决方法

ArcGIS 数据服务在三维 Cesium/SuperMap 项目中使用遇到的一些问题及其解决方法 一、三维系统支持的 ArcGIS 服务及其投影 1、动态服务 ArcGIS 动态服务的数据,支持任意投影在三维系统中加载。 2、切片服务 ArcGIS 切片服务仅支持 3857(web 墨卡托投影)&#x…

19529 照明灯安装

### 详细分析 这个问题可以通过二分查找和贪心算法来解决。我们需要找到一个最大值,使得在这个最大值下,能够在给定的坐标上安装 k 个照明灯,并且相邻的照明灯之间的距离至少为这个最大值。 ### 思路 1. **排序**:首先对给定的…

arthas源码刨析:启动 (1)

文章目录 arthas-bootBootstrap Created with Raphal 2.3.0 开始 检查监听端口 jps 列表java应用 下载 lib 依赖 功能移交给 arthas-core 结束 arthas-boot 该module 的代码只有3个类: Bootstrap 启动类 Bootstrap ,开头的注解就是 alibaba 的 cli 中…

凡图公益行:凡图家庭教育以行动筑梦,点亮孩子心中的光芒

在教育的路上,每一步都承载着未来的希望,凡图(山东)教育科技集团有限公司一直致力于为每一个孩子及家庭提供最优质的心理咨询服务。 在这样的背景下,凡图家庭教育以独特的使命感和责任感,成为了众多家庭信赖的伙伴。 也因此成为…

阿里Qwen2开源大模型本地部署及调试全攻略

阿里Qwen2开源大模型本地部署及调试全攻略 #Qwen2系列大模型性能卓越,超越业界知名模型。开源后受到AI开发者关注,支持多种语言,提升多语言理解。在预训练和微调上优化,实现智能水平提升。Qwen2系列模型在各项能力上均领先&#…

glibc 2.24 下 IO_FILE 的利用

文章目录 glibc 2.24 下 IO_FILE 的利用介绍:新的利用技术fileno 与缓冲区的相关利用实例:1. _IO_str_jumps -> overflow实例: 2. _IO_str_jumps -> finish实例: 最后拓展一下上一篇博客house of orange题目的做法: glibc 2.24 下 IO_F…

怎么对前端的一些按钮做一个权限校验

在一般情况下,我们需要对一些按钮做一个权限校验,来保证只有有权限的用户才能看到 1.创建一个js文件,来写我们的全局方法 我的方法是这样的 import Vue from vue;Vue.mixin({methods:{hasAuth(perm) {var authority this.$store.state.menu.permList;if (authority.indexOf(…

又搞到两款海外AI神器,确实强!

哈喽,各位小伙伴们好,我是给大家带来各类黑科技与前沿资讯的小武。 今天给大家安利两款海外AI神器,均已解除专业版限制,免翻,即可使用AI图片/视频修复(清晰度增强)、AI图片/视频一键抠图、AI证件照、美颜相机等强大功…

STM32的GPIO

GPIO基本控制 GPIO(General-Purpose input/output,通用输入/输出接口) 用于感知外部信号(输入模式)和控制外部设备(输出模式) 简单模块:LED,按键,蜂鸣器,温度传感器,使用一个GPIO…

安装MySQL入门基础指令

一.安装MySQL(以5.7版本为例) 1.一路默认安装,截图供大家参考 修改自己window安装名字即可 2.配置环境变量 C:\Program Files\MySQL\MySQL Server 5.7\bin 写入系统环境变量即可在window窗口使用其服务了 3.登录MySQL服务 进入控制台输入命令 mysql -u root …

MySQL InnoDB引擎四大特性ACID实现方案分析

文章目录 概要InnoDb引擎ACID模型的实现方案小结 概要 对于Mysql,事物的支撑并不依赖于Server层,不同的存储引擎对于事物的支持也不一样,对于我们常用的InnoDB引擎,其提供了一套基于【ACID模型】的事物完整的解决方案。为什么MyIS…

初识C++:开启C++之旅

目录 1.C的第一个程序 2.namesapce命名空间域 2.1namespace的意义 2.2.2namespace的定义 2.3命名空间的使用 3.C输入/输出 4.缺省参数 5.函数重载 6.引用 6.1引用的特性 6.2引用的使用 1.C的第一个程序 c版本&#xff1a; #include<iostream>using std::cout…

线性代数:每日一题1/特征值与相似对角化

设A, B 为二阶矩阵&#xff0c;且 AB BA , 则“A有两个不相等的特征值”是“B可对角化"的&#xff08;&#xff09; A. 充分必要条件 B. 充分不必要条件 C.必要不充分条件 D.既不充分也不必要条件 知识点&#xff1a; 特征向量与特征值的关系 相似矩阵的定义和性质 n阶…

计算机网络之TCP序号,确认序号和报文传输时间

开篇提示 本篇适合于了解基础知识&#xff0c;进行扩展提高的使用&#xff0c;附带考研习题以及解析。 TCP序号和确认序号的区别 TCP首部中有序号和确认序号&#xff0c;他们都是4个字节&#xff08;4B&#xff09;&#xff0c;且在数据传输中有很重要的意义&#xff0c;那么两…

【后端记录】修复MySql的错误修改的数据记录【binlog修复】

前言 今天入门后端的时候&#xff0c;不小心改了非预期的数据&#xff0c;因为还没学到事务&#xff0c;所以恢复数据还比较麻烦&#xff0c;站在巨人的肩膀上还是解决了&#xff0c;原文连接在下面 https://blog.csdn.net/qq_42874315/article/details/140480570 解决办法 原…

Spring核心思想讲解之控制反转(IOC)

控制反转概述 控制反转实现方式 XML方式 方式一 方式二 方式三 注解方式 第一步 第二步 第三步 依赖注入&#xff08;DI&#xff09;实现方式 XML方式 手动注入 set注入 构造器注入 自动注入 set注入 构造方法注入 注解方式 方式一&#xff1a; 方式二&…

用excel内容批量建立文件夹

建文件夹是电脑操作过程中比较常见的&#xff0c;但是用EXCEL内容批量建文件夹&#xff0c;这似乎不相关的两个操作&#xff0c;那么怎么实现这样的一个功能&#xff0c;我们需要用到专门的软件进行关联&#xff0c;推荐&#xff1a;可易文件夹批量生成器&#xff0c;这个软件有…

RCE编码绕过--php://filter妙用

目录 代码 如何绕过 payload构造 代码 <?php $content <?php exit; ?>; $content . $_POST[txt]; file_put_contents($_POST[filename],$content); 当你想要输入代码的时候前面会有<?php exit;?>;&#xff0c;代码没有办法执行下去&#xff0c;所以…