《Video Mamba Suite》论文笔记(3)Mamba作为时序适配器的作用

原文翻译

4.3 Mamba as Video Temporal Adapter(时序自适应建模)

Tasks and datasets.除了评估 Mamba 在后时间建模中的性能外,我们还评估了它作为视频时间适配器的有效性。通过对自我中心数据[29,49]进行视频-文本对比学习,对双塔模型进行预训练,该数据集包含4M个带有细粒度叙述的视频片段。为了评估,我们考虑了 Epic-Kitchens-100 数据集 [13] 上的zero-shot/fine-tuned多实例检索和fine-tuned动作识别,以及 EgoSchema 数据集上的zero-shot长格式问答 [56]。

Baseline and competitor.TimeSformer[6]采用划分的时空注意块分别对视频中的空间和时间关系进行建模。在 TimeSformer 之后,我们引入双向 Mamba 块作为时间适配器来替换 vanilla 时间自注意力以改进划分的时空交互。TimeSformer 中的空间注意力层保持不变,以便进行公平比较。在这里,我们使用 ViM [96] 块作为时间模块,并将结果模型称为 TimeMamba。为了一致性,我们重新实现了 Transformer 基线并采用一致的适应方法,该方法涉及添加一个初始值为零的 tanh 门控机制 [37]。这确保了新模型的输出与原始模型的输出相匹配。值得注意的是,标准的ViM块比自我注意力模块(4C^2)具有更多的参数(略多于6.25C^2),其中C指的是特征维度。因此,我们将 ViM 块的扩展比 E 设置为 1,将其参数量减少到 3.25C2 以进行公平比较。除了 TimeSformer [6] 使用的普通残差连接形式外,我们还探索了 Frozen 风格的 [3] 适应方式。我们在图 4 中列出具有不同划分时空交互的块。我们使用 AVION [93] 代码库训练模型 4 帧输入,其余设置不变 [94] 和 [93]。该模型使用通过图像-文本对比学习预训练的CLIP-B16[61]进行初始化。

Zero-shot multi-instance retrieval.我们首先在表 8 中评估具有划分时空交互操作的不同模型。我们复制的 Frozen 样式残差连接实现了与 LaviLa [94] 一致的结果。在比较 vanilla 和 Frozen [3] 风格时,我们观察到 Frozen 风格始终产生更好的结果(ID4 与 ID5、ID6 与 ID7)。此外,在相同的自适应方法下,基于 ViM 的时间模块始终优于基于注意力的时间模块(ID4 与 ID6、ID5 与 ID7)。值得注意的是,与时间自注意力块相比,我们使用的 VIM 时间块的参数更少,突出了 Mamba 选择性扫描 [30] 的特殊参数利用率和信息提取能力。此外,我们超越了ViM的时间建模能力,验证了时空ViM块。时空ViM块将时间ViM块替换为整个视频序列的联合时空建模。令人惊讶的是,我们观察到时空 ViM 块虽然在时空级别引入了全局建模,但实际上会导致性能下降(ID7 vs ID8)我们假设基于扫描的时空可能会损害预先训练的空间注意块产生的空间特征分布。

Fine-tuned multi-instance retrieval and action recognition.我们继续在Epic-Kitchen-100[13]数据集上用16帧微调预训练模型,用于多实例检索和动作识别。在表 9 中,我们观察到 TimeMamba 大大优于 TimeSformer。特别是,TimeMamba 在动词识别的背景下超过了 TimeSformer 2.8 分,证明了它在时间建模中的有效性。

Zero-shot long-form video QA.我们对模型在 EgoSchema [56] 上的长格式视频问答性能进行了进一步评估。如表10所示,当Ego4D[29]上进行预训练时,TimeSformer和TimeMamba都优于大规模预训练模型[85,88]的性能。此外,我们增加了测试帧数来探索 ViM 块长形式时间建模能力的影响。如图 5 所示,尽管两个模型都在 4 帧上进行了预训练,但 TimeMamba 和 TimeSformer 的性能随着帧的增加而稳步提高。同时,当使用 8192 帧时可以观察到显着的改进。当输入帧超过 32 时,TimeMamba 通常比 TimeSformer 受益于更多的帧,这表明时间 ViM 块相对于时间自注意力的优越性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/622465.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

免费的集成组件有哪些?

集成组件是指将多个软件或系统进行整合,以实现更高效、更可靠的数据处理和管理。在数据管理和分析领域,集成组件是不可或缺的工具之一。 在当今高度信息化的时代,集成组件在各行各业的应用中扮演着举足轻重的角色。集成组件能够将不同来源的…

翻天娃时光列车于地铁1号线闪耀启程,五一站厅活动再掀品牌热潮

四月下旬,备受瞩目的翻天娃食品品牌地铁广告震撼亮相长沙地铁1号线,翻天娃时光列车闪耀启程。五月中旬,翻天娃又在五一广场地铁站举办了一场别出心裁的站厅活动,将市民乘客们带入了一场穿越时光的奇妙旅程。 作为一家专注于休闲食…

【opencv】图像处理(一)

实验环境:anaconda、jupyter notebook 实验用到的包:numpy,matplotlib,opencv 一、opencv安装 最好使用python3.6(我之前用的3.9安装opencv3.4.1.15会失败) conda create -n cv python3.6安装opencv3.4.1.15(3.4.2版…

美国加州正测试ChatGPT等生成式AI,在4大部门应用

5月11日,美联社消息,美国加州政府正在测试ChatGPT等生成式AI,应用在税收和收费管理部、交通部、公共卫生部以及卫生与公众服务部4大部门。 测试时间6个月,为其提供技术支持的一共有5家公司,分别是OpenAI、Anthropic、…

笨方法自学python(九)-读写文件

读取文件 前面已经学过了 input 和 argv,这些是你开始学习读取文件的必备基础。你可能需要多多实验才能明白它的工作原理,这节练习涉及到写两个文件。一个正常的 ex15.py 文件,另外一个是 ex15_sample.txt,第二个文件并不是脚本&…

电子杂志制作攻略,轻松打造高质量数字出版物

随着数字科技的飞速发展,电子杂志作为一种新型的数字出版物,已经越来越受到人们的青睐。它不仅具有丰富的内容、多样的形式,还具有便捷的传播和阅读方式。如今,电子杂志已经逐渐成为企业、媒体和个人展示自身品牌、传播信息的重要…

IDEA项目代码修改后不自动生效需要执行mvn clean install才生效

背景 IDEA代码修改之后,启动测试发现不生效,只有重新mvn clean install之后才能加载到改动的代码 解决方法 严重怀疑是idea的配置问题导致的,没有什么特别好的办法,只能删配置重新导入 1、删除 .idea文件夹 以及 所有.iml文件 …

一个基于servlet的MVC项目-登录验证

一、MVC的概念 MVC是Model、View、Controller的缩写,分别代表 Web 应用程序中的3种职责1 模型:用于存储数据以及处理用户请求的业务逻辑。 2视图:向控制器提交数据,显示模型中的数据。 3控制器:根据视图提出的请求,判断将请求和数据交给哪个…

身份证实名认证API接口如何对接

身份证实名认证API接口又叫身份证核验API接口、身份证二要素验证API接口,指的是输入姓名和身份证号通过官方权威核查,实时校验此二要素是否一致。那么身份证实名认证API接口如何对接呢? 首先我们找到一家有这个接口的服务商数脉API,然后注册…

数据分离和混淆矩阵的学习

1.明确意义 通过训练集建立模型的意义是对新的数据进行准确的预测(测试集的准度高才代表good fit); 2.评估流程 3.单单利用准确率accuracy进行模型评估的局限性 模型一:一共1000个数据(分别为900个1和100个0&#x…

Python自动化办公实战案例:文件整理与邮件发送

目录 一、引言 二、案例背景 三、实战案例 (一)文件自动整理 (二)邮件自动发送 四、结语 一、引言 随着办公自动化的兴起,Python作为一门强大的编程语言,逐渐被应用于日常办公中。从文件整理到邮件…

RelationMap图谱--VUE,真实项目提供mock数据

RelationMap官网&#xff1a; 在线配置官网&#xff08;可以把数据放进去&#xff0c;直接看效果&#xff09; VUE2 效果&#xff1a;左侧列表栏&#xff0c;点击右侧显示对应的图谱 代码&#xff1a;按照代码直接贴过去&#xff0c;直接出效果 relationMap/index.vue <te…

【小白的大模型之路】基础篇:Transformer细节

基础篇&#xff1a;Transformer 引言模型基础架构原论文架构图EmbeddingPostional EncodingMulti-Head AttentionLayerNormEncoderDecoder其他 引言 此文作者本身对transformer有一些基础的了解,此处主要用于记录一些关于transformer模型的细节部分用于进一步理解其具体的实现机…

《Mybatis》系列文章目录

什么是 MyBatis&#xff1f; MyBatis 是一款优秀的持久层框架&#xff0c;它支持自定义 SQL、存储过程以及高级映射。MyBatis 免除了几乎所有的 JDBC 代码以及设置参数和获取结果集的工作。MyBatis 可以通过简单的 XML 或注解来配置和映射原始类型、接口和 Java POJO&#xff…

Kubernetes学习-集群搭建篇(一) 搭建Master结点

&#x1f3f7;️个人主页&#xff1a;牵着猫散步的鼠鼠 &#x1f3f7;️系列专栏&#xff1a;Kubernetes渐进式学习-专栏 &#x1f3f7;️个人学习笔记&#xff0c;若有缺误&#xff0c;欢迎评论区指正 目录 1. 前言 2. 集群搭建方式 3. 环境说明 4. 利用kubeadm初始化Ma…

树莓派|采集视频并实时显示画面

1、使用SSH远程连接到树莓派 2、新建存放代码的目录 mkdir /home/pi/my_code_directory 3、进入存放代码的目录 cd /home/pi/my_code_directory 4、新建py文件 nano cv2test.py 5、输入代码 import cv2# 打开摄像头 cap cv2.VideoCapture(0)while True:# 读取视频帧ret…

最短路径[floyd算法]-----视频讲解+代码实现

求最短路径&#xff0c;一般有三种方法&#xff1a; 单源最短路径--Dijkstra算法 此算法只能求不带负权值的有向无环图 单源最短路径--Bellman-Ford算法&#xff08;少考&#xff09; 此算法优点在于&#xff1a;可以求带权值的有向无环图 但只是缺点明显&#xff0c;时间复杂度…

nacos在没有指定数据源的情况下默认使用什么数据库?

在没有特别指定数据源的情况下&#xff0c;Nacos 默认使用内嵌的数据库 Derby 来存储其数据。Derby 是一个轻量级的、基于 Java 的数据库管理系统&#xff0c;适合于开发和测试环境&#xff0c;因为它简单易部署且无需额外的数据库服务器。然而&#xff0c;对于生产环境&#x…

服务攻防——数据库安全

第一步: 端口扫描&#xff1a;nmap 扫不到端口&#xff1a;端口被修改&#xff0c;防护软件&#xff0c;放在内网环境 mysql 内置端口3306 第一种官方漏洞 第一步:先扫描有什么端口开发 用这个错误密码一直访问&#xff0c;最终就进去了 弱口令猜解 不可以直接猜解&#x…

C++(week2):C语言中高级

文章目录 (八) 指针0.概念1.指针基础(1)指针的声明(2)指针的两个基本操作①取地址运算符 &②解引用运算符 * (3)野指针①野指针②空指针③指针变量的赋值 vs 指针变量指向对象的赋值 (4)指针的应用①指针作为参数进行传递②指针作为返回值③拓展&#xff1a;栈帧 (5)常量指…