《Self-Supervised MultiModal Versatile Networks》简要

文章汉化系列目录


文章目录

  • 文章汉化系列目录
  • 摘要
  • 引言


摘要

 视频是多模态监督的丰富来源。在本研究中,我们通过自监督学习利用视频中天然存在的三种模态——视觉、音频和语言流——来学习表征。为此,我们引入了“多模态多功能网络”的概念,该网络能够接收多种模态输入,其学到的表示能够支持多模态的下游任务。特别地,我们探索了如何最佳地结合这些模态,以便在维持视觉和音频模态的细粒度表示的同时,将文本整合到一个通用的嵌入空间中。基于多功能性,我们还提出了一种新颖的“收缩”过程,使得该网络可以轻松地应用于视频或静态图像形式的视觉数据。我们展示了这种在大量未标注视频数据上训练的网络如何应用于视频、视频-文本、图像和音频任务。利用这些表示,我们在多个具有挑战性的基准数据集上(如UCF101、HMDB51、Kinetics600、AudioSet和ESC-50)实现了超越以往自监督方法的最先进性能。我们的模型已公开提供。

引言

 我们对世界的体验是多模态的。从婴儿时期起,我们便通过多种感官系统来感知世界。例如,我们观看火焰在壁炉中跳动,听到木头噼啪作响的声音,还能感受到散发出的热量。通过这种多模态的同步感知,我们逐渐学会在模态之间建立有用的联系【73】,从而形成对世界的良好表征。随后,语言的出现使我们能够用高级的抽象概念来表达这种细致的多模态体验。

 本研究的目标是以自监督的方式,从这种多模态体验中学习表征,而不依赖任何特定的人工标注。我们所考虑的模态包括从大量未标注视频中易于获取的三种:视觉、音频和语言(从旁白中提取)。我们旨在学习一种“多模态多功能网络”,其定义包含以下四个特性:(i)网络能够以三种模态中的任意一种作为输入;(ii)能够尊重模态的特性,特别是音频和视觉模态的细粒度性强于语言模态;(iii)即便在训练期间模态数据未曾一起出现,网络也能够轻松比较不同模态;最后,(iv)网络能够高效地应用于动态视频或静态图像形式的视觉数据。

 如何设计一个符合这四个原则的网络?我们选择将每个模态嵌入到一个向量空间中,使得模态之间的相似性可以通过简单的点积来获得。每种模态通过适应信号特性的主干网络进行处理,构建了一个模态嵌入图,使得视觉和音频嵌入是细粒度的,而文本嵌入则是语义粗粒度的。这一策略基于观察得出:视觉和音频空间是细粒度的(例如,相同的吉他在视觉或音频上可能表现出很大的不同),而文本域则更为粗略,因为其目的是抽象掉细节(例如,仅使用“吉他”一词)。网络随后通过对大量未标注视频进行自监督对比学习从零开始训练。

 为了定量评估我们学习到的多模态多功能(MMV)网络,我们在多个下游任务上衡量其性能,以评估其视频和图像表征的各种属性:动词学习(在HMBD51、UCF101和Kinetics600数据集上进行的动作分类)、名词学习(在PASCAL VOC和ImageNet上的图像分类)、文本与视觉联合表征(YouCook2、MSRVTT),以及音频表征(ESC-50和AudioSet上的声音分类)。所提出的MMV在这些基准上取得了自监督方法的最先进性能,并缩小了与监督方法的性能差距。

贡献:本文的主要贡献如下:
(a) 我们研究了不同的MMV模态嵌入图,并提出了一种简单而有效的自监督训练策略,用于音频、视觉和语言流的多模态表征;
(b) 我们引入了“收缩”方法,使得MMV视频网络能够高效地接受静态图像;
© 我们在多项图像、视频、音频和视频-文本的下游任务中验证了所学习表征的优越性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/917172.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

redis高性能键值数据库技术简介

什么是redis redis是远程字典服务(Remote Dictionary Server )的简写,是一个完全开源的高性能的Key-Value数据库,提供了丰富的数据结构如string、Hash、List、SetSortedset等等。数据是存在内存中的,同时Redis支持事务…

进程信号

目录 信号入门 1. 生活角度的信号 2. 技术应用角度的信号 3. 注意 4. 信号概念 5. 用kill -l命令可以察看系统定义的信号列表 6. 信号处理常见方式概览 产生信号 1. 通过终端按键产生信号 Core Dump 2. 调用系统函数向进程发信号 3. 由软件条件产生信号 4. 硬件异…

NotePad++中安装XML Tools插件

一、概述 作为开发人员,日常开发中大部的数据是标准的json格式,但是对于一些古老的应用,例如webservice接口,由于其响应结果是xml,那么我们拿到xml格式的数据后,常常会对其进行格式化,以便阅读。…

Java基础——多线程

1. 线程 是一个程序内部的一条执行流程程序中如果只有一条执行流程,那这个程序就是单线程的程序 2. 多线程 指从软硬件上实现的多条执行流程的技术(多条线程由CPU负责调度执行) 2.1. 如何创建多条线程 Java通过java.lang.Thread类的对象…

HarmonyOS ArkUI(基于ArkTS) 常用组件

一 Button 按钮 Button是按钮组件,通常用于响应用户的点击操作,可以加子组件 Button(我是button)Button(){Text(我是button)}type 按钮类型 Button有三种可选类型,分别为胶囊类型(Capsule)、圆形按钮(Circle&#xf…

【FPGA开发】AXI-Stream总线协议解读

文章目录 AXI-Stream概述协议中一些定义字节定义流的定义 数据流类别字节流连续对齐流连续不对齐流稀疏流 协议的信号信号列表 文章为个人理解整理,如有错误,欢迎指正! 参考文献 ARM官方手册 《IHI0051B》 AXI-Stream概述 协议中一些定义 A…

谷粒商城のMySQL集群分库分表

文章目录 前言一、MySQL的集群架构二、MySQL主从同步实践1.创建主节点实例2.创建从节点实例3.修改配置4.开始同步4.测试主从同步效果5.小结 三、MySQL分库分表1.配置sharding-proxy2.测试sharding-proxy3.小结 前言 本篇是谷粒商城集群部署篇,搭建MySQL集群以及分库…

计算机组成原理对于学习嵌入式开发的意义

计算机组成原理对于学习嵌入式开发的意义 前言 最近有位同学向我咨询,问学习嵌入式开发需不需要学习硬件?进而引申到了需不需要学习计算机组成原理呢? 正文 首先计算机组成原理是计算机科学与技术专业的一门核心基础课程,它深入…

npm list -g --depth=0(用来列出全局安装的所有 npm 软件包而不显示它们的依赖项)

您提供的命令 npm list -g --depth0 是在 Node Package Manager (npm) 的上下文中使用的,用来列出全局安装的所有 npm 软件包而不显示它们的依赖项。 这是它的运作方式: npm list -g --depth0-g: 指定列表应包括全局安装的软件包。--depth0: 限制树形结…

SpringBoot 2.2.10 无法执行Test单元测试

很早之前的项目今天clone现在,想执行一个业务订单的检查,该检查的代码放在test单元测试中,启动也是好好的,当点击对应的方法执行Test的时候就报错 tip:已添加spring-boot-test-starter 所以本身就引入了junit5的库 No…

多表查询综合归纳

目录 1. 多表关系 1.1 一对多(多对一) 1.2 多对多 1.3 一对一 2. 多表查询概述 2.1 熟悉表 2.2 笛卡尔积 2.3 消除笛卡尔积 2.4 多表查询分类 3. 内连接 3.1 隐式内连接 3.2 显式内连接 4. 外连接 4.1 左外连接 4.2 右外连接 5. 自连接 …

python爬虫(二)爬取国家博物馆的信息

import requests from bs4 import BeautifulSoup# 起始网址 url https://www.chnmuseum.cn/zx/xingnew/index_1.shtml # 用于存储所有数据 all_data [] page 1 global_index 1 # 定义全局序号变量并初始化为1 while True:html_url requests.get(url).textif requests.get…

基于NI Vision和MATLAB的图像颜色识别与透视变换

1. 任务概述 利用LabVIEW的NI Vision模块读取图片,对图像中具有特征颜色的部分进行识别,并对识别的颜色区域进行标记。接着,通过图像处理算法检测图像的四个顶点(左上、左下、右上、右下),并识别每个顶点周…

Qt_day7_文件IO

目录 文件IO 1. QFileDialog 文件对话框(熟悉) 2. QFileInfo 文件信息类(熟悉) 3. QFile 文件读写类(掌握) 4. UI操作与耗时操作(掌握) 5. 多线程(掌握)…

[论文笔记]An LLM Compiler for Parallel Function Calling

引言 今天带来一篇优化函数调用的论文笔记——An LLM Compiler for Parallel Function Calling。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 当前的函数(工具)调用方法通常需要对每个函数进行顺序推理和操作&…

网络性能测试

一、iperf网络性能测试工具 测试udp丢包率 在服务器启动 iperf 服务端 iperf -p 9000 -s -u -i 1参数说明: -p : 端口号 -s : 表示服务端 -u : 表示 udp 协议 -i : 检测的时间间隔(单位,秒) 在客户端,启动 iperf 客户端 iperf -c xxx.xxx.14…

Rust语言在系统编程中的应用

💓 博客主页:瑕疵的CSDN主页 📝 Gitee主页:瑕疵的gitee主页 ⏩ 文章专栏:《热点资讯》 Rust语言在系统编程中的应用 Rust语言在系统编程中的应用 Rust语言在系统编程中的应用 引言 Rust 概述 定义与原理 发展历程 Ru…

1-Equity-Transformer:求解NP-Hard Min-Max路由问题的顺序生成算法(AAAI-24)(完)(code)

文章目录 AbstractIntroduction问题表述Methodology多智能体位置编码公平上下文编码训练方案ExperimentsmTSP的性能评估mPDP的性能评估Related WorkConclusionAbstract 最小最大路由问题旨在通过智能体合作完成任务来最小化多个智能体中最长行程的长度。这些问题包括对现实世界…

数字后端教程之Innovus report_property和get_property使用方法及应用案例

数字IC后端实现Innovus中使用report_property可以报告出各种各样object的属性,主要有cell,net,PG Net,Pin,时钟clock,时序库lib属性,Design属性,timing path,timin arc等…

【Vitepress报错】Error: [vitepress] 8 dead link(s) found.

原因 VitePress 在编译时,发现 死链接(dead links) 会构建失败!具体在哪我也找不到… 解决方案 如图第一行蓝色提示信息,设置 Vitepress 属性 ignoredeadlinks 为 true 可忽略报错。 .vuepress/config.js export default defineConfig(…