北大腾讯打造多模态15边形战士!语言作“纽带”,拳打脚踢各模态,超越Imagebind

AI4Happiness 投稿
量子位 | 公众号 QbitAI

北大联合腾讯打造了一个多模态15边形战士!

以语言为中心,“拳打脚踢”视频、音频、深度、红外理解等各模态。

图片

具体来说,研究人员提出了一个叫做LanguageBind的多模态预训练框架。

语言作为与其它模态之间的纽带,冻结语言编码器,然后用对比学习方法,将各个模态映射到一个共享的特征空间,实现多模态数据的语义对齐。

使用这种方法,模型在5个数据集上的性能拿下新SOTA,在15个zero-shot检索等任务中取得了显著的性能提升,全面超越ImageBind、OpenCLIP。

图片

将各模态与语言绑定

LanguageBind包含三个部分:

多模态编码器(Multi-modal Encoders),语言编码器(Language Encoder),以及多模态联合学习(Multi-modal Joint Learning)。

图片

先来看多模态编码器部分。

除了语言之外的其它模态,研究人员使用24层、1024维的视觉Transformer,具有14的Patch大小。编码器是从OpenCLIP-large初始化的。

深度红外被视为RGB图像,在通道维度上复制3次与RGB图像对齐。

按照ImageBind的方式,音频数据被转换为持续10秒(128个mel-bins)的频谱图,并进行重复和填充。

  • Patch masking

为了解决在编码器中处理所有Token的低效问题,研究人员将图像分成补丁,并通过Mask获取一小部分图片序列,按照MAE的方法进行。

  • LoRA fine-tuning

同时使用LoRA技术来加速微调。对于具有权重矩阵W0∈Rd×k的模态编码器,在学习新的权重矩阵BA时,保持权重矩阵W0不变。

  • Modality extending

将LanguageBind方法扩展到多个(N个)模态的第一步是将数据处理成令牌序列。随后,参数将从OpenCLIP进行初始化。然后通过令牌屏蔽和LoRA微调来训练不同模态的编码器,同时保持语言编码器冻结。最后,将该模态与语言特征空间对齐。

再来看看语言编码器以及多模态联合学习部分。

对于语言编码器,研究人员使用了一个12层的transformer模型,维度为768,初始化来源于OpenCLIP。

对于给定的文本,他们首先使用BPE分词器将单词分割成相对常见的子词。每个子词对应一个唯一的标记,这些标记在一个词嵌入层内嵌入。最终,这些标记被语言编码器编码,以获得文本对数:

图片

其中L表示序列的长度。为了确保跨不同模态的对齐,研究人员采用了对比学习原则。

这种方法的目标是增加配对数据的相似性,将它们带到相同的语义空间,同时减小不配对数据的相似性。研究人员利用对比学习将各个模态与语言绑定在一起。

构建高质量数据集

此外,研究人员还创建了一个名为“VIDAL-10M”的高质量数据集,其中包含1000万个具有对齐视频-语言、红外-语言、深度-语言、音频-语言的数据对,是第一个具有深度和红外模态的大规模视频多模态数据集。

图片

数据集构建方法如下:

图片

VIDAL-10M 构建框架

第一步是生成搜索词数据库,这个过程中,研究人员设计了一种独特的搜索词获取策略,利用来自各种视觉任务数据集的文本数据,包括标签和标题,以构建具有丰富视觉概念和多样性的视频数据集。

第二步是从互联网收集相关视频和音频,并进行一系列过滤处理,以确保数据集的质量和准确性。

这个过程中,研究人员使用了多种过滤方法,包括基于文本的过滤、基于视觉与音频的过滤,以确保数据集中的视频和音频与搜索词相关且质量高。

第三步是进行红外和深度模态生成,以及多视角文本生成和增强

在空间信息增强方面,研究人员采用了OFA模型生成多个关键帧描述,以提升视频内容的空间表达质量。

同时,在时间信息增强方面,将视频内容、标题以及Hashtag标签输入到mPLUG-owl模型中,以获取更为精炼和丰富的时间维度描述。

最后,研究人员运用ChatGPT模型对文本描述进行进一步细化和增强。

综合而言,多视角文本增强涵盖了标题、标签、关键帧描述以及视频描述等多个组成部分,为视频内容提供了全面且详尽的描述。

多个测试拿下SOTA

在测试阶段,大量的实验验证了VIDAL-10M数据集和LanguageBind方法的有效性,在视频、音频以及其它模态理解任务中取得了显著的性能。

图片

LanguageBind在四个数据集上都性能拿下SOTA。

在MSR-VTT上比InterVideo方法高出1.9%,在MSVD上比 InterVideo高出 8.8%,在DiDeMo上比InterVideo高出 6.3%,在ActivityNet上比InterVideo高出 4.4%。

值得注意的是,InterVideo采用了更广泛的训练数据,正表明LanguageBind的有效性。

图片

Zero-Shot视频-文本检索结果

视频-语言、红外-语言、深度-语言和音频-语言Zero-Shot分类,在所有数据集上的准确率均优于ImageBind、OpenCLIP:

图片

Zero-Shot音频-语言检索性能同样优越:

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/151015.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Python中的时间序列分析模型ARIMA

大家好,时间序列分析广泛用于预测和预报时间序列中的未来数据点。ARIMA模型被广泛用于时间序列预测,并被认为是最流行的方法之一。本文我们将学习如何在Python中搭建和评估用于时间序列预测的ARIMA模型。 ARIMA模型 ARIMA模型是一种用于分析和预测时间…

华为ensp防火墙虚拟系统在网络中的部署

首先我们要知道虚拟系统是啥,干什么用的,解决什么问题的,说白话就是,我没钱,买不起两台墙,我买一台墙通过虚拟系统的方式逻辑变成两台墙,学过高级路由的都知道vpn,vpn是将路由器器逻…

Spring6(六):提前编译AOT

文章目录 提前编译:AOT1. AOT概述1.1 JIT与AOT的区别1.2 Graalvm1.3 Native Image 2. 演示Native Image构建过程2.1 GraalVM安装(1)下载GraalVM(2)配置环境变量(3)安装native-image插件 2.2 安装…

内存泄漏、new、delete

1. 内存泄漏 内存泄漏&#xff1a;指针被销毁&#xff0c;指针指向的空间依旧存在 2. new过程 与内存分配、构造函数有关 1&#xff09;分配空间&#xff1a;void* mem operator new( sizeof( ) )&#xff0c;内部调用malloc 2&#xff09;static_cast<目标类型>(mem) …

uniapp 实现微信小程序手机号一键登录

app 和 h5 手机号一键登录&#xff0c;参考文档&#xff1a;uni-app官网 以下是uniapp 实现微信小程序手机号一键登录 1、布局 <template><view class"mainContent"><image class"closeImg" click"onCloseClick"src"quic…

2023年【安全员-C证】考试题库及安全员-C证考试总结

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 安全员-C证考试题库根据新安全员-C证考试大纲要求&#xff0c;安全生产模拟考试一点通将安全员-C证模拟考试试题进行汇编&#xff0c;组成一套安全员-C证全真模拟考试试题&#xff0c;学员可通过安全员-C证考试总结全…

Pytorch数据集读出到transform全过程

最近写代码又遇见了这个问题&#xff0c;又忘记了&#xff0c;于是写一篇博客记录一下。 一般我们使用pytorch获取CIFAR10数据集&#xff0c;一般这样写&#xff1a; mean [0.4914, 0.4822, 0.4465] std [0.2023, 0.1994, 0.2010] transform transforms.Compose([transform…

传统游戏难产 育碧瞄向Web3

出品过《刺客信条》的游戏大厂育碧&#xff08;Ubisoft&#xff09;又在Web3游戏领域有了新动作。 首次试水NFT无功而返后&#xff0c;育碧&#xff08;Ubisoft&#xff09;战略创新实验室与Web3游戏网络Immutable达成合作&#xff0c;将利用Immutable 开发游戏的经验和及生态…

春秋云境靶场CVE-2022-25578漏洞复现(利用htaccess文件进行任意文件上传)

文章目录 前言一、CVE-2022-25578靶场概述二、CVE-2022-25578复现需要知道的知识点1、什么是htaccess文件2、上传htaccess文件的条件是什么&#xff1f;3、htaccess文件的作用是什么&#xff1f; 三、CVE-2022-32991漏洞复现1、信息收集2、找上传点3、上传后蚁剑连接getshell 总…

基于模拟退火算法的TSP问题建模求解(Python)

基于模拟退火算法的TSP问题建模求解&#xff08;Python&#xff09; 一、模拟退火算法&#xff08;Simulated Annealing Algorithm&#xff0c;SAA&#xff09;工程背景模拟退火算法用于优化问题求解原理 二、旅行商问题&#xff08;Travelling salesman problem&#xff0c;TS…

计算机毕业设计选题推荐-二手交易跳蚤市场微信小程序/安卓APP-项目实战

✨作者主页&#xff1a;IT毕设梦工厂✨ 个人简介&#xff1a;曾从事计算机专业培训教学&#xff0c;擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Py…

EMNLP 2023 | DeepMind提出大模型In-Context Learning的可解释理论框架

论文题目&#xff1a;In-Context Learning Creates Task Vectors 论文链接&#xff1a;https://arxiv.org/abs/2310.15916 01. 引言 此外&#xff0c;作者也提到本文的方法与软提示&#xff08;soft-prompt&#xff09;[1]方法类似&#xff0c;soft-prompt也是通过调整大模型内…

Nginx配置开启HTTPS

获取证书文件 Nginx 开启SSL server {listen 443 default ssl;server_name localhost;#charset koi8-r;#access_log logs/host.access.log main;proxy_set_header Host $host;ssl_certificate /usr/local/nginx/cert/server.pem;ssl_certificate_key /usr/local/ngin…

java时间类

一、java时间类为什么这么复杂? java的时间类非常复杂&#xff0c;这是由于jdk1.0到jdk1.1的时间类设计存在缺陷&#xff0c;导致使用不方便&#xff0c;线程不安全等问题&#xff0c;所以在jdk1.8&#xff0c;java又重新加入了一些时间类替换之前的时间类&#xff0c;但是jd…

ExoPlayer架构详解与源码分析(8)——Loader

系列文章目录 ExoPlayer架构详解与源码分析&#xff08;1&#xff09;——前言 ExoPlayer架构详解与源码分析&#xff08;2&#xff09;——Player ExoPlayer架构详解与源码分析&#xff08;3&#xff09;——Timeline ExoPlayer架构详解与源码分析&#xff08;4&#xff09;—…

DNS服务器典型配置

文章目录 安装主程序bind和安全插件bind-root修改主配置文件/etc/named.conf正向解析 安装主程序bind和安全插件bind-root yum install bind-chroot修改主配置文件/etc/named.conf vim /etc/named.conf将listen-on和allow-query的ip或域名换成any 表示为服务器所有的IP地址启…

多svn仓库一键更新脚本分享

之前分享过多git仓库一键更新脚本&#xff0c;本期就分享下svn仓库的一键更新脚本 1、首先需要设置svn为可执行命令行 打开SVN安装程序&#xff0c;选择modify&#xff0c;然后点击 command client tools&#xff0c;安装命令行工具 2、update脚本 echo 开始更新SVN目录&…

【Android 标题文字居中 快速实现】

背景&#xff1a; Android App系统默认setTitle左起展示(图左)&#xff0c;IOS App默认居中展示(图右)。现在美工设计 在Android中标题同样居中显示。 解决&#xff1a; 方案一&#xff1a;(传统方式,比较繁琐) 设置ToolBar样式&#xff0c;内嵌TextView来展示&#xff0c;具…

网络安全准入技术之MAC VLAN

网络准入控制作为主要保障企业网络基础设施的安全的措施&#xff0c;特别是对于中大型企业来说&#xff0c;终端类型多样数量激增、终端管理任务重难度大、成本高。 在这样的一个大背景下&#xff0c;拥有更灵活的动态识别、认证、访问控制等成为了企业网络安全的最核心诉求之…

保姆级教程——pytest【入门篇】

&#x1f4e2;专注于分享软件测试干货内容&#xff0c;欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; 如有错误敬请指正&#xff01;&#x1f4e2;交流讨论&#xff1a;欢迎加入我们一起学习&#xff01;&#x1f4e2;资源分享&#xff1a;耗时200小时精选的「软件测试」资…