北京大学快手发布统一的图文视频生成大模型Video-LaVIT

随着多模态大语言模型(LLMs)的新发展,人们越来越关注如何将它们从图像-文本数据扩展到更具信息量的真实世界视频。与静态图像相比,视频为有效的大规模预训练带来了独特的挑战,因为需要对其时空动态进行建模。

针对视频与语言联合预训练的挑战,文章提出了高效的视频分解方法,将视频表示为关键帧和时间运动,并设计分词器适配LLM,实现视频、图像和文本的统一生成预训练。应用时,生成的标记被恢复为像素空间,用于创建视频内容。框架表现出对图像和视频内容的理解和生成能力,具有竞争力的性能。
 

分享几个网站

GPT-3.5研究测试:
https://hujiaoai.cn

GPT-4研究测试:
https://higpt4.cn

Claude-3研究测试(全面吊打GPT-4):
https://hiclaude3.com

论文标题:
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization

论文链接:
https://arxiv.org/pdf/2402.03161.pdf

项目链接:
https://video-lavit.github.io

视频理解的挑战:从静态图像到动态视频的转变

现有的多模态LLMs主要集中在图像-文本数据上,对于视频模态的适应性研究较少。视频理解的关键挑战在于如何有效地对视频的时空动态进行建模。传统的2D视觉编码器将视频帧单独编码,往往无法捕捉到视频内容中的时间运动信息,这些信息对于识别视频中的不同行为和事件至关重要。尽管最近的研究VideoPoet尝试通过3D视频编码器来处理视频生成,但其适用性受限于短视频片段,因为长序列的标记(例如,一个2.2秒的视频片段需要1280个标记)会导致计算资源的巨大消耗。

为了解决这些问题,本文提出了一种高效的视频表示方法,将视频分解为关键帧和时间运动,这种分解表示不仅减少了表示视频时空动态所需的标记数量,而且使模型能够继承现有图像LLM所学习的视觉知识,专注于建模时间信息,而无需从头开始学习。

图片

Video-LaVIT模型介绍

图片

1. 视频分解:关键帧与运动向量的提取

Video-LaVIT模型的核心在于将视频分解为关键帧和时间运动。视频通常被分为多个镜头,每个镜头内的视频帧往往存在大量的信息冗余。因此,将视频分解为交替的关键帧和运动向量,关键帧捕捉主要的视觉语义,而运动向量描述其对应关键帧随时间的动态演变。这种分解表示的好处在于,与使用3D编码器处理连续视频帧相比,单个关键帧和运动向量的组合需要更少的标记来表示视频的时空动态,这对于大规模预训练更为高效。

图片

2. 视频标记化:高效的视频内容表示

为了将连续的视频数据转换为紧凑的离散标记序列,Video-LaVIT设计了视频标记器。关键帧通过使用已建立的图像标记器进行处理,而时间运动的转换则通过设计一个时空运动编码器来实现。该编码器能够捕捉提取的运动向量中包含的随时间变化的上下文信息,从而显著提高LLMs理解视频中复杂动作的能力。

3. 视频去标记化:从离散标记到连续像素空间的映射

在推理阶段,LLMs生成的离散视频标记需要被精心恢复到原始的连续像素空间,以创建各种视频内容。Video-LaVIT的视频去标记器负责这一转换。考虑到直接从离散标记到高维视频空间的映射学习的挑战,采用了顺序解码策略,其中首先基于视觉标记恢复关键帧,然后通过将关键帧和运动标记作为条件来解码后续帧。这种策略在提高视频生成质量方面也得到了最近研究的验证。

多模态内容的联合自回归预训练

1. 图像理解任务的性能对比

在11个常用的图像和视频基准测试中,Video-LaVIT展示了其在多模态理解能力上的自然能力。特别是在图像理解方面,模型在八个广泛使用的图像问答和多模态基准测试中提供了最佳的整体性能。例如,在SQAI上,它比具有更高输入分辨率的LLaVA-1.5高出4.5%,同时在其他视频-语言模型上的表现也有超过3.5%的提升。这些优势在更全面的多模态基准测试中得到了进一步验证,其中该模型在四个基准测试中领先三个。

图片

2. 零样本视频问答的准确性

在三个常见的视频基准测试中,Video-LaVIT与多个最近的视频-语言模型进行了比较。在这三个基准测试中实现了最先进的准确性,并都展示了非常有竞争力的相对分数。例如,在MSVD-QA上,该方法超过了之前领先的模型Video-LLaVA 2.8%。通过明确建模时间动态与运动标记,尤其是在包含各种人类行为的ActivityNet-QA基准测试中,纳入运动信息有助于识别不同的动作。在MSRVTT-QA的相对分数方面,仅次于Video-LLaVA(差距0.2),再次确认了该方法的有效性。

图片

3. 文本到视频生成的竞争性能

通过统一的生成预训练,Video-LaVIT能够灵活地生成视频和图像。在文本到视频生成结果中,该模型在MSR-VTT和UCF-101上的表现显著优于大多数使用类似公共数据集训练的基线,并且与在更大专有数据上训练的模型高度竞争,例如在MSR-VTT上领先FVD。特别是与基于语言模型的文本到视频生成器相比,该方法一致超过CogVideo,同时超过了最近的同期工作VideoPoet,后者使用了更大的数据训练的3D视频分词器。这清楚地验证了分词器设计的优越性。

图片

图片

质量评估

1. 文本到图像生成的视觉质量

在图像理解方面,Video-LaVIT 在多个基准测试中表现出色。这一成果得益于其能够有效地利用从图像中学习到的视觉知识,并将其应用于视频内容的理解和生成。

2. 文本到视频生成的详细比较

在零样本视频问题回答方面,Video-LaVIT 在三个常用基准测试中均展现出最佳准确性。例如,使用GPT助手进行评估时,Video-LaVIT 在MSVD-QA基准测试中超越了之前领先的模型Video-LLaVA 2.8%的准确率。这一结果证明了Video-LaVIT 在理解视频内容方面的有效性。

3. 图像到视频生成的能力展示

在图像到视频的生成任务中,Video-LaVIT 展示了其强大的生成能力。通过将解耦的视觉-运动标记化和LLM预训练相结合,Video-LaVIT 能够生成具有自然和精细运动的视频片段。例如,在之前的研究中,与SVD的比较,Video-LaVIT 能够生成更复杂的动物运动,同时不违反物理规则。

图片

4. 长视频生成的时间一致性

Video-LaVIT 通过在解码连续视频片段时明确约束噪声,能够在长视频生成中提供高度的时间一致性。例如,在生成一个围绕“一艘在加勒比海水晶般清澈的水面上优雅航行的豪华游艇”的360度视频时,通过使用噪声约束,Video-LaVIT 能够改善不同片段之间的时间一致性。

图片

结论与展望

1. 模型潜力

Video-LaVIT的设计理念为未来的研究提供了新的方向:

  • 通过对视频进行高效的分解和重新组合,该模型能够在保持高效性的同时,捕捉到视频内容的丰富动态信息。这一点对于提升机器对现实世界动态场景的理解至关重要。

  • 该模型的成功也展示了大语言模型在多模态学习领域的巨大潜力,尤其是在处理更为复杂的视频数据时。

  • Video-LaVIT在无需特定任务微调的情况下,就能在多个基准测试中取得竞争性能,这进一步证明了其作为多模态通用模型的潜力。

2. 面临的挑战

尽管Video-LaVIT展现出了巨大的潜力,但在其发展道路上仍然存在一些挑战:

  • 尽管通过视频分解能够有效减少模型处理的数据量,但对于极长视频的处理仍然是一个挑战,因为模型的上下文窗口大小有限。

  • 运动向量的分辨率可能限制了模型在捕捉极其细微动作时的能力。此外,尽管Video-LaVIT在训练时的计算效率已经有所提高,但要将其扩展到网络规模的视频数据上,仍然需要进一步的优化。

  • 如何进一步提升模型在理解和生成长视频内容时的连贯性和一致性,也是未来研究需要关注的问题。

Video-LaVIT的出现为多模态人工智能领域的发展注入了新的活力,预示着未来在更加自然和直观的人机交互方式方面的巨大潜力。随着技术的进步和研究的深入,Video-LaVIT及其后续版本将在多模态人工智能领域扮演越来越重要的角色。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/545927.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

vs配置opencv运行时“发生生成错误,是否继续并运行上次的成功生成”BUG解决办法

vs“发生生成错误,是否继续并运行上次的成功生成” 新手在用vs配置opencv时遇到这个错误时,容易无从下手解决。博主亲身经历很有可能是release/debug模式和配置文件不符的问题。 在配置【链接器】→【输入】→【附加依赖项】环节,编辑查看选择…

MySQL数据库max_allowed_packet参数

如上图所示的报错,我在提交接口的时候出现了这个错误: MySqlConnector.MySqlException:Error submitting 4MB packet;ensure max_allowed_packet is greater than 4MB.在MySQL数据库中,有一个参数叫max_allowed_packet,这个参数会…

013_NaN_in_Matlab中的非数与调试方法

Matlab中的非数与调试方法 是什么? Matlab编程(计算器使用)中经常有个错误给你,这句话里可能包含一个关键词NaN。大部分学生都有过被 NaN 支配的痛苦记忆。 NaN 是 Not a Number 的缩写,表示不是一个数字。在 Matla…

Apache Zeppelin 命令执行漏洞复现(CVE-2024-31861)

0x01 产品简介 Apache Zeppelin 是一个让交互式数据分析变得可行的基于网页的开源框架,Zeppelin提供了数据分析、数据可视化等功能, 0x02 漏洞概述 Apache Zeppelin 中代码生成控制不当(“代码注入”)漏洞。攻击者可以使用 She…

锁策略总结

锁策略 悲观锁和乐观锁 乐观锁和悲观锁不是具体类型的锁而是指两种不同的对待加锁的态度,这两个锁面对锁冲突的态度是相反的。 乐观锁:认为不存在很多的并发操作,因此不需要加锁。悲观锁:认为存在很多并发操作,因此需…

python实现简单的车道线检测

描述 python实现简单的车道线检测,本文章将介绍两种简单的方法 颜色阈值区域掩模canny边缘检测霍夫变换 这两种方法都能实现简单的车道线检测demo,注意仅仅是demo 下面的图片是用到的测试图片 方法1:颜色阈值(Color Selection…

jpa使用Querydsl需要规避的一些坑

在使用Spring Data JPA时,通常会使用Querydsl来构建类型安全的查询。在Querydsl中,为了区分实体类与Querydsl查询类,习惯上会给查询类的前缀添加一个"Q",表示该类是一个查询类。这样做可以有效地避免实体类与查询类之间…

并发学习28--多线程 Fork、Join线程池

概念 使用 import java.util.concurrent.ForkJoinPool; import java.util.concurrent.RecursiveTask;public class TC51 {public static void main(String[] args) {//递归到最小不可分解单元,再进行计算ForkJoinPool pool new ForkJoinPool(5);pool.invoke(new My…

「 典型安全漏洞系列 」14.NoSQL注入漏洞详解

NoSQL注入是一个漏洞,攻击者能够干扰应用程序对NoSQL数据库进行的查询,本文我们将研究如何测试一般的NoSQL漏洞,然后重点研究如何利用MongoDB中的漏洞(MongoDB是最流行的NoSQL数据库)。 1. 什么是NoSQL注入 NoSQL注入…

Langchain入门到实战-第二弹

Langchain入门到实战 Langchain快速入门官网地址Langchain概述Langchain调用大模型更新计划 Langchain快速入门 官网地址 声明: 由于操作系统, 版本更新等原因, 文章所列内容不一定100%复现, 还要以官方信息为准 https://python.langchain.com/Langchain概述 LangChain是一个…

thinkphp 框架封装curl请求

tp6 或者 tp8框架 在框架的app/common.php 文件里加一些方法就可以 app\common.php 在这个文件里加 以下代码 就可以实现基于 curl的请求方法 (记得要开启 php的curl扩展) 查看方法 cmd里输入 php -m if (!function_exists(get)) {/*** 发送get请求* param string $url 请求…

【御控物联】 Java JSON结构转换(2):对象To对象——属性重组

文章目录 一、JSON结构转换是什么?二、案例之《JSON对象 To JSON对象》三、代码实现四、在线转换工具五、技术资料 一、JSON结构转换是什么? JSON结构转换指的是将一个JSON对象或JSON数组按照一定规则进行重组、筛选、映射或转换,生成新的JS…

Stable Diffusion之文生图模型训练

1、数据准备 提前准备好一组相关的照片。 在线的图片处理网站 BIRME - Bulk Image Resizing Made Easy 2.0 (Online & Free) 将图片转成统一大小,支持批量处理,效率高 2、生成提示词 进入stable diffusion webui页面 旧版直接使用 train/proproc…

【服务器配置】ngnix环境配置

ngnix环境配置 概述 Nginx(发音为 “engine X”)是一个高性能的 HTTP 和反向代理服务器,也可用作邮件代理服务器。它以其稳定性、丰富的功能集、简单的配置和低资源消耗而闻名。Nginx 被广泛用于提高网站的可扩展性和性能,因为它…

Android使用shape属性绘制边框内渐变色

目录 先上效果图实现方法shape属性介绍代码结果 先上效果图 这是使用AndroidStudio绘制的带有渐变色的边框背景色 实现方法 项目中由于UI设计需求,需要给按钮、控件设置带有背景色效果的。以下是UI效果图。 这里我们使用shape属性来绘制背景效果。 shape属性介…

JS-32-jQuery01-jQuery的引入

一、初识jQuery jQuery是JavaScript世界中使用最广泛的一个库。鉴于它如此流行,又如此好用,所以每一个入门JavaScript的前端工程师都应该了解和学习它。 jQuery是一个优秀的JS函数库。 (对BOM和DOM的封装) jQuery这么流行&#x…

IJKPLAYER源码分析-总体概述

1 前言 前面系列文章,对IJKPLAYER源码所涉及到的各个技术点、模块、关键技术及其实现原理,做了较为详细的梳理。但窃以为那只是微观层面的梳理,还不够完整不够透彻,本文拟尝试从宏观框架架构的视角加以补充。 算是抛砖引玉。 2 架…

idea运行Tomcat,控制台日志的中文乱码

一 版本 win10,idea2022,jdk18,tomcat9 二 问题描述 在idea上可以运行Tomcat。服务器启动后,可以正常访问本地的html文件。但是控制台的Tomcat日志出现了乱码:server与Tomcat Catlina Log两处。 三 无效的解决之道 1 idea的Help选项Edit …

设计模式-模板方法模式(TemplateMethod)

1. 概念 模板方法模式是一种行为设计模式,它在一个方法中定义算法的骨架,将一些步骤延迟到子类中实现。 2. 原理结构图 2.1 图 2.2 角色 抽象类(Abstract Class) 定义抽象的基本操作(Primitive Operations&#xff…

Redis单机版安装保姆级操作手册

Redis安装说明 大多数企业都是基于Linux服务器来部署项目,而且Redis官方也没有提供Windows版本的安装包。因此课程中我们会基于Linux系统来安装Redis. 此处选择的Linux版本为CentOS 7. Redis的官方网站地址:https://redis.io/ 单机安装Redis 1.安装…