【LLM多模态】文生视频综述From Sora What We Can See: A Survey of Text-to-Video Generation

note

  • 现在很多主流的文生视频应该还是Diffusion-based 基于扩散模型的方法
  • 这篇综述将现有研究按照三个维度进行分类:进化生成器(Evolutionary Generators)、卓越追求(Excellent Pursuit)、现实全景(Realistic Panorama)。

文章目录

  • note
  • 一、相关背景
    • 扩散模型
    • 论文简介
  • 二、三种大分类
    • 进化的生成器(Evolutionary Generators)
      • 1. GAN/VAE-Based
      • 2. Diffusion-based 基于扩散模型的方法
      • 3. Autoregressive-based 基于自回归的方法
    • 卓越追求(Excellent Pursuit)
    • 现实全景(Realistic Panorama)
  • 三、实验数据
  • Reference

一、相关背景

论文:From Sora What We Can See: A Survey of Text-to-Video Generation

在这里插入图片描述

扩散模型

待补充。

论文简介

Q: 这篇论文试图解决什么问题?
A: 这篇论文是关于文本到视频生成(Text-to-Video Generation, T2V)领域的综述,它试图解决的问题是如何全面理解并推进这一领域的研究和发展。具体来说,论文从以下几个方面展开:

  1. 技术概览:提供了文本到视频生成技术的基础知识和预备概念,帮助读者理解这一领域的技术背景。
  2. 文献分类:将现有的文献从三个维度进行分类:进化生成器(Evolutionary Generators)、卓越追求(Excellent Pursuit)和现实全景(Realistic Panorama),以系统地审视不同研究方向和方法。
  3. 数据集和评估指标:详细组织和介绍了在文本到视频生成领域广泛使用的数据集和评估指标,为研究者提供了基准和评价标准。
  4. 挑战与开放问题:识别并讨论了当前文本到视频生成领域面临的挑战和未解决的问题,如物体间的一致性运动、长时间视频生成的连贯性等。
  5. 未来研究方向:基于对现有研究和Sora模型的深入分析,提出了未来研究的潜在方向,为该领域的研究者提供了前瞻性的指导。
  6. Sora模型分析:特别关注了由OpenAI开发的Sora模型,这是一个具有分钟级世界模拟能力的视频生成模型,论文尝试从Sora的角度出发,探讨其在文本到视频生成方面的成就和遇到的障碍。

二、三种大分类

截止2024年年中的文生视频大模型:
在这里插入图片描述

进化的生成器(Evolutionary Generators)

1. GAN/VAE-Based

  1. GAN/VAE-Based: 基于生成对抗网络(GAN)和变分自编码器(VAE)的方法,如TGANs-C、IRC-GAN、GODIVA、Text2Filter等。

(1)基于VAE的方法 :

  • 初期创新:[55]提出结合 VAE 和递归注意机制的方法,以生成时间序列帧,并通过文本输入指导。
  • VQ-VAE 的引入:[56]提出 VQ-VAE 模型,通过向量量化结合离散和连续表示的优势,在生成高质量图像、视频和语音方面表现出色。[57]进一步基于 VQ-VAE,展示了预训练模型在下游视频生成任务中的微调能力及零样本能力。

(2)基于GAN的方法 :

  • TGANs-C:[60]提出了一种从文本字幕生成视频的方法,通过3D卷积和多组件损失函数,确保视频在时间上的连贯性和语义上的一致性。
  • 混合模型:[58]提出将 VAE 和 GAN 结合的模型,能够捕捉文本中的静态和动态属性,从而提升基于文本生成视频的复杂性和细致度。
  • 结合 LSTM 的创新:[59]将 GAN 与长短期记忆(LSTM)网络结合,提高了生成视频的视觉质量和语义连贯性,确保生成内容与文本描述的紧密对齐。

2. Diffusion-based 基于扩散模型的方法

在这里插入图片描述

  1. Diffusion-based: 基于扩散模型的方法,如DDPM、Make-A-Video、VideoCrafter1、ModelScopeT2V、DiT等。
  • 视频扩散模型(VDM) 是这一领域的重要突破,通过3D U-Net架构和时间注意机制提升了视频生成的时间连贯性和质量。类似地,MagicVideo 系列模型利用潜在扩散方法应对复杂时间动态和高计算成本,生成高质量的视频。
  • LVDM 模型引入层次化潜在视频扩散,实现长视频的高效生成,并减少计算需求。Show-1 和 PixelDance 结合像素和潜在空间技术确保高分辨率视频输出,而 SVD 利用时间卷积和注意层在潜在空间中高效捕捉时间动态。
  • Tune-A-Video 扩展了2D潜在扩散模型到时空领域,通过稀疏时空注意机制优化计算效率,实现视频生成的时间一致性。
  • VideoLCM 通过一致性蒸馏策略和DDIM求解器提高训练效率,VideoCrafter2 利用数据解耦策略显著提升了视频生成的视觉保真度和运动动态。
  • Make-A-Video 模型和 Imagen Video 采用文本生成图像技术,拓展至视频领域,结合时空超分辨率模型提升生成视频的质量和时间一致性。MotionDiffuse 提供文本驱动的动作生成,细粒度控制输出的多样性和真实性。Text2Video-Zero 专为零样本T2V生成设计,确保跨帧时间一致性。
  • NUWA-XL 利用“多层次扩散”架构生成极长视频,采用“粗到细”策略生成全局一致且细致的视频内容。

3. Autoregressive-based 基于自回归的方法

  1. Autoregressive-based: 基于自回归模型的方法,如NUWA、NUWA-Infinity、Phenaki、VideoGPT等。

  2. NUWA 系列

  • NUWA 采用3D变换器编码器-解码器框架,通过3D临近注意机制实现高质量图像和视频合成,展现了零样本能力。
  • NUWA-Infinity 引入创新的自回归与自回归框架,能够生成可变大小的高分辨率视觉效果,以灵活且高效的方式创建视觉内容。
  1. Phenaki
  • 采用C-ViViT编码器-解码器结构,实现从文本输入生成可变长度的视频,高效地将视频数据压缩成紧凑的令牌化表示,生成连贯且时间一致的视频。
  1. VideoGPT
  • 结合VQ-VAE和变换器架构,通过3D卷积和轴向注意力学习视频的降采样离散潜在表示,捕捉视频序列的复杂时间和空间动态。
  1. Large World Model (LWM)
  • 设计为处理长上下文序列的自回归变换器,融合视频和语言数据,并通过RingAttention机制高效处理大量令牌,最大化上下文意识。
  1. Genie
  • 生成性交互工具,利用时空(ST)变换器进行视频令牌化和动作模型的提取,自回归预测下一帧,生成可控和交互的视频环境。
  1. TATS
  • 设计用于生成长时视频,结合时间无关的VQGAN和时间敏感的变换器,确保视频质量和长时间依赖性的平衡,生成连贯的长视频。
  1. CogVideo
  • 继承CogView2预训练模型的文本-图像对齐知识,通过多帧率分层训练生成关键帧并插补中间帧,采用双通道注意机制和递归插值过程,生成详细且语义一致的视频。

卓越追求(Excellent Pursuit)

  1. Extended Duration: 研究如何生成更长时序的视频,例如Video LDM、Show-1、STUNet、MoCoGAN-HD、Text2Performer等。
  2. Superior Resolution: 专注于生成高分辨率视频的研究,如DAIN、CyclicGen、Softmax-Splatting、FLAVR等。
  3. Seamless Quality: 研究如何生成无缝质量的视频,提高视频的流畅性和观感。

现实全景(Realistic Panorama)

  1. Dynamic Motion: 研究如何处理视频中的动态运动,如LAMP、AnimateDiff、MotionLoRA、Lumiere、Dyson-VDM、ART•V、DynamiCrafter、PixelDance、MoVideo、MicroCinema、ConditionVideo、DreamVideo、TF-T2V、GPT4Motion、Text2Performer等。
  2. Complex Scene: 研究如何生成复杂的场景,如VideoDirectorGPT、FlowZero、VideoDrafter、SenceScape、NUWA-XL、MCVD等。

三、实验数据

在这里插入图片描述

数据集和评估指标(Datasets & Metrics)

  • 数据集包括但不限于:UCF-101、MSR-VTT、DideMo、YT-Tem-180M、WebVid2M、HD-VILA-100M、InternVid、HD-VG-130M、Youku-mPLUG、VAST-27M、Panda-70M、ActNet-200、Charades、Kinetics、ActivityNet、Charades-Ego、SS-V2、How2、HowTo100M、LSMDC、MAD等。
  • 评估指标包括:PSNR/SSIM、IS、FID、CLIP Score、Video IS、FVD/KVD、FCS等。

Reference

[1] From Sora What We Can See: A Survey of Text-to-Video Generation

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/883770.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【学习笔记】MIPI

MIPI介绍 MIPI是由ARM、Nokia、ST、IT等公司成立的一个联盟,旨在把手机内部的接口如存储接口,显示接口,射频/基带接口等标准化,减少兼容性问题并简化设计。 MIPI联盟通过不同的工作组,分别定义一系列手机内部的接口标…

植物大战僵尸杂交版V2.5.1下载(最新版)

2.5.1版本更新公告: 在最新的2.5.1版本中,游戏对“两面夹击”关卡进行了多项重要调整。出怪倍率和种类均有所降低,部分关卡的初始阳光量也得到了调整,以增强玩家的策略性。同时,玩家可以在这些关卡中使用投手类植物&a…

sysbench 命令:跨平台的基准测试工具

一、命令简介 sysbench 是一个跨平台的基准测试工具,用于评估系统性能,包括 CPU、内存、文件 I/O、数据库等性能。 ‍ 比较同类测试工具 bench.sh 在上文 bench.sh:Linux 服务器基准测试中介绍了 bench.sh 一键测试脚本,它对…

RabbitMQ下载安装运行环境搭建

RabbitMQ运行环境搭建 1、Erlang及RabbitMQ安装版本的选择2、下载安装Erlang2.1、下载Erlang2.2、安装Erlang2.2.1、安装Erlang前先安装Linux依赖库2.2.2、解压Erlang压缩包文件2.2.3、配置2.2.4、编译2.2.5、安装2.2.6、验证erlang是否安装成功 3、RabbitMQ下载安装3.1、下载3…

FortiGate 无线组网

无线管理与配置 FortiAP 连接 internal 接口之后自动获得 ip 地址:192.168.1.xxx/24在 FortiGate 中创建 SSIDFortiGate 自动发现 FortiAP,将 FortiAP 添加到 FortiGate将 SSID 和 FortiAP 关联创建防火墙策略 下面我们就来一起看看在 FortiGate 中该如…

MT6765/MT6762(R/D/M)/MT6761(MT8766)安卓核心板参数比较_MTK联发科4G智能模块

联发科Helio P35 MT6765安卓核心板 MediaTek Helio P35 MT6765是智能手机的主流ARM SoC,于2018年末推出。它在两个集群中集成了8个ARM Cortex-A53内核(big.LITTLE)。四个性能内核的频率高达2.3GHz。集成显卡为PowerVR GE8320,频率…

前端——js基础

一、JavaScript (简称js)——js可以给网页实现一个动态效果 1.JavaScript 组成 - 核心语法 ECMScipt 简称(es): 规范js的基本语法 1.es是js的语法规范 管理者 2.js是es的实现 操作者 - DOM > 文档对象 提供js操作 (例如…

Golang | Leetcode Golang题解之第423题从英文中重建数字

题目: 题解: func originalDigits(s string) string {c : map[rune]int{}for _, ch : range s {c[ch]}cnt : [10]int{}cnt[0] c[z]cnt[2] c[w]cnt[4] c[u]cnt[6] c[x]cnt[8] c[g]cnt[3] c[h] - cnt[8]cnt[5] c[f] - cnt[4]cnt[7] c[s] - cnt[6]…

jq实现:点击图片时弹出详情弹窗,判断拖动图片时不弹出

1.需求分析: 要实现点击图片时弹出详情弹窗,但在拖动时不弹出,可以使用 jQuery 来判断用户的操作。可以通过设置一个标志变量来判断用户是否在拖动图片。 并且在鼠标拖动某个图片时将其层级设置为最上面,可以使用 jQuery 结合 CSS 的 z-index 属性 说明 : 标志变量:使用…

传输层TCP协议

一、TCP协议格式 我们看到报头固定有20字节,最后选项大小不固定。 4位首部长度(二进制0000 ~ 1111,十进制范围[0, 15])单位是4字节(存放字节大小范围[0, 60])包括了20字节固定长度 选项长度。若选项大小为…

PWA(Progressive web APPs,渐进式 Web 应用): manifest.json、 Service Worker

文章目录 引言I 什么是 PWA功能特性技术上分为三个部分:II Web 应用清单将Web 应用清单文件链接到站点manifest.json字段说明III Service WorkerService worker 本质Service worker 运行在 worker 上下文注册服务辅助角色扩展知识将 PWA 作为脱机应用定义当前文档与被链接文档…

用Python实现运筹学——Day 4: 线性规划的几何表示

一、学习内容 线性规划的几何表示: 线性规划问题的解通常位于一个凸多边形(即可行解空间)的顶点上,这意味着在求解线性规划问题时,只需要找到可行解空间中的顶点并计算出目标函数值,再选择其中的最优解。 可…

C++之分割字符串的两种方式

方式一 #include <string> #include <vector> #include <sstream> #include <iostream>std::vector<std::string> split(const std::string& str, char delim) {std::stringstream ss(str);std::string item;std::vector<std::string>…

C语言贪吃蛇小游戏演示和说明

C语言贪吃蛇小游戏演示和说明 设计贪吃蛇游戏的主要目的是让大家夯实C语言基础&#xff0c;训练编程思维&#xff0c;培养解决问题的思路&#xff0c;领略多姿多彩的C语言。 游戏开始后&#xff0c;会在中间位置出现一条只有三个节点的贪吃蛇&#xff0c;并随机出现一个食物&am…

keepalived+lvs集群,实现高可用

环境准备&#xff1a;两台虚拟机&#xff0c;关闭防火墙&#xff0c;selinux,配置阿里云仓库&#xff0c;配置epel 192.168.88.21 dr1 负载均衡器 master 192.168.88.22 dr2 负载均衡器 backup 192.168.88.23 rs1 web1 192.168.88.24 rs2 web2 实验说明&…

项目启动错误

说明&#xff1a;记录一次项目启动&#xff0c;报数据库访问错误&#xff0c;如下&#xff1a; 错误信息&#xff1a;Invalid default&#xff1a;public abstract java.lang.Class tk.mybatis.spring.annotation.MapperScan.fatoryBean() 解决 没有引入mybatis依赖&#xff…

通信工程学习:什么是VIM虚拟化基础设施管理器

VIM:虚拟化基础设施管理器 VIM(Virtualized Infrastructure Manager)虚拟化基础设施管理器,是一种负责管理和控制虚拟化环境中所有虚拟资源的工具和系统。以下是关于VIM虚拟化基础设施管理器的详细解释: 一、定义与功能 VIM是网络功能虚拟化(NFV)架构中…

HarmonyOS---权限和http/Axios网络请求

网络请求(http,axios) 目录 一、应用权限管理1.1权限的等级1.2授权方式1.3声明权限的配置1.4如何向用户进行申请 二、内置http请求使用三、Axios请求使用&#xff08;建议&#xff09;3.1 使用方式一3.2 使用方式二&#xff08;建议&#xff09; 一、应用权限管理 应用权限保护…

Leetcode面试经典150题-322.零钱兑换

给你一个整数数组 coins &#xff0c;表示不同面额的硬币&#xff1b;以及一个整数 amount &#xff0c;表示总金额。 计算并返回可以凑成总金额所需的 最少的硬币个数 。如果没有任何一种硬币组合能组成总金额&#xff0c;返回 -1 。 你可以认为每种硬币的数量是无限的。 示…

uniapp 常用高度状态栏,导航栏,tab栏,底部安全高度

实际效果 使用 //使用 let posConfig this.getPosConfig(); // 传false返回值为 px大小 console.log(posConfig.safeBottomH) // 入参 是否转换为rpxgetPosConfig(toRpx true) {const systemInfo uni.getSystemInfoSync();// #ifdef MPconst menuButtonInfo uni.getMenuBu…