Lumière:开创性的视频生成模型及其应用

视频内容创造领域迎来了突破性进展,但视频生成模型由于运动引入的复杂性而面临更多挑战。这些挑战主要源自运动的引入所带来的复杂性。时间连贯性是视频生成中的关键要素,模型必须确保视频中的运动在时间上是连贯和平滑的,避免出现不自然的跳跃或断裂。空间关系的准确性也至关重要,因为视频的每一帧都需要与前后帧在空间布局上保持一致性。计算资源的限制也是一个重大挑战,视频数据的高维度要求大量的计算力和内存,这限制了模型的规模和复杂度。训练数据的需求量巨大,因为只有通过大量的训练样本,模型才能学习到生成逼真视频所需的丰富特征和模式。

视频生成领域普遍采用的是一种串行方法,其中包括一个基础模型用于生成稀疏的关键帧,随后通过一系列时间超分辨率(TSR)模型来生成关键帧之间的数据。这种方法虽然在内存效率上有优势,但在生成全局一致性运动方面存在固有的限制。

基础模型生成的关键帧数量有限,这导致快速运动在时间上出现混叠,造成歧义。TSR模块受限于固定且较小的时间上下文窗口,无法在整个视频时长内一致地解决混叠歧义。串行训练机制通常面临域差距问题,即TSR模型在训练时使用的是真实下采样的视频帧,但在推理时却用于插值生成的帧,这会导致误差累积。

这些局限性导致了视频生成的质量受限,包括视频时长、整体视觉质量和生成的现实运动程度。Lumière模型通过引入全新的扩散框架,一次性生成整个视频的时序长度,从而克服了这些限制,为视频生成领域带来了显著的改进。Lumière模型通过其创新的空间时间U-Net(STUNet)架构,有效地应对了这些挑战。该架构通过同时进行空间和时间的下采样与上采样,能够在保持计算效率的同时生成具有全局一致性的视频。Lumière模型的另一个显著优势是其多扩散(MultiDiffusion)技术,它允许模型在时间轴上处理视频片段,并通过优化问题平滑地合并各片段的预测结果,从而避免了时间边界处的不连贯现象。Lumière模型利用预训练的文本到图像扩散模型,这为其提供了强大的生成先验,并能够通过微调少量参数来适应视频生成任务。这些优势使得Lumière模型在生成逼真、多样化和连贯运动的视频方面表现出色,为视频内容创造领域带来了新的突破。

Lumiere生成的几个样本结果,包括文本到视频生成(第一行)、图像到视频(第二行)、风格参考生成和视频修复(第三行;边框指示了修复掩膜区域)
Lumière模型
Lumiere的流程图,以及与以前工作采取的常见方法的主要区别

Lumière模型的生成管线(pipeline)是其创新的核心,它与以往的视频生成方法有显著的不同。这一管线的设计允许模型一次性处理所有帧,而不是依赖于串行的关键帧生成和后续的帧填充。

在传统的视频生成方法中(如图3(a)所示),一个基础模型首先生成稀疏的关键帧,然后通过一系列时间超分辨率(TSR)模型来填充这些关键帧之间的帧。这种方法虽然内存效率较高,但存在无法生成全局一致运动的问题。此外,空间超分辨率(SSR)模型通常在不重叠的窗口上应用,以获得高分辨率的结果。

与此相反,Lumière模型(如图3(b)所示)采用了一个基础模型,该模型能够一次性处理所有的帧,而不是依赖于TSR模型的串行处理。这种设计允许模型学习到全局一致的运动,从而生成更加自然和连贯的视频内容。

通过一次性处理所有帧,Lumière模型能够捕捉到整个视频序列的动态变化,这有助于生成具有高度连贯性的视频。这种处理方式避免了传统方法中由于关键帧独立生成而可能出现的运动不连贯或时间上的歧义问题。

为了从基础模型生成的低分辨率视频获得高分辨率视频,Lumière模型采用了SSR模型,并在重叠的窗口上应用它。这样,每个窗口的预测结果不仅考虑了当前帧,还考虑了邻近帧的信息。

Lumière模型进一步利用了MultiDiffusion技术来整合重叠窗口上的SSR预测结果。通过优化问题的形式,模型能够将这些预测结果融合为一个全局一致的高分辨率视频。这一步骤确保了视频在空间和时间上的连贯性,同时避免了由于窗口划分而可能产生的边界伪影。

Lumière模型的创新之处在于其核心架构——空间时间U-Net(STUNet)。这一架构突破了传统视频生成模型的限制,通过集成空间和时间维度的处理能力,实现了对视频内容的全局理解和生成。STUNet的设计允许模型一次性生成整个视频的全帧率,即便是低分辨率,也能够保持运动的连贯性和一致性。

空间时间U-Net(STUNet)的架构图,包括基于卷积的膨胀块和基于注意力的膨胀块

STUNet架构的关键组成部分是空间和时间的下采样模块。这些模块使得模型能够在一个压缩的时空表示中进行计算,大幅降低了计算复杂度。空间下采样通过减少视频帧的分辨率来减少数据的空间维度,而时间下采样则通过减少帧率来降低时间维度的数据量。这种双管齐下的方法让模型能够在更低维的表示中高效地处理视频数据。

STUNet架构支持多尺度处理,这是实现全局一致性运动生成的另一个关键因素。模型不仅在原始分辨率上工作,还通过下采样和上采样在多个分辨率尺度上进行计算。这种多尺度策略使得模型能够捕捉到从局部细节到全局动态的丰富信息,从而在生成视频中实现更加精细和连贯的运动。

与先前模型不同,STUNet架构能够直接生成全帧率的视频。这意味着模型在生成过程中考虑了整个视频序列,而不是依赖于后续的插值或超分辨率步骤来填充帧。这种端到端的方法简化了生成流程,并有助于生成更加自然和逼真的视频内容。

STUNet的设计还特别考虑了计算效率。通过在粗略的时空表示上执行大部分计算,模型能够以较低的计算成本生成视频。这使得STUNet架构不仅适用于研究环境,也能够在实际应用中实现高效视频生成。

在视频生成过程中,高分辨率视频所需的计算资源和内存通常是限制模型性能的主要瓶颈。为了克服这一挑战,Lumière模型引入了MultiDiffusion技术,这是一种创新的方法,用于在保持内存效率的同时实现高质量的空间超分辨率(SSR)。

MultiDiffusion技术的核心在于它将SSR计算分布在时间轴上。这意味着模型不是一次性处理整个视频,而是将视频分割成多个较短的片段,并对这些片段分别进行SSR处理。这种方法显著减少了任何单一时间点所需的内存和计算量。

为了实现片段之间的平滑过渡并保持视频的连贯性,MultiDiffusion采用了重叠窗口的技术。在每个生成步骤中,模型会考虑当前片段以及与其重叠的前后片段的信息。这种设计确保了视频片段之间的过渡自然,没有明显的接缝或不连续性。

一旦每个片段独立完成SSR,MultiDiffusion技术通过一个优化过程将这些片段的预测结果聚合起来。这个过程涉及到计算整体视频的一致性,确保整个视频序列的全局一致性,即使在片段边界处也是如此。

通过在时间轴上对视频片段进行SSR并聚合结果,MultiDiffusion技术有效减少了时间边界伪影。这些伪影通常在传统的视频生成模型中出现,因为它们在片段之间进行插值或融合时可能会产生不连贯的运动或视觉错误。

应用

Lumière模型的应用范围广泛,包括风格化视频生成、图像到视频的转换、视频修复以及电影静态图(cinemographs)的创作。这些应用展示了Lumière模型如何轻松适应多样化的视频内容创作任务。

文本到视频和图像到视频生成的样本结果。每个示例下方都标明了文本提示

在Figure 5中,Lumière模型的视频生成能力通过文本到视频(text-to-video)和图像到视频(image-to-video)的示例得到了展示。这些示例不仅证明了模型对复杂文本提示的理解和转换能力,还展示了它如何根据给定的静态图像生成连贯的视频内容。

每个示例下方都提供了文本提示,这些提示直接指导了视频内容的生成。文本到视频的生成展示了模型如何将文本描述转化为视觉场景,而图像到视频的生成则展示了模型如何以提供的图像为起点,创造出动态的故事。

对于图像到视频的生成,最左侧的帧作为条件提供给模型。这意味着模型必须理解并利用这一帧中的视觉信息,以此为基础生成后续的视频帧,确保生成的视频不仅在视觉上连贯,而且在逻辑上与给定的图像相符。

为了更全面地评估Lumière模型的性能,读者被引导至补充材料(SM)中查看完整的视频结果。这提供了一个更深入的视角,以评估模型生成的视频在时间上的连贯性和细节上的丰富性。

风格化生成是一个挑战,因为它需要在保持视频运动连贯性的同时融入特定的艺术风格。Lumière模型通过一种创新的方法解决了这一问题,即通过在预训练的文本到图像(T2I)模型权重和特定风格的T2I模型权重之间进行线性插值,实现了风格和运动之间的平衡。

给定风格图像和相应的微调文本到图像权重后,通过在线性插值之间生成的样式化视频的结果

具体来说,Lumière模型采用了一种“即插即用”的方法,通过调整预训练模型的权重来适应不同的风格。这种方法涉及计算两组权重的线性组合:一组是针对特定风格微调过的T2I模型权重(Wstyle),另一组是原始的预训练T2I模型权重(Worig)。通过这种方式,模型可以根据需要生成具有特定风格特征的视频,同时保持运动的自然流畅。

在实际应用中,插值系数(α)的选择是至关重要的。它决定了两种权重对最终生成视频的影响程度。Lumière模型允许用户根据具体需求手动选择插值系数,α的取值范围通常在0.5到1之间。当α接近1时,生成的视频更倾向于展示特定风格;而当α接近0.5时,原始的T2I模型权重影响更大,视频将更注重运动的真实性和连贯性。

通过这种方法,Lumière模型能够生成多样化的风格化视频。无论是现实主义风格,如水彩画或油画效果,还是更抽象的风格,如卡通或线条画,Lumière都能够通过调整插值系数来适应不同的风格需求,创造出既符合艺术风格又具有合理运动的视频内容。

Lumière模型的一个显著特点是其能够处理条件生成任务,即根据附加的输入信号生成视频。这种能力极大地扩展了模型的应用范围,允许用户通过提供特定的图像或掩码作为条件来引导视频内容的生成。

在图像到视频的生成场景中,Lumière模型能够将用户提供的静态图像作为起点,生成一个动态视频序列。模型利用输入图像作为视频的第一帧,并在此基础上展开,创造出具有连贯运动和场景发展的完整视频内容。

视频修复是条件生成的另一个重要应用。Lumière模型可以接受一个视频以及一个定义了需要修复区域的掩码作为输入。模型学习在保持视频其余部分不变的同时,对遮罩区域进行动画化或填充,从而实现对原始视频的无缝编辑和修复。

为了实现条件生成,Lumière模型对输入进行了特别的修改,以整合附加的输入信号。模型的输入不仅包括带噪声的视频帧,还包括一个被遮罩的视频帧以及相应的二进制掩码。这种整合允许模型区分哪些部分需要生成新内容,哪些部分应该保持原样。

为了使模型能够处理条件生成任务,Lumière团队对基础的文本到视频模型进行了微调。在微调过程中,模型学习如何根据附加的图像或掩码来生成视频,同时保持与原始视频的一致性。

使用SDEdit(Meng et al., 2022)通过Lumiere模型进行视频到视频编辑的结果

Lumière模型的基础版本能够生成全帧率的视频,这一点与传统的依赖于时间超分辨率(TSR)模型串行生成关键帧和填充帧的方法不同。这种设计的优势在于它提供了一个直观的接口,便于用于下游应用,包括视频编辑和风格化。由于Lumière模型不依赖于TSR级联,它能够生成具有全局一致性的视频内容。这意味着视频的每一帧都是在考虑了整个视频序列的情况下生成的,从而避免了在编辑过程中可能出现的不连贯问题。

为了展示Lumière模型在视频编辑中的应用,研究者们采用了SDEdit(由Meng等人于2022年提出)这一工具。SDEdit是一个用于指导图像合成和编辑的随机微分方程工具,它能够与Lumière模型结合使用,实现一致的视频风格化。

在Figure 9中,研究者们展示了使用Lumière模型和SDEdit进行视频编辑的过程。图的上方展示了给定输入视频的几个帧,而下方则展示了经过编辑后的对应帧。通过这种方式,研究者们证明了Lumière模型能够与现有的视频编辑工具无缝集成,实现高质量的视频风格转换。

评估和比较
用户研究的结果,比较了本方法与每个基线方法在文本到视频和图像到视频生成方面的表现

在评估Lumière模型的性能时,研究者们开展了一项用户研究,将该模型的文本到视频(text-to-video)和图像到视频(image-to-video)生成能力与多个基线方法进行了比较。这项研究通过收集用户对视频生成结果的偏好来评估不同方法的优劣。

在Figure 10中,每个基线方法与Lumière模型的比较结果都通过柱状图展示,其中蓝色部分代表用户投票支持Lumière模型的比例,橙色部分代表用户投票支持基线方法的比例。这种直观的展示方式允许快速识别用户偏好。

根据用户研究的结果显示,Lumière模型在文本到视频和图像到视频的生成任务中都获得了用户的偏好。这意味着与基线方法相比,用户更倾向于选择Lumière模型生成的视频,这可能是因为Lumière模型生成的视频在视觉质量、运动连贯性或者与文本描述的匹配度方面更胜一筹。

这项用户研究不仅验证了Lumière模型在技术层面的优势,更重要的是,它反映了用户对生成视频的实际感受和偏好。用户研究的结果为Lumière模型的实际应用和进一步的改进提供了宝贵的反馈。

研究者采用定性评估和定量评估的方式通过与现有T2V扩散模型的比较,Lumière在生成具有复杂运动和连贯相机运动的视频方面表现出色。

定性评估涉及将Lumière模型生成的视频与几个领先的T2V扩散模型进行对比。这些模型包括但不限于ImagenVideo、AnimateDiff、StableVideoDiffusion等。评估的焦点在于视频的视觉质量和运动的连贯性。

Lumière模型在生成具有复杂运动的视频方面表现出色,这包括精确捕捉和再现物体的运动轨迹以及相机视角的流畅转换。与传统方法相比,Lumière能够更好地处理全局运动的一致性,避免了因关键帧独立生成而导致的时间上的不连贯性。

在视觉检查中,评估者特别关注视频的视觉质量和运动的连贯性。Lumière模型生成的视频在细节表现、色彩还原以及场景的逼真度方面均展现出高水平。模型能够维持运动的连贯性,即使是在长时间序列中也能保持一致性。

Lumière模型在UCF101数据集上进行了零样本评估,这是一种在没有针对特定数据集进行训练的情况下测试模型泛化能力的方法。评估使用了两个主要的定量指标:Fréchet Video Distance (FVD)和Inception Score (IS)。

提供了在UCF101数据集上零样本文本到视频生成的比较,展示了不同方法的FVD(Fréchet Video Distance)和IS(Inception Score)得分

FVD是一种衡量生成视频与真实视频之间差异的度量,它通过比较特征空间中的距离来工作。较低的FVD值表明生成的视频在视觉特征上与真实视频更为接近。而IS是一个衡量生成样本多样性和质量的指标,较高的IS值表明生成的视频不仅质量高,而且展现了良好的多样性。

Lumière模型在FVD和IS两个指标上都取得了有竞争力的成绩,这表明其生成的视频在视觉质量和多样性方面与现有的顶尖模型相当。这些定量结果为Lumière模型的有效性提供了统计学上的证据。

除了定量指标之外,用户研究也被用于评估Lumière模型。在用户研究中,参与者被要求对Lumière生成的视频与其他基线方法生成的视频进行比较,并表达他们的偏好。用户研究的结果表明,用户更倾向于选择Lumière模型生成的视频,这进一步证实了Lumière在视觉质量和运动连贯性方面的优势。

Lumière以出色的FVD和IS成绩证明了其生成视频的高质量和多样性。而在用户研究中,用户对Lumière生成视频的偏好更是对其优势的直观认可。这些评估结果不仅彰显了Lumière模型的强大性能,也为其未来的应用提供了坚实的基础。

面向未来,Lumière模型的应用前景广阔。无论是在娱乐、教育、设计还是新闻制作等领域,Lumière都有望成为内容创作者的强大助手。随着技术的不断进步和优化,我们可以期待,Lumière将激发出更多的创意火花,推动视频内容生成的边界不断扩展。

论文链接:https://arxiv.org/pdf/2401.12945

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/679213.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【QT5】<总览二> QT信号槽、对象树及样式表

文章目录 前言 一、QT信号与槽 1. 信号槽连接模型 2. 信号槽介绍 3. 自定义信号槽 二、不使用UI文件编程 三、QT的对象树 四、添加资源文件 五、样式表的使用 六、QSS文件的使用 前言 承接【QT5】<总览一> QT环境搭建、快捷键及编程规范。若存…

C++的爬山算法

爬山算法(Hill Climbing Algorithm)是一种局部搜索算法,它通过迭代搜索的方式寻找问题的局部最优解。在爬山过程中,算法总是选择当前状态邻域中最好(即函数值最大或最小)的状态作为下一个状态,直…

linux必学基础命令大全

一切皆文件,每个文件都有具体的用途 命令快捷查看目录 常用命令 - 目录类1、ls 查看当前目录下的文件2、man查看命令详细信息3、pwd 查看当前目录 -4、cd 进入目录5、清屏命令6、mkdir创建目录7、du查看文件或者文件夹大小 常用命令 - 文件类1、vim/vi使用2、cat 查…

【论文复现|智能算法改进】基于改进麻雀算法的无线传感器网络覆盖优化研究

目录 1.算法原理2.改进点3.结果展示4.参考文献5.代码获取 1.算法原理 【智能算法】麻雀搜索算法(SSA)原理及实现 WSN数学模型 2.改进点 基于Sobol序列和ICMIC混沌映射的种群初始化 ICMIC是一种无线映射折叠次数的映射模型: { z n 1 sin ⁡ ( α π…

思维导图——幕布

一、前言 幕布是一款专注于简化和组织信息的大纲笔记应用,它旨在帮助用户高效地整理知识点、优化工作流程以及规划个人生活。 二、软件特点 幕布工具的核心优势在于其能够快速将用户的输入转换成清晰的思维导图,便于视觉化地理解和记忆信息。 幕布还具…

K8S==ingress简单搭建和使用

基础环境 D:\DOCKER_REPO\K8S>kubectl version Client Version: v1.29.2 Kustomize Version: v5.0.4-0.20230601165947-6ce0bf390ce3 Server Version: v1.29.2 D:\DOCKER_REPO\K8S>kubectl get nodes NAME STATUS ROLES AGE VERSION docker-…

域内路由选择协议——RIP

例题 RIP(Routing Information Protocol)是一种基于距离向量的路由协议,使用跳数作为度量标准来决定最优路径。下面我们详细分析为什么RIP协议要这样设计。 RIP协议的基本工作原理 距离向量算法: 每个路由器维护一张路由表&…

2023CCPC哈尔滨站

2023CCPC哈尔滨站https://contest.ucup.ac/contest/1412 B. Memory int main() {int n;std::cin >> n;std::vector<int> a(n);for (int i 0; i < n; i) {std::cin >> a[i];}std::string res;int x 0, Dec 0;// 整数位 x 和 小数位符号 Decfor (int i …

Druid监控页面无法打开(404)

网上教程 我得到的结果 解决 如果localhost:7080/druid/login.html 无法打开Druid监控页面&#xff0c;那么说明Druid数据库连接池根本就没有配置成功&#xff0c;所以才会出现404. 上面配置不成功&#xff0c;要么是配置问题&#xff0c;要么就是版本不兼容问题&#xff08;大…

如何利用51建模网,实现3D模型线上展示和应用?

在数字化日益成为主流体验经济的今天&#xff0c;3D创意内容和场景正以其独特的实时性、立体感和交互性&#xff0c;逐渐融入人们的日常生活&#xff0c;并日益频繁地出现在我们眼前。3D模型作为一种直观且富有表现力的工具&#xff0c;为我们提供了细致观察产品的窗口&#xf…

无码高清?Stable DIffusion教程 | 如何利用 Stable Diffusion webui 将图片变得更清晰?全方位对比4种放大方法!

大家好&#xff0c;我是大师兄 1、引言 “高分放大”&#xff08;有时候也叫“超分放大”或“高清修复”&#xff09;描述了在确保图像清晰度的前提下提升图片分辨率的过程。例如&#xff0c;将一张512 x 512的图片放大四倍&#xff0c;得到的就是2048 x 2048分辨率的图片&am…

二进制安装Prometheus

从 https://prometheus.io/download/ 下载相应版本&#xff0c;安装到服务器上官网提供的是二进制版&#xff0c;解压就 能用&#xff0c;不需要编译 1、下载软件 [rootlocalhost ~]# wget -c https://github.com/prometheus/prometheus/releases/download/v2.45.5/prometheus…

容器中运行ping提示bash: ping: command not found【笔记】

容器中运行ping提示bash: ping: command not found 原因是容器中没有安装ping命令 在容器中安装ping命令&#xff0c;可以使用以下命令&#xff1a; 对于基于Debian/Ubuntu的容器&#xff0c;使用以下命令&#xff1a; apt-get update apt-get install -y iputils-ping对于基…

Latex中标注通讯作者

** 直接使用脚注&#xff0c;不用添加宏包 多个同地址的并列&#xff0c;建议加点空格&#xff0c;好看一些 ** \title{xxxxxxxxxxxxxxxxxxx}\author{xxxxxxxxxxxxxxxxxxx\footnote{Corresponding author} ,bbbbbbbbbbbbbbbbbbb}\address{xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx…

2022 hnust 湖科大 javaweb课设 数据库课设 报告+源代码+流程图文件+课设指导书+附赠数据库课堂实验指导书

2022 hnust 湖科大 javaweb课设 数据库课设 报告源代码流程图文件课设指导书附赠数据库课堂实验指导书 描述 湖南科技大学大二下学期先后开展java web和数据库课程设计&#xff0c;两个课设项目可以通用&#xff0c;老师一般会允许自拟选题&#xff0c;所以在此统一打包&…

今日增长工具精选 | 三款你不知道但很实用的运营工具

PartnerShare作为一款分销裂变系统&#xff0c;受到国内多数工具类saas企业的青睐&#xff0c;旗下还有产品分享社区&#xff0c;介绍多种实用的工具&#xff0c;林叔从它那里获得灵感&#xff0c;新开了增长工具集合分享&#xff01;希望能帮助更多saas企业增长。 一、Charac…

lua vm 一: attempt to yield across a C-call boundary 的原因分析

使用 lua 的时候有时候会遇到这样的报错&#xff1a;“attempt to yield across a C-call boundary”。 1. 网络上的解释 可以在网上找到一些关于这个问题的解释。 1.1 解释一 这个 issue&#xff1a;一个关于 yield across a C-call boundary 的问题&#xff0c;云风的解释是…

ctfshow解题,知识点学习

1.easy_zip&#xff08;misc&#xff09; 1&#xff09;打开环境后是一个压缩包&#xff0c;解压里面有个flag.txt文件需要密码&#xff0c; 2&#xff09;直接用工具爆破&#xff0c;即可找到密码 2.easy_eval 1&#xff09;进入题目环境&#xff0c;先进行代码审计 首先说是…

【前端技术】 ES6 介绍及常用语法说明

&#x1f604; 19年之后由于某些原因断更了三年&#xff0c;23年重新扬帆起航&#xff0c;推出更多优质博文&#xff0c;希望大家多多支持&#xff5e; &#x1f337; 古之立大事者&#xff0c;不惟有超世之才&#xff0c;亦必有坚忍不拔之志 &#x1f390; 个人CSND主页——Mi…

个人网站建设方案书

个人网站建设方案书 一、项目背景 随着互联网的迅猛发展&#xff0c;个人网站已经成为展示个人能力、情感表达的重要平台。无论是个人品牌推广&#xff0c;还是个人作品展示&#xff0c;个人网站都能够为个人提供一个独特的展示空间。因此&#xff0c;建设一个个人网站已经成为…