无需训练!多提示视频生成最新SOTA!港中文腾讯等发布DiTCtrl:基于MM-DiT架构

文章链接:https://arxiv.org/pdf/2412.18597
项目链接:https://github.com/TencentARC/DiTCtrl

亮点直击

  • DiTCtrl,这是一种基于MM-DiT架构的、首次无需调优的多提示视频生成方法。本文的方法结合了新颖的KV共享机制和隐混合策略,使得不同提示之间能够无缝过渡,且无需额外的训练。

  • 首度分析了MM-DiT的注意力机制,发现其3D全注意力与UNet-like扩散模型中的交叉/自注意力块具有相似的行为,从而实现了基于mask的精确语义控制,使得不同提示之间的生成更加一致。

  • 推出了MPVBench,这是一个专为多提示视频生成设计的新基准,具有多种过渡类型和专门的评估指标,用于多提示视频的评估。 -大量实验表明,本文的方法在多提示视频生成任务上实现了业界领先的性能,同时保持了计算效率。

总结速览

解决的问题
当前的视频生成模型,尤其是基于单一提示(single-prompt)的模型,如Sora,主要聚焦于生成单一提示下的视频内容。它们在生成多个顺序提示(multi-prompt)的连贯场景时存在显著挑战,尤其是在动态场景中需要反映多个动作时,面临的问题包括:

  • 训练数据要求严格;

  • 提示跟随能力较弱;

  • 转场不自然,缺乏平滑过渡。

提出的方案 本文提出了DiTCtrl方法。这是基于MM-DiT架构的、训练无关的多提示视频生成方法,首次能够在没有额外训练的情况下生成多提示的视频,且能够保证多个提示之间的视频内容平滑过渡。

应用的技术

  • MM-DiT架构:多模态扩散Transformer(Multi-Modal Diffusion Transformer)架构被用于视频生成任务,能够有效处理文本、图像和视频的联合表示。

  • 3D全注意力机制:分析了MM-DiT的注意力机制,发现其3D全注意力与UNet-like扩散模型中的交叉/自注意力模块相似,能够在多个提示之间共享注意力,从而实现语义一致性。

  • KV共享和隐混合策略:为实现视频之间的平滑过渡,提出了键值共享(KV-sharing)机制和隐空间混合(latent blending)策略,以连接不同提示生成的视频片段。

达到的效果

  • 平滑过渡与一致性:通过DiTCtrl方法,生成的视频在多个提示之间能够实现平滑的过渡和一致的物体运动,而不需要额外的训练。

  • 高效性能:在MPVBench基准测试上,DiTCtrl在保持计算效率的同时,取得了最先进的性能。

  • 新基准MPVBench:为了促进多提示视频生成的研究,文章还提出了MPVBench基准,专门用于评估多提示视频生成的过渡效果和性能。

方法

本文解决了zero-shot、多提示长视频生成的挑战,无需模型训练或优化。这使我们能够生成高质量的视频,具有平滑和精确的提示间过渡,涵盖各种过渡类型(例如,风格、镜头运动和位置变化)。形式上,给定一个预训练的单提示文本到视频扩散模型 和一个包含 个提示的序列 ,所提出的DiTCtrl能够生成一个连贯的长视频 ,该视频能够随时间忠实地跟随这些提示,可以表示为:

MM-DiT 注意力机制分析

MM-DiT 是当前文本到图像/视频模型的基础架构,与之前的 UNet 架构有根本的不同,因为它将文本和视频映射到一个统一的序列中进行注意力计算。尽管该架构已被广泛使用,但其内部注意力机制的特性尚未得到充分探索,这限制了其在我们多提示长视频生成任务中的应用。因此,本文首次对基于最先进的视频模型(即 CogVideoX)的 3D 全注意力图中的区域注意力模式进行了全面分析。

如下图 2 所示,由于视觉和文本提示的连接,每个注意力矩阵可以分解为四个不同的区域,分别对应不同的注意力操作:视频到视频的注意力、文本到文本的注意力、文本到视频的注意力和视频到文本的注意力。以下是每个区域的详细介绍,灵感来源于先前的 UNet-like 结构中的独立注意力。

文本到视频和视频到文本的注意力
之前的 UNet-like 架构通过交叉注意力实现视频与文本的对齐。在 MM-DiT 中,文本到视频和视频到文本的注意力发挥了类似的作用。计算了所有层和注意力头的平均注意力值,然后通过选择特定的列或行来提取文本到视频和视频到文本区域的注意力值,这些列或行对应文本到视频和视频到文本区域中的token索引。接着,这些注意力值被重塑为 格式,从而能够可视化每一帧的语义激活图。如上图 2 所示,这些可视化结果显示了token级语义定位的显著精度,能够有效捕捉文本描述和视觉元素之间的细粒度关系。这一发现为精确的语义控制和定位提供了强有力的基础,为借用已有的图像/视频编辑技术以增强多提示视频生成的一致性和质量提供了支持。

文本到文本和视频到视频的注意力
文本到文本和视频到视频的区域注意力在某种程度上是新的,与相应的 UNet 结构不同。如下图 3 所示,本文的分析揭示了这两个组件中相似的模式。在文本到文本的注意力组件(图 3(a)(b),其中 (a) 表示较短提示的注意力模式,(b) 表示较长提示的模式)中,观察到一个显著的对角线模式,表明每个文本token主要关注其邻近的token。

值得注意的是,随着文本序列长度的增加,存在明显的垂直线,这些垂直线向后移动,表明所有token对文本序列末尾的特殊token保持显著关注。对于视频到视频的注意力组件,由于 MM-DiT 扁平化了空间和时间token以进行 3D 注意力计算,在单帧级别的分析揭示了空间注意力中的明显对角线模式(上图 3(c))。更重要的是,当检查来自不同帧中相同空间位置的token构建的注意力图时,还观察到显著的对角线模式(图 3(d))。这一特征与最近的基于 UNet 的视频模型中的空间注意力和时间注意力(如 VideoCrafter 和 Lavie)中的发现相似,符合 [25] 中的报告结果。

由于之前的工作仅训练扩散模型的特定部分以进行更高级的控制和生成,本文的发现为从 MM-DiT 角度看待这些方法提供了有力的证据。这些在 MM-DiT 架构中出现的一致对角线模式表明了帧间强相关性,这对于维持空间-时间一致性和保留视频序列中的运动忠实度至关重要。

随时间一致的视频生成

MM-DiT 中的注意力机制与 UNet-like 视频扩散模型中的行为类似。因此,提出了基于mask引导的 KV 共享策略,用于多提示视频生成任务中的一致视频生成。

如下图 4 所示,为了在提示 和提示 之间生成一致的视频,利用 MM-DiT 中第 和第 个提示的中间注意力来分别生成特定一致对象的注意力mask。这是通过对 3D 全注意力中的所有文本到视频/视频到文本部分进行平均,并使用给定的特定主题token来实现的。通过这些mask,接着执行mask引导的注意力融合,生成提示 的新注意力特征。受到 MasaCtrl 的启发,直接利用提示 中的键和值来引导提示 的生成,从而实现随时间变化的一致外观生成。

形式上,在第 步,分别使用固定的 MM-DiT 骨干网络与提示 和下一个提示 进行前向传递,生成中间区域的交叉注意力图。然后,对所有头和层中的注意力图进行平均,得到相同空间分辨率 和时间帧 的平均值。得到的交叉注意力图记作 ,其中 是文本token的数量。接下来,获得与前景对象相关的token的平均交叉注意力图。分别将 和 作为从 和 中提取的前景对象masks。利用这些masks,可以限制在 中的对象仅查询来自 中对象区域的信息:

其中, 是最终的注意力输出。然后,将当前步骤的特征图替换为 ,以便进一步计算。

用于过渡的隐混合策略

尽管之前的方法保证了片段之间的语义一致性,但要实现不同语义片段之间的平滑过渡,仍需要精心设计。因此,提出了一种隐混合策略,旨在确保不同语义片段之间的时间一致性,灵感来源于最近在单提示长视频生成中的工作 [33, 46]。

如下图 5 所示,本文的方法在相邻语义视频片段(视频 和视频 )之间引入重叠区域。对于重叠区域中的每个帧位置,应用一个位置相关的权重函数,该函数遵循对称分布——越靠近各自片段的帧得到更高的权重,而边界处的帧则得到较低的权重。这个加权方案确保了不同语义上下文之间的平滑过渡。

形式上,给定由提示 和 分别生成的两个相邻视频片段 和 ,提出如下隐混合策略。设 表示片段之间的重叠帧数。对于重叠区域中的帧位置 ,计算其混合隐特征 :

其中, 和 分别是来自 和 的隐特征, 是一个位置相关的三角形权重函数,定义为:

本文的方法的关键优势在于,它不需要额外的训练,同时能够有效地处理不同语义上下文之间的过渡。在每个去噪步骤中,首先独立处理每个片段,然后逐步使用位置相关的权重在重叠区域中融合隐特征。这一策略在保持时间一致性的同时,平滑地过渡于不同的语义上下文之间,使其特别适用于多提示视频生成任务。

实验

基于 CogVideoX-2B 实现了 DiTCtrl,CogVideoX-2B 是一种基于 MM-DiT 的先进开源文本到视频扩散模型。在实验中,生成了多提示条件的视频,每个视频片段由 49 帧组成,分辨率为 480×720。此外,还使用了 ChatGPT 来生成不同类型的多个过渡。在实验中将隐采样帧数和重叠大小设置为 13 和 6。实验在单个 NVIDIA A100 GPU 上进行。

质量结果

与当前最先进的多提示视频生成方法[33, 38, 40] 和领先的商业解决方案 进行了全面的定性比较。为了确保公平比较,还在 CogVideoX 主干上实现了 FreeNoise,作为增强的基准。

如下图 6 所示,本文提出的方法在三个关键方面展示了优越的性能:文本到视频对齐、时间一致性和运动质量。尽管 Kling 在高质量视频生成方面展现了令人印象深刻的能力,但它仅限于同时的多语义混合,而不是顺序的语义过渡,这突出了在多提示视频生成任务中实现时间演变内容的重要性。

本文的比较分析揭示了现有方法的 distinct 特征和局限性。Gen-L-Video 存在严重的时间抖动和偶尔的物体消失,影响了整体视频质量。Video-Infinity 和 FreeNoise 都在场景级语义变化方面取得了成功,但缺乏物理上合理的运动——例如,在上图 6 中,车辆看似在运动,但空间位置固定,这是它们基于 UNet 的能力的限制。相比之下,FreeNoise+DiT 利用了 DiT 架构的能力实现了更真实的物体运动,但在语义过渡上存在困难,导致片段之间出现明显的中断。DiTCtrl 方法保留了预训练 DiT 模型的固有能力,同时解决了这些局限性,能够平滑地实现语义过渡,并在整个视频序列中保持运动一致性。

定量结果

首先详细介绍我们提出的用于评估多提示视频生成的新基准 MPVBench,然后讨论定量结果。

MPVBench
MPVBench 包含一个多样化的提示数据集和一个专门为多提示生成定制的新度量标准。具体来说,通过利用 GPT-4,生成了 130 个长格式的提示,涵盖 10 种不同的过渡模式。然后,对于多提示视频生成,观察到 CLIP 特征在单一提示和多提示场景之间的分布有所不同。如下图 7 所示,自然视频的特征点沿着一条连续曲线分布,而两个拼接的孤立视频的特征点则沿着两条连续曲线分布,并且在中间有一个断点。

由于常见的 CLIP 相似度计算的是邻近相似度的平均值,自然视频和孤立视频之间的差异仅在断点处发生,并且在按帧数划分后,差异会变得非常小。为了解决这一限制,提出了 CSCV(Clip Similarity Coefficient of Variation),这一度量标准专门用于评估多提示过渡的平滑度:

其中, 表示帧特征, 和 分别是标准差和平均值。变异系数(CV)= 描述了均匀度的程度,可以大大惩罚孤立情况。函数 将分数映射到 范围内,分数越大越好。

自动评估
使用 MPVBench 进行自动评估。从下表 1 中可以看出,本文的方法获得了最高的 CSCV 分数,证明了在过渡处理和生成模式的整体稳定性方面具有优势。虽然 FreeNoise 排名第二,稳定性相对较强,但其他方法在这一方面显著落后,这与上图 7 中 CLIP 嵌入的 T-SNE 可视化结果一致。在运动平滑性方面,本文的方法在运动质量和一致性方面表现优越。在文本-图像相似度指标方面,尽管 FreeNoise 和 Video-Infinity 获得了更高的分数,但这可以归因于我们方法的 KV-sharing 机制,在该机制下,后续视频片段本质上从前面的语义内容中学习。

如前面图6所示,本文的设计选择允许路面逐渐过渡到雪地条件,同时保留之前场景的特征。尽管可能会导致较低的文本-图像对齐得分,但它确保了序列中的语义连续性。在实际应用中,这种权衡并不会对多提示场景中的视觉质量产生负面影响,如下面我们展示的用户研究结果所示。

人类评估
邀请了28名用户评估五个模型:Gen-L-Video、Video-Infinity、FreeNoise、FreeNoise+DiT 和本文的方法。使用5点Likert量表(1代表低质量,5代表高质量)。参与者根据16个不同场景生成的视频,考虑整体偏好、运动模式、时间一致性和文本对齐情况对每种方法进行评分。正如下表2所示,本文的方法在所有四个标准上显著超越了其他现有方法,展示了在生成具有自然语义过渡的视频方面的卓越能力,能够更好地与人类对视觉连贯性和连续性的偏好相符。

消融研究

进行消融研究,以验证DiTCtrl关键组件的有效性:隐融合策略、KV-sharing机制和掩模引导生成,如下图8所示。第一行显示了直接使用文本-视频模型的结果,导致场景变化突兀,运动模式断裂,无法保持从冲浪到滑雪过程中运动的一致性。第二行表明,未使用隐融合策略的DiTCtrl能够实现基本的视频编辑功能,但场景之间缺乏平滑过渡。没有KV-sharing(第三行)的DiTCtrl表现出不稳定的环境过渡和显著的运动伪影,角色缩放不一致,动作变形。此外,没有掩模引导(第四行)的DiTCtrl提高了运动一致性和过渡效果,但在不同提示和环境之间的对象属性混乱方面存在问题。另一方面,完整的DiTCtrl实现提供了对生成内容的最精确控制,展示了卓越的对象一致性和更平滑的提示过渡,同时保持所需的运动模式。这些结果验证了对MM-DiT注意力机制的分析及其在实现准确语义控制中的作用。

更多应用

单提示长视频生成
本文的方法能够自然地应用于单提示长视频生成。如下图9所示,使用提示“A white SUV drives on a steep dirt road”,本文的方法成功生成了长度超过原始视频12倍的视频,同时保持了一致的运动模式和环境连贯性。这表明,本文的技术不仅适用于多提示视频生成任务,还能有效地扩展到长时间视频的生成,确保了生成内容在时间维度上的连贯性和一致性。

视频编辑 本文展示了如何使用本文的方法实现视频编辑功能(例如,“重新加权”和“单词替换”)。通过这些操作,能够在不破坏视频原有结构和连贯性的情况下,灵活地编辑视频内容。这使得我们的技术不仅仅适用于新视频的生成,还能作为强大的视频编辑工具,在多个语义变化的场景下保持视频的整体一致性与流畅过渡。

结论

本文介绍了DiTCtrl,一种基于MM-DiT架构的多提示视频生成的创新方法,且无需额外的训练。对MM-DiT的注意力机制进行了开创性的分析,揭示了其与UNet-like扩散模型中的交叉/自注意力模块的相似性,这使得在提示之间能够实现mask引导的语义控制。通过引入KV共享机制和隐融合策略,DiTCtrl确保了语义段之间的平滑过渡和一致的对象运动,无需额外的训练。此外,还提出了MPVBench,这是首个针对多提示视频生成的广泛评估框架,旨在推动该领域未来的研究。

局限性与未来工作 尽管本文的方法展示了最先进的性能,但仍然存在两个主要局限性。首先,与图像生成模型相比,当前开源的视频生成模型在概念组合能力上较弱,偶尔会导致不同语义段之间的属性绑定错误。其次,基于DiT架构的计算开销对推理速度提出了挑战。这些局限性为未来研究提供了有前景的方向,特别是在增强语义理解和架构效率方面。

参考文献

[1] DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/947404.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

RabbitMQ基础篇之快速入门

文章目录 一、目标需求二、RabbitMQ 控制台操作步骤1.创建队列2.交换机概述3.向交换机发送消息4.结果分析5.消息丢失原因 三、绑定交换机与队列四、测试消息发送五、消息查看六、结论 一、目标需求 新建队列:创建 hello.queue1 和 hello.queue2 两个队列。消息发送…

ESP32S3 + IDF 5.2.2 扫描WiFi

ESP32S3 IDF 5.2.2 扫描WiFi 目录 1 资料 2 通过Wi-Fi库扫描附近的网络 2.1 通过idf命令创建工程 2.2 编写测试用例 2.3 优化测试用例 3 小结 1 资料 在ESP平台基于IDF开发WiFi相关功能,主要就是基于IDF的Wi-Fi库进行二次开发。可供参考的官方资料&#xff…

2025-1-2-sklearn学习(30)模型选择与评估-验证曲线: 绘制分数以评估模型 真珠帘卷玉楼空,天淡银河垂地。

文章目录 sklearn学习(30) 模型选择与评估-验证曲线: 绘制分数以评估模型30.1. 验证曲线30.2. 学习曲线 sklearn学习(30) 模型选择与评估-验证曲线: 绘制分数以评估模型 文章参考网站: https://sklearn.apachecn.org/ 和 https://scikit-learn.org/stable/ 每种估…

统信系统设置代理的问题

统信系统设置代理的问题 问题表现方式一方式二 问题表现 统信系统下有系统代理和应用代理两个代理。设置系统代理时,git不能经过代理拉取代码。但是设置应用代理时,可以用git通过代理拉代码。 这是系统代理,在这里设置 ip 端口,…

STM32-笔记19-串口打印功能

复制项目文件夹03-流水灯,重命名为19-串口打印功能 打开项目 在主函数中,添加头文件、和串口初始化函数(设置波特率)和输出函数,如图所示: 软件部分就设置好了 下面是硬件部分 接线:使用USB…

JavaWeb——MySQL-DML(1/3)-添加数据insert(DML 操作概述、INSERT 语句插入数据、语句演示、总结)

目录 DML 操作概述 INSERT 语句插入数据 INSERT 语句基础语法 INSERT 语句演示 注意事项 总结 DML 操作概述 DML 简介 DML(Data Manipulation Language)即数据操作语言,用于对数据库表中的数据进行增删改操作,包括添加数据&…

Docker图形化界面工具Portainer最佳实践

前言 安装Portainer 实践-基于Portainer安装redis-sentinel部署 Spring Boot集成Redis Sentinel 前言 本篇文章笔者推荐一个笔者最常用的docker图形化管理工具——Portainer。 安装Portainer 编写docker-compose文件 Portainer部署的步骤比较简单,我们还是以…

Wonder Dynamics技术浅析(五):虚拟场景描述解析

虚拟场景描述解析模块是 Wonder Dynamics 平台的核心组件之一,其主要功能是将用户输入的自然语言场景描述转换为机器可理解的语义表示,为后续的虚拟场景生成提供基础数据。 一、文本预处理(Text Preprocessing) 1. 目标: 对用户…

基于SpringBoot在线竞拍平台系统功能实现十一

## 一、前言介绍:1.1 项目摘要 随着网络技术的飞速发展和电子商务的普及,竞拍系统作为一种新型的在线交易方式,已经逐渐深入到人们的日常生活中。传统的拍卖活动需要耗费大量的人力、物力和时间,从组织拍卖、宣传、报名、竞拍到成…

JavaScript基础 -- 变量、作用域与内存

1 原始值与引用值 原始值就是最简单的数据,引用值则是由多个值构成的对象。在把一个值赋给变量时,JavaScript引擎必须要确定这个值是原始值还是引用值 原始值大小固定,保存在栈内存上;引用值是对象,存储在堆内存上 它…

密钥登录服务器

1. 生成 SSH 密钥对 如果您还没有生成密钥对,可以使用以下命令生成: ssh-keygen 在 root 用户的家目录中生成了一个 .ssh 的隐藏目录,内含两个密钥文件:id_rsa 为私钥,id_rsa.pub 为公钥。 在提示时,您可…

nginx 部署前端vue项目

👨‍⚕ 主页: gis分享者 👨‍⚕ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕ 收录于专栏:前端工程师 文章目录 一、🍓什么是nginx?二、🍓nginx 部署…

三大行业案例:AI大模型+Agent实践全景

本文将从AI Agent和大模型的发展背景切入,结合51Talk、哈啰出行以及B站三个各具特色的行业案例,带你一窥事件驱动架构、RAG技术、人机协作流程,以及一整套行之有效的实操方法。具体包含内容有:51Talk如何让智能客服“主动进攻”&a…

HTML-CSS-常见标签与样式

目录 一. 央视新闻排版1.1 标题1.2 正文1.3 案例1.3.1 顶部导航栏1.3.2 flex布局1.3.3 表单标签1.3.4 表单项标签1.3.5 表格 1.3 课程总结 \quad 一. 央视新闻排版 \quad \quad 1.1 标题 \quad ALTp就是用AI快速生成 标题一共有6级 \quad 1.2 正文 \quad 定义视频 定义图片 样…

【信息安全设计】系统安全设计方案,系统安全保护设施设计实施方案(Word原件)

1.1 总体设计 1.1.1 设计原则 1.2 物理层安全 1.2.1 机房建设安全 1.2.2 电气安全特性 1.2.3 设备安全 1.2.4 介质安全措施 1.3 网络层安全 1.3.1 网络结构安全 1.3.2 划分子网络 1.3.3 异常流量管理 1.3.4 网络安全审计 1.3.5 网络访问控制 1.3.6 完整性检查 1.…

基于STP文件的智能比对系统:思通数科带来高效机械制造解决方案

在机械制造领域,设计图纸与实物之间的精准对比至关重要,传统的比对方式往往需要耗费大量时间且容易出现错误,导致生产效率低下并影响产品质量。为了解决这些问题推出了一套基于STP文件的智能比对系统,结合大模型技术,集…

【51项目】51单片机自制小霸王游戏机

视频演示效果: 纳新作品——小霸王游戏机 目录: 目录 视频演示效果: 目录: 前言: 一、连接方式: 1.1 控制引脚 1.2. 显示模块 1.3. 定时器 1.4. 游戏逻辑与硬件结合 1.5. 中断处理 二、源码分析&#xff1a…

SpringMVC(五)实现文件上传

目录 1.先导jar包 2.在Springmvc.xml配置文件上传解析器 3. 编写文件上传的html页面 4.在controller包中创建FileController.class文件 5.文件下载 6.重启服务器测试 1.先导jar包 <dependency><groupId>commons-fileupload</groupId><artifactId>…

LabVIEW声波谐振管自动化测量系统

开发了一种基于LabVIEW的声波谐振管自动化测量系统。该系统利用LabVIEW的强大功能&#xff0c;实现了对声波谐振频率的精确测量&#xff0c;提高了实验数据的采集效率和准确性。系统主要应用于物理教学和科研中&#xff0c;用于研究声波在谐振管中的传播特性。 项目背景 传统的…

docker Error response from daemon

问题 Error response from daemon: Get "https://index.docker.io/v1/search?qnginx&n25": read tcp 192.168.50.233:54354->54.198.86.24:443: read: connection reset by peer Unable to find image redis:latest locally docker: Error response from d…