1.Introduction
composer提出了一种一组合性为中心的新的生成范式,能够通过各种输入条件组合生成图像,但是composer主要在空间维度上考虑多级条件。视频复杂的时间结构,其在保持不同帧之间的时间连续性的同时展现出大幅度的时间动态变化。VideoComposer在空间和时间感知方面提高了视频合成的可控性,将一个视频分为三种代表性因素;1.textual condition;2.spatial conditions;3.the crucial temporal conditions。
2.VideoComposer
可组合的条件 composable conditions 和统一的时空条件编码器 unified Spatio-Temporal condition encoder(STC encoder)。
2.1 Preliminaries
Perceptual video compression:按照LDM引入了一个预训练的编码器,不是VAE,
LDM:带有时域卷积核cross-attention的3D-unet。
2.2 VideoComposer
2.2.1 Videos as composable conditions
将视频分为三个部分:textual conditions,spatial conditions and crucially temporal conditions,它们共同决定了视频中的空间和时间模式。
1.文本条件,使用了openclip ViT-H/14;
2.空间条件,a,单个图像,视频由连续的图像组成,单个图像通常会揭示该视频的内容和结构,给定视频的第一帧作为空间条件进行图像到视频的生成;b,单个草图,使用PiDiNet提取视频的第一个草图作为第二个条件,根据单个草图中的结构和纹理合成具有时间一致性的视频;c,风格,选择图像嵌入,应用了openclip ViT-H/14.
3.时间条件,在temporal维度实现更精细的控制,引入了4个时间条件,a,motion vector,作为视频特定元素,运动向量被表示为二维向量,即水平和处置方向,编码了相邻两帧之间的像素级移动,如图3所示,从研所视频中提取标准的MPEG-4格式的运动向量;b,深度序列,提取了视频帧的深度图;c,mask squence,手动添加;d,sketch squence。
2.2.2 STC encoder
Sequential conditions包含了丰富且复杂的时空依赖关系,设计了STC encoder来融合时空关系,一个轻量级的空间结构,包括2个二维卷积核一个平均池化层,以提取局部空间信息,随后,将得到的条件序列输入到一个时间transformer层进行时间建模。
经过STC encoder之后,最终的条件序列和Zt的空间形状相同,条件序列相加融合,将合并后的条件序列与Zt沿着通道维度连接,文本和风格利用cross attention注入。
2.3 Training and inference
2.3.1 两阶段训练策略
用LDM的预训练来初始化,1.通过文本到视频生成预训练,专注于temporal建模;2.通过组合训练优化VideoComposer.
2.3.2 推理
DDIM,classifier-free guidance.
3.Experiements
3.1 experimental setup
数据集,WebVid-10M,LAION-400M