Diffusion Models视频生成-博客汇总
前言:目前Image-to-Video的视频生成模型,图片一般会经过VAE Encoder和Image precessor,导致图片中的信息会受到较大损失,生成的视频在细节信息上与输入的图片有较大的出入。这篇博客结合最新的论文和代码,讲解如何解决Image-to-Video模型视频生成模糊的问题。
目录
问题原因
原因一
原因二
原因三
解决方案:噪声校正策略
问题原因
原因一
现在的视频扩散模型大部分都是latent diffusion的结构,因为所有的操作都要在潜在域上操作,先经过VAE encoder,操作完再经过VAE decoder,这个过程会导致信息损失。
原因二
例如在Stable Video Diffusion中,Image会经过Image processor,输入到3D Unet的cross-attention结构中。因为是提取出的特征信息,难免会有信息上的损失。
下面这张图描述了常见的Image-to-Video的三种方法:
需要注意的是,模型不是单一使用上述的三种方法的,例如在SVD中就是同时使用了下面的两种方法:
原因三
累积噪声误差。
去噪过程中累积的噪声偏差,导致生成的帧潜偏离给定的潜在图像。在训练过程中,虽然利用MSE损失函数使预测噪声接近初始输入噪声,但训练过程不能完全达到0的完美损失。因此,预测噪声和真实噪声之间总是会有差异。
解决方案:噪声校正策略
在不引入任何额外的操作的情况下,这样的设置可以生成与整个样式和布局中给定图像相似的连贯视频。从不同的角度,如果去噪过程在每个时间步采用已知的初始噪声而不是预测的有偏噪声,这将导致视频序列是完全忠实的,但也缺乏任何运动或动力学。因此,为了在完全保真度和动态之间取得平衡,提出了一种噪声校正方法。
矫正后的噪声由 3D-UNet预测的噪声、添加到给定图像的初始采样噪声、校正权重因子ω共同决定。
通过引入校正权重因子ω,我们平衡第一帧噪声间隙和后续帧的噪声间隙,得到加权校正偏移,然后用于帧更新原始预测噪声:
其中 Repeat(·) 是对齐时间维度的广播操作。
以上的算法描述了这种噪声矫正策略的全部过程。可以有效地缓解累积噪声间隙,从而使生成的帧的噪声潜更接近潜在图像。这样,参考图像的细粒度内容细节可以很好地保留在生成的视频中。
感兴趣的朋友可以去看看原始论文:Tuning-Free Noise Rectification for High Fidelity Image-to-Video Generation