主要参考资料
B站视频《Sora 夜谈之 Video Diffusion 综述》
目录
- 图像Diffusion模型发展脉络
- 视频Diffusion模型发展脉络
- 视频模型评价标准
图像Diffusion模型发展脉络
相较于直接在图像层Pixel space加噪和降噪,Latent Diffusion则通过编码增加了一层Latent层,在比较低的维度上计算,节省了计算资源。
而Stable diffusion就是其中最有名的一个开源模型。
右下角是Stable Diffusion XL与其他版本的比较。
ControlNet则是提供了其他模态,比如sketch或者骨骼图生成想要的效果。
视频Diffusion模型发展脉络
这是2022谷歌的第一个视频扩散模型,只能生成64×64,16帧的视频。
Meta后来做了一个提高分辨率和帧率的模型
以上都是在pixel space上生成的生成的视频,后来英伟达把Diffusion应用在视频上。
视频模型评价标准
视频模型评价标准分为主观和客观评价。