目录
- 一. 训练 Sora 模型
- 二. 数据预处理
- 三. 视频 VQVAE
- 四. Diffusion Transformer
一. 训练 Sora 模型
Open-Sora 在下图中总结了 Sora 可能使用的训练流程:
链路:
二. 数据预处理
目前主流 LLM 框架缺乏针对 video 数据 统一便捷的管理和处理能力,且多模态数据处理标准方案缺失
pytorchvideo:主要支持加载和少量单 video 模态的tensor transform(翻转、扰动、采样等)
SORA 官方仅模糊提及使用了 DALLE3 来生成 caption,细粒度的"caption --> spacetime patch"建模比较关键
从 SORA 模型效果看,数据需要有变化的时长、分辨率和宽高比
Data-Juicer 扩展了对多模态数据的支持:
支持视频数据的高性能 IO 和处理
支持并行化数据加载:lazy load with pyAV and ffmpeg;多模态数据路径签名并行化算子处理:支持单机多核;GPU 调用;Ray 多机分布式
[WIP] 分布式调度优化;分布式存储优化
基础算子(视频时空维度)
三. 视频 VQVAE
四. Diffusion Transformer
通过结合 diffusion model 和 transformer,从而达到可以 scale up model 来提升图像生成质量的效果
Reference:
【📖学习手册】
【GitHub】