Datawhale【Sora原理与技术实战】| 学习笔记3

目录

  • 一. 训练 Sora 模型
  • 二. 数据预处理
  • 三. 视频 VQVAE
  • 四. Diffusion Transformer

一. 训练 Sora 模型

在这里插入图片描述
Open-Sora 在下图中总结了 Sora 可能使用的训练流程:
在这里插入图片描述

链路:
在这里插入图片描述

二. 数据预处理

目前主流 LLM 框架缺乏针对 video 数据 统一便捷的管理和处理能力,且多模态数据处理标准方案缺失

	pytorchvideo:主要支持加载和少量单 video 模态的tensor transform(翻转、扰动、采样等)
	SORA 官方仅模糊提及使用了 DALLE3 来生成 caption,细粒度的"caption --> spacetime patch"建模比较关键
	从 SORA 模型效果看,数据需要有变化的时长、分辨率和宽高比

Data-Juicer 扩展了对多模态数据的支持:

	支持视频数据的高性能 IO 和处理
	支持并行化数据加载:lazy load with pyAV and ffmpeg;多模态数据路径签名并行化算子处理:支持单机多核;GPU 调用;Ray 多机分布式
	[WIP]  分布式调度优化;分布式存储优化
	基础算子(视频时空维度)

三. 视频 VQVAE

在这里插入图片描述

四. Diffusion Transformer

通过结合 diffusion model 和 transformer,从而达到可以 scale up model 来提升图像生成质量的效果


Reference:
          【📖学习手册】
          【GitHub】


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/457233.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

第十四届蓝桥杯省赛真题 Java 研究生 组【原卷】

文章目录 发现宝藏【考生须知】试题 A: 特殊日期试题 B: 与或异或试题 C: 棋盘试题 D: 子矩阵试题 E : \mathrm{E}: E: 互质数的个数试题 F: 小蓝的旅行计划试题 G: 奇怪的数试题 H: 太阳试题 I: 高塔试题 J \mathrm{J} J : 反异或 01 串 发现宝藏 前些天发现了一个巨牛的人…

InstantID Zero-shot Identity-Preserving Generation in Seconds

InstantID: Zero-shot Identity-Preserving Generation in Seconds TL; DR:InstantID IP-Adapter (Face) ControlNet,实现了具有较高保真度的人脸 ID 生成。 方法 InstantID 想做到的事情是:给定一张参考人脸 ID 图片,生成该…

6. 面向对象(重点)

1 面向对象 1.1 了解对象 学习面向对象编程都先我们需要先思考三个问题: 1.1.1 面向对象的好处? Java作者詹姆斯.高斯林说过**万物皆对象**汽车的数据可以找汽车对象处理手机数据可以找手机对象处理学生的数据可以找学生对象处理使用面向对象编程符合人类思维习惯, 就好比…

Java的编程之旅41——字符流

目录 1.字符流的简介 2.字符的编码与解码 3.字符流读写操作 1.字符流写入 2.字符流复制文件 4.FileWriter&FileReader 5.缓冲区高效读写 6.序列化与反序列化 1.字符流的简介 在Java中,字符流是用于处理字符数据的输入输出流。它是以字符为单位进行处理&a…

户外大屏:六个必备的户外大屏推广工具助你脱颖而出-华媒舍

1. 大屏幕LED显示屏 大屏幕LED显示屏是一种常见而有效的户外推广工具。它采用LED背光源和高分辨率显示屏,能够在户外环境中展示鲜艳丰富的图像和视频内容。这种显示屏广泛应用于广场、商业街、体育场馆等公共场所,成为吸引人们目光的重要工具。 大屏幕…

AIOps探索 | 国外知名厂商根因分析实践分享新方法探索

文章来源于公众号--布博士(擎创科技资深产品专家) 哈喽,大家好~转眼又到我们分享干货环节了,上一篇AIOps干货后台收到不少反馈,总体来说效果还不错,感谢大家喜欢,后续楼主会定期更新AIOps相关干…

如何使用“ubuntu移动文件、复制文件到其他文件夹“?

一、移动文件到其他文件夹命令 mv node_exporter-1.5.0.linux-amd64.tar.gz /usr/local/etc/prometheus 二、复制文件到其他文件夹命令 cp node_exporter-1.5.0.linux-amd64.tar.gz /home/master

一个八年工作经验老程序员的分享

作为一个 Java 程序员,我在这个行业中工作了多年。在这个过程中,我经历了许多挑战和机遇,也学到了很多宝贵的经验和教训。在这篇文章中,我想分享一些我的感想和思考,希望能够对其他 Java 程序员有所帮助。 一、技术的…

【linux】进程管理:进程控制块、进程号、fork创建进程、特殊进程及exec函数族解析

一、进程的概述 可执行程序运行起来后(没有结束之前),它就成为了一个进程。程序是存放在存储介质上的一个可执行文件,而进程是程序执行的过程。进程的状态是变化的,其包括进程的创建、调度和消亡。程序是静态的,进程是…

基于蓝牙技术的资产管理

随着物联网技术的不断发展,蓝牙技术已经成为了许多领域中不可或缺的一部分。在资产管理领域,基于蓝牙技术的资产定位管理方案正在逐渐普及,为企业提供了更加高效、精准的资产管理方式。本文将从蓝牙技术的原理、资产定位管理的需求、系统架构…

全栈之路-新坑就绪-星野空间

感觉自己的技术栈一直没有形成一个很好的闭环 开新坑,准备把自己的技术栈链路打通, Don‘t think too much, just act![得意]

python retry装饰器使用

第一个例子 import time from functools import wraps from typing import Callable, Any from time import sleepdef retry(retries: int 3, delay: float 1) -> Callable:"""Attempt to call a function, if it fails, try again with a specified dela…

基于单片机的恒压供水控制器设计

摘 要 随着我国现代化的进程不断加快,城市居民生活水平不断提高,随之而来的是房屋的翻新和重建,但建筑层数的不断增高,使得供水所需压力不断提高,若建筑设计时对压力判断不足,会导致供水时无法供应到高楼层…

NO9 蓝桥杯单片机之串口通信的使用

1 基本概念 简单来说,串口通信是一种按位(bit)传输数据的通信方式。 其他一些知识就直接贴图吧(单工,半双工这些学过通信的同学应该都知道,可以上网查询一下具体概念。) 来源还是:…

第16届大广赛XPPen都有哪些参赛命题

截至到发文时间,2024年3月14日,第16届大广赛已经累计公布了6个品牌命题,本文就给大家介绍一下XPPen命题的详细细节。 XPPen为汉王友基旗下全球知名数字艺术创新品牌,专注消费级用户创作需求,品牌产品覆盖全球160多个国…

一张图搞清楚wait、sleep、join、yield四者区别,面试官直接被征服!

写在开头 在线程的生命周期中,不同状态之间切换时,可以通过调用sleep()、wait()、join()、yield()等方法进行线程状态控制,针对这一部分知识点,面试官们也会做做文章,比如问你这些方法的作用以及之间的区别…

Linux中mysql的安装、远程访问、基础操作、文件导入

Linux中mysql的安装、远程访问、基础操作、文件导入 cheet card1. 安装1. 使用root账号安装mysql 2. 启动mysql并创建root、管理员两个账号3. 基础操作3.1 数据库的查看、创建、修改、删除3.2 mysql的数据类型3.3 数据表的基本操作3.4 数据表结构的修改3.5 表中数据的增、删、改…

Kotlin编程权威指南学习知识点预览

一、变量、常量和类型: 变量、常量以及 Kotlin 基本数据类型。变量和常量在 应用程序中可用来储值和传递数据。类型则用来描述常量或变量中保存的是什么样的数据。 1、声明变量: // 变量定义关键字 —— 变量名 —— 类型定义 —— 赋值运算符 —— 赋值var na…

用户案例|向量引擎在携程酒店搜索中的应用场景和探索

Zilliz AI 初创计划是面向 AI 初创企业推出的一项扶持计划,预计提供总计 1000 万元的 Zilliz Cloud 抵扣金,致力于帮助 AI 开发者构建高效的非结构化数据管理系统,助力打造高质量 AI 服务与运用,加速产业落地。访问https://zilliz…

log4j2 burp插件-Log4j2Scan(二)

该工具为被动扫描Log4j2漏洞CVE-2021-44228的BurpSuite插件,具有多DNSLog(后端)平台支持,支持异步并发检测、内网检测、延迟检测等功能。 一、安装方法 建议使用BurpSuite 2020或以上更高版本,低版本BurpSuite未经严…