sora related

官方https://openai.com/research/video-generation-models-as-world-simulators

概述:

  1. sora可以生成变长的、不同分辨率的最长可到1分钟的视频;
  2. 整体流程是 v i d e o   c o m p r e s s i o n   n e r w o r k ( v i d e o → l a t e n t ) + p a t c h i f y ( s p a c e t i m e   p a t c h e s ) + d i f f u s i o n   t r a n s f o r m e r + d e c o d e r ( l a t e n t → v i d e o ) video\ compression\ nerwork(video\rightarrow latent) + patchify (spacetime\ patches)+ diffusion\ transformer + decoder(latent\rightarrow video) video compression nerwork(videolatent)+patchify(spacetime patches)+diffusion transformer+decoder(latentvideo)
  3. spacetime patches是作为transformer的tokens;
  4. sora是一个diffusion transformer21-26,输入带有噪声的patches,以文本作为条件,通过预测原本的干净样本来完成训练;
  5. text caption的获取,类似与DALL.E3,训练了一个highly descriptive captioner model,除此之外,还使用GPT来将短的caption变长;
  6. 除了文本作为输入,还可以输入图片和视频完成
  7. https://www.yuque.com/xinntao/nm1yxs/yyqt6n02n2gkmg32

related papers:

Scalable Diffusion Models with Transformers

https://github.com/facebookresearch/DiT
WALT这篇文章里面关于transformer diffusion类似,只是那一篇文章加入了windowed这一个操作来efficient
在这里插入图片描述

  1. raw picture首先输入到VAE里面,得到输出,例如 256 × 256 × 3 → 32 × 32 × 4 256\times 256 \times 3 \rightarrow 32 \times 32 \times 4 256×256×332×32×4
  2. 之后是patchify的操作,,input中 I × I I\times I I×I作为一个token,得到的输出是 T × d T\times d T×d的,其中 T = ( I / p ) 2 T=(I/p)^2 T=(I/p)2 p p p是patch size;在这里插入图片描述
  3. 之后是frequent based positional embedding和VIT是相同的;
  4. 输入还会有类别、timestep和文本,所以在vit的基础上有一定的改动,
    a. In-context conditioning:直接将timestep和class label的embedding与image token进行拼接,这样就可以不改变原始的vit结构,将其与cls相同对待;
    b. Cross-attention block:将timestep和class label进行拼接,在模型层面在self attention的后面加上cross attention;
    c. Adaptive layer norm (adaLN) block:替换原本的layer norm,Rather than directly learn dimensionwise scale and shift parameters σ , γ \sigma , \gamma σ,γ, we regress them from the sum of the embedding vectors of t and c;
    d. adaLN-Zero block:In addition to regressing and , we also regress dimensionwise scaling parameters that are applied immediately prior to any residual connections within the DiT block.We initialize the MLP to output the zero-vector for all; this initializes the full DiT block as the identity function.
  5. decoder:模型结构是线性的将输出的通道变为 p × p × 2 C p\times p \times 2C p×p×2C C C C是原始vae的输出通道数4,输出的内容物分别是output noise prediction and an output diagonal covariance prediction.Finally, we rearrange the decoded tokens into their original spatial layout to get the predicted noise and covariance.

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(VIT)

在这里插入图片描述

ViViT: A Video Vision Transformer

主要是transformer使用到video里面的范式,有几种video token的方法以及加入temporal attention的方法;
一个不错的解读:https://zhuanlan.zhihu.com/p/451386368

Masked Autoencoders Are Scalable Vision Learners

https://blog.csdn.net/iwill323/article/details/128393710

Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution

实现可变分辨率和可变长度的vision transformer
在这里插入图片描述
将不同图片的token sequence进行拼接,在原始vit的基础上加上基于图片粒度的mask在self attention和polling上,position embedding也需要相应的改变,不同分辨率的图片拼接到一起训练,但是同时在attention的时候增加mask以限制同一个图片之内进行attention操作;

VideoPoet: A Large Language Model for Zero-Shot Video Generation

模型可以生成包含音频的视频,decoder only的transformer architecture,输入可以包含各种模态,图片、视频、文本和音频,和LLM一样,训练包含两个阶段,预训练阶段以及task specific adaptation
在这里插入图片描述
模型包含三个部分:modality specific tokenizer, language model backbone, super resolution module

  1. tokenizer将各种模态的数据转变为discrete tokens in a unified vocabulary
    a. image和video使用的是magvit-v2 tokenizer,audio使用的是soundstream tokenizer
    b. unified vocabulary的前256留给special token和task prompts,后面的212644是用来image和video,其余的4096是分配给audio,text使用的是text embedding,现成的T5-XL
    c. 以一个17帧 128 ∗ 128 128*128 128128分辨率的视频为例,tokenizer将其tokenize到 5 ∗ 16 ∗ 16 5*16*16 51616,之后flatten为1280tokens
    d. magvit-v2是casual的,the frame are encoded without any information from future frames;
    e. 为了联合的表示image和video,将视频的第一帧 1 ∗ 16 ∗ 16 1*16*16 11616,之后每4帧为 1 ∗ 16 ∗ 16 1*16*16 11616
  2. super resolution在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/564847.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

HarmonyOS ArkUI实战开发-NAPI数据类型

在前两篇文章里笔者简单介绍了 NAPI 工程结构以及生成的 cpp 源码部分,其中 JS 应用层传递过来的数据被封装在了 napi_value 中,使用前先要转换成对应的 C/C 数据类型,C/C 端的数据也要转换成 napi_value 数据类型传递给 JS 应用层&#xff0…

大模型改变了NLP的游戏规则了吗

NLP已经死了吗? 自从 ChatGPT 横空出世以来,自然语言处理(Natural Language Processing,NLP) 研究领域就出现了一种消极的声音,认为大模型技术导致 NLP “死了”。在某乎上就有一条热门问答,大…

mac上VMware fusion net模式无法正常使用的问题

更新时间:2024年04月22日21:39:04 1. 问题 环境: intel芯片的macbook pro VMware fusion 13.5.1 无法将“Ethernet0”连接到虚拟网络“/dev/vmnet8”。在这里显示这个之后,应该是vmnet8的网段发生了冲突,所以导致无法正常使用…

一篇文章带您了解操作系统的体系结构

操作系统的体系结构有哪些? 我们可以利用时钟中断实现计时功能。 原语是一种特殊的程序,具有原子性。也就是说,这段程序的运行必须一气呵成,不能中断。 内核是操作系统最基本,最核心的部分。 实现操作系统内核功能的…

Opencv Python图像处理笔记一:图像、窗口基本操作

文章目录 前言一、输入输出1.1 图片读取显示保存1.2 视频读取保存1.3 文件读取保存 二、GUI2.1 窗口2.2 轨迹条2.3 画图2.4 鼠标回调 三、图像入门操作3.1 颜色空间转化3.2 通道分离合并3.3 添加边框3.4 算数操作 四、二值化4.1 普通4.2 自适应4.3 Otsu 参考 前言 随着人工智能…

PS入门|蒙版到底是个什么样的功能?看完就明白了

前言 前段时间一直说蒙版蒙版什么的,很多小伙伴估计都听得一头雾水。 抠个图要加蒙版,调个色要加蒙版。 小白感觉这个蒙版就像调味剂一样,啥都需要加一个蒙版。 动不动就加个蒙版,究竟是干啥用的? 今天咱们就深入来…

【深度学习-第5篇】使用Python快速实现CNN分类(模式识别)任务,含一维、二维、三维数据演示案例(使用pytorch框架)

在之前的文章中介绍了CNN的图解入门,CNN的MATLAB分类实现,CNN的MATLAB回归实现。 卷积神经网络(Convolutional Neural Networ,简称CNN)是一种广泛应用于图像识别领域的深度学习算法。它通过模拟人类视觉系统的层次结构,可以自动提…

【linux】软件工具安装 + vim 和 gcc 使用(上)

目录 1. linux 安装软件途径 2. rzsz 命令 3. vim 和 gcc 使用 a. vim的基本概念 b. 命令模式下的指令 c. 底行模式下的指令 1. linux 安装软件途径 源代码安装rpm安装 -- linux安装包yum安装(最好,可以解决安装源,安装版本&#xff0…

实战 | 无视杀软使用远控工具进行横向移动Tips

实战 | 无视杀软使用远控工具进行横向移动Tips。 在有杀软拦截,CS无法上线的情况下,经常用到todesk和向日葵这两个远控工具进行横向移动。不过这两个工具现在好像不怎么好用了。不过无所谓,用其他的就是了,听说最近GotoHTTP很火&…

手拉手安装Kafka2.13发送和消费消息

Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。 Kafka启动方式有Zookeeper和Kraft,两种方式只能选择其中一种启动,不能同时使用。 Kafka下载https://downloads.apache.org/kafka/3.7.0/kafka_2.…

四川易点慧电子商务抖音小店:安全正规,购物新选择

在当今互联网高速发展的时代,电子商务已经成为人们日常购物的重要组成部分。四川易点慧电子商务抖音小店作为新兴的电商平台,凭借其安全正规的经营理念和便捷高效的购物体验,正逐渐赢得消费者的信赖和喜爱。 一、平台背景实力雄厚 四川易点慧…

【Linux系统化学习】线程控制

目录 前言 POSIX线程库 线程控制 创建线程 线程终止 pthread_exit()函数 pthread_cancel()函数(会在下面线程等待部分详解) 线程等待 pthread_join()函数 获取线程退出码 分离线程 线程取消(pthread_cancel()函数) 线程ID及进程…

Scikit-Learn支持向量机分类

Scikit-Learn 支持向量机分类 1、支持向量机(SVM)1.1、SVM概述1.2、SVM原理1.3、SVM的损失函数1.4、支持向量机分类的优缺点 2、Scikit-Learn支持向量机分类2.1、Scikit-Learn支持向量机分类API2.2、支持向量机分类初体验(手写数字识别&#…

【工具-PyCharm】

工具-PyCharm ■ PyCharm-简介■ PyCharm-安装■ PyCharm-使用■ 修改主题■ 设置字体■ 代码模板■ 解释器配置■ 文件默认编码■ 快捷键■ 折叠■ 移动■ 注释■ 编辑■ 删除■ 查看■ 缩进■ 替换 ■ PyCharm-简介 官方下载地址 Professional:专业版&#xff0…

头脑风暴法的四个原则,设计师必看!

俗话说 “三个臭皮匠超越诸葛亮”,这在工作场景中也是如此。最常见的工作场景是会议。会议的目的很多,如工作报告、产品宣传等。头脑风暴是一种工作会议。其目的是集思广益,充分发挥团队的智慧。有效的头脑风暴不仅考验组织者的会议控制能力&…

【前端Vue】Vue3+Pinia小兔鲜电商项目第6篇:整体认识和路由配置,本资源由 收集整理【附代码文档】

Vue3ElementPlusPinia开发小兔鲜电商项目完整教程(附代码资料)主要内容讲述:认识Vue3,使用create-vue搭建Vue3项目1. Vue3组合式API体验,2. Vue3更多的优势,1. 认识create-vue,2. 使用create-vue创建项目,1. setup选项的写法和执行…

【机器学习-17】数据变换---小波变换特征提取及应用案列介绍

引言 在机器学习领域,数据变换是一种常见且重要的预处理步骤。通过对原始数据进行变换,我们可以提取出更有意义的特征,提高模型的性能。在众多数据变换方法中,小波变换是一种非常有效的方法,尤其适用于处理非平稳信号和…

实战解析:SpringBoot接口防抖机制与防重复提交技巧

目录 前言 啥是防抖 思路解析 哪一类接口需要防抖? 如何确定接口是重复的? 分布式部署下如何做接口防抖? 使用共享缓存 使用分布式锁 Spring Boot与Redis深度整合入口:实战指南 具体实现 请求锁 唯一key生成 重复提交判断 Red…

scipy.sparse.csr_matrix 中的 indptr indices data

# ------------------------------------------------------------------------------- # Description: 分析理解 scipy.sparse.csr_matrix 中的 indptr & indices & data # Reference: https://blog.csdn.net/bymaymay/article/details/81389722 # Author: Sophia…

Win 进入桌面黑屏,只有鼠标

大家好,我叫秋意零。 今天,遇到一个同事电脑进入桌面黑屏,只有鼠标。经过询问沟通,说是 Windows 突然进行了自动更新,更新之后桌面就黑了屏。经过查询是一个桌面进程没启动才会导致桌面黑屏。首先分两种情况&#xff0…