视频扩散模型介绍 Video Diffusion Models Introduction

视频扩散模型介绍 Video Diffusion Models Introduction

  • Diffusion 扩散模型中的一些概念
    • DDPM
    • DDIM
    • CLIP
    • Latent Diffusion
    • Stable Diifusion
    • LoRA
    • DreamBooth
    • ControlNet
  • 视频生成
    • 评估标准
      • 图片层面
      • 视频层面
    • 前人的工作
      • Make-A-Video
      • Align your Latents
    • 开源视频生成模型
      • ModelScopeT2V(阿里)
      • Show-1
      • VideoCrafter(tx)
      • LaVie
      • Stable Video Diffusion
    • 高效的生成方法
      • AnimateDiff
      • Text2Video-Zero 无需训练
      • 其他
    • Storyboard
      • VisorGPT
      • VideoDirectorGPT
      • Long-form Video Prior
      • 其他工作
    • 长视频生成
      • NUWA-XL
  • Video Editing
    • Tuning-based
      • Tune-A-Video
      • Dreamix
    • Training-Free
      • TokenFlow
      • FateZero
      • 其他工作
    • Controlled Editing
      • Gen-1
      • Pix2Video
      • ControlVideo
      • VideoControlNet
      • CCEdit
      • VideoComposer
      • 其他工作
      • Pose Control姿态控制
        • MagicAnimate
      • PointControl
    • 3D-Aware

Diffusion 扩散模型中的一些概念

DDPM

扩散过程和去噪过程
在这里插入图片描述

在这里插入图片描述

去噪器,预测出来噪声然后与原始图片相减,得到干净的图片

在这里插入图片描述
当然,去噪过程是逐步的,所以减去之后会重新加上“平均噪声”
在这里插入图片描述

DDIM

跳步
在这里插入图片描述
DDIM和DDPM作对比:
在这里插入图片描述

在这里插入图片描述

CLIP

在这里插入图片描述

Latent Diffusion

不是直接在像素空间进行操作,多了编码解码,在latent空间操作加噪和去噪过程
在这里插入图片描述

Stable Diifusion

在这里插入图片描述

LoRA

微调
在这里插入图片描述

DreamBooth

在这里插入图片描述

ControlNet

在这里插入图片描述

在这里插入图片描述

视频生成

一些已有的工作分类
在这里插入图片描述
3D可以分成(2+1),就是从图片生成到视频生成的一种思路
在这里插入图片描述

早期工作:
在这里插入图片描述
解码器+插帧+超分辨率模块
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评估标准

在这里插入图片描述

图片层面

语义相似度
在这里插入图片描述

像素相似度
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

视频层面

视频生成的质量和多样性
在这里插入图片描述

一致性
在这里插入图片描述
在这里插入图片描述

组合评估
在这里插入图片描述

前人的工作

Make-A-Video

在这里插入图片描述
在这里插入图片描述

Align your Latents

在这里插入图片描述

开源视频生成模型

ModelScopeT2V(阿里)

在这里插入图片描述
在这里插入图片描述

可变temporal attention
在这里插入图片描述

下面是模型效果,ZeroScope是从ModelScope 用10K的小数据集fine-tune出来的
在这里插入图片描述

Show-1

在这里插入图片描述

VideoCrafter(tx)

在这里插入图片描述

LaVie

在这里插入图片描述

Stable Video Diffusion

数据处理
在这里插入图片描述
在这里插入图片描述
训练过程:
先初始化参数
在这里插入图片描述
训练过程
在这里插入图片描述

fine-tune阶段
在这里插入图片描述

高效的生成方法

AnimateDiff

把文生图片模型转化为文生视频模型而不需要单独train

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Text2Video-Zero 无需训练

动机:如何在不用fine-tune的情况下使用Stable Diffusion

做法:给定第一帧noise后,人为定义全局scene motion

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

其他

在这里插入图片描述

Storyboard

前面生成的视频都是几秒钟长度的视频,如果时间要增长,有哪些工作做了

文本->电影脚本->视频

VisorGPT

在这里插入图片描述
在这里插入图片描述

VideoDirectorGPT

在这里插入图片描述

Long-form Video Prior

在这里插入图片描述

其他工作

在这里插入图片描述

长视频生成

NUWA-XL

在这里插入图片描述
在这里插入图片描述

Video Editing

在这里插入图片描述

Tuning-based

Tune-A-Video

在这里插入图片描述
在这里插入图片描述

Sparse-Casual的attention方式节约内存空间,只跟第一帧和前一帧做attention
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Dreamix

在这里插入图片描述

在这里插入图片描述

Training-Free

TokenFlow

在这里插入图片描述

FateZero

在这里插入图片描述

其他工作

在这里插入图片描述

Controlled Editing

Gen-1

在这里插入图片描述

Pix2Video

Control场景里也有不需要训练的方法
在这里插入图片描述

ControlVideo

另外一种不需要训练的方法
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

VideoControlNet

CCEdit

在这里插入图片描述

VideoComposer

在这里插入图片描述

其他工作

在这里插入图片描述

Pose Control姿态控制

MagicAnimate

在这里插入图片描述

PointControl

比如图中想把猫换成狗但是背景保留

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

只在关键帧标注
在这里插入图片描述
在这里插入图片描述

3D-Aware

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/435702.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

vant van-field 密码输入框小程序里隐藏、显示密码bug总结

老规矩先上效果图: vant 输入框组件 密码的隐藏与显示功能: 注: 用password属性控制密码的显示与隐藏 不要用type属性,type属性在真机上有时会没有效果 1、当然如果只用typepassword 不需要切换显示、隐藏也可以使用。 2、如果用到了密码的显示与…

pandas数据合并

import pandas as pd import numpy as np# 随机生成两个df df1 pd.DataFrame(np.random.randn(3,4),columns [A,B,C,D]) df2 pd.DataFrame(np.random.randn(2,3),columns [A,B,D])print(打印df1\n,df1) print(打印df2\n,df2)# 默认纵向合并 qh_df_z pd.concat([df1,df2]) …

掌握Nodejs高级图片压缩技巧提升web优化

掌握Nodejs高级图片压缩技巧提升web优化 在当今的数字时代,图像在网络开发中发挥着至关重要的作用。它们增强视觉吸引力、传达信息并吸引用户。然而,高质量的图像通常有一个显着的缺点——较大的文件大小会减慢网页加载时间。为了应对这一挑战并确保快速加载网站,掌握 Node…

高中信息技术教资学习

一、几种排序方法的基本思想 1、直接插入排序(假设按照从小到大进行排序) 默认第一个元素是有序的,从有序的元素末尾开始,与要插入的元素进行比较,如果要插入的元素比有序的末尾元素小的话,就将有序末尾元…

ChatGPT高效提问——说明提示技巧

ChatGPT高效提问——说明提示技巧 现在,让我们开始体验“说明提示技巧”(IPT, Instructions Prompt Technique)和如何用它生成来自ChatGPT的高质量的文本。说明提示技巧是一个通过向ChatGPT提供需要依据的具体的模型的说明来指导ChatGPT输出…

图神经网络实战(4)——基于Node2Vec改进嵌入质量

图神经网络实战(4)——基于Node2Vec改进嵌入质量 0. 前言1. Node2Vec 架构1.2 定义邻居1.2 在随机游走中引入偏向性1.3 实现有偏随机游走 2. 实现 Node2Vec小结系列链接 0. 前言 Node2Vec 是一种基于 DeepWalk 的架构,DeepWalk 主要由随机游…

Vue源码系列讲解——过滤器篇【三】(解析过滤器)

目录 1. 前言 2. 在何处解析过滤器 3. parseFilters函数分析 4. 小结 1. 前言 在上篇文章中我们说了,无论用户是以什么方式使用过滤器,终归是将解析器写在模板中,既然是在模板中,那它肯定就会被解析编译,通过解析用…

【ESP32 IDF快速入门】点亮第一个LED灯与流水灯

文章目录 前言一、有哪些工作模式?1.1 GPIO的详细介绍1.2 GPIO的内部框图输入模式输出部分 二、GPIO操作函数2.1 GPIO 汇总2.2 GPIO操作函数gpio_config配置引脚reset 引脚函数设置引脚电平选中对应引脚设置引脚的方向 2.3 点亮第一个灯 三、流水灯总结 前言 ESP32…

【Godot4.2】GDScript数组分类及类型化数组和紧缩数组概述

概述 GDScript的数组是一种很常用的数据类型。本文主要阐述一下GDScript数组分类,以及官方文档和大多数视频或教程较少提及的类型化数组和紧缩数组。 GDScript数组分类 通过反复查阅GDScript内置文档并进行细节比较,发现GDScript的数组,可…

Qt for WebAssembly : Application exit (SharedArrayBuffer is not defined)

用Qt开发 WebAssembly,放到nginx里面,用127.0.0.1访问没问题,用局域网IP访问就提示如下: 总结了以下两种解决办法: ①:配置 nginx http 头 [ 支持:WebAssembly Qt (single-threaded) ] ②&#…

关于 selinux 规则

1. 查看selinux状态 SELinux的状态: enforcing:强制,每个受限的进程都必然受限 permissive:允许,每个受限的进程违规操作不会被禁止,但会被记录于审计日志 disabled:禁用 相关命令&#xf…

ElevenLabs用AI为Sora文生视频模型配音 ,景联文科技提供高质量真人音频数据集助力生成逼真音效

随着Open AI公司推出的Sora文生视频模型惊艳亮相互联网,AI语音克隆创企ElevenLabs又为Sora的演示视频生成了配音,所有的音效均由AI创造,与视频内容完美融合。 ElevenLabs的语音克隆技术能够从一分钟的音频样本中创建逼真的声音。为了实现这一…

LVS集群 ----------------(直接路由 )DR模式部署

一、LVS集群的三种工作模式 lvs-nat:修改请求报文的目标IP,多目标IP的DNAT lvs-dr:操纵封装新的MAC地址(直接路由) lvs-tun:隧道模式 lvs-dr 是 LVS集群的 默认工作模式 NAT通过网络地址转换实现的虚拟服务器&…

Ubuntu 22.04修改静态ip

1. 备份原网络配置文件 # 配置文件名称因机器设置有异 cd /etc/netplan cp 01-network-config.yaml 01-network-config.yaml.bak# 文件内容如下 network:version: 2renderer: NetworkManager2. 修改配置文件 使用 ipconfig 命令查看网络信息,ip addr 命令也可 我这…

【S32DS报错】-8-调用初始化函数Port_Init后,S32DS断开与调试器PEmicro/J-Link的连接,无法调试Debug(基于MCAL)

问题背景: 在S32DS IDE中,调用初始化函数Port_Init后,S32DS断开与调试器PEmicro / J-Link的连接,无法调试Debug: 问题原因: 调用初始化函数Port_Init时,MCU的JTAG接口被初始化,导致…

Echarts 配置项 series 中的 data 是多维度

文章目录 需求分析 需求 如下图数据格式所示,现要求按照该格式进行绘制折线图 分析 在绘制折线图时,通常我们的 series 中的 data 数据是这样的格式 option {title: {text: Stacked Area Chart},tooltip: {trigger: axis,axisPointer: {type: cross…

紧握时代契机链接亿万家庭 创维汽车2024全球经销商大会圆满召开

3月6日,以“极致 见新境”创维汽车2024全球经销商大会在徐州隆重举行。徐州经开区管委会副主任季洪志,缅甸驻华大使馆商务参赞 Win Myat Aung,法国中小企业联盟主席 Xavier Michon-Lehnebach,创维集团、创维汽车创始人黄宏生&…

【项目】图书管理系统

目录 前言: 项目要求: 知识储备: 代码实现: Main: Books包: Book: BookList: Operate包: Operate: addOperate: deleteOperate: exitOperate: findOperate:…

Python与FPGA——膨胀腐蚀

文章目录 前言一、膨胀腐蚀二、Python实现腐蚀算法三、Python实现膨胀算法四、Python实现阈值算法五、FPGA实现腐蚀算法总结 前言 腐蚀是指周围的介质作用下产生损耗与破坏的过程,如生锈、腐烂等。而腐蚀算法也类似一种能够产生损坏,抹去部分像素的算法。…

代码随想录算法训练营第13天

239. 滑动窗口最大值 &#xff08;一刷至少需要理解思路&#xff09; 方法&#xff1a;暴力法 &#xff08;时间超出限制&#xff09; 注意&#xff1a; 代码&#xff1a; class Solution { public:vector<int> maxSlidingWindow(vector<int>& nums, int k…