stable video diffusion:scaling latent video diffusion models to large datasets

【AIGC-AI视频生成系列-5】Stable Video Diffusion -长文解读视频/3D生成变革的开始 - 知乎一句话总结:长文解读一份Stability AI 最新力作Stable Video Diffusion,如同实验报告的论文,构建了一个高质量的视频生成通用模型,在多种下游任务中微调后都有非常好的效果。 论文地址:https://stability.ai/s…icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/668592926视频生成这块,目前是runway的gen2和pika走的比较远,stable video diffusion是开源的。svd大概就是微调文生图模型,然后清洗一批视频数据后,插入temporal layer后进行视频微调。

1.数据预处理

三阶段数据处理:

step1:图像预处理,2d text-to-image预处理模型;

step2:视频预处理,基于大规模视频训练集,进行视频训练;

step3:高质量视频微调,进一步提升模型生成的视频分辨率和质量;

1.1 数据预处理和注释

从上视频中获取短视频,PySceneDetect。

裁剪完成后,采用三种不同的方法来对裁剪后的视频进行标注:

1.Coca标注每段视频中间帧的内容;2.V-blip对视频整体进行解读;3.基于llm,对上述两个生成结果做一个总结。 

有了基础数据集后,需要关注美学指标,比如视频中静止太多,文本太多,因此使用基于深度光流对视频进行评估,使用了2帧的帧率,把平均光流幅度低于一定阈值的视频都过滤掉了。

1.2 stage 1:Image pretraining

基于sd 2.1改了预训练参数。只训练time-embedding层,并使用512x512训练,预训练的比随机初始化效果好。

1.3 stage 2:生成视频训练的数据

人工过滤了一批视频数据。

1.4 stage 3:高质量视频生成微调

整体训练借鉴了图像diffusion model的训练模式。经过包括微调50K步并人工审核等生成评价指标后,使用视频预训练模型参数,效果更好。

2.大规模视频模型的训练

基于上述结果开始训练特定的预训练模型。

2.1 预训练基础模型

使用network preconditioning将图像模型中的固定离散噪声调度微调为连续噪声,对大小为256x384的图像进行微调,在插入temporal layer后,使用256x384的LVD-F对模型进行训练,使用bs为768在100k迭代中微调模型以生成14个320x576的帧。对于这一训练阶段,将噪声调度想更多噪声的方向进行调整是重要的。

2.2 高质量文生图视频模型

在得到生面的基础模型之后,使用约1M的视频数据微调,将256x384的分辨率提升到576x1024.

2.3 高质量图生视频模型

同样基于base模型,可以微调图生视频模型。不同于文本控制,直接将输入文本embedding替换为条件的clip embedding,另外,还将条件帧的噪声增强模型按通道维度连接到unet的输入。另一方面,标准的Diffusion-cfg 会导致伪影的生成,而如果CFG权重太低则又会出现视频帧之间的不一致,cfg太大又会出现过拟合的情况。文章中使用了随帧数动态cfg的方案(即从小到大)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/236167.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

cache教程 5.分布式节点的通信

0.对原教程的一些见解 其回顾完请求流程就是抽象了两个接口,PeerPicker和PeerGetter。这样操作,读者阅读时可能很难快速明白其含义,不好理解为什么就创建出两个接口,感觉会比较疑惑。原教程的评论中也有讨论这点。 本教程就先不创…

Error opening file for writing报错解决

报错展示及描述 在安装pycharm的时候出现了一下报错, Error opening file for writing。 报错原因 一般出现这种报错都是文件权限的原因,检查一下,果然这个文件夹权限是【只读】 查看文件权限的方式:【右击】文件夹名称&#xff0…

【23真题】拜托再练一套!保持手感!

今天分享的是23年河北科技大学882的信号与系统试题及解析。 本套试卷难度分析:22年河北科技大学822考研真题,我也发布过,若有需要,戳这里自取!本套试题难度中等偏下,题量适中,对于很多基础知识…

大创项目推荐 协同过滤电影推荐系统

文章目录 1 简介1 设计概要2 课题背景和目的3 协同过滤算法原理3.1 基于用户的协同过滤推荐算法实现原理3.1.1 步骤13.1.2 步骤23.1.3 步骤33.1.4 步骤4 4 系统实现4.1 开发环境4.2 系统功能描述4.3 系统数据流程4.3.1 用户端数据流程4.3.2 管理员端数据流程 4.4 系统功能设计 …

mycat部署和配置读写分离(二)

说明: MyCAT 是使用 JAVA 语言进行编写开发,使用前需要先安装 JAVA 运行环境(JRE),由于 MyCAT 中使用了 JDK7 中的一些特性,所以要求必须在 JDK7 以上的版本上运行。 1. jdk1.8安装 详见jdk环境安装 2. Mysql安装 详见mysql8.0.11源码安装…

Oracle(2-15)RMAN Incomplete Recovery

文章目录 一、基础知识1、The Procedure 不完全恢复步骤2、UNTIL TIME Example 基于时间的恢复3、UNTIL SEOUENCE Example 基于序列的恢复 二、基础操作1、不完全恢复准备工作2、不完全恢复开始恢复 RMAN Incomplete Recovery RMAN的不完全恢复 目标: 使用“UNTIL T…

【开源】基于Vue和SpringBoot的计算机机房作业管理系统

项目编号: S 017 ,文末获取源码。 \color{red}{项目编号:S017,文末获取源码。} 项目编号:S017,文末获取源码。 目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 登录注册模块2.2 课程管理模块2.3 课…

Linux基础指令(2)

今天我们继续来学我们有关于Linux的指令,今天的指令要比上次多多了。开始我们的学习吧。 man手册 先来看标题,手册我们第一时间想到的就是手册的查阅功能,我们都知道在我们上小学的时候,如果遇到不会的字,我们会通过…

《opencv实用探索·十六》opencv直方图计算calcHist函数解析

直方图理解: (对于8位灰度图像亮度/灰度为(0-255),12位灰度图像亮度/灰度为(0-4095)) 以8位图像为例,亮度分为0到255共256个数值,数值越大,代表的亮度越高。其中0代表纯黑色的最暗区域&#xff…

微服务学习:Nacos配置中心

先打开Nacos(详见微服务学习:Nacos微服务架构中的服务注册、服务发现和动态配置&Nacos下载) 1.环境隔离: 新建命名空间: 记住命名空间ID: c82496fb-237f-47f7-91ed-288a53a63324 再配置 就可达成环…

kube-prometheus+kube-thanos

背景 最近在做监控,选择了thanos架构,使用了kube-prometheuskube-thanos,这里记录一下搭建过程。 原理 我选择的是sidecar的方式,这张图画的很好,thanos就理解为多个prometheus的汇合点,当一个query发到t…

npm run build时提示vue/types/jsx.d.ts中的错误

解决方法一: 可能是因为vue版本过高引起的 我直接将package.json中vue以及vue-template-compiler的版本的前面^去掉,安装指定的版本 注意:vue和vue-template-compiler需要版本一致 参考链接:链接 解决方法二: 如果如…

LV.13 D2 开发板启动流程 学习笔记

一、开发板启动过程 EMMC:相当于电脑的外存,断电不丢失 开发板上电后首先运行SOC内部iROM中固化的代码(BL0),这段代码先对基本的软硬件环境(时钟等...)进行初始化,然后再检测拨码开关位置获取启动方式,然后再将对应存储…

解决HTTP 429错误的Scrapy中间件配置

引言 在进行网络数据抓取时,经常会遇到HTTP 429错误,表示请求速率已超出API限制。为避免封禁或限制访问,需要调整Scrapy的请求速率,以在不触发HTTP 429错误的情况下完成数据抓取。针对这一问题,可使用Scrapy的AutoThr…

3DMax物理画笔物体填充放置绘制画笔插件安装使用方法

3DMax物理画笔物体填充放置绘制画笔插件,允许您使用笔刷以非常自然的方式用物品快速填充场景,并使用刚体模拟自动放置它们。 无论你是从事建筑、游戏电影还是商业。。。等等,你经常需要用一些物品为你的场景添加细节。手工放置它们是乏味的&…

采集数据更快捷,轻松生成调查问卷二维码

现在用二维码的方式来采集用户的数据,是现在很常用的一种统计数据的手段,这种方法更加简单快捷做好数据统计,那么表单类型的二维码能如何快速生成呢?下面来教大家在线二维码生成器的使用方法,能够用简单的步骤快速制作…

最长子字符串的长度 (一) - 华为OD统一考试(C卷)

OD统一考试(C卷) 分值: 100分 题解: Java / Python / C 题目描述 给你一个字符串 s,字符串s首尾相连成一个环形,请你在环中找出字符出现了偶数次最长子字符串的长度。 输入描述 输入是一串小写字母组成的…

玩转大数据14:分布式计算框架的选择与比较

1. 引言 随着大数据时代的到来,越来越多的企业和组织需要处理海量数据。分布式计算框架提供了一种有效的方式来解决大数据处理的问题。分布式计算框架将计算任务分解成多个子任务,并在多个节点上并行执行,从而提高计算效率。 2. 分布式计算…

低代码(low code)开发平台,我选JNPF

近年来,低代码开发技术正以迅猛的步伐崭露头角,成为数字化转型浪潮下的重要工具。据 Gartner 预测,到 2025 年,低代码技术将占据 70% 的新应用开发份额,引领着企业应用开发的新趋势。然而,随之而来的是市场…

传音荣获2023首届全国人工智能应用场景创新挑战赛“智能遥感专项赛”三等奖

11月26日,2023首届全国人工智能应用场景创新挑战赛“智能遥感专项赛”在北京圆满落幕。传音参赛项目《传音智慧应用平台产业化》凭借在技术攻关、社会效益和经济效益等多方面的突出优势荣获“智能遥感专项赛”三等奖。 本次竞赛以“场景驱动数智强国”为主题&#…