Stable Video文本生成视频公测地址——Scaling Latent Video Diffusion Models to Large Datasets

近期,Stability AI发布了首个开放视频模型——"Stable Video",该创新工具能够将文本和图像输入转化为生动的场景,将概念转换成动态影像,生成出电影级别的作品,旨在满足广泛的视频应用需求,包括媒体、娱乐、教育和营销等领域。"Stable Video"提供了两种图像到视频的模型,能够生成14帧和25帧的视频,用户还可以自行设置帧率,范围在3到30帧每秒之间。该模型适用于多种视频应用任务,包括从单一图像进行多视角合成,以及在多视角数据集上进行微调。

Stable Video Diffusion模型是一种先进的文本到视频和图像到视频生成模型,专为高分辨率视频设计。研究者通过三个阶段的训练过程,强调了预训练数据集的重要性,并提出了一种系统化的数据策划方法来培养一个强大的基础模型。该模型不仅为多视图合成提供了强有力的运动和多视角先验,还能够微调成多视图扩散模型,以高效的方式生成对象的多个视角。

此外,通过特定的运动提示和LoRA模块的训练,模型能够实现显式运动控制。研究者们通过策划工作流程,将大型视频集合转化为高质量的数据集,并训练出了超越先前所有模型的尖端文生视频和图生视频模型。他们的方法在减少数据集大小、提高分辨率和视频帧数方面表现出色,并在与其他顶尖模型的比较中证明了其有效性。总而言之,这一方法有效地分离了运动和内容,在多视图合成方面取得了显著成果。其主要步骤如下:

  1. 数据处理与标注:首先提出了一个大型视频数据集(LVD),包含580M个标注过的视频剪辑对,使用三种不同的合成字幕方法对每个片段进行注释,而通过进一步研究发现,现有数据集中含有可能降低最终视频模型性能的样本,如运动量少、文本过多或审美价值低的视频。因此,作者以2FPS进行计算,并通过删除任何平均光流幅度低于某一阈值的视频来过滤掉静态场景。

  2. 图像预训练:讨论了图像预训练作为视频模型训练流程中的第一个阶段。作者将图像预训练(image pretraining)作为视频模型训练流程的第一个阶段。他们在初始模型上使用了一个预训练的图像扩散模型——即Stable Diffusion 2.1——以为模型提供强大的视觉表现力

  3. 策划视频预训练数据集:作者提出了一个两阶段的视频预训练数据集策划流程。第一阶段涉及图像预训练,其中利用了空间布局初始化自预训练图像模型的视频模型,并展示了在预训练大型且多样化的数据集,然后在较小但质量更高的数据集上进行微调的效果提升。第二阶段关注于策划适合预训练的视频数据集。作者通过计算光流(optical flow)来过滤掉不需要的样本以创建一个更适宜的预训练数据集

  4. 高质量视频微调:这一阶段的目的是在一个高质量、高分辨率的视频子集上对模型进行精细化调整。在前两个阶段(图像预训练和视频预训练)的基础上,通过进一步的高质量微调来提升最终模型的性能。在第三阶段期间,插入时间卷积和注意力层,这些是在每个空间卷积和注意力层之后添加的,与仅训练时间层的工作或完全基于LLM(大型语言模型)的方法形成对比。

Stability AI还发布了"Stable Video Diffusion"的代码,其github仓库地址为:https://github.com/nateraw/stable-diffusion-videos,可以进入仓库使用colab一键体验。另外Stable Video Diffusion官网已经全面开放使用,可以直接进入官网https://www.stablevideo.com/,点击start with text。

输入对应的prompt如:A tranquil, realistic depiction of a sunset over calm ocean waters, with the sky ablaze in vibrant oranges and reds, reflecting softly on the water's surface,然后选择比例和风格,点击Generate即可开始生成视频。

图像和视频的生成已成为目前人工智能最火热的应用,而掌握良好的提示工程基础已经成为提高工作效率、优化系统设计和提供良好用户体验的重要前提之一。无论是对于从事信息技术相关工作的专业人士,还是对于对提示技术感兴趣的初学者,我推荐学习一下《提示工程基础》这门课程、课程将介绍提示工程的基本知识,然后逐步过渡到高级提示技术。您还将学习如何防止提示误用,以及如何在与基础模型 (FM, Foundation Model) 互动时减少偏差。

课程链接:https://study.163.com/course/introduction.htm?from=AWS-social-FY24-KOC-HJS

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/426759.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

leetcode10正则表达式匹配

leetcode10正则表达式匹配 思路python 思路 难点1 如何理解特殊字符 ’ * ’ 的作用? 如何正确的利用特殊字符 ’ . ’ 和 ’ * ’ ? * 匹配零个或多个前面的那一个元素 "a*" 可表示的字符为不同数目的 a,包括: "…

二维码门楼牌管理系统技术服务:制作详解

文章目录 前言一、二维码门楼牌制作技术要求二、二维码门楼牌管理系统的优势与应用 前言 随着信息化时代的到来,二维码技术已广泛应用于各个领域。在城市管理中,二维码门楼牌管理系统的应用为城市管理带来了极大的便利。本文将详细探讨二维码门楼牌管理…

绝地求生:【2024PGC之路——PUBG电竞积分分布】

亲爱的PUBG电竞爱好者, 你们好! 2024年PUBG电竞即将开始,让我们一起深入了解下今年令人激动的PGS 和 PGC赛事积分分配情况。 PUBG GLOBAL SERIES(PGS全球系列赛): 积分分布 根据我们之前概述的《PUBG 2024电竞计划》…

camunda7数据库schame和表结构介绍

本文基于Camunda7.19.0版本,介绍Camunda开源工作流引擎的数据库架构和ER模型,Camunda7.19.0共49张表,包括了BPMN流程引擎、DMN规则引擎、CMMN引擎、历史数据、用户身份等方面的表结构定义,以及表与表之间的关联关系。 1、camunda…

SQL优化——插入数据、主键优化、order by 优化、group by 优化、limit 优化、count优化、update优化、

目录 1、SQL优化1——插入数据(Insert) 1.1、普通插入: 1.1.1、采用批量插入(一次插入的数据不建议超过1000条) 1.1.2、手动提交事务 1.1.3、主键顺序插入 1.2、大批量插入 1.2.1、在客户端连接服务器的时候&am…

Python——桌面摄像头软件(附源码+打包)

目录 一、前言 二、桌面摄像头软件 2.1、下载项目 2.2、功能介绍 三、打包工具(nuitka) 四、项目文件复制(我全部合到一个文件里面了) 五、结语 一、前言 看见b站的向军大叔用electron制作了一个桌面摄像头软件 但是&#x…

【离散化】【 树状树状 】100246 将元素分配到两个数组中

本文涉及知识点 离散化 树状树状 LeetCode 100246 将元素分配到两个数组中 给你一个下标从 1 开始、长度为 n 的整数数组 nums 。 现定义函数 greaterCount ,使得 greaterCount(arr, val) 返回数组 arr 中 严格大于 val 的元素数量。 你需要使用 n 次操作&#x…

Network LSA 结构简述

Network LSA主要用于描述一个区域内的网络拓扑结构,包括网络中的路由器和连接到这些路由器的网络。它记录了每个路由器的邻居关系、连接状态以及连接的度量值(如带宽、延迟等),以便计算最短路径和构建路由表。display ospf lsdb n…

CentOS下安装Kafka3

kafka是分布式消息队列,本文讲述其在centos(centos 7.5)下的安装。安装过程可以参考其官方文档https://kafka.apache.org/36/documentation.html 首先在官网 https://kafka.apache.org/downloads 下载Kafka二进制文件(官网的压缩包…

WordPress免费的远程图片本地化下载插件nicen-localize-image

nicen-localize-image(可在wordpress插件市场搜索下载),是一款用于本地化文章外部图片的插件,支持如下功能: 文章发布前通过编辑器插件本地化 文章手动发布时自动本地化 文章定时发布时自动本地化 针对已发布的文章…

文章解读与仿真程序复现思路——电网技术EI\CSCD\北大核心《基于条件风险价值的虚拟电厂参与能量及备用市场的双层随机优化》

本专栏栏目提供文章与程序复现思路,具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》 论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html 这篇文章的标题涉及到以下几个关键点…

数字革命的浪潮:Web3如何改变一切

随着数字技术的不断发展,人类社会正迎来一场前所未有的数字革命浪潮。在这个浪潮中,Web3技术以其去中心化、安全、透明的特性,正在逐渐改变着我们的生活方式、商业模式以及社会结构。本文将深入探讨Web3技术如何改变一切,以及其所…

【学习心得】请求参数加密的原理与逆向思路

一、什么是请求参数加密? 请求参数加密是JS逆向反爬手段中的一种。它是指客户端(浏览器)执行JS代码,生成相应的加密参数。并带着加密后的参数请求服务器,得到正常的数据。 常见的被加密的请求参数sign 它的原理和过程图…

【C语言】【洛谷】P1125笨小猴

一、个人解答 #include<stdio.h> #include<string.h>int prime(int num);int main() {char max a, min z;int maxn0, minn1000;char str[100];int num[26] { 0 };fgets(str, sizeof(str), stdin);str[strcspn(str, "\n")] \0;for (int i 0; str[i]…

ABAP - SALV 教程15 用户点击按钮交互功能

SALV增加了按钮&#xff0c;那么该怎么实现点击了按钮实现交互功能呢&#xff1f;可以通过注册事件并且在对应的method中写入相关逻辑&#xff0c;来实现点击按钮后的逻辑。通过自定义状态栏的方式添加按钮&#xff1a;http://t.csdnimg.cn/lMF16通过使用派生类的方式添加按钮&…

【MetaGPT】配置教程

MetaGPT配置教程&#xff08;使用智谱AI的GLM-4&#xff09; 文章目录 MetaGPT配置教程&#xff08;使用智谱AI的GLM-4&#xff09;零、为什么要学MetaGPT一、配置环境二、克隆代码仓库三、设置智谱AI配置四、 示例demo&#xff08;狼羊对决&#xff09;五、参考链接 零、为什么…

java学习(常用类)

一、包装类&#xff08;针对八种基本数据类型相应的引用类型--包装类. 1)包装类和基本数据类型的相互转换 装箱&#xff1a;基本类型->包装类型 拆箱&#xff1a;包装类型->基本类型 //以下是int类型和char类型演示。 public class temp1 {public static void main(St…

【Web - 框架 - Vue】随笔 - 通过CDN的方式使用VUE 2.0和Element UI

通过CDN的方式使用VUE 2.0和Element UI - 快速上手 VUE 网址 https://cdn.bootcdn.net/ajax/libs/vue/2.7.16/vue.js源码 https://download.csdn.net/download/HIGK_365/88815507测试 代码 <!DOCTYPE html> <html lang"en"> <head><meta …

C语言基础(五)——结构体与C++引用

七、结构体与C引用 7.1 结构体的定义、初始化、结构体数组 C 语言提供结构体来管理不同类型的数据组合。通过将不同类型的数据组合成一个整体&#xff0c;方便引用 例如&#xff0c;一名学生有学号、姓 名、性别、年龄、地址等属性&#xff0c;如果针对学生的学号、姓名、年龄…

VMware 虚拟机安装windows 10操作系统

先提前准备好镜像文件 1.创建新的虚拟机 2.选择自定义&#xff0c;然后下一步 v Windows 建议选择2G以上&#xff0c;下一步 选择网络地址转换&#xff08;NAT&#xff09;&#xff0c;下一步 这里可按自己的需求来分区&#xff0c;也可以安装好后再分区 选择立即重启&#xff…