Tune-A-Video:用于文本到视频生成的图像扩散模型的One-shot Tuning

Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation

Fig 1. Tune-A-Video:一种使用文本视频对和预训练的T2I模型生成T2V 的新方法。

Project:https://tuneavideo.github.io
原文链接:Tnue-A-Video:用于文本到视频生成的图像扩散模型的One-shot Tuning (by 小样本视觉与智能前沿)

目录

文章目录

  • Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation
    • 01 现有工作的不足?
    • 02 文章解决了什么问题?
    • 03 关键的解决方案是什么?
    • 04 主要的贡献是什么?
    • 05 有哪些相关的工作?
    • 06 方法具体是如何实现的?
      • Network Inflation
      • Fine-Tuning and Inference
        • 1)Model fine-tuning
        • 2)基于DDIM反演的结构指导
    • 07 实验结果和对比效果如何?
      • Applications
        • 1)Object editing.
        • 2)Background change.
        • 3)Style transfer.
        • 4)个性化可控生成
      • 定性结果
      • 定量结果
    • 08 消融研究告诉了我们什么?
    • 09 这个工作还是可以如何优化?
    • 10 结论

01 现有工作的不足?

为了复制文本到图像(T2I)生成的成功,最近的工作使用大规模视频数据集来训练文本到视频(T2V)生成器。尽管他们的结果很有希望,但这种范式在计算上是昂贵的。

Fig 2. 对预训练的 T2I 模型的观察:1)它们可以生成准确地表示动词术语的静态图像。2) 将空间自注意力扩展到时空注意力会在帧之间产生一致的内容。

02 文章解决了什么问题?

我们提出了一种新的T2V生成设置-单次视频调优,其中只有一个文本视频对。我们的模型建立在最先进的T2I扩散模型上,该模型是在大量图像数据上预训练的。

03 关键的解决方案是什么?

我们引入了Tune-A-Video,它涉及定制的时空注意机制和有效的一次性调整策略。在推理中,我们采用DDIM反演为采样提供结构指导。

04 主要的贡献是什么?

  • 我们为 T2V 生成引入了 One-Shot Video Tuning 的新设置,消除了使用大规模视频数据集进行训练的负担。
  • 我们提出了 Tune-A-Video,这是第一个使用预训练的 T2I 模型生成 T2V 的框架。
  • 我们提出了有效的注意力调整和结构反转,显着提高了时间一致性。

05 有哪些相关的工作?

  • Text-to-Image diffusion models.
  • Text-to-Video generative models.
  • Text-driven video editing.
  • Generation from a single video.

06 方法具体是如何实现的?

Fig 3. Tune-A-Video的高级概述。给定一个字幕视频,我们为 T2V 建模微调预训练的 T2I 模型(例如,Stable diffusion)。在推理过程中,我们生成新的视频来表示文本提示中的编辑,同时保留输入视频的时间一致性。

Network Inflation

spatial self-attention mechanism:


其中, z v i z_{v_i} zvi 是帧 v i v_i vi对应的潜码表示。 W ∗ W^* W是将输入投影到查询、键和值的可学习矩阵,d 是键和查询特征的输出维度。

我们提出使用稀疏版本的因果注意机制(causal attention mechanism),其中在帧 z v i z_{v_i} zvi 和帧 z v 1 z_{v_1} zv1 z v i − 1 z_{v_{i-1}} zvi1 之间计算注意矩阵,保持低计算复杂度在 O ( 2 m ( N ) 2 ) O(2m(N)^2) O(2m(N)2)
我们实现Attention(Q,k,V)如下:


其中 [ ⋅ ] [\cdot] []表示连接操作,视觉描述见图5。

Fig 5. ST-Attn:帧vi的潜在特征,前一帧vi−1和v1被投影到queryQ、key K和value V。输出是值的加权和,由查询和关键特征之间的相似性加权。我们强调更新的参数 WQ。

Fine-Tuning and Inference

1)Model fine-tuning

我们微调整个时间自注意力 (T-Attn) 层,因为它们是新添加的。此外,我们建议通过更新交叉注意力中的查询投影来细化文本-视频对齐(Cross-Attn)。在实践中,与完全调优[39]相比,微调注意块在计算上是有效的,同时保留了预训练的T2I扩散模型的原始特性。我们在标准ldm[37]中使用相同的训练目标。图4 说明了带有突出显示可训练参数的微调过程。

Fig 4. Tune-A-Video 的流程:给定一个文本-视频对(例如,“一个人正在滑雪”)作为输入,我们的方法利用预训练的 T2I 扩散模型来生成 T2V。在微调期间,我们使用标准的扩散训练损失更新注意块中的投影矩阵。在推理过程中,我们从输入视频倒置的潜在噪声中采样一个新的视频,由编辑后的提示引导(例如,“Spider Man 在海滩上冲浪,卡通风格”)。

2)基于DDIM反演的结构指导

通过没有文本条件的DDIM反演得到源视频V的潜在噪声。该噪声作为DDIM采样的起点,由编辑后的提示 T ∗ \mathcal{T}^* T指导。输出视频 V ∗ \mathcal{V}^* V 由下式给出:

07 实验结果和对比效果如何?

Applications

1)Object editing.

我们的方法的主要应用之一是通过编辑文本提示来修改对象。这允许轻松替换、添加或删除对象。图 6 显示了一些示例.

Fig 6. 实验结果

2)Background change.

我们的方法还允许用户更改视频背景(即对象所在的位置),同时保留对象运动的一致性。例如,我们可以通过添加新位置/时间描述并将图 7 中的国家侧道路视图更改为海洋视图,将图 6 中滑雪人的背景修改为“海滩上”或“太阳落下”。

Fig 7. 评估方法之间的定性比较

3)Style transfer.

由于预训练 T2I 模型的开放域知识,我们的方法将视频转换为各种难以仅从视频数据中学习的风格(12)。例如,我们通过将全局样式描述符附加到提示中,将现实世界的视频转换为漫画风格(图 6,或 Van Gogh风格(图 10)。

Table 1. 定量评估.

4)个性化可控生成

我们的方法可以很容易地与个性化的T2I模型集成(例如,DreamBooth[39],它以3-5张图像作为输入,并返回一个个性化的T2I模型),直接对它们进行细化。例如,我们可以使用“现代迪士尼风格”或“土豆头先生”个性化的DreamBooth来创建特定风格或主题的视频(图11)。我们的方法还可以与T2I适配器[29]和ControlNet[52]等条件T2I模型集成,在不需要额外训练成本的情况下对生成的视频进行不同的控制。例如,我们可以使用一系列人体姿势作为控制来进一步编辑运动(例如,图1中的舞蹈)。

定性结果

我们在图7中给出了我们的方法与几个基线的视觉比较。 相比之下,我们的方法生成了时间连贯的视频,保留了输入视频中的结构信息,并与编辑过的单词和细节保持一致。另外的定性比较可以在图12中找到。

定量结果

我们通过automatic metrics和用户研究来根据基线量化我们的方法,并在表1中报告框架一致性和文本可信度。

08 消融研究告诉了我们什么?

我们在Tune-A-Video中进行了一项消融研究,以评估时空注意(ST-Attn)机制、DDIM反演和微调的重要性。每个设计都是单独的,以分析其影响。结果如图8所示。

Fig 8. Ablation study.
这些结果表明,我们所有的关键设计都有助于我们方法的成功结果。

09 这个工作还是可以如何优化?

图9给出了输入视频中包含多个目标并出现遮挡时,我们的方法失败的情况。这可能是由于T2I模型在处理多个对象和对象交互方面的固有局限性。一个潜在的解决方案是使用附加的条件信息,如深度,使模型能够区分不同的对象及其相互作用。这方面的研究要留待将来研究。

Fig 9. limitations.

10 结论

在本文中,我们介绍了T2V生成的一项新任务–one-shot视频调优。该任务涉及仅使用单个文本视频对和预训练的T2I模型来训练T2V生成器。我们提出Tune-A-Video,一个简单而有效的框架,用于文本驱动的视频生成和编辑。为了生成连续视频,我们提出了一种有效的调优策略和结构反演,可以生成时间相干视频。大量的实验证明了我们的方法在广泛的应用中取得了显著的效果。

原文链接:Tnue-A-Video:用于文本到视频生成的图像扩散模型的One-shot Tuning (by 小样本视觉与智能前沿)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/34422.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Nginx-反向代理详解

本文已收录于专栏 《中间件合集》 目录 概念说明什么是Nginx什么是反向代理 功能介绍配置过程1.修改nginx配置文件修改全局模块修改工作模块修改HTTP模块 2.保存配置文件3.重启配置文件4.查看配置文件是否重启成功 配置反向代理的好处总结提升 概念说明 什么是Nginx Nginx 是一…

Nginx服务器的六个修改小实验

一、Nginx虚拟主机配置 1.基于域名 (1)为虚拟主机提供域名解析 配置DNS 修改/etc/hosts文件 (2)为虚拟主机准备网页文档 #创建网页目录 mkdir -p /var/www/html/abc mkdir -p /var/www/html/def ​ #编写简易首页html文件 ec…

89C52RC普中单片机-3

1.LCD1602调试工具 main.c #include<regx52.h> #include "lcd1602.h" void main() {lcd1602_init();//LCD1602初始化();while(1){lcd1602_show_string(0,0,"helloworld");lcd1602_show_string(1,1,"123456.0");} } lcd1602.c #include …

matlab 使用预训练神经网络和SVM进行苹果分级(带图形界面)支持其他物品图片分级或者分类

目录 数据集&#xff1a; 实验代码&#xff1a;alexnet版 如果你的matlab不是正版&#xff0c;先看这里&#xff1a; 数据集结构&#xff1a; 训练代码&#xff1a; 训练结果&#xff1a; 图形界面&#xff1a; 界面展示&#xff1a; 其他&#xff1a; 输出结果: 实验…

Ansible练习

部署ansible练习 开始之前先使用student用户登录 登录命令&#xff1a;ssh studentworkstation 在workstation上运行lab deploy-review start命令&#xff0c;此脚本将确保受管主机在网络上访问。 然后开始验证控制节点上是否安装了ansible软件包&#xff0c;在运行anisble -…

centos磁盘扩容

解释 PE - 物理块&#xff08;Physical Extent&#xff09; 硬盘上有很多实际物理存在的存储块PV - 物理卷 &#xff08;Physical Volume&#xff09; 物理卷处于最底层&#xff0c;它可以是实际物理硬盘上的分区&#xff0c;也可以是整个物理硬盘(相当于单独做一个分区)&…

GPT模型训练实践(2)-Transformer模型工作机制

Transformer 的结构如下&#xff0c;主要由编码器-解码器组成&#xff0c;因为其不需要大量标注数据训练和天然支持并行计算的接口&#xff0c;正在全面取代CNN和RNN&#xff1a; 扩展阅读&#xff1a;What Is a Transformer Model? ​ ​ 其中 编码器中包含自注意力层和前馈…

LabVIEW 图像处理功能

设置成像系统并采集图像后&#xff0c;您可以分析和处理图像&#xff0c;以提取有关被检测对象的有价值信息。 内容 图像分析图像处理斑点分析机器视觉 图像分析 影像分析结合了基于影像像素的灰度强度计算统计数据和测量的技术。您可以使用影像分析功能来确定影像质量是否足以…

Java单例模式

Java单例模式 1、概念2、代码实现方案饿汉式实现:懒汉式实现:饿汉式PK懒汉式&#xff1a; 3、单例模式的特点及适用场景优点&#xff1a;缺点&#xff1a;适用场景&#xff1a; 4、关于单例模式的常见问题4.1 public static SingletonOne getlnstance(){}A.该方法为什么用静态的…

python爬虫快速入门

Python有其简洁明了&#xff0c;功能强大的优势&#xff0c;特别是在网络爬虫的应用上。接下来&#xff0c;我将分享一个适合Python初学者的爬虫快速入门教程。 一、Python爬虫简介 网页爬虫&#xff0c;是一种自动从互联网上获取信息的程序。在Python语言中&#xff0c;requ…

【Qt】程序异常结束。The process was ended forcefully.(解决方法不一样哦)

环境 系统&#xff1a;win10 64bit Qt&#xff1a;5.14.1 编译器&#xff1a;MinGW 32-bit 问题 Qt工程编译正常&#xff0c;但无法调试&#xff0c;报错&#xff1a;程序异常结束。The process was ended forcefully. 步骤 已尝试网上方法仍然不行的&#xff0c;可以直接…

Visual studio 快捷键(个人记录加深印象)

1、CtrlK 后 Ctrlx 插入代码片段快捷键&#xff08;或 编辑”>“IntelliSense”>“插入代码片段&#xff09; 注&#xff08;摘抄&#xff09;&#xff1a;该列表包含用于创建类、构造函数、for 循环、if 或 switch 语句等的代码片段

硬件学习件Cadence day12 PCB设计中打地孔与地孔设计,PCB 后期处理,钻孔文件导出

1. 制作 过地孔的焊盘 &#xff08;两种方法&#xff09;&#xff08;又叫制作盲埋孔&#xff09; 1.1 制作热风焊盘 &#xff08;之前的教程有&#xff0c;现在只给数据&#xff09; 1.2 第一种 allegro 外部 焊盘软件制作 1.2.1 打开软件 1.2.2 制作焊盘&#xff0c;查看…

Layout-静态模板结构搭建、字体图标引入、一级导航渲染、吸顶导航交互实现、Pinia优化重复请求【小兔鲜Vue3】

Layout-静态模板结构搭建 Layout模块静态模板搭建 LayoutNav.vue <script setup></script><template><nav class"app-topnav"><div class"container"><ul><template v-if"true"><li><a h…

【SQL应知应会】分析函数的点点滴滴(二)

欢迎来到爱书不爱输的程序猿的博客, 本博客致力于知识分享&#xff0c;与更多的人进行学习交流 本文收录于SQL应知应会专栏,本专栏主要用于记录对于数据库的一些学习&#xff0c;有基础也有进阶&#xff0c;有MySQL也有Oracle 分析函数的点点滴滴 1.什么是分析函数&#xff1a;…

图书推荐管理系统Python,基于Django和协同过滤算法等实现

一、介绍 图书推荐系统 / 图书管理系统&#xff0c;以Python作为开发语言&#xff0c;基于Django实现&#xff0c;使用协同过滤算法实现对登录用户的图书推荐。 二、效果展示 三、演示视频 视频代码&#xff1a;https://www.yuque.com/ziwu/yygu3z/gq555ph49m9fvrze 四、Dj…

http长连接与会话保持

"我们半推半就的人生&#xff0c;没有和你一样被眷顾的未来!" 一、Http长连接 (1) 为什么需要长连接 如上展示的是一个常规得并不能再常规的http服务&#xff0c;从本地拉取远端linux上的本地文件上传至浏览器上&#xff0c;经过浏览器的渲染展示成如今的样子。唔&a…

数学建模——曲线拟合

一、曲线拟合简介 1、曲线拟合问题的提法 已知一组数据&#xff08;二维&#xff09;&#xff0c;即平面上n个点 (xi,yi)(i1,2,…,n)&#xff0c; xi互不相同。寻求一个函数yf(x)&#xff0c;使得f(x)在某种准则下与所有的数据点最为接近&#xff0c;即拟合得最好。 2、…

Java Stream 流进行根据元素某一属性过滤计算其他属性实例

设计一个测试类Tuser package org.example;import com.alibaba.fastjson.annotation.JSONField;import java.io.Serializable;public class Tuser implements Serializable {//用户名private String name;//平台名称private String sys;//登录次数private int times;//一个合并…

H5学习期间 问题文档(更新中)

目录 一、html与css中让标签 二、css鼠标滑入显示div 三、git报错解决方案 四、ul>li中给h1标签设置行高 一、html与css中让标签<li>在同一行显示 li标签一行显示 效果展示&#xff1a; 代码块&#xff1a; <!DOCTYPE html> <html lang"en"…