(2024,DiffEdit,掩码,潜在噪声校正)GenVideo:使用 T2I 扩散模型进行单样本目标图像和形状感知视频编辑

GenVideo: One-shot target-image and shape aware video editing using T2I diffusion models

公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)

目录

0. 摘要

3. 方法

3.1. 对源视频进行微调

3.2. InvEdit 掩码生成

3.3. 通过自一致性进行潜在噪声校正

4. 实验

5. 结论


0. 摘要

基于扩散模型的视频编辑方法,如果仅依赖文本提示进行编辑,则受到文本提示表现力有限的阻碍。因此,将参考目标图像作为视觉指南,以实现对编辑的精确控制是可取的。此外,大多数现有方法在目标图像中的对象形状和大小与源对象不同时,往往难以准确编辑视频。为了解决这些挑战,我们提出了 GenVideo,利用目标图像感知的 T2I 模型来编辑视频。我们的方法处理具有不同形状和大小目标对象的编辑,同时利用我们的新颖目标和形状感知 InvEdit 掩码(mask)保持编辑的时间一致性。此外,我们提出了一种新颖的目标图像感知潜在噪声校正策略,在推理过程中改善了编辑的时间一致性。实验分析表明,GenVideo 可以有效处理具有不同形状对象的编辑,而现有方法则无法做到。 

3. 方法

GenVideo 旨在基于目标文本提示和包含任意形状对象的目标图像来编辑给定的源视频,同时保持时间上的一致性。更正式地说,给定一个输入源视频 V^src = [I^src_1 , · · · , I^src_N],由包含源对象的 N 帧组成,一个描述源视频的源文本提示 P^src,一个包含目标对象的目标图像 I^trg,以及描述对源视频所需编辑的目标文本提示 P^trg,GenVideo 生成一个目标视频 V^trg = [I^trg_1 , · · · , I^trg_N],它保留了输入源视频的运动,但将源对象替换为目标图像中的新目标对象。

整个训练和推理流程总结如图 2 所示。

  • 首先,我们使用标准 LDM 的重构损失在源视频上对一个膨胀的(inflated)稳定扩散 unCLIP(SD-unCLIP)模型 [33, 46] 进行微调(Sec. 3.1)。
  • 然后,我们采用了我们的新颖目标图像和形状感知掩码生成方法,称为 InvEdit,其中我们使用微调后的模型推断出需要局部编辑的感兴趣区域(Sec. 3.2)。
  • 最后,我们引入了一种新颖的潜在校正方法来提高帧间时间一致性(Sec. 3.3)。

3.1. 在源视频上微调

膨胀的预训练 T2I 扩散模型的微调过程与 TAV 方法 [43] 保持一致(见图 2)。与 [43] 不同的是,我们使用 SD-unCLIP 模型 [33],它在生成过程中同时考虑目标图像和文本提示 [46]。该模型使用 CLIP-vision 分支来获取输入参考图像的图像嵌入 J*,并使用 CLIP-text 分支来获取文本嵌入 C*。作为膨胀过程的一部分,空间自注意力被膨胀为时空注意力(ST-attn),并且在 ST-attn 和交叉注意力块之后引入了额外的时间注意力(T-attn)。详细信息请参见补充说明。

3.2. InvEdit 掩码生成

在本节中,我们描述了 InvEdit——我们的新颖的零样本、目标图像和形状感知掩码生成策略,使用了来自第 3.1 节微调的扩散模型。现有方法 [31, 46] 仅使用源视频计算掩码,因此对于目标对象的相对形状和大小(例如,将汽车改为公共汽车)没有形状感知。InvEdit 改编了用于视频的 DiffEdit [6],包括目标图像和形状感知。

InvEdit 步骤:首先,我们执行 DDIM 反演 [38],将源视频转换为相应的随机潜在噪声

然后,我们使用第 3.1 节微调的膨胀的 SD-unCLIP 模型,利用确定性的 DDIM 采样对 Z^src_T 进行去噪,其中在图 3 中展示了对源分支和目标分支进行 DDIM 采样的条件输入。对于源分支,我们使用源文本提示 P^src 和从 V^src 中随机选择的帧 I^src_n 作为条件输入来对 Z^src_T 进行去噪。类似地,同时进行 DDIM 采样,使用目标文本提示 P^trg 和目标图像 I^trg 中的前景对象作为条件输入。我们使用 GroundedSAM [17, 20] 从目标图像中分割出前景对象。

我们计算在源分支和目标分支中每个去噪时间步骤中由去噪 UNet 模型预测的噪声的差异(用 εθ 表示)。更正式地,对于 V^src 中的每个 I^src_n,我们计算 Δε_(t,n) = abs(ε^src_(t,n) − ε^trg_(t,n)),其中 u ∈ {src, trg}

在每个 DDIM 去噪步骤中,我们获得

其中 t ∈ {T − 1, · · · , 1} 表示时间步。

这些差异 Δε_(t,n) 在图 3 中表示为热力图,经过多个去噪时间步骤的平均化并进行二值化,以获得每个视频帧的目标感知 InvEdit 掩码。在图 3 中,InvEdit 掩码能够确定要将编辑放置在类似卡车而不是汽车的区域,因为卡车比汽车大得多。我们用 M^inv = [M_1,M_2, · · · ,M_N] 表示 N 帧的掩码,其中 M_n =

InvEdit 掩码用于识别区域,其中目标图像嵌入和时间步嵌入 [33] 注入到 UNet 的 ResNet 块特征中。

InvEdit 直觉:我们的直觉遵循 DiffEdit [6] ——用于基于文本驱动的图像编辑。我们将其扩展为我们的目标图像感知视频编辑用例。在 DDIM 去噪过程中,SD-unCLIP 模型将在不同的文本和图像条件下产生不同的噪声估计。在最终解码不同形状、颜色和纹理的区域,噪声估计将会有所不同,具体取决于条件。另一方面,对于背景,噪声估计几乎没有变化。因此,噪声估计之间的差异可以用来推断识别每个视频帧需要编辑的部分的掩码。

3.3. 通过自一致性进行潜在噪声校正

虽然 InvEdit 掩码能够准确识别要编辑的区域,但它并没有解决区域内对象在生成的帧间的时间一致性问题。举个例子,考虑将 “银色汽车” 编辑为 “红色凯迪拉克” 的编辑,如图 4 所示。虽然  InvEdit 掩码在第 6 帧中生成的汽车形状(见图 4B)与第 5 帧(见图 4A)相似,但在前部和侧部的风格外观不同。

解决该问题的一个简单方法是计算视频中源对象的光流,然后将该流施加在潜在噪声特征 Z 上。然而,即使在目标对象形状不同的典型情况下,这种解决方案也会遇到很大的困难。因此,考虑到模型之前没有见过目标图像,帧间时间不一致性的问题变得具有挑战性。我们通过在推理过程中引入潜在校正策略来解决这个问题。该校正是在潜在 Z 空间中的混合策略,以提高编辑视频的帧间时间一致性。这是一个三步过程(请参阅补充资料):

1)帧间潜在场计算:在推理的每个去噪时间步骤 t 中,我们利用 UNet 的 Up-Block-2 的特征,表示为 [f^t_1, · · · , f^t_N],用于使用这些特征的最近邻,来估计相邻帧之间的潜在对应关系图/场。首先,我们计算最近邻场 N_(i±(·)),定义为

该场是在第 i 帧特征中的空间位置 p 到其在第 i±1 帧特征中的最近邻(按余弦相似度 d 计算的)点 q 的映射。

2)使用帧间潜在场进行混合:从源视频 Z^src_T 的 DDIM 反演开始,在推理过程中的每个去噪时间步 t,我们在 SD-unCLIP 的 VAE 的解码器 D 的潜在空间中的 InvEdit 掩码区域内,混合相邻帧的潜在 Z_t = [z_(t,1), z_(t,2), · · · , z_(t,N)]。在时间步 t 处混合的潜在

给出为:

其中 w_(−1)、w_0、w_(+1) 是非负权重超参数,它们加起来为 1,而 ˆN^t_(i±[p]) 是上采样到匹配 z_t 维度的最近邻场。对于 t ≥ T − 5,这种混合发生在每个推理时间步长 t。

3)背景保护:我们还使用逆 InvEdit 掩码(即 (1 − Mi))校正与背景区域对应的潜在噪声,并仅对掩码区域 [39] 进行去噪。这通过保留与源视频帧中掩码区域外的无噪潜在相对应来实现,如下所示:

其中 E 是 VAE 的编码器。当目标视频的背景预期与源不同时,我们跳过此步骤。

为什么选择 Up-block-2?我们使用 Up-block-2 的特征,因为其显示出比 DDIM 步骤后的潜在噪声更低的对应误差(correspondence error,CE)。继续图 4 中汽车的例子,我们首先使用 RAFT 光流 [40] 在源视频帧上计算连续帧之间的特征对应关系。这在该示例中充当了基础真实对应关系,因为编辑后的对象与源对象具有相同的形状。然后,我们计算连续帧中 Up-block-2 特征的对应关系,并发现这些特征的 CE 率较低,如图 4D 中的热图所示。另一方面,DDIM 步骤后计算的潜在噪声的 CE 率较高(图 4E)。通过我们的潜在校正策略,CE 降低了,因为所提出的混合策略改善了连续帧之间潜在噪声特征的一致性,如图 4C 和图 4F 所示。我们在实验中展示了这一过程如何提高编辑目标视频的时间一致性。

4. 实验

5. 结论

我们介绍了 GenVideo,这是一个利用图像扩散模型进行目标图像和形状感知视频编辑的流程。提出的流程允许使用 InvEdit 掩码对目标对象进行局部编辑,并使用潜在校正策略在帧之间强制实现时间一致性。结果表明,GenVideo 在视频编辑任务上在质量和数量上都优于现有方法。

局限性和未来工作:底层的 SD-unCLIP 模型可能存在生成内容的质量和多样性方面的限制,从而影响编辑质量。用于帧间时间一致性的潜在校正方法可能无法完全消除细粒度的不一致性,尤其是对于像图 9 中显示的具有多个车轮的卡车等复杂对象。此外,类似于以前的其他方法 [31, 43],我们的方法也无法生成完全新的动作,比如将驾驶动作变成飞行动作。作为进一步的工作的一部分,我们的目标是测试我们的方法与图像条件视频扩散模型一起使用,例如 [10]。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/564531.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

用Python自动化操作PPT,看完这篇文章就够了!

1.PPT自动化能干什么?有什么优势? 它可以代替你自动制作PPT它可以减少你调整用于调整PPT格式的时间它可以让数据报告风格一致总之就是:它能提高你的工作效率!让你有更多时间去做其他事情! 2.使用win32com操作ppt 官…

【Linux基础】Linux基础概念

目录 前言 浅谈什么是文件? Linux下目录结构的认识及路径 目录结构 路径 家目录 什么是递归式的删除 重定向 输出重定向: 追加重定向: 输入重定向: 命令行管道 shell外壳 为什么需要shell外壳? shell外壳…

Jetpack Bluetooth蓝牙MODE,这个项目使用Jetpack Bluetooth库来实现我们用于开发的一些日常功能

Jetpack蓝牙演示,这个项目使用Jetpack Bluetooth库来实现我们用于开发的一些日常功能[搜索,连接,发现服务,蓝牙操作[读,写,通知]]。 AndroidX蓝牙是Jetpack库套件的新增功能。虽然目前处于阿尔法阶段&…

【华为OD笔试】2024D卷机考套题汇总【不断更新,限时免费】

有LeetCode算法/华为OD考试扣扣交流群可加 948025485 可上全网独家的 欧弟OJ系统 练习华子OD、大厂真题 绿色聊天软件戳 od1441了解算法冲刺训练(备注【CSDN】否则不通过) 文章目录 2024年4月17日(2024D卷)2024年4月18日&#xff…

【创作活动】2023年图灵奖

2023年图灵奖揭晓,你怎么看? 2023年图灵奖,最近刚刚颁给普林斯顿数学教授 Avi Wigderson!作为理论计算机科学领域的领军人物,他对于理解计算中的随机性和伪随机性的作用,作出了开创性贡献。提醒&#xff1…

前端学习<四>JavaScript基础——42-事件的传播和事件冒泡

DOM事件流 事件传播的三个阶段是:事件捕获、事件冒泡和目标。 事件捕获阶段:事件从祖先元素往子元素查找(DOM树结构),直到捕获到事件目标 target。在这个过程中,默认情况下,事件相应的监听函数…

CCF PTA 2023年11月C++卫星发射

【问题描述】 在 2050 年卫星发射技术已经得到极大发展,我国将援助 A 国建立远轨道卫星导航系统,该项目计划第 一个天发射一颗卫星;之后两天(第二天和第三天),每天发射两颗卫星;之后三天&#…

4.点云数据的配准

1.点云配准ICP(Iterative Closest Point)算法 点云配准的原理及ICP(Iterative Closest Point)算法原理参照博客【PCL】—— 点云配准ICP(Iterative Closest Point)算法_icp点云配准-CSDN博客。 (1)点云配准原理:三维扫描仪设备对目标物体一…

Spring Cloud Gateway详细介绍以及实现动态路由

一. 简介 Spring Cloud Gateway This project provides a libraries for building an API Gateway on top of Spring WebFlux or Spring WebMVC. Spring Cloud Gateway aims to provide a simple, yet effective way to route to APIs and provide cross cutting concerns to …

Mysql学习大纲

文章目录 整体大纲总结 整体大纲 大纲 MySQL在金融互联网行业的企业级安装部署mysql启动关闭原理和实战,及常见错误排查 花钱9.9 订阅了专栏MySQL字符集和校对规则史上最详细的Mysql用户权原理和实战,生产案例InnoDB引擎原理和实战,通俗易懂…

[C++][算法基础]求组合数(II)

给定 𝑛 组询问,每组询问给定两个整数 𝑎,𝑏,请你输出 的值。 输入格式 第一行包含整数 𝑛。 接下来 𝑛 行,每行包含一组 𝑎 和 𝑏。 输出格…

vue3左树的全选和反选

<el-input v-model"filterText" placeholder"" style"width: 48%"/><el-button type"primary" click"handleSearch" class"ml-2">查找</el-button><el-radio-group v-model"form.choic…

一文扫盲(5):实验室管理系统的界面设计

本次带来第5期&#xff1a;实验室管理系统的设计&#xff0c;从系统定义、功能模块、界面构成和设计着力点四个方面讲解&#xff0c;大千UI工场愿意持续和大家分享&#xff0c;欢迎关注、点赞、转发。 一、什么是实验室管理系统 实验室管理系统是一种用于管理和监控实验室运作…

【C++】友元--最全解析(友元是什么?我们应该如何理解友元?友元可以应用在那些场景?)

目录 一、前言 二、友元是什么&#xff1f; 三、友元的感性理解和分类 &#x1f95d;友元的感性理解 &#x1f34b;友元的三种分类 ✨友元 --- 全局函数 ✨友元 --- 成员函数 ✨友元 --- 类 四、友元函数的应用场景 &#x1f34d;操作符重载 :"<<" 与…

Nacos的介绍和使用Docker、MySQL持久化挂载安装

文章目录 Nacos的介绍和使用Docker、MySQL持久化挂载安装一、Nacos的介绍二、使用Docker和MySQL进行持久化安装1、选择想要使用的MySQL服务器&#xff0c;创建一个数据库nacos-config&#xff0c;然后运行下面sql2、在linux下的opt文件夹下创建 /opt/nacos/data文件夹 和 /opt/…

“卫星-无人机-地面”遥感数据快速使用及地物含量计算的实现方法

原文链接&#xff1a;“卫星-无人机-地面”遥感数据快速使用及地物含量计算的实现方法https://mp.weixin.qq.com/s?__bizMzUzNTczMDMxMg&mid2247601940&idx6&sn515e01666037570939aaf0eee56f46d1&chksmfa820ef3cdf587e5276eac181c890026b6ca4bc36ce0e4f80d89d…

测试的分类(2)

目录 按照执行方式分类 静态测试 动态测试 按照测试方法 灰盒测试 按照测试阶段分类 单元测试 集成测试 系统测试 冒烟测试 回归测试 按照执行方式分类 静态测试 所谓静态测试就是不实际运行被测软件,只是静态地检查程序代码, 界面或文档中可能存在错误的过程. 不以…

优先级队列(概念理解/底层模拟/时间复杂度分析)

目录 1.概念理解 2.优先级队列的底层模拟 2.1堆的概念 2.2优先队列的模拟实现 2.2.1把Heap类定义好 2.2.2初始化堆 2.2.3创建大堆 1.思路 以此二叉树为例&#xff1a; 图文理解&#xff1a; 2.思路转化为代码 2.2.4堆操作之offer&#xff08;进队列&#xff09; 1…

初识java——jdk?环境变量?及关于安装jdk的步骤

文章目录 JDK的安装在安装JDK时遇到的问题&#xff1a; 背景知识一 什么是jdkjdk简介jdk文件详解&#xff1a;1 bin目录&#xff1a;2 lib目录&#xff1a;3 include目录.exe文件是可执行的应用程序&#xff0c;这个我们都清楚&#xff0c;但.dll文件又是做什么的呢&#xff1f…

Advanced RAG 04:重排序(Re-ranking)技术探讨

编者按&#xff1a;重排序&#xff08;Re-ranking&#xff09;技术在检索增强生成&#xff08;Retrieval Augmented Generation&#xff0c;RAG&#xff09;系统中扮演着关键角色。通过对检索到的上下文进行筛选和排序&#xff0c;可以提高 RAG 系统的有效性和准确性&#xff0…