视频编辑最新SOTA!港中文Adobe等发布统一视频生成传播框架——GenProp

文章链接:https://arxiv.org/pdf/2412.19761
项目链接:https://genprop.github.io

亮点直击

  • 定义了一个新的生成视频传播问题,目标是利用 I2V 模型的生成能力,将视频第一帧的各种变化传播到整个视频中。

  • 精心设计了模型 GenProp,包含选择性内容编码器(Selective Content Encoder, SCE)、专用损失函数以及mask预测头,并提出了一个用于训练模型的合成数据生成pipeline。

  • 本文的模型支持多种下游应用,如移除、插入、替换、编辑和跟踪。实验还表明,即使没有特定任务的数据进行训练,模型也能支持视频扩展(outpainting)。

  • 实验结果显示,本文的模型在视频编辑和对象移除任务中优于 SOTA 方法,同时扩展了包括跟踪在内的现有任务范围。

总结速览

解决的问题
当前大规模视频生成模型在处理各种视频编辑任务时,往往聚焦于单一任务(如视频修复、外观编辑、对象插入等),而传统的视频传播方法(如光流或深度传播)易受错误积累影响,缺乏鲁棒性和泛化能力。现有方法还需要密集标注或专门针对任务进行重新训练,流程复杂且效率较低。

提出的方案

  • 框架设计:提出了一个统一的视频生成传播框架——GenProp。
    • 使用选择性内容编码器(Selective Content Encoder, SCE)对原视频的未变部分进行编码。

    • 使用图像到视频生成模型(Image-to-Video, I2V)将第一帧的编辑传播至整段视频。

  • 损失函数设计:引入区域感知损失(region-aware loss),确保SCE只编码未编辑区域的内容,同时优化I2V模型在修改区域的生成能力。

  • 数据生成方案:利用实例级视频分割数据集生成合成数据,覆盖多种视频任务。

应用的技术

  • 生成模型:通过 I2V 生成模型进行内容传播,无需依赖光流或运动预测。

  • 辅助训练模块:加入辅助解码器预测修改区域,以提高编辑区域的生成质量。

  • 选择性编码:通过区域感知机制,减少对已修改区域的编码干扰,增强未编辑内容的保真度。

达到的效果

  • 编辑:支持对对象形状进行显著修改。

  • 插入:插入的对象能够独立运动。

  • 移除:可有效移除阴影、反射等对象效果。

  • 跟踪:能够精确跟踪对象及其相关效果。

  • 统一性:无需密集标注或任务特定的重新训练,简化了编辑流程。

方法

生成视频传播面临以下关键挑战:

  • 真实性 – 第一帧中的变化应自然传播到后续帧中。

  • 一致性 – 所有其他区域应与原始视频保持一致。

  • 通用性 – 模型应具有足够的通用性,适用于多种视频任务。

在 GenProp 中,通过 I2V 生成模型解决 真实性(1);引入选择性内容编码器和掩膜预测解码器,并使用区域感知损失进行训练以解决 一致性(2);通过数据生成方案和通用 I2V 模型,满足 通用性(3)。

问题定义

给定一个输入视频 (包含 帧),设 为修改后的第一帧,目标是传播该修改,生成修改后的视频 ,其中每帧 ()保持对关键帧 的修改,同时在整个序列中保持外观和运动的一致性。

采用潜在扩散模型(latent diffusion model)在潜在空间中编码像素信息。为了简化表示,继续用 表示该潜在表示形式。形式化地,在推理过程中,GenProp 生成每帧 的公式为:

其中, 是由选择性内容编码器 引导的 I2V 生成模型。

在训练过程中,使用从现有视频实例分割数据集中构造的合成数据来创建配对样本。定义一个数据生成操作符 ,用于从原始视频序列 构造训练数据对 。令 表示应用于原始视频序列的合成数据生成操作符,其中:

然后, 是合成视频序列。
GenProp 被训练以满足以下目标,在所有帧 中:

其中, 是一个区域感知损失,用于解耦修改区域和未修改区域,保证未修改区域的稳定性,同时允许在编辑区域进行准确的传播。为了确保最终输出符合真实视频数据的分布,合成数据仅输入到内容编码器。I2V 生成模型则使用原始视频,防止模型无意中学习到合成伪影。

模型设计

为了保持原始视频的未修改部分,并仅传播修改区域,我们将两个额外的组件集成到基本的 I2V 模型中:选择性内容编码器(Selective Content Encoder,SCE)和mask预测解码器(Mask Prediction Decoder,MPD),如下图 4 所示。

选择性内容编码器 (SCE)
SCE 架构是主生成模型初始 个块的复制版本,类似于 ControlNet 。在每个编码器块后,提取的特征将添加到 I2V 模型中的相应特征中,从而实现内容信息的平滑和层次化流动。注入层是一个具有零初始化的多层感知机(MLP),该层也会进行训练。此外,为了实现双向信息交换,I2V 模型的特征在第一个块之前与 SCE 的输入进行融合。这使得 SCE 能够识别修改区域,从而能够选择性地编码未修改区域的信息。

Mask预测解码器 (MPD)
Mask预测解码器(MPD)用于估计需要编辑的空间区域,帮助编码器将修改内容与未修改内容区分开。SCE 使用 I2V 模型的前 个块,而 MPD 通过使用最终块及一个多层感知机(MLP)作为最终层来镜像这一结构。它从倒数第二个块获取潜在表示,该表示包含丰富的空间和时间信息,并通过 MLP 层处理。这恢复了时间维度,并与视频帧的数量匹配。最终输出通过均方误差(MSE)损失 训练,以匹配视频的实例掩码。这引导模型关注编辑区域,并显著提高注意力图的准确性。

区域感知损失 (Region-Aware Loss)

在训练过程中,使用实例分割数据来确保编辑和未编辑区域都能得到适当的监督。本文设计了区域感知损失(RA Loss),如下图 5 所示,旨在平衡两个区域的损失,即使编辑区域相对较小。

对于输入视频 和实例级别的mask ,其中 表示帧 中的编辑区域,在空间维度上应用高斯下采样,并在时间维度上重复,以获得与视频潜在表示形状对齐的掩码 。损失分别计算mask区域和非mask区域,得到

其中, 表示扩散均方误差损失(MSE loss),用于衡量生成帧 与真实帧 之间的像素级误差。

为了进一步减少 SCE 在mask区域的影响,添加了一个梯度损失 ,它最小化编码器输入中mask区域的影响。不直接计算二阶梯度,而是通过有限差分法进行近似计算。

其中, 表示编码器的特征, 是一个小的扰动。梯度损失定义为:

RA损失是三个项的加权和,以确保对mask区域和非mask区域都有足够的监督。

合成数据生成

创建大规模配对视频数据集可能既昂贵又具有挑战性,尤其是对于视频传播任务,因为很难涵盖所有视频任务。为了解决这个问题,本文提出使用从视频实例分割数据集中派生的合成数据。在训练中,使用了Youtube-VOS、SAM-V2 和一个内部数据集。然而,这一数据生成pipeline可以应用于任何可用的视频实例分割数据集。

采用了多种增强技术来处理分割数据,针对不同的传播子任务进行了定制:

  • 复制并粘贴:从一个视频中随机分割对象并粘贴到另一个视频中,模拟物体插入;

  • Mask填充:对mask区域进行修复,在选定区域内创建逼真的编辑;

  • 颜色填充:用特定的颜色填充mask区域,表示基本的物体追踪场景。

对于颜色填充,将被送到,将被送到,如公式3所示。每种合成数据类型与一个特定任务对齐,使得本文的模型能够跨不同应用进行泛化。对应这些增强方法的任务嵌入被注入到模型中,引导模型根据增强类型进行适应。请注意,尽管数据创建方法和任务多样,但SCE的核心功能保持一致:编码未编辑的信息,而I2V模型保持生成能力以传播已编辑区域。

实验

实现细节

由于GenProp是一个通用框架,在基于Sora的DiT架构和基于Stable Video Diffusion (SVD)的U-Net架构上进行了实验,作为基本的视频生成模型。对于前者,模型在32、64和128帧的视频上进行I2V生成训练,帧率为12和24FPS,基准分辨率为360p。SCE(24个块)和MPD进行训练,而I2V模型被冻结。结果可以使用超分辨率模型提升至720p。学习率设置为5e-5,采用余弦衰减调度器和线性预热。为确保训练稳定性,采用指数滑动平均。梯度范数阈值设为0.001,以防止训练不稳定。分类器自由引导(CFG)值设为20,数据增强比率分别设置为0.5/0.375/0.125,分别对应复制并粘贴/掩码填充/颜色填充。在RA损失中,为2.0,为1.0,为1.0。所有实验在32/64个NVIDIA A100 GPU上进行,针对不同的架构进行实验。DiT骨干网络具有更好的视频生成质量。主要结果来自这个DiT变体,而消融研究则基于SVD架构进行。

比较

由于生成视频传播是一个新问题,在GenProp的三个子任务中与现有的最先进方法进行了比较。请注意,本文的模型能够在同一个模型中处理这些任务,并进一步涵盖了如外延(outpainting)以及这些子任务的组合等附加任务,如下图1底部所示。

基于扩散的视频编辑
在下图6(a)和(b)中,将GenProp与其他基于扩散的视频编辑方法进行了比较,包括文本引导和图像引导的方法。InsV2V依赖于指令文本来控制生成。然而,由于训练数据有限,它在形状变化较大时表现不佳,并且不支持对象插入。Pika也使用文本提示在框选区域内进行编辑,但当物体形状发生显著变化时,它表现较差,且无法处理背景编辑或对象插入。AnyV2V是一个无需训练的方法,使用第一帧来引导编辑。虽然它能够处理外观变化,但在发生大规模形状或背景修改时会失败,通常会导致退化或鬼影效果。像InsV2V和Pika一样,它也无法插入物体。使用ReVideo通过先移除一个物体再重新插入来处理大规模的形状变化,但这种两阶段过程有缺点。基于框的区域可能导致模糊的边界,并且物体运动会受到原始点跟踪的影响,导致错误累积。此外,框选区域限制了它有效编辑复杂背景的能力。

视频物体移除
对于物体移除,将GenProp与传统的修补pipeline进行了比较,其中级联了两个最先进的模型来实现类似传播的修补,因为传统方法需要对所有帧进行密集的遮罩注释:SAM-V2用于遮罩跟踪,然后Propainter用于修补估计遮罩中的区域。如上图6(c)和(d)所示,GenProp具有几个优点:(1)不需要密集的遮罩注释作为输入;(2)去除物体的反射和阴影等效果;(3)去除大物体并在大面积内进行自然填充。

视频物体跟踪
在上图6(e)中将GenProp与SAM-V2在跟踪性能上进行了比较。由于SAM-V2是在大规模SA-V数据集上训练的,因此SAM-V2通常会生成比GenProp更精确的跟踪遮罩。此外,GenProp比像SAM-V2这样的实时跟踪方法要慢。然而,它有显著的优势。由于其视频生成的预训练,GenProp具有强大的物理规则理解能力。如图6所示,与SAM-V2不同,后者由于训练数据有限且偏倚,难以处理物体的反射和阴影等效果,GenProp能够稳定地跟踪这些效果。这突显了通过生成模型处理经典视觉任务的潜力。

定量结果
对多个测试集进行了定量评估。在视频编辑(如表1所示)中,在两种类型的测试集上进行了评估:(1)经典测试集,使用TGVE的DAVIS部分及其“对象变化描述”作为文本提示,重点关注对象替换和外观编辑;(2)挑战性测试集,包括从Pexels和Adobe Stock收集的30个手动选择的视频,涵盖了大规模物体替换、物体插入和背景替换。对于(2),第一帧使用商业图像编辑工具进行了编辑。对于Pika,使用在线框选工具,每个结果运行三次。对于ReVideo,选择一个框选区域,然后使用其代码提取原始物体的运动点以跟踪外观变化。对于具有显著形状变化的编辑,首先移除原始物体,再插入新物体并分配未来轨迹。

为了评估未编辑区域的一致性,在编辑遮罩外计算PSNR,记作PSNRm。对于形状变化较大的情况,我们在原始和编辑区域上应用粗略的遮罩,仅计算这些遮罩外区域的PSNR。对于文本对齐,我们计算编辑帧与文本提示的CLIP嵌入之间的余弦相似度(CLIP-T)。对于结果质量,计算跨帧的CLIP特征距离(CLIP-I)。

如下表1所示,GenProp在大多数指标上优于其他方法,特别是在挑战性测试集上。Pika在经典测试集上表现出较好的一致性,因为当物体形状相对不变时,其边界框表现得相当好。ReVideo在多个物体上效果较差。对于物体移除,收集了15个复杂场景的视频,包括物体效果和遮挡,因为现有的测试集没有覆盖这些情况。对于SAM,我们点击物体和副作用以确保完整的覆盖。

如表2所示,GenProp实现了最高的一致性,而ReVideo可能会产生边界框伪影,ProPainter在物体效果方面表现较差。

由于质量指标往往不能准确捕捉生成结果的真实感,使用Amazon MTurk进行了用户研究,共有121名参与者。每个参与者查看由GenProp和随机基线生成的几个视频,以及原始视频和文本提示。他们被问到两个问题:

  • 哪个视频与说明更匹配?

  • 哪个视频在视觉上更好?

然后参与者为每个问题选择一个视频。在上面表1和表2中,展示了用户在对齐/质量上的偏好,GenProp在所有基线上均大幅领先,特别是在挑战性测试集上。

消融研究

Mask预测解码器(MPD)
在下表3中,评估了MPD在挑战性测试集上的效果,结果显示它可以改善文本对齐和一致性。如图7的第1和第2行所示,未使用MPD时,输出mask往往严重退化,导致移除质量更差。如果没有MPD的显式监督,模型可能会混淆应该传播的部分和应该保留的部分,导致在后续帧中部分移除的物体重新出现。MPD有助于解耦,使得移除结果和预测掩码更加准确,即使在严重遮挡的情况下也能实现完全物体移除。

区域感知损失 (RA Loss)
在表3中,进一步测试了所提议的RA Loss在挑战性测试集上的有效性。GenProp中的一个核心挑战是,SCE可能错误地选择原始视频的所有区域,包括编辑区域,这会因为重建损失而削弱I2V生成能力。

如下图7的第3至第5行所示,在没有RA Loss的情况下,原始物体往往会逐渐重新出现,从而阻碍了第一帧编辑(绿色摩托车)的传播。使用RA Loss后,编辑区域能够以稳定一致的方式传播。

颜色填充增强 (Color Fill Augmentation)
颜色填充增强是解决传播失败的另一个关键因素。尽管复制粘贴和遮罩填充增强使得模型能够隐式学习物体修改、替换和删除,但颜色填充增强明确地训练模型进行跟踪,引导模型在整个序列中保持第一帧所做的修改,提示为“跟踪彩色区域”。如上图7的第6至第8行所示,由于形状差异显著,将女孩变成一只小猫是具有挑战性的。然而,使用颜色填充增强后,GenProp成功地将这一大幅修改在整个序列中传播。

结论

本文设计了一种新型的生成视频传播框架——GenProp,利用I2V模型固有的视频生成能力,实现了包括物体移除、插入和跟踪等多种下游应用。通过展示其能够扩展可实现的编辑范围(例如,移除或跟踪物体及其相关效果)并生成高度逼真的视频,且不依赖于传统的中间表示(如光流或深度图),我们展示了其潜力。通过集成选择性内容编码器并利用I2V生成模型,GenProp能够始终保持未改变的内容,同时动态传播变化。合成数据和区域感知损失进一步提升了其在跨帧解耦和细化编辑方面的能力。实验结果表明,GenProp在范围和精度上均优于现有方法,确立了其作为一种强大、灵活的解决方案的地位。未来,我们计划扩展该模型以支持多个关键帧的编辑,并探索可以支持的其他视频任务。

参考文献

[1] Generative Video Propagation

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/951632.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

git merge与rebase区别以及实际应用

在 Git 中,merge 和 rebase 是两种将分支的更改合并到一起的常用方法。虽然它们都可以实现类似的目标,但它们的工作方式和效果有所不同。 1. Git Merge 定义:git merge 是将两个分支的历史合并在一起的一种操作。当你执行 git merge 时&…

HTML实战课堂之简单的拜年程序

一、目录:  一、目录: 二、祝福 三:代码讲解 (1)详细解释: 1.HTML部分 2. CSS部分 三、运行效果(随机截图): 四、完整代码: 二、祝福…

Postman接口测试03|执行接口测试、全局变量和环境变量、接口关联、动态参数、断言

目录 七、Postman 1、安装 2、postman的界面介绍 八、Postman执行接口测试 1、请求页签 3、响应页签 九、Postman的环境变量和全局变量 1、创建环境变量和全局变量可以解决的问题 2、postman中的操作-全局变量 1️⃣手动设置 2️⃣代码设置 3️⃣界面获取 4️⃣代…

Linux第二课:LinuxC高级 学习记录day01

0、大纲 0.1、Linux 软件安装,用户管理,进程管理,shell 命令,硬链接和软连接,解压和压缩,功能性语句,结构性语句,分文件,make工具,shell脚本 0.2、C高级 …

python学opencv|读取图像(二十九)使用cv2.getRotationMatrix2D()函数旋转缩放图像

【1】引言 前序已经学习了如何平移图像,相关文章链接为: python学opencv|读取图像(二十七)使用cv2.warpAffine()函数平移图像-CSDN博客 在此基础上,我们尝试旋转图像的同时缩放图像。 【2】…

logback日志

一、使用两个以上spring环境变量做三目操作 <springProperty name"application_name" scope"context" source"spring.application.name"/><springProperty name"trace_app_name" scope"context" source"sprin…

计算机网络 (34)可靠传输的工作原理

前言 计算机网络可靠传输的工作原理主要依赖于一系列协议和机制&#xff0c;以确保数据在传输过程中能够准确无误地到达目的地。 一、基本概念 可靠传输指的是数据链路层的发送端发送什么&#xff0c;在接收端就收到什么&#xff0c;即保证数据的完整性、正确性和顺序性。由于网…

如何用通俗易懂的方式解释大模型中的SFT,SFT过程需要大量标记的prompt和response吗?

想象你在培训一个超级助理 假设你新买了一个智能管家机器人&#xff0c;它已经看过海量的书籍和资料&#xff08;这就是预训练过程&#xff09;。但是呢&#xff0c;它还不太懂得"做人的艺术"——不知道该用什么语气说话、怎么回应你的需求。 现在你要训练它成为一…

istio-proxy oom问题排查步骤

1. 查看cluster数量 cluster数量太多会导致istio-proxy占用比较大的内存&#xff0c;此时需检查是否dr资源的host设置有配置为* 2. 查看链路数据采样率 若采样率设置过高&#xff0c;在压测时需要很大的内存来维护链路数据。可以调低采样率或增大istio-proxy内存。 检查iop中…

科研绘图系列:R语言绘制分组箱线图(boxplot)

禁止商业或二改转载,仅供自学使用,侵权必究,如需截取部分内容请后台联系作者! 文章目录 介绍加载R包数据下载导入数据数据预处理画图输出系统信息介绍 科研绘图系列:R语言绘制分组箱线图(boxplot) 加载R包 library(ggpubr) library(ggplot2) library(tidyverse) # dev…

【SpringAOP】Spring AOP 底层逻辑:切点表达式与原理简明阐述

前言 &#x1f31f;&#x1f31f;本期讲解关于spring aop的切面表达式和自身实现原理介绍~~~ &#x1f308;感兴趣的小伙伴看一看小编主页&#xff1a;GGBondlctrl-CSDN博客 &#x1f525; 你的点赞就是小编不断更新的最大动力 &am…

IOS HTTPS代理抓包工具使用教程

打开抓包软件 在设备列表中选择要抓包的 设备&#xff0c;然后选择功能区域中的 HTTPS代理抓包。根据弹出的提示按照配置文件和设置手机代理。如果是本机则会自动配置&#xff0c;只需要按照提醒操作即可。 iOS 抓包准备 通过 USB 将 iOS 设备连接到电脑&#xff0c;设备需解…

Elasticsearch:使用 Playground 与你的 PDF 聊天

LLMs作者&#xff1a;来自 Elastic Toms Mura 了解如何将 PDF 文件上传到 Kibana 并使用 Elastic Playground 与它们交互。本博客展示了在 Playground 中与 PDF 聊天的实用示例。 Elasticsearch 8.16 具有一项新功能&#xff0c;可让你将 PDF 文件直接上传到 Kibana 并使用 Pla…

ClickHouse vs StarRocks 选型对比

一、面向列存的 DBMS 新的选择 Hadoop 从诞生已经十三年了&#xff0c;Hadoop 的供应商争先恐后的为 Hadoop 贡献各种开源插件&#xff0c;发明各种的解决方案技术栈&#xff0c;一方面确实帮助很多用户解决了问题&#xff0c;但另一方面因为繁杂的技术栈与高昂的维护成本&…

机器翻译优缺点

随着科技的飞速发展&#xff0c;机器翻译是近年来翻译行业的热门话题&#xff0c;在人们的生活和工作中日益普及&#xff0c;使用机器能够提高翻译效率&#xff0c;降低成本。尽管关于机器翻译为跨语言交流带来了诸多便利&#xff0c;但在译文的正确率和局限性方面存在一定争议…

【redis初阶】浅谈分布式系统

目录 一、常见概念 1.1 基本概念 2.2 评价指标&#xff08;Metric&#xff09; 二、架构演进 2.1 单机架构 2.2 应用数据分离架构 2.3 应用服务集群架构 2.4 读写分离/主从分离架构 2.5 引入缓存 ⸺ 冷热分离架构 2.6 数据库分库分表 2.7 业务拆分 ⸺ 引入微服务 redis学习&…

【Linux】文件 文件描述符fd

&#x1f33b;个人主页&#xff1a;路飞雪吖~ &#x1f320;专栏&#xff1a;Linux 目录 &#x1f33b;个人主页&#xff1a;路飞雪吖~ 一、C文件接口 &#x1f31f;写文件 &#x1f320;小贴士&#xff1a; &#x1f320;stdin && stdout && stderr Linux下…

uni-app如何引入echarts

在uni-app官网的官网插件中找echarts 打开图片对应的echarts&#xff0c;点击下载并导入插件 如果是vue3使用const echarts require(../../uni_modules/lime-echart/static/echarts.min);引入echarts <template><view><view style"width:750rpx; height:…

ue5 GAS 从零开始00

技能属性GAS 技能 属性 创建一个项目c 插件搜索 gameplay 保证这里勾选上 把这三个弄上去 “GameplayAbilities”,“GameplayTags”,“GameplayTasks” 这样就加载了三个模块 一定要先关ue 先关掉ue 生成 如果没编过&#xff0c;你就检查模块名字是不是没写对 一定要…

基于SpirngBoot的家电销售管理系统

作者&#xff1a;计算机学姐 开发技术&#xff1a;SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等&#xff0c;“文末源码”。 专栏推荐&#xff1a;前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏&#xff1a;…