AnimateLCM:高效生成连贯真实的视频

视频扩散模型因其能够生成连贯且高保真的视频而日益受到关注。然而,迭代去噪过程使得这类模型计算密集且耗时,限制了其应用范围。香港中文大学 MMLab、Avolution AI、上海人工智能实验室和商汤科技公司的研究团队提出了AnimateLCM,这是一种允许在最少步骤内生成高保真视频的方法。AnimateLCM采用了一种解耦的一致性学习策略,将图像生成先验和运动生成先验的蒸馏分开处理,从而提高训练效率并增强生成的视觉质量。为了实现稳定扩散社区中即插即用适配器的组合以实现各种功能(例如可控生成),论文提出了一种有效策略,无需特定教师模型即可适配现有适配器或从头开始训练适配器,而不损害采样速度。

AnimateLCM在4个步骤内实现个性化扩散模型和适配器的动画化

方法

AnimateLCM的整体训练范式的高级概述

如Figure 2 所示,AnimateLCM 由三个主要部分组成,分别为训练范式、无教师适配策略和适配器训练设计。

左侧:整体训练范式

这部分展示了如何训练视频生成模型以遵循一致性属性。AnimateLCM 的目标是让模型在生成视频时保持数据的一致性,即使在仅有少量迭代步骤的情况下也能生成高质量的视频。这一过程涉及到以下几个关键组件:

  • 教师扩散模型:作为训练过程中的参考,提供了视频生成的基础。

  • CFG-Augmented ODE Solver:无分类器引导增强的ODE求解器,用于改善生成过程并提高结果的质量。

  • Self-Consistency:自我一致性机制,确保模型生成的数据在整个过程中保持一致。

  • EMA(指数移动平均):用于更新目标一致性模型,以保持模型权重的平滑过渡。

右上角:无教师适配策略

这一部分介绍了如何在没有教师模型的情况下训练适配器。在 AnimateLCM 中,适配器是可插拔的模块,可以为模型提供额外的功能,例如控制视频生成的风格或内容。以下是无教师适配策略的关键点:

  • One-step MCMC Approximation:一步MCMC近似方法,用于在没有教师模型指导的情况下估计得分,从而进行一致性学习。

  • Teacher-Free Adaptation:无需教师模型的适配过程,允许模型自我学习并适应新的生成任务。

右下角:适配器训练设计

这部分描述了从头开始训练图像到视频适配器或调整现有适配器以适应稳定扩散社区的设计。这包括:

  • Multi-Res Encoder:多分辨率编码器,用于处理不同分辨率的输入图像。

  • Image-to-Video Adapters:图像到视频适配器,负责将图像内容转换为视频格式。

  • Community Adapters:社区适配器,如XX-Net或XX-Adapter等,这些是稳定扩散社区中已经存在的适配器,可以被进一步训练或调整以提高与 AnimateLCM 的兼容性。

扩散模型(DMs)通过迭代去噪过程,逐步将高维高斯噪声转化为真实数据。在这类模型中,通常预测的是给定样本上添加的噪声量,即所谓的ϵ-预测型模型。这种模型的优势在于能够生成高质量的图像和视频,但其缺点是生成过程计算量大,速度慢。

为了解决这一问题,作者提出了一致性模型(CMs)。与DMs不同,CMs的目标是直接预测PF-ODE(Probability Flow Ordinary Differential Equation)轨迹的解x0。CMs致力于直接找到从噪声状态到数据状态的最短路径,而不是逐步去噪,从而有望显著提高生成速度。

在实现从DMs到CMs的转换中,作者引入了一种新的参数化方法。这种方法中,函数fθ被重新定义,用以结合文本条件嵌入c。这允许模型在生成过程中考虑文本条件,实现文本引导的图像或视频生成。例如,给定文本描述“穿着礼服的男人的RAW面部特写肖像,专业摄影,刀锋跑者风格”,模型能够根据这些条件生成相应的图像。此外,作者还采用了无分类器引导增强的ODE求解器,这种求解器利用无分类器引导(Classifier-free Guidance,CFG)的概念,通过增强的ODE求解过程来提高生成质量。CFG是一种在扩散模型中广泛使用的技术,它可以帮助模型在生成过程中更好地遵循数据分布,从而提高生成结果的质量和多样性。

为了提高训练效率和生成质量,作者引入了一种解耦的一致性学习策略。这一策略的核心思想是将图像生成的先验知识与运动生成的先验知识分开进行蒸馏处理。

上图显示在一致性训练开始时,如何只将空间LoRA权重插入在线模型中,并逐渐通过指数移动平均(EMA)将LoRA权重传播到目标模型

首先,作者选择在经过筛选的高质量图像-文本数据集上对稳定的扩散模型进行蒸馏。这样做的目的是获得一个图像一致性模型,该模型能够捕捉到图像生成的内在规律。这一步骤是基础,因为它为后续的视频生成提供了一个坚实的起点。

接下来,为了适应视频数据的三维特性,作者采用了3D膨胀技术。这涉及到将2D卷积核扩展为伪3D卷积核,从而使得模型能够处理时间维度上的信息。通过添加时间层并采用零初始化和块级残差连接,模型能够在训练初期保持输出的稳定性,这有助于加速训练过程。

在这一过程中,作者还特别设计了一种初始化策略。这种策略的目的是减轻在膨胀过程中可能对特征造成的损坏。具体来说,在一致性训练的初期,只有预训练的空间LoRA权重被插入到在线一致性模型中,而目标一致性模型则不包含这些权重。这样的设计使得目标一致性模型在训练过程中不会对在线模型产生负面影响。随着训练的进行,LoRA权重会通过指数移动平均(EMA)逐渐累积到目标一致性模型中,从而在一定迭代次数后达到预期的权重设置。

作者还引入了一个损失函数,用于衡量模型输出与目标之间的差异。这个损失函数不仅考虑了不同时间步长的重要性,还采用了Huber损失作为距离度量,以提供更平滑的梯度并增强对异常值的鲁棒性。

为了适应稳定扩散社区中的即插即用适配器,或者从头开始训练特定适配器,作者提出了一种无需教师模型的适配策略。在稳定扩散社区中,即插即用适配器起着至关重要的作用,它们可以为模型提供额外的控制能力,比如根据文本提示生成图像。然而,直接将这些适配器应用于视频生成时,可能会遇到细节控制丢失或结果闪烁等问题。为了解决这些问题,作者提出了一种有效的策略,通过调整适配器的LoRA(Low-Rank Adaptation)层来优化它们与视频一致性模型的兼容性。LoRA层是一种轻量级的调整方式,可以在不显著增加计算负担的情况下,改善适配器的性能。

作者还提出了一种基于一步MCMC(马尔可夫链蒙特卡洛)近似的方法来估计得分。这种方法可以在没有教师模型的指导下,对视频生成过程中的得分进行无偏估计。通过使用一步MCMC近似,可以在给定的噪声水平下,对模型的输出进行调整,以更好地反映数据的分布。

在实现图像到视频的生成方面,作者比较了不同的图像预处理方法,包括使用预训练的CLIP图像编码器、在像素空间的轻量下采样块以及在潜在空间的轻量块。研究发现,在潜在空间中首先对图像进行编码,然后重复潜在表示以对齐视频生成的帧数,这种方法能够取得最佳结果。这可能是因为在潜在空间中进行生成可以更好地保持图像的一致性。

为了进一步提升生成结果的质量,作者还提出了在HSV(色调、饱和度、亮度)空间中对生成视频与输入图像进行额外对齐的方法。这有助于确保生成的视频在颜色和亮度上与原始输入图像保持一致,从而提高了视觉质量和真实感。

在可控视频生成方面即使是在图像扩散模型上训练的布局控制适配器,也可以直接集成到视频一致性模型中,以实现可控的视频生成。但是,为了减少细节控制的丢失和结果闪烁,作者通过调整现有适配器的LoRA层,显著提高了控制的稳定性和视觉质量。

实验

作者使用了稳定扩散版本1-5作为大多数实验的基础模型,并采用了DDIM ODE求解器进行训练。遵循潜在一致性模型的做法,作者从1000个时间步中均匀采样了50个用于训练。除了可控视频生成的实验外,所有实验都是在公开可用的WebVid2M数据集上进行的,没有使用任何数据增强或额外数据。对于可控视频生成,作者在TikTok数据集上训练模型,并使用BLIP标注的简短文本提示。

定性结果展示了AnimateLCM在文本到视频生成、图像到视频生成以及可控视频生成中的四步生成结果。这些结果包括了现实主义、2D动漫和3D动漫等不同个性化风格模型。所有结果都令人满意,在不同推理步骤下,AnimateLCM方法能够很好地遵循一致性属性,保持相似的风格和运动。即使仅使用两步推理,也能展示出良好的视觉质量和平滑的运动。随着功能评估(NFE)次数的增加,生成质量相应提高,与教师模型在25步和50步推理步骤下的性能具有竞争力。

AnimateLCM在文本到视频、图像到视频和可控视频生成中的生成结果

定量实验部分通过表格形式展示了AnimateLCM与其他强基线方法DDIM和DPM++的定量指标比较。AnimateLCM在低步数区间(1到4步)中显著超越了基线方法。AnimateLCM的所有这些指标都是在没有使用分类器自由引导(CFG)的情况下评估的,而其他基线方法则应用了7.5 CFG强度,因此在推理峰值内存成本和推理时间上节省了一半。通过将空间权重替换为公开可用的个性化现实风格模型,AnimateLCM进一步增强了性能,展示了其与个性化扩散模型的良好兼容性。

在UCF-101数据集上零样本文本到视频生成的性能比较,展示了AnimateLCM与其他基线方法在FVD和CLIPSIM指标上的表现

作者还验证了所提出的解耦学习策略和特定初始化设计的有效性,并通过实验结果展示了这些策略在提高收敛速度方面的优势。图5中,通过比较不同训练策略下的FVD(Fréchet Video Distance)和CLIPSIM分数,可以看出,采用了解耦一致性学习并结合特别初始化方法的AnimateLCM,在训练过程中收敛得更快,并且在较少的推理步骤下就能实现更低的FVD分数和更高的CLIPSIM分数,这表明其生成的视频在视觉质量和与文本描述的匹配度上都有显著提升。与没有使用解耦策略或没有采用特定初始化方法的基线相比,AnimateLCM展现出了更优的性能,从而验证了其方法在加速视频生成同时保持高生成质量方面的有效性。

提出的解耦一致性学习和特定初始化策略的有效性

图6揭示了直接使用现有适配器(如T2I-Adapter)与经过教师自由适应策略调整后的适配器在控制稳定性和视觉质量方面的对比。实验结果表明,经过教师自由适应过程的适配器能够显著减少细节控制的丢失和结果闪烁问题,从而在保持较低推理步骤的同时,生成更高质量且控制更为精确的视频内容。这一结果验证了AnimateLCM框架在无需额外教师模型指导下,通过简单有效的策略,能够提升适配器性能,实现更优的可控视频生成效果。

使用和不使用无教师适配策略的可控生成结果对比

AnimateLCM通过解耦一致性学习策略和无教师适配策略,在训练效率和生成质量之间取得了良好的平衡。尽管在单步生成样本时可能会产生模糊或有缺陷的结果,但实验结果验证了该方法的有效性。

论文链接:https://arxiv.org/abs/2402.00769

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/790634.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

32位版 C 库函数time 将在 2038 年溢出,那到时候,它该何去何从

简单地说,通常不必担心,在64位操作系统已经成为主流的今天这基本上不是问题(在写这篇回答的时候,我才发现我甚至找不到32位的机器来测试)刚好我有一些资料,是我根据网友给的问题精心整理了一份「32库函数的…

240707-Sphinx配置Pydata-Sphinx-Theme

Step A. 最终效果 Step B. 为什么选择Pydata-Sphinx-Theme主题 Gallery of sites using this theme — PyData Theme 0.15.4 documentation Step 1. 创建并激活Conda环境 conda create -n rtd_pydata python3.10 conda activate rtd_pydataStep 2. 安装默认的工具包 pip in…

Day66 代码随想录打卡|回溯算法篇---分割回文串

题目(leecode T131): 给你一个字符串 s,请你将 s 分割成一些子串,使每个子串都是 回文串。返回 s 所有可能的分割方案。 方法:本题是一个分割回文串的问题,是回溯算法的另一类问题。 针对一个字…

溶解氧(DO)理论指南(3)

转载自梅特勒官网资料,仅用于学习交流,侵权则删! 溶解氧理论指南 设备操作3.1 DO电极准备3.2 DO电极校准3.3 进行DO测量3.4 转换单位3.5 维护和储存 设备操作 本章总结了 DO电极日常使用的一些建议。它们基于普遍接受的操作规则。 3.1 DO电…

如何在玩客云中安装小雅AList并实现使用手机平板远程连接听歌看电影

文章目录 前言1. 本地部署AList2. AList挂载网盘3. 部署小雅alist3.1 Token获取3.2 部署小雅3.3 挂载小雅alist到AList中 4. Cpolar内网穿透安装5. 创建公网地址6. 配置固定公网地址 前言 本文主要介绍如何在安装了CasaOS的玩客云主机中部署小雅AList,并在AList中挂…

构建高精度室内定位导航系统,从3DGIS到AI路径规划的全面解析

室内定位导航系统是一种利用多种技术实现室内精准定位和导航的智能系统,即便没有卫星信号,也能实现精准导航。维小帮室内定位导航系统是基于自研的地图引擎与先进定位技术,结合智能路径规划算法,解决了人们在大型复杂室内场所最后…

搜维尔科技:【研究】Scalefit是一款可在工作场所自动处理3D姿势分析结果的软件

Scalefit是一款可在工作场所自动处理 3D 姿势分析结果的软件。这甚至可以在衡量员工的同时发生。然后,Scalefit 根据国际标准对姿势、压缩力和关节力矩进行分析和可视化。 3D姿势分析 如今,Xsens 技术可让您快速测量工作场所员工的态度。一套带有 17 个…

【笔记】centos7虚拟机连接dbeaver数据库失败好多次折磨我三天三夜

终于在第四个方法连接上了 你知道这四天三夜我怎么过来的吗 真的好痛苦 一个问题延申了无数个问题到最后我都不记得自己在解决什么问题 Access denied for user xiaoming192.168.81.1 (using password: YES) Public Key Retrieval is not allowed (一)跳…

高中数学:立体几何-基本立体图形分类

一、常见空间几何体 二、多面体 1、棱柱 2、棱锥 3、棱台 4、相关关系 三、旋转体 1、圆柱 2、圆锥 3、圆台 4、球

新一代iPhone成传家宝,这升级给我看呆了

6 月刚过,数码圈就迎来了平淡期,虽然各家手机层出不穷,但也只是新瓶装旧酒,没啥新意。 翘首以盼的新机也得等到 9 月份才会遍地开花。 这其中让人备受期待的肯定有苹果的一票,而最近苹果新机的消息也渐渐浮出水面了。…

Linux之免费证书工具certbot安装和使用

一、cerbot简介 Certbot是一个免费的开源软件工具,用于在手动管理的网站上自动使用Let’s Encrypt证书以启用HTTPS。要想让自己的网站启用https协议,需要一个由CA(数字证书认证机构)颁发的,能够让各个浏览器都能承认的…

AIGC在创意设计中的应用

随着人工智能技术的不断进步,AIGC(人工智能生成内容)已成为创意设计领域的新宠。这种新兴技术以其强大的创作能力和高效的工作效率,正逐渐改变着设计师们的工作方式和创作流程。在这个变革的时代,设计师们纷纷拥抱AIGC…

英伟达今年在华销售额预计将达120亿美元、MiniMax创始人:三年后才会出现“杀手级”AI应用

ChatGPT狂飙160天,世界已经不是之前的样子。 更多资源欢迎关注 1、英伟达今年在华销售额预计将达120亿美元 芯片咨询公司SemiAnalysis报告预估,今年英伟达有望在中国销售价值约120亿美元的人工智能芯片。黄仁勋曾表示,希望借助新的芯片使得…

树链剖分相关

树链剖分这玩意儿还挺重要的,是解决静态树问题的一个很好的工具~ 这里主要介绍一下做题时经常遇到的两个操作: 1.在线求LCA int LCA(int x,int y){while(top[x]!top[y])if(dep[top[x]]>dep[top[y]]) xfa[top[x]];else yfa[top[y]];return dep[x]&l…

cdn中配置ssl证书

##red## 🔴 大家好,我是雄雄,欢迎关注微信公众号,雄雄的小课堂。 SSL KEY 这个里面放的是:private.pem文件中的内容 SSL PEM 这个里面放的是:fullchain.crt文件中的内容,注意,这个…

JavaSE 面向对象程序设计进阶 IO流 字节流详解 抛出异常

input output 像水流一样读取数据 存储和读取数据的解决方案 内存中数据不能永久化存储 程序停止运行 数据消失 File只能对文件本身进行操作 不能读写文件里存储的数据 读写数据必须要有IO流 可以把程序中的数据保存到文件当中 还可以把本地文件中的数据读取到数据当中 分…

初学SpringMVC之 RestFul 风格、重定向和转发

RestFul 风格改变 URL 形式 比如之前是:http://localhost:8080/add?a1&b2 现在是:http://localhost:8080/add/a/b(全是斜杠) package com.demo.controller;import org.springframework.stereotype.Controller; import org…

ChatTTS的爆火是必然,它正在重新定义我们与机器对话的方式

当AI技术与语音合成相遇,开源技术众多,为什么 ChatTTS 能够一夜爆火?你有听说过能说情感真切文字的 AI 吗? 前言 想象一下,你只需输入一句话,AI就能念得声情并茂,不仅支持中英文混读&#xff0…

Webpack安装以及快速入门

3 Webpack 1 什么是Webpack https://webpack.js.org/ (官网) webpack 是一个现代 javascript 应用程序的 静态模块打包器 (module bundler) 待会要学的 vue-cli 脚手架环境, 集成了 webpack, 所以才能对各类文件进行打包处理 webpack是一个 静态模块 打包器,可以做以下的这…

一文彻底搞懂性能测试

性能测试概念 我们经常看到的性能测试概念,有人或称之为性能策略,或称之为性能方法,或称之为性能场景分类,大概可以看到性能测试、负载测试、压力测试、强度测试等一堆专有名词的解释。 针对这些概念,我不知道你看到的…