(2024,自级联扩散,关键点引导的噪声重新调度,时间感知特征上采样器)进行廉价的扩展:用于更高分辨率适应的自级联扩散模型

Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation

公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)

目录

0. 摘要

2. 相关工作

4. 自级联扩散模型

4.1. 问题阐述

4.2. 关键点引导的噪声重新调度

4.3. 时间感知特征上采样器

4.4. 分析与讨论

5. 实验


0. 摘要

扩散模型已被证明在图像和视频生成中非常有效;然而,在生成不同大小的图像时,它们仍然面临构图挑战,原因是单一尺度的训练数据。调整大型预训练扩散模型以满足更高分辨率的需求需要大量的计算和优化资源,然而实现与低分辨率模型相媲美的生成能力仍然是困难的。本文提出了一种新颖的自级联扩散模型(self-cascade diffusion model),利用从训练良好的低分辨率模型中获得的丰富知识,快速适应更高分辨率的图像和视频生成,采用无调整或廉价上采样器调整范例。通过集成一系列多尺度上采样模块,自级联扩散模型可以高效适应更高分辨率,保持原始构图和生成能力。我们进一步提出了一种基于关键点引导(Pivot-Guided)的噪声重新调度策略,加速推理过程并改善局部结构细节。与完全微调相比,我们的方法实现了 5 倍的训练加速,并且仅需要额外的 0.002M 调整参数。大量实验证明,我们的方法可以在仅微调 10k 步的情况下快速适应更高分辨率的图像和视频合成,几乎不需要额外的推理时间。

代码:https://github.com/GuoLanqing/Self-Cascade/

2. 相关工作

高分辨率合成和适应。尽管现有的稳定扩散合成方法取得了令人印象深刻的成果,但高分辨率图像生成仍然具有挑战性,并且需要大量的计算资源,主要是由于从更高维数据学习的复杂性。此外,由于收集大规模、高质量的图像和视频训练数据的实际困难,进一步限制了合成性能。为了应对这些挑战,先前的工作可以大致分为三种主要方法:

从头开始训练。这类工作可以进一步分为两类:级联模型 [7, 12, 13, 29] 和端到端模型 [3, 4, 14, 18]。级联扩散模型使用初始扩散模型生成低分辨率数据,然后通过一系列超分辨率扩散模型逐步上采样它。端到端方法学习一个扩散模型,并在一阶段直接生成高分辨率图像。然而,它们都需要顺序、分离的训练和大量高分辨率的训练数据。

微调。对于高分辨率适应,参数高效调整是一种直观的解决方案。DiffFit [34] 采用了一种定制的局部参数调整方法用于通用领域适应。郑等人 [37] 采用了 LORA [15] 作为额外的参数进行微调,但仍未专门设计用于尺度适应问题,仍然需要大量的微调步骤。

无需训练。最近,金等人 [16] 探索了一种变尺寸的无训练方法,但未解决高分辨率生成问题。ScaleCrafter [10] 采用了扩张卷积(dilated convolution)来扩大卷积层的感受野,以适应新的分辨率。然而,这些方法需要仔细调整,如扩张步幅和注入步幅,缺乏语义约束,并导致在各种对象生成尺度上产生伪影。

4. 自级联扩散模型

4.1. 问题阐述

给定一个预训练的稳定扩散(SD)模型,具有用于合成低分辨率图像(潜在代码)z ∈ R^d 的去噪器 ϵθ(·),我们的目标是以一种时间/资源和参数高效的方式,通过适应的模型 ˜ϵθ(·) 生成高分辨率图像 z^R ∈ R^(d_R)。为了实现这一目标,我们旨在重用来自训练良好的低分辨率模型的丰富知识,并仅在新尺度上学习低级别的细节。因此,我们构建了一个级联框架,包含原始尺度上的低分辨率模型和新尺度上的辅助模块。我们直观地定义了一个尺度分解,将整个尺度适应 R^d → R^(d_R) 分解为多个渐进适应过程,其中 d = d0 < d1 . . . < dR,其中 R = ⌈log4 d_R / d⌉。我们首先逐步合成低分辨率图像(潜在代码)z^(r−1),然后利用它作为关键点引导(pivot guidance),在下一阶段合成更高分辨率的结果 z_r,其中级联扩散模型的反向过程可以通过以下方式对每个 z_r 进行扩展

其中反向转移 pθ(zr t−1|zr t , c, zr−1) 不仅与去噪步骤 t 和文本嵌入 c 有关,还与在上一阶段生成的低分辨率潜在代码 z^(r−1) 有关。 先前的工作,如 [12]、LAVIE [32] 和 SHOW-1 [36],通过采用额外的超分辨率模型执行条件图像生成来解决这个问题,在这些方法中,他们将 z^(r−1) 和一个新的初始噪声图 z^r_T 串联作为输入到新的扩散去噪器。与它们不同,我们提出了一种自级联扩散模型,以循环重复使用低分辨率图像合成模型。

4.2. 关键点引导的噪声重新调度

根据第 4.1 节中解释的尺度分解,整个尺度适应过程将被解耦为多个中等适应,例如比前一阶段多 4× 像素。在 z^r 和 z^(r−1) 之间的信息容量差距不显著,尤其是在噪声存在的情况下(扩散的中间步骤)。因此,我们假设 p(z^r_K | z^(r−1)_0 ) 可以被视为 p(z^r_K | z^r) 的代理,用于手动设置当前适应阶段 R^(d_(r−1)) → R^(d_r) 的初始扩散状态,其中 K < T 是一个中间步骤。具体地,让 ϕr 表示一个确定性的调整插值函数(即双线性插值),用于从尺度 d^(r−1) 上采样到尺度 d_r。我们对上一阶段生成的低分辨率图像 z^(r−1)_0 进行上采样到 ϕr(z^(r−1)_0),以保持尺寸。然后我们可以通过 K 步扩散它,得到 z^(r−1)_K,并将其用于替代 z^r_K,如下所示:

将 z^r_K 视为当前阶段的初始状态,并从最后的 K → 0 步开始去噪,生成 z^r_0,这是当前阶段生成的更高分辨率图像。显然,这样的关键点引导策略可以扩展到所有解耦的尺度适应阶段。因此,使用关键点引导的噪声重新调度策略,生成分辨率为 d_R 的更高分辨率图像的整个合成过程可以说明如下:

到目前为止,我们已经设计了一种免调节的自级联扩散模型,通过循环重复利用完全冻结的低分辨率模型,逐渐扩展模型的容量,以进行更高分辨率的适应,如图 2(a) 所示。

4.3. 时间感知特征上采样器

尽管建立在关键点引导的噪声重新调度(第 4.2 节)之上的免调谐自级联扩散模型可以实现一个可行的、无尺度的更高分辨率适应,但由于看不见的更高分辨率地面实况图像,它在合成性能方面存在局限,尤其是在详细的低级结构上。为了实现更实用和稳健的尺度适应性能,我们进一步引入了一种调谐自级联扩散模型,通过插入一个非常轻量级的时间感知特征上采样器,该上采样器可以插入任何基于扩散的合成方法,以实现更灵活的更高分辨率图像或视频适应,如图 2(b) 所示。

具体来说,给定步骤 t 中的去噪图像 z^r_t 和上一阶段的关键点引导 z^(r−1)_0,我们可以通过预训练的 UNet 去噪器 ϵθ 分别得到相应的中间多尺度特征组 h^r_t 和 h^(r−1)_0,如下所示:

其中 N 代表每个特征组中的特征数量。受到最近的工作 [24] 的启发,该工作研究了 UNet 架构中各种组件对合成性能的影响,我们选择使用跳跃特征(skip features)作为一个特征组。这些特征对生成图像的质量几乎没有影响,同时仍然提供语义指导。我们定义了一系列时间感知特征上采样器 Φ = {ϕ1, ϕ2, . . . , ϕN},用于在每个相应的尺度上上采样和转换关键点特征。在扩散生成过程中,随着逐渐去除噪声,信噪比逐渐增加,焦点从高级语义逐渐转移到低级详细结构。因此,我们提出学习的上采样器变换应该适应不同的时间步骤。在每个尺度上,上采样后的特征 ϕ 与原始特征 h 相加: 

优化细节。对于每个尺度适应 R^(d_(r−1)) → R^(d_r) 的训练迭代,我们首先随机采样一个步骤索引 t ∈ (0,K]。相应的优化过程可以定义为以下公式:

其中 θΦ 表示插入的上采样器的可训练参数,θ 表示预训练扩散去噪器的冻结参数。每个上采样器都是简单而轻量的,包括一个双线性上采样操作和两个残差块。在所有实验中,我们设置 N = 4,总共有 0.002M 可训练参数。因此,所提出的微调自级联扩散模型仅需要少量微调步骤(例如,10k)和少量的更高分辨率新数据的收集。

可扩展微调。值得注意的是,我们的自级联扩散模型可以无缝地扩展到新的更高分辨率合成,从而受益于在每个尺度适应阶段共享扩散模型的循环重复利用。例如,为尺度 R 适应的扩散模型 ˜ϵθ(·) 可以通过重新调整集成的特征上采样器模块,无需任何额外的参数,进一步适应先前未见的尺度 R′。 

4.4. 分析与讨论

从先前对尺度适应的研究中汲取灵感 [10],我们发现直接将以 512^2 图像训练的 SD 2.1 模型应用于生成 1024^2 图像会导致问题,如对象重复和降低的组合能力(见图 1)。我们观察到,在适应的尺度不是很大时(例如,4× 更多的像素),生成图像的局部结构细节看起来合理且丰富,但缺乏平滑度。总体而言,适应更高分辨率的瓶颈在于语义组件和组合能力。幸运的是,原始预训练的低分辨率扩散模型可以生成可靠的低分辨率关键点,通过在更高分辨率的扩散采样过程中注入关键点语义特征,自然提供适当的语义引导。同时,在强烈的语义约束下,可以基于扩散模型本身学到的丰富纹理先验完成局部结构。

与用于高保真图像和视频生成的现有级联扩散框架 [12] 相比,我们的工作是第一个通过循环重复利用低分辨率预训练扩散模型进行自级联的研究,具有以下主要优势:

轻量级上采样器模块。传统的级联扩散模型包括多个扩散模型的流水线,用于生成分辨率逐渐增加的图像,从而导致模型参数数量的乘法增加。我们的模型建立在每个阶段共享的扩散模型之上,只使用非常轻量级的上采样器模块(即,0.002M 参数)进行调整。

最小的微调数据。先前的级联模型链需要顺序、单独的训练,每个模型都是从头开始训练,因此会带来显著的训练负担。我们的模型旨在使用少量高质量数据进行微调,快速将低分辨率合成模型调整到更高分辨率。

易于扩展。我们的模型具有适应新请求的更高分辨率的可扩展能力。这是通过重新调整集成的特征上采样模块而无需任何额外参数来实现的。相反,先前的级联模型需要为这样的调整训练额外的超分辨率模型。

局限性。我们提出的方法能够有效地适应更高分辨率的领域。然而,它仍然存在一些局限性。由于我们插入的插拔式上采样模块中的参数数量非常少,当有足够的训练数据时,我们的方法的性能存在上限,特别是当尺度差距太大时,例如高于 4k 分辨率的数据。在未来的工作中,我们将进一步探讨适应效率与泛化能力之间的平衡。

5. 实验

实验数据集和评估指标。我们选择 Laion-5B [23] 作为基准数据集,其中包含 50 亿个图像-标题对。我们从数据集中随机抽取 30k 张带有文本提示的图像,并使用 Inception Distance(FID)和 Kernel Inception Distance(KID)指标评估生成图像的质量和多样性,这些指标是在生成图像和真实图像之间测量的,分别表示为 FIDr 和 KIDr。

与先前的工作 [10] 一样,当推断分辨率高于 1024^2 时,我们采样 10k 张图像。为了确保图像预处理步骤的一致性,我们使用了 clean-fid 实现 [17]。由于预训练模型可以结合训练集中不存在的不同概念,我们还测量了在基础训练分辨率和推断分辨率下生成的样本之间的 FID 和 KID 指标,分别表示为 FIDb 和 KIDb。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/395347.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【数据结构与算法】手搓JDK底层ArrayList底层 - 动态数组

数组 在介绍数组之前&#xff0c;我们先来看一段chatGPT给出的对于数组描述&#xff1a; 数组&#xff08;Array&#xff09;是一种线性数据结构&#xff0c;它由一组连续的内存空间组成&#xff0c;用来存储相同类型的数据元素。数组具有固定的大小&#xff0c;一旦创建后&a…

【Docker】前后端分离项目 Gin+Vue 容器化部署 | docker-compose 部署 | 部署 nginx 通过域名访问

文章目录 前言前后端不完全独立docker 部署mysqlredisrbac docker compose 部署部署 nginx 前后端独立部署 前言 项目地址&#xff1a;https://gitee.com/Cauchy_AQ/rbac 项目前端使用 vue3 并且由 vite 构建&#xff0c;后端采用 gin 框架&#xff0c;搭建了一个简易的权限管…

计算机设计大赛 深度学习交通车辆流量分析 - 目标检测与跟踪 - python opencv

文章目录 0 前言1 课题背景2 实现效果3 DeepSORT车辆跟踪3.1 Deep SORT多目标跟踪算法3.2 算法流程 4 YOLOV5算法4.1 网络架构图4.2 输入端4.3 基准网络4.4 Neck网络4.5 Head输出层 5 最后 0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; *…

WildCard:一个因太好用而被迫暂停服务的虚拟信用卡平台,魅力何在?

如果你需要使用Wildcard开通GPT4、Midjourney或是Only方式的话&#xff0c;请点击&#xff1a;WildCard使用教程 参考文章链接&#xff1a;WildCard&#xff1a;一个因太好用而被迫暂停服务的虚拟信用卡平台&#xff0c;魅力何在&#xff1f; 1、Wildcard用户数量激增&#x…

lombok的Getter, Setter报错 cannot find symbol

今天突然发现项目里的lombok失效了&#xff0c;get , set全部报错 java: cannot find symbol 觉得很奇怪&#xff0c;年前放假前都好好的&#xff0c;没改过代码&#xff0c;依赖&#xff0c;注解都正确&#xff0c;突然报这个错。 后来才发现是因为重装过系统&#xff0c;id…

机器人十大前沿技术(2023-2024年)

2023-2024年机器人十大前沿技术 1. 具身智能与垂直大模型 具身智能是指拥有自主感知、交互和行动能力的智能体&#xff0c;能够与环境进行实时互动&#xff0c;从而实现对环境的理解和适应。 “大模型”是指在深度学习和人工智能领域中&#xff0c;使用大量参数和数据进行训…

【Visual Studio】技巧 :自动与活动文档同步

在这里插入图片描述 工具 -> 选项 -> 项目和解决方案 - 勾选上面的 我厉害不&#xff01;&#xff01;&#xff01;

php基础学习之常用系统函数

一&#xff0c;有关输出的语句/函数 echo语句 用于输出一个或多个字符串 print语句 用于输出一个字符串&#xff08;用句点连接的多个字符串本质是一个字符串&#xff09;&#xff0c;与echo类似&#xff0c;但返回值为1 printf()函数 用于格式化输出字符串&#xff0c;类似于C…

东方博宜 1395. 小丽找数?

东方博宜 1395. 小丽找数&#xff1f; #include<iostream> using namespace std; int main() {int x ;cin >> x ;int cnt 0 ;for (int i 1 ; i < x ; i){ int y i ;int sum 0;while(y > 0){sum y%10 ;y / 10 ;}if(sum%5!0 &&sum%2!0)cnt 1 …

莱卡云怎么样?简单测评下莱卡云韩国CN2云服务器

莱卡云服务器厂商&#xff0c;国内持证企业服务器商家&#xff0c;运作着香港、美国、韩国、镇江、日本、绍兴、枣庄、等数据中心的云服务器、独立服务器出租、设备托管、CDN等业务。今天为大家带来的是莱卡云韩国CN2服务器的详细评测&#xff0c;该云服务器的数据中心位于韩国…

网络同步—帧同步和状态同步解析

概述 同步就是要多个客户端表现效果是一致的&#xff0c;而且对于大多数的游戏&#xff0c;不仅仅要表现一致&#xff0c;还要客户端和服务器的数据也是一致的。所以同步是个网络游戏概念&#xff0c;只有网络游戏才需要同步&#xff0c;而单机游戏是不需要同步的。 帧同步和…

在vscode中使用正则表达式删除python的注释

出于一些原因&#xff0c;需要删除所有的注释 vscode中用全文搜索替换的功能 点击红色按钮即可使用正则表达式。 1. 多行注释 [|"][|"][|"](.*\n)*?.*[|"][|"][|"] 里面主要需要注意的就是不要使用贪婪匹配&#xff0c;也就是 *? 的?这里…

并查集,真好用,一次AC不是梦!

文章目录 &#x1f680;前言&#x1f680;并查集&#x1f680;并查集的两个优化✈️路径压缩✈️按秩合并 &#x1f680;并查集代码模板 &#x1f680;前言 大家好啊&#xff01;今天阿辉来给大家介绍一种简洁而优雅的数据结构——并查集&#xff0c;不知道各位是否了解它&…

Paper Digest | 突破个性化推荐数据稀疏性:长尾增强的图对比学习算法研究

00 导读 本文将介绍的论文 Long-tail Augmented Graph Contrastive Learning for Recommendation 已被 ECML/PKDD 2023 Research Track 接收。 论文链接&#xff1a;https://arxiv.org/abs/2309.11177 论文中提到的模型实现&#xff0c;已经完全复现到 OpenAGL 里了&#xff…

186205-33-4,Cyanine2活化酯,可标记各种纳米材料和生物样品

186205-33-4&#xff0c;Cyanine2 NHS Ester&#xff0c;Cy2 NHS&#xff0c;Cy2活化酯&#xff0c;Cyanine2活化酯&#xff0c;可标记各种纳米材料和生物样品 您好&#xff0c;欢迎来到新研之家 文章关键词&#xff1a;186205-33-4&#xff0c;Cyanine2 NHS Ester&#xff0…

基于 Reactive Mode 的 Flink 自动扩容

翻译自 Apache Flink: Scaling Flink automatically with Reactive Mode 简介 流式作业长时间运行过程中常常会经历不同流量负载的情况。流量负载会出现周期性的变化&#xff0c;如&#xff1a;白天与晚上、周末与工作日、节假日与非节假日&#xff0c;这些波动可能是突发事件…

消息队列(Message Queue)

目录 一、概念 二、消息队列使用场景 1.应用解耦&#xff1a;将应用进行解耦 具体场景&#xff1a;用户下单后&#xff0c;订单系统需要通知库存系统 2.异步处理&#xff1a;多应用对消息队列中同一消息进行处理&#xff0c;应用间并发处理消息&#xff0c;相比串行处理&…

当excel中表格打印预览右边超出限定页面时,调整列宽

解决办法&#xff1a;调整整体列或者部分列的列宽 操作流程如下&#xff1a; 第一步&#xff1a;选中需要调整的列 ①将鼠标放在表格的列上&#xff0c;等出现向下粗箭头后——>②单击&#xff08;变成粗十字&#xff09;该列——>③拖动选中列 第二步&#xff1a;调…

无人机技术,无人机动力系统知识,电机、电调、桨叶技术详解

无人机动力系统中的电机、电调和桨叶技术都是非常重要的部分&#xff0c;以下是对这些技术的详解&#xff1a; 无人机电机 在无人机动力系统中&#xff0c;电机是将电能转化为机械能的关键部件。其主要作用是产生旋转力矩&#xff0c;驱动螺旋桨的旋转&#xff0c;从而实现无…

【python全栈式开发】面向对象

这里写自定义目录标题 一、学习内容概述&#xff08;一&#xff09;函数式和面向对象的区别1、函数式2、面向对象 &#xff08;二&#xff09;网络编程&#xff08;三&#xff09;并发编程 二、面向对象&#xff08;一&#xff09;初识面向对象1、对象和self2、应用示例&#x…