DiffusionGAN ——最快的小波扩散模型应用研究

介绍

扩散模型最近出现并迅速发展,吸引了许多研究人员的兴趣。这些模型能从随机的噪声输入生成高质量的图像。在图像生成任务中,它们的表现尤其优于最先进的生成模型(GANs)。扩散模型可以灵活地处理各种条件输入,从而实现广泛的应用,如文本到图像的生成、图像到图像的转换和图像复原。这在基于人工智能的数字艺术和其他领域有着潜在的应用前景。

扩散模型具有巨大的潜力,但其非常缓慢的估算速度使其无法像 GAN 那样被广泛采用。基本的扩散模型需要几分钟才能获得所需的输出质量。为了缩短估算时间,人们进行了许多研究,但即使是最快的算法也需要数秒才能生成一幅 32 x 32 的图像;通过将扩散模型与 GAN 相结合,DiffusionGAN 极大地改善了估算时间,但它仍然不适合大型或复杂的应用。不适合实时应用。

为了用于实时应用,本评论文章提出了一种名为小波扩散(WaveletDiffusion)的新扩散方法。它使用离散小波变换将输入转换为低频和高频分量,从而将输入压缩了四倍,大大缩短了推理时间。此外,还提出了一种小波专用生成器,以更有效地利用小波特征并保持输出质量。实验结果证实,小波扩散在扩散模型中速度最快,同时还能保持较高的图像质量。
论文地址:https://arxiv.org/abs/2211.16152
源码地址:https://github.com/vinairesearch/wavediff

建议方法

基于小波的扩散方案

在这里插入图片描述

图 1.小波扩散方案。

在本文中,输入图像被分解成四个小波子带,并将其作为单一对象串联到扩散过程中(如图 1 所示)。这种模型在小波频谱而非原始图像空间上运行。因此,该模型可以利用高频信息为生成的图像添加更多细节。另一方面,小波子带比原始图像小四倍,这大大降低了采样过程的计算复杂度。

本文的方法基于 DDGAN 模型,输入是小波变换的四个小波子带。给定一个输入图像 x∈R 3 × H × W,将其分解为低子带和高子带,然后进一步串联形成矩阵 y∈R 12 × H 2 × W 2。该输入通过第一线性层投射到基础通道 D 上,与 DDGAN 相比,不会改变网络的宽度。因此,大多数网络的空间维度减少了四个,从而大大减少了计算量。

学习的损失函数

敌对损失

与 DDGAN 类似,它也是通过对抗性损失来优化生成器和判别器:

・重建损失和总体损失函数

除了上述敌对损失外,还增加了一个重建项,以防止频率信息的损失,并保持小波子带的一致性。这就是生成的图像与其地面实况之间的 L1 损失。

生成器的总体目标是对抗损失和重建损失的下一个线性组合:

其中,λ 是加权超参数。经过一定数量的采样步骤后,就能得到估计的去噪子带 y’0。最终图像可通过小波逆变换恢复:x’0 = IWT(y’0)。

包含小波的发电机

图 2:包含小波的发生器概览。

图 2 显示了拟议的小波嵌入生成器的结构。拟议的生成器采用 UNet 结构,包含 M 个下采样块和 M 个上采样块。相同分辨率的块之间也有跳转连接。不过,使用的是频率敏感块,而不是通常的下采样和上采样运算符。最低分辨率采用频率瓶颈块,以更好地关注低频和高频成分。

最后,利用小波下采样层引入频率残差连接,将原始信号 Y 纳入编码器的不同特征金字塔中。这里,Y 代表输入图像,Fi 代表 Y 的第 i 个中间特征图。

频率感知下采样和上采样模块

传统方法在下采样和上采样过程中使用模糊核来减少混叠伪影。本文则利用小波变换的固有特性,更好地进行上采样和下采样(如图 3 所示)。

这增强了这些操作对高频信息的识别能力。具体来说,下采样块接收输入特征 Fi、电位 z 和时间嵌入 t 的元组,并通过一系列层处理,返回下采样特征和高频子带。这些返回的子带可作为额外的输入,在上采样块中根据频率线索对特征进行上采样。

图 3. 频率感知下采样和上采样模块概览。

试验

数据集

实验在 32 x 32 CIFAR-10、64 x 64 STL-10 和 256 x 256 CelebA-HQ 及 LSUN-Church 数据集上进行。此外,还在 CelebA-HQ (512 和 1024) 高分辨率图像上进行了实验,以验证天安方法在高分辨率下的有效性。

估值指数

图像质量以弗雷谢特起始距离(FID)衡量,样本多样性以召回率(Recall)衡量;与 DDGAN 一样,FID 和召回率以 50 000 个生成样本计算。估算速度通过 300 次试验的平均推理时间来衡量,批量大小为 100。高分辨率图像(如 CelebA-HQ 512 x 512)的推理时间也是根据 25 个样本的批次计算得出的。

实验结果

图 4:Celeba 总部的发电实例

图 5:LSUN 中的生成示例。

在这里插入图片描述

表 1.CIFAR 的比较10

表 2. Celeba 总部的比较

表 3.LSUN 的比较

表 1、表 2 和表 3 列出了针对每个数据集与典型生成模型(如 VAE、GAN 和扩散模型)的比较结果。与VAESOTA或最强模型相比,所提出的方法在所有评价指标上都明显优于VAESOTA。特别是,图像质量的 FID 比VAE高出四倍多。

与GAN 的SOTA 相比,估计速度基本持平,图像质量也更高。在多样性方面,它在所有情况下都比GAN高 10%。

与 Diffusion模型和 DDGAN 相比,所提出的方法是Diffusion模型中估计速度最快的。特别是,它比 Diffusion的 SOTA快 500 多倍。图像质量和多样性也是最高的,在某些情况下比扩散模型的 SOTA高出1~2 个百分点。在所有评估指标上,它也都优于早期的DDGAN研究。

包含小波的发电机的有效性

我们在 CelebA-HQ 256×256 上测试了所提议的生成器每个单独组件的有效性。在这里,完整模型包括残差连接、上采样、下采样块和瓶颈块。如表 4 所示,每个部分都对模型的性能产生了积极影响。通过应用所有三个建议的组件,达到了 5.94 的最佳性能。然而,性能的提高在估算速度方面付出了较小的代价。

表 4.包含小波的发电机的有效性

生成一张图像的运行时间

此外,正如在实际应用中所预期的那样,所提出的方法在单幅图像中显示出极佳的速度。表 5 显示了时间和关键参数。所提出的方法能够在短短 0.1 秒内生成最大 1024 x 1024 的图像,这是第一个达到接近实时性能的扩散模型。

图 5.使用我们的完整模型对每个基准集生成的单幅图像进行估计所需的时间

结论

本研究引入了一种名为小波扩散的新扩散模型,该模型在图像质量和采样率方面都表现出色。通过将小波变换纳入图像和特征空间,所提出的方法达到了扩散模型中最先进的执行速度,缩小了与 GAN 中 SOTA 的差距,并获得了与 StyleGAN2 和其他扩散模型几乎相当的图像生成质量。此外,与基线 DDGAN 相比,所提方法的收敛速度更快,从而证实了所提框架的高效性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/583530.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

knife4j swagger 使用笔记

1.接口访问的端口跟后台设置的不一致,接口请求无反应 处理办法 2.响应参数不显示问题 (1)返回的参数里面一定要有响应的参数对象,如下: (2)TableDataInfo 定义成泛型类 TableDataInfo package…

移动应用安全

移动应用安全 移动应用安全主要关注Android、iOS、Windows Phone等平台上移动应用软件安全状态。它涉及应用程序在其设计运行的平台上下文中的安全问题、它们使用的框架以及预期的用户集。所有主流的移动平台都提供大量可选的安全控制,旨在帮助软件开发人员构建安全…

浅析扩散模型与图像生成【应用篇】(十八)——ControlNet

18. Adding Conditional Control to Text-to-Image Diffusion Models 现有的文生图模型如Stable Diffusion通常需要人工输入非常准确的提示词,而且生成的结果还是完全随机不可控制的,只能通过生成多个结果,再从中选取最佳方案。而ControlNet的…

竞争分析:波特五力模型

波特五力模型是分析企业竞争环境的一个分析模型。 根据波特的观点,每家企业都受到“直接竞争对手、顾客、供应商、潜在新进公司和替代性产品”这五个“竞争作用力”的影响。 我们用波特五力模型试着分析下实体书店竞争是否激励。 直接竞争对手:如果直接…

料堆体积测量新方案:激光雷达

激光雷达测量料堆体积是一种高效且精确的方法。激光雷达的工作原理与雷达相似,通过发射激光束探测目标的位置、速度等特征量。在测量料堆体积时,激光雷达系统向料堆发射激光束,然后接收从料堆表面反射回来的信号。通过对这些反射信号的处理和…

Linux网络之DNS域名解析

一、DNS概述 1.1什么是DNS 域名解析协议,将域名转换成IP地址 1.2为什么要用DNS IP地址不便于记忆,DNS使用户可以通过易记的域名快速访问各种网络资源。 192.168.0.0—— ip地址过长而且都是数字,不方便记忆就出现了域名 www.baidu.com—…

记一次线上日志堆栈不打印问题排查(附:高并发系统日志打印方案可收藏)

目录 一.线上的日志堆栈不打印了二.一步一步仔细排查三.最后搞定四.聊一聊线上日志到底应该怎么打印4.1 日志打印的诉求4.2 常见的系统日志上报方案4.2.1 ELK 方案4.2.2 自定义log appender 完成应用日志采集. 4.3 日志常见框架傻傻分不清4.4 日志在高并发系统中需要注意的 tip…

神仙级Python入门教程,手把手教你从0到精通,学不会算我输!

亲爱的朋友们,你是否对编程充满好奇,却觉得它遥不可及? 你是否想学习一门强大的编程语言,却不知从何下手? 那么,这篇“神仙级”Python入门教程就是为你量身打造的!不论你是编程小白还是有一定…

linux笔记4--shell命令1

文章目录 一. 目录1.说明2.盘符3.linux根目录(以Ubuntu为例)①说明②根目录下一些文件夹的解析/home/root/mnt/media/var/cdrom/etc/lib (/lib32--32位的,/lib64-64位的)/lostfound/boot/proc/bin/sbin/snap/srv/usr/opt/dev/run/tmp 二. ls命令--操作文件夹1.说明2…

探索阿里巴巴商品详情API接口:开启电商数据之旅

阿里巴巴商品详情API接口是阿里巴巴开放平台提供的一项服务,它允许开发者通过调用接口获取指定商品的详细信息,包括商品标题、价格、库存、描述、图片等。这些数据对于电商从业者来说具有极高的价值,可以帮助他们更好地了解市场动态&#xff…

层次分析法(AHP)计算原理解释

AHP层次分析法是一种解决多目标复杂问题的定性和定量相结合进行计算决策权重的研究方法。该方法将定量分析与定性分析结合起来,用决策者的经验判断各衡量目标之间能否实现的标准之间的相对重要程度,并合理地给出每个决策方案的每个标准的权数&#xff0c…

vue下载文件时显示进度条

1.单个下载&#xff08;开始是导出按钮 下载显示进度条&#xff09; html <el-button click.stop"exportReport(scope.row, scope.index)" v-if"!scope.row.schedule" icon"el-icon-download"size"small" type"text"styl…

Linux第十五章

&#x1f436;博主主页&#xff1a;ᰔᩚ. 一怀明月ꦿ ❤️‍&#x1f525;专栏系列&#xff1a;线性代数&#xff0c;C初学者入门训练&#xff0c;题解C&#xff0c;C的使用文章&#xff0c;「初学」C&#xff0c;linux &#x1f525;座右铭&#xff1a;“不要等到什么都没有了…

系统思考—企业辅导咨询

从2004年、2014年到2024年&#xff0c;国九条政策的发布与变迁不仅影响了行业趋势&#xff0c;更深刻地改变了企业的风险预估和策略辅导。彼得杜鲁克曾经说过&#xff1a;“必须系统地抛弃旧知识。”这不仅是企业领导者的挑战&#xff0c;也是我们每个人的难题。难点不在于我们…

GITEE 基于OAuth2的API V5版本

为了构建更好的码云生态环境&#xff0c;我们推出了基于OAuth2的API V5版本。 API V5接口使用方式以及Url都参照GitHub&#xff0c;为了各位开发者更好的兼容已经存在的第三方应用。 API 使用条款 OSCHINA 用户是资源的拥有者&#xff0c;需尊重和保护用户的权益。不能在应用…

Spring AI 抢先体验,5 分钟玩转 Java AI 应用开发

作者&#xff1a;刘军 Spring AI 是 Spring 官方社区项目&#xff0c;旨在简化 Java AI 应用程序开发&#xff0c;让 Java 开发者像使用 Spring 开发普通应用一样开发 AI 应用。 Spring Cloud Alibaba AI 以 Spring AI 为基础&#xff0c;并在此基础上提供阿里云通义系列大模…

XY_RE复现(二)

一&#xff0c;何须相思煮余年 0x55 0x8b 0xec 0x81 0xec 0xa8 0x0 0x0 0x0 0xa1 0x0 0x40 0x41 0x0 0x33 0xc5 0x89 0x45 0xfc 0x68 0x9c 0x0 0x0 0x0 0x6a 0x0 0x8d 0x85 0x60 0xff 0xff 0xff 0x50 0xe8 0x7a 0xc 0x0 0x0 0x83 0xc4…

编译Qt6.5.3LTS版本(Mac/Windows)的mysql驱动(附带编译后的全部文件)

文章目录 0 背景1 编译过程2 福利参考 0 背景 因为项目要用到对MYSQL数据库操作&#xff0c;所以需要连接到MYSQL数据库。但是连接需要MYSQL驱动&#xff0c;但是Qt本身不自带MYSQL驱动&#xff0c;需要自行编译。网上有很多qt之前版本的mysql驱动&#xff0c;但是没有找到qt6…

SiO2杂化纳米纤维膜

SiO2杂化纳米纤维膜是一种结合了二氧化硅&#xff08;SiO2&#xff09;纳米颗粒和其他材料&#xff08;如聚合物&#xff09;的复合纳米纤维膜。这种膜材料结合了SiO2的良好性能&#xff08;如高硬度、高耐磨性、热稳定性等&#xff09;和其他材料的特性&#xff08;如柔韧性、…

【XR806开发板试用】基于XR806实现智能小车

一、实验功能&#xff1a; 1、 基于XR806实现WIFI连接路由器 2、 XR806设备创建TCP socket服务器&#xff0c;局域网内通过PC端TCP客服端连接XR806 TCP服务器进行指令控制小车运行&#xff08;指令&#xff21;&#xff1a;前进、&#xff22;&#xff1a;后退、&#xff23;&…