【论文阅读】High-Resolution Image Synthesis with Latent Diffusion Model

High-Resolution Image Synthesis with Latent Diffusion Model

引用: Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 10684-10695.

论文链接: http://openaccess.thecvf.com/content/CVPR2022/html/Rombach_High-Resolution_Image_Synthesis_With_Latent_Diffusion_Models_CVPR_2022_paper.html
代码链接: https://github.com/CompVis/latent-diffusion

论文概述

通过将图像形成过程分解为去噪自编码器的顺序应用,扩散模型(DMs)在图像数据上实现了最先进的合成结果,并且它们的公式允许在不重新训练的情况下引入引导机制来控制图像生成过程。然而,由于这些模型通常直接在像素空间中操作,优化强大的DMs通常需要数百个GPU天,并且由于顺序评估,推理成本很高。为了在有限的计算资源下进行DM训练,同时保留它们的质量和灵活性,作者将它们应用于强大预训练自编码器的潜在空间。与之前的工作不同,在这样的表示上训练扩散模型首次实现了复杂度降低和细节保留之间的近乎最优平衡,极大地提高了视觉保真度。与纯粹基于transformer的方法相比,可以更优雅地扩展到更高维的数据。与基于像素的扩散方法相比,还显著降低了推理系数。此外,设计了一种基于交叉注意力的通用条件反射机制,实现了多模态训练。通过在模型架构中引入交叉注意力层,将扩散模型转变为强大且灵活的生成器,适用于文本或边界框等一般条件输入,并且高分辨率合成以卷积方式成为可能。提出的潜在扩散模型(LDMs)在图像修复和类条件图像合成方面取得了新的最先进分数,并在各种任务上表现出极具竞争力的性能,包括文本到图像合成、无条件图像生成和超分辨率,同时与基于像素的DMs相比显著降低了计算需求。

Method

为了降低训练扩散模型对高分辨率图像合成的计算要求,尽管扩散模型允许通过对相应的损失项进行欠采样来忽略感知上不相关的细节[1],但它们仍然需要在像素空间中进行昂贵的函数评估,这导致了对计算时间和能源的巨大需求。因此,通过引入压缩学习阶段与生成学习阶段的明确分离来规避这一缺点(见图2)。为了实现这一点,使用了一个自动编码模型,该模型学习了一个在感知上等同于图像空间的空间,但大大降低了计算复杂性。这种方法有几个优点:

  1. 通过离开高维图像空间,我们获得了计算效率更高的DM,因为采样是在低维空间上执行的。
  2. 利用了DMs的归纳偏差,这些偏差继承自其UNet架构,这使得它们对具有空间结构的数据特别有效,因此减轻了以前方法所要求的激进的、降低质量的压缩水平的需求。
  3. 最后获得了通用压缩模型,其潜在空间可用于训练多个生成模型,也可用于其他下游应用,如单图像CLIP引导的合成。
  • Perceptual Image Compression使用感知压缩模型基于以前的工作[2],由一个通过感知损失[3]和基于补丁的[4]对抗目标组合训练的自动编码器组成。这确保了通过强制执行局部真实感来将重建限制在图像流形中,并避免了仅依靠像素空间损失(如 L2 或 L1 物镜)而引入的模糊。为了避免任意高方差的潜在空间,尝试了两种不同类型的正则化。第一种变体KL-reg.对学习的潜在个体施加了对标准正态的轻微KL惩罚,类似于VAE,而VQ-reg 在解码器中使用矢量量化层。该模型可以解释为VQGAN,但量化层被解码器吸收。因为随后的 DM 被设计为学习到的潜在空间 z = E(x) 的二维结构,所以可以使用相对温和的压缩率并实现非常好的重建。这与以前的工作形成鲜明对比,后者依赖于学习空间z的任意一维排序来自动回归地模拟其分布,从而忽略了z的大部分固有结构。因此,该压缩模型可以更好地保留 x 的细节。

  • Latent Diffusion Models扩散模型是一种概率模型,旨在通过逐渐去噪正态分布变量来学习数据分布p(x),这对应于学习长度为T的固定马尔可夫链的反向过程。潜在表示的生成建模通过我们训练好的由 E 和 D 组成的感知压缩模型,因此可以访问一个高效的低维潜在空间,其中高频、难以察觉的细节被抽象出来。与高维像素空间相比,这个空间更适合基于似然的生成模型,因为它们现在可以 (i) 专注于数据的重要语义位,以及 (ii) 在较低维度、计算效率更高的空间中进行训练。与之前在高度压缩、离散的潜在空间中依赖自回归、基于注意力的转换器模型的工作不同,该工作使用的模型可以提供的特定于图像的感应偏差。这包括主要从2D卷积层构建底层UNet的能力,并使用重新加权的边界将目标进一步集中在感知上最相关的bits上
    在这里插入图片描述
    在这里插入图片描述

  • Conditioning Mechanisms:与其他类型的生成模型类似,扩散模型原则上能够模拟p(z|y)形式的条件分布。这可以通过条件去噪自动编码器来实现,并为通过输入y(如文本、语义图或其他图像到图像翻译任务)控制合成过程铺平了道路。该工作通过交叉注意力机制增强其底层UNet骨干,将DM转变为更灵活的条件图像生成器,这对于学习各种输入模式的基于注意力的模型是有效的。为了预处理来自各种模态(例如语言提示)的 y,引入了一个特定于域的编码器,它将 y 投射到中间表示,然后通过交叉注意力层实现,具体如图3所示。

实验

在这里插入图片描述
在这里插入图片描述

参考文献

[1] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. In NeurIPS, 2020. 1, 2, 3, 4, 6, 14.

[2] Patrick Esser, Robin Rombach, and Bjorn Ommer. Taming transformers for high-resolution image synthesis. CoRR, abs/2012.09841, 2020. 2, 3, 4, 6, 7, 18, 19, 27, 32, 34

[3] Shengyu Zhao, Jianwei Cui, Yilun Sheng, Yue Dong, Xiao Liang, Eric I-Chao Chang, and Yan Xu. Large scale image completion via co-modulated generative adversarial networks. ArXiv, abs/2103.10428, 2021. 8

[4] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros. Image-to-image translation with conditional adversarial networks. In CVPR, ages 5967–5976. IEEE Computer Society, 2017. 3, 4

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/428854.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

智慧城市的创新实践:全球案例分享

一、引言 在全球化和数字化的时代,智慧城市已经成为城市发展的前沿趋势。智慧城市运用先进的信息技术,如大数据、物联网、云计算和人工智能等,提升城市管理的智能化水平,增强公共服务效率,优化居民生活质量。本文将通…

AI-RAN联盟在MWC24上正式启动

AI-RAN联盟在MWC24上正式启动。它的logo是这个样的: 2月26日,AI-RAN联盟(AI-RAN Alliance)在2024年世界移动通信大会(MWC 2024)上成立。创始成员包括亚马逊云科技、Arm、DeepSig、爱立信、微软、诺基亚、美…

技术面没过,居然是因为没用过Pytest框架

01 概述 pytest是一个非常成熟的全功能的Python测试框架,主要特点有以下几点: 简单灵活,容易上手,文档丰富; 支持参数化,可以细粒度地控制要测试的测试用例; 能够支持简单的单元测试和复杂的…

相机,棱镜和光场

一、成像方法 Imaging Synthesis Capture 1.Synthesis(图形学上)合成:比如之前学过的光线追踪或者光栅化 2.Capture(捕捉):把真实世界存在的东西捕捉成为照片 二、相机 1.小孔成像 利用小孔成像的相…

MES系统在离散制造企业中的功能解析

随着信息技术的快速发展和制造业的转型升级,MES在离散制造企业中的作用日益凸显。MES系统不仅提高了生产效率和产品质量,还优化了资源配置,增强了企业的市场竞争力。 一、生产管理功能 MES系统能够实时监控生产现场的各种数据,包…

【SQL】608. 树节点(流控制语句 CASE + IF语句)

前述 知识点推荐学习: sql中的 IF 条件语句的用法 MySQL:if语句、if…else语句、case语句,使用方法解析 题目描述 leetcode 题目:608. 树节点 思路 关键点:如何确定有没有子节点 根节点:父节点为空内节…

FreeRTOS任务管理(创建、删除、挂起、恢复)

目录 一、任务概念 二、系统启动与空闲任务 三、任务创建 四、任务删除 五、任务挂起 六、任务恢复(普通模式和中断模式) 七、任务管理编程实战 一、任务概念 1、任务的基本概念 从系统的角度看,任务是竞争系统资源的最小运行单元 …

Flutter(三):Stack、Positioned、屏幕相关尺寸、Navigator路由跳转

页面尺寸 通知栏高度:MediaQuery.of(context).padding.top顶部导航高度:kToolbarHeight底部导航高度:kBottomNavigationBarHeight屏幕宽:MediaQuery.of(context).size.width屏幕高:MediaQuery.of(context).size.height…

基于STM32制作的示波器(可对任意信号进行描点)

基于STM32制作的示波器(可对任意信号进行描点) 注意:用的屏幕是TFT-LCD(MCU 屏)正点原子同款屏幕 液晶显示器,即 Liquid Crystal Display,利用了液晶导电后透光性可变的特性,配合显…

2024洗地机选购攻略 | 洗地机好用吗?洗地机如何挑选?

在众多清洁工具中,洗地机以其卓越的清洁能力和便捷的操作方式,获得了广泛关注。2024年,市场上涌现出众多品牌的洗地机,但哪些品牌的洗地机值得推荐呢?在这里,我们将详细探讨几个备受好评的洗地机品牌&#…

Fisher矩阵与自然梯度法

文章目录 Fisher矩阵及自然梯度法Fisher矩阵自然梯度法总结参考链接 Fisher矩阵及自然梯度法 自然梯度法相比传统的梯度下降法具有以下优势: 更好的适应性:自然梯度法通过引入黎曼流形上的梯度概念,能够更好地适应参数空间的几何结构。这使…

向上生长笔记

第一章 成为一个很厉害的人(持续输入,反复练习) 为什么要学习及如何学习 1、自毁趋势(熵增),故需要能量输入(负熵流) //引申:水往低处流是趋势,学习是逆趋势。 2、持续输入能量(物质和信息),…

BUUCTF---[ACTF2020 新生赛]BackupFile1

1.题目描述 2.题目提示backup file ,是备份文件的意思。点开链接,页面提示 3.查看源码没有什么有用信息,也没有登录界面,所以也不会用到蚁剑链接来找备份文件,所以大概率就是通过构造playload来查找备份文件。 4.备份…

vue+element ui上传图片到七牛云服务器

本来打算做一个全部都是前端完成的资源上传到七牛云的demo,但是需要获取token,经历了九九八十一难,最终还是选择放弃,token从后端获取(springboot)。如果你们有前端直接能解决的麻烦记得私我哦!…

详解自动化测试框架特点和原理

【软件测试面试突击班】2024吃透软件测试面试最全八股文攻略教程,一周学完让你面试通过率提高90%!(自动化测试) 今天捡一些比较典型的工具型自动化框架来介绍,主要围绕历史、特点和原理来讲解,至于使用教程…

MYSQL07高级_Hash结构、平衡二叉树、B树、B+树介绍

文章目录 ①. 全表遍历②. Hash结构③. 平衡二叉搜索树(AVL)④. B树⑤. B树⑥. 时间复杂度 选择的合理性 磁盘的I/O操作次数对索引的使用效率至关重要查找都是索引操作,一般来说索引非常大,尤其是关系型数据库,当数据量比较大的时候,索引的大小有可能几个G甚至更多,为了减少索引…

BUUCTF---[BJDCTF2020]藏藏藏1

1.题目描述 2.下载附件,解压之后是一张图片和一个文本 3.把图片放在winhex,发现图片里面包含压缩包 4.在kali中使用binwalk查看,然后使用foremost分离,在使用tree查看分离出来的文件,最后将zip文件使用unzip进行解压。步骤如下 5.…

分巧克力 刷题笔记

/* 分巧克力 解题思路 二分 直接检查看答案是否符合题目条件 对于一块边长分别为x 和y的巧克力\\ 假设我们输入检查的数为k 其能分割成的 k*k 的巧克力的块数为 (x/k)*(y/k) 因为c里面的除法是下取整的所以我们不用考虑奇偶数 是否能整除 将每一块巧克力能分成的k*k的巧克力…

镭速:推动工业设备数据高效汇聚的关键力量

在工业4.0时代,智能制造和工业自动化的快速发展使得工业设备数据汇聚、采集、传输变得尤为重要。这些数据,包括设备运行状态、生产效率、能耗等关键信息,对于企业优化生产流程、提升产品质量、降低成本具有至关重要的作用。然而,在…

jsp阿帕奇安装教程

1.将压缩包解压,存放在自己所知道的位置 2.将软件文件夹打开 使用winr ,输入cmd运行打开 输入Java或者Javac,出现一大串之后表明成功 接着在所解压的软件中点开bin这个文件夹,找到startup.bat点击 点击之后会出现黑框&#xff0c…