【扩散模型】5、Diffusion models beat GAN | 使用类别引导图像生成

在这里插入图片描述

论文:Diffusion models beat GAN on image Synthesis

代码:https://github.com/openai/guided-diffusion

出处:OPENAI | NIPS2021

时间:2021

贡献:

  • 在本文章之前,扩散模型生成的图片已经非常逼真了,但是 inception score(IS FID等)不如GAN,如何提供一些人为指导来帮助模型采样和学习,提高分数和采样速度就是本文的出发点
  • 作者引入了 classifier guidance 模式,将扩散模型变成了 class-conditional 任务,使用分类梯度来指导扩散模型的生成,平衡了多样性和保真性,降低了扩散模型的采样时间,同时能提高高分辨率情况下的采样效果

一、背景

在近几年来,生成式模型已经能生成类似人类的自然语音、声音、音乐,也能生成高质量的图像

GAN[19] 在当时来说是很多图像生成任务的 SOTA,其评判标准都是例如 FID、Inception Score、Precision 等简单标准

但这些标准很难完全捕捉到图像之间的差异,而且 GAN 也被证明捕捉到的差异性比很多 likelihood-based 方法能够捕捉到的更少一些,而且 GAN 比较难以训练,一旦没有仔细的设置参数和规则,就容易崩塌

扩散模型就是 likelihood-based 方法的一种,其通过逐步从图像信号中移除噪声来生成图片,其训练的目标函数可以被看做一个重参数化的变分下届,扩散模型在 CIFAR-10 上已经得到了 SOTA,但是在 LSUN 和 ImageNet 这些比较难的数据集上比 GAN 稍微落后一点。

作者认为,扩散模型和 GAN 之间的差距主要由于下面两个因素,也是基于这两个因素,作者对 diffusion model 进行了改进:

  • GAN 的模型结构已经被探索和改进了很多了
  • GAN 能更好的平衡多样性和保真度,产生高质量的样本,但不覆盖整个分布

在这里插入图片描述

二、方法

2.1 扩散模型回顾

扩散模型是通过从一个渐进加噪声的逆过程来采样的,也就是说,最开始的时候从噪声 x T x_T xT 中开始采样,然后逐步得到噪声更少的 x T − 1 x_{T-1} xT1 x T − 2 x_{T-2} xT2 … ,直到得到最终的采样结果 x 0 x_0 x0

扩散模型就是在学习如何从 x t x_t xt 得到上一时刻的 x t − 1 x_{t-1} xt1,扩散模型可以被建模为 ϵ θ ( x t , t ) \epsilon_{\theta}(x_t, t) ϵθ(xt,t),表示预测到的当前时刻的噪声,训练目标函数是 ∣ ∣ ϵ θ ( x t , t ) − ϵ ∣ ∣ 2 ||\epsilon_{\theta}(x_t, t) - \epsilon||^2 ∣∣ϵθ(xt,t)ϵ2 ϵ \epsilon ϵ 是真实噪声

2.2 简单的质量测评标准

1、Inception Score(IS)

Inception Score (IS) 是用来衡量一个模型在生成单个类别的样本时能否很好地捕获整个 ImageNet 类别分布

然而,该指标有一个缺点,它并不奖励覆盖整个分布的行为,也不会奖励在一个类别中捕获很多多样性的行为,如果模型记住全数据集一小部分,仍然会有高 IS

2、FID

为了比 IS 更好地捕获多样性,Heusel等人[23] 提出了 Fréchet Inception Distance (FID),他们认为 FID 与人类判断更一致。FID 提供了一个对两个图像分布在 Inception-V3 [62] 潜空间中距离的对称度量

Nash 等人[42] 提出了 sFID 作为使用空间特征而非标准汇集特征的 FID 版本。他们发现这种指标更好地捕获了空间关系, 奖励具有连贯高级结构的图像分布

作者使用 FID 作为评判指标,因为其能同时捕捉样本的多样性和保真性

作者还使用了 Precision 或 IS 来衡量保真性,使用 Recall 来衡量多样性或分布范围

2.3 模型架构改进

作者为了获得简单有效的模型架构,进行了多种不同的架构消融实验

因为扩散模型使用的是 U-Net,所以作者主要对 U-Net 的结构进行了改进

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

虽然增加模型深度能提高效果,但训练时长增加了,所以不做模型深度的改变

作者还对比了使用不同 head 的效果,最终使用了 64
在这里插入图片描述
在这里插入图片描述

2.4 Classifier Guidance

GAN 用于条件合成时,除了精心设计结构外,还会使用很多 class labels,所以作者也想使用分类器来提升扩散模型的效果

方法:作者会在带噪声的图像 x t x_t xt 上训练一个分类器,然后使用梯度来指导扩散模型的采样过程来朝着对应类别进行采样,作者这里使用的 ImageNet

本文方法不用额外训练扩散模型,直接在原有训练好的扩散模型上,通过外部的分类器来引导生成期望的图像。唯一需要改动的地方其实只有 sampling 过程中的高斯采样的均值,也即采样过程中,期望噪声图像的采样中心越靠近判别器引导的条件越好。

使用分类模型对生成的图片进行分类,得到预测分数与目标类别的交叉熵,将其对带噪图像求梯度用梯度引导下一步的生成采样。

在这里插入图片描述

三、效果

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/122786.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot 配置进阶

一、ConfigurationProperties 1、 在类定义上 ConfigurationProperties注解,此注解是用来为bean绑定属性。使用步骤如下: 在配置文件 application.yml 中,添加配置信息 servers:ip-address: 127.0.0.1port: 8123创建配置类,并在…

conda环境中pytorch1.2.0版本安装包安装一直失败解决办法!!!

conda环境中pytorch1.2.0版本安装包安装一直失败解决办法 cuda10.0以及cudnn7.4现在以及安装完成,就差torch的安装了,现在torch我要装的是1.2.0版本的,安装包以及下载好了,安装包都是在这个网站里下载的(点此进入&…

python使用selenium做自动化,最新版Chrome与chromedriver不兼容

目前Chrome版本是118.0.5993.118 下方是版本对应的下载地址: chrome版本118: https://download.csdn.net/download/qq_35845339/88510476 chrome版本119: chromedriverlinux64https://edgedl.me.gvt1.com/edgedl/chrome/chrome-for-testin…

【Linux C IO多路复用】多用户聊天系统

目录 Server-Client mutiplexingServer mutiplexingClient mutiplexing Server-Client 在Linux系统中,IO多路复用是一种机制,它允许一个进程能够监视多个文件描述符(sockets、pipes等)的可读、可写和异常等事件。这样&#xf…

洋子带你赚钱,粉丝有奖任务来啦,最高拿90京东卡

大家好,我是洋子,前段时间CSDN联合阿里云发布了免费试用3种 云服务器的活动任务,每完成一个任务就可以拿到30京东卡,3个任务互相独立,如果3个任务全部完成就可以拿到90京东卡 任务奖励 参与体验大概十几分钟&#xf…

类直径树上贪心

http://cplusoj.com/d/senior/p/SS231109C 场上想到枚举点&#xff0c;然后最大值为高&#xff0c;然后可以求最大值。但是感觉计数会重 计数其实不会重&#xff0c;如图中&#xff0c;红色线段显然比蓝色线段优 所以我们枚举3叉点时没错的 #include<bits/stdc.h> usin…

『亚马逊云科技产品测评』活动征文|AWS 云服务器实例类型及其适用场景详细说明

授权声明&#xff1a;本篇文章授权活动官方亚马逊云科技文章转发、改写权&#xff0c;包括不限于在 Developer Centre, 知乎&#xff0c;自媒体平台&#xff0c;第三方开发者媒体等亚马逊云科技官方渠道 目录 一、AWS 定价计算器 &#xff08;1&#xff09;定价计算器官网 &…

深度学习_10_softmax_实战

由于网上代码的画图功能是基于jupyter记事本&#xff0c;而我用的是pycham,这导致画图代码不兼容pycharm,所以删去部分代码&#xff0c;以便能更好的在pycharm上运行 完整代码&#xff1a; import torch from d2l import torch as d2l"创建训练集&创建检测集合"…

使用合成数据训练语义分割模型

计算机视觉应用现在在各个科技领域无处不在。 这些模型高效且有效&#xff0c;研究人员每年都会尝试新想法。 新的前沿是试图消除深度学习的最大负担&#xff1a;需要大量的标记数据。 正如本文所述&#xff0c;此问题的解决方案是使用合成数据。 从这些研究中获益最多的计算机…

ros1 模拟客户端生成小乌龟服务请求生成小乌龟

模拟客户端生成小乌龟服务请求生成小乌龟 一、话题模型二、创建功能包三 创建客户端Client代码四 配置CMakeLists.txt编译规则&#xff1a;五 测试启动ros 主服务启动小乌龟的服务启动模型客户端服务 一、话题模型 Sever端是海龟仿真器/turtlesim&#xff0c;Client端是待实现…

Android 13.0 Launcher3 app图标长按去掉应用信息按钮

1.前言 在13.0的rom定制化开发中,在Launcher3定制化开发中,对Launcher3的定制化功能中,在Launcher3的app列表页会在长按时,弹出微件和应用信息两个按钮,点击对应的按钮跳转到相关的功能页面, 现在由于产品需求要求禁用应用信息,不让进入到应用信息页面所以要去掉应用信息…

BigDecimal使用的时候需要注意什么?

BigDecimal只要涉及到浮点数运算都会用到BigDecimal&#xff0c;并且面试的时候经常会问到&#xff0c;那么BigDecimal使用的时候需要注意什么&#xff1f; 目录 1.为什么不能用浮点数表示金额&#xff1f;2.十进制转换二进制3.科学记数法4.IEEE 7545.在线浮点数转换二进制6.原…

限流式保护器在养老院火灾预防中的应用

安科瑞 华楠 【摘要】老年人是一个庞大特殊的社会群体。随着我国人口的老龄化&#xff0c;老年人口数量断上升。涉及老年人的火灾越来越多&#xff0c;本文从养老院火灾的案例、成因、预防措施等方面对此类火灾进行了深入的探讨。 【关键词】老年公寓&#xff1b;火灾预防&…

VINS-Mono-后端优化 (一:预积分残差计算-IMU预积分约束)

这里先回顾一下预积分是怎么来的 VINS-Mono-IMU预积分 &#xff08;三&#xff1a;为什么要预积分预积分推导&#xff09; 这里贴出预积分的公式 具体含义解释看对对应的文章 整个误差函数如下 预积分 α \alpha α β \beta β γ \gamma γ 是用 IMU 预积分获得的增量&a…

CSS关于默认宽度

所谓的默认宽度&#xff0c;就是不设置width属性时&#xff0c;元素所呈现出来的宽度 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title></title><style>* {margin: 0;padding: 0;}.box {/…

Hive 常用存储、压缩格式

1. Hive常用的存储格式 TEXTFI textfile为默认存储格式 存储方式&#xff1a;行存储 磁盘开销大 数据解析开销大 压缩的text文件 hive 无法进行合拆分 SEQUENCEFILE sequencefile二进制文件&#xff0c;以<key,value>的形式序列到文件中 存储方式&#xff1a;行存储 可…

STM32中断简介

中断系统 中断&#xff1a;在主程序运行过程中&#xff0c;出现了特定的中断触发条件&#xff08;中断源&#xff09;&#xff0c;使得CPU暂停当前正在运行的程序&#xff0c;转而去处理中断程序&#xff0c;处理完成后又返回原来被暂停的位置继续运行&#xff1b; 以上是中断的…

Docker - 镜像

Docker - 镜像 镜像是什么 镜像是一种轻量级&#xff0c;可执行的独立软件包&#xff0c;用来打包软件运行环境和基于运行环境开发的软件&#xff0c;它包含运行某个软件所需的所有内容&#xff0c;包括代码&#xff0c;运行时&#xff0c;库&#xff0c;环境变量和配置文件。…

电脑风扇控制软件 Macs Fan Control Pro mac中文版功能介绍

Macs Fan Control mac是一款专门为 Mac 用户设计的软件&#xff0c;它可以帮助用户控制和监控 Mac 设备的风扇速度和温度。这款软件允许用户手动调整风扇速度&#xff0c;以提高设备的散热效果&#xff0c;减少过热造成的风险。 Macs Fan Control 可以在菜单栏上显示当前系统温…

如何在Python爬虫中使用IP代理以避免反爬虫机制

目录 前言 一、IP代理的使用 1. 什么是IP代理&#xff1f; 2. 如何获取IP代理&#xff1f; 3. 如何使用IP代理&#xff1f; 4. 如何避免IP代理失效&#xff1f; 5. 代理IP的匿名性 二、代码示例 总结 前言 在进行爬虫时&#xff0c;我们很容易会遇到反爬虫机制。网站…