论文解读——如何生成高分辨率图像PGGAN

论文:Progressive Growing of GANs for Improved Quality, Stability, and Variation(2017.10)
作者:Tero Karras, Timo Aila, Samuli Laine, Jaakko Lehtinen
链接:https://arxiv.org/abs/1710.10196
代码:https://github.com/tkarras/progressive_growing_of_gans

文章目录

  • 1、算法概述
  • 2、背景知识
  • 3、Progressive Growing of GANs细节
    • 3.1 Increasing Variation using Minibatch Standard Deviation
    • 3.2 生成器和鉴别器的规范化
    • 3.3 Multi-scale Statistical Similarity for Assessing GAN Results
  • 4、实验


1、算法概述

本文提出了一种新的训练GAN网络的方法,通过逐步增加生成器和判别器的网络层数,让网络先从生成低分辨率开始,逐步过渡到生成高分辨率,这样可以使得训练速度加快也能使得训练更加稳定。另外,作者还提出了一种数据增强方法可以使得生成图像产生多样性,并改善了生成器和判别器之间的不良竞争关系。通过上述改进,作者构建了CELEB A数据集的更高质量版本。


2、背景知识

高分辨率图像的生成是困难的,因为更高的分辨率使得更容易将生成的图像与训练图像区分开来,从而大大放大了梯度问题。而且高分辨率由于训练显存限制必须采用小batchsize训练,这就进一步导致训练过程不稳定。所以作者的想法是可以逐步增长生成器和鉴别器,从更容易的低分辨率图像开始,并随着训练的进行添加引入更高分辨率细节的新层。


3、Progressive Growing of GANs细节

该论文主要贡献点就是提出了一种通过渐进式增加生成器和判别器网络层数来稳定训练GANs网络的训练方法,如下图所示,这种增量性质允许训练首先发现图像分布的大规模结构,然后将注意力转移到越来越精细的尺度细节上,而不必同时学习所有尺度。
在这里插入图片描述
PGGANs中生成器和鉴别器网络,它们是彼此的镜像,并且总是同步增长。在整个训练过程中,两个网络中的所有现有层都是可训练的。当向网络中添加新层时,新的层平滑地进入网络参与训练,如图下图所示。这个例子说明了从16 × 16图像(a)到32 × 32图像©的过渡。在过渡(b)期间,作者将在更高分辨率上操作的层视为残差块,其权重α从0到1线性增加。这避免了对已经训练有素的小分辨率层的突然冲击。
在这里插入图片描述
这种方式的优势是,可以让训练更加稳定,因为从小分辨率开始,网络需要学习更少的类信息和更少的模式。另一个优势是可以减小训练时间,随着GAN的逐渐增长,大多数迭代都是在较低的分辨率下完成的,根据最终输出分辨率的不同,可比的结果质量通常要快2-6倍。

3.1 Increasing Variation using Minibatch Standard Deviation

GAN倾向于只捕获训练数据中发现变化的子集,Salimans等人(2016)建议将“小批量可辨别性”(minibatch discrimination)作为解决方案。它们不仅计算单个图像的特征统计,还计算整个小批图像的特征统计,从而鼓励生成的小批图像和训练图像显示相似的统计。这是通过在鉴别器的末尾添加一个minibatch层来实现的,该层学习一个大张量,将输入激活投影到统计数据数组。为minibatch中的每个示例生成一组单独的统计数据,并将其连接到层的输出,以便鉴别器可以在内部使用统计数据。

作者大大简化了这种方法,同时也改善了变化。作者首先计算minibatch上每个空间位置的每个特征的标准差。然后,将这些估计值平均到所有特征和空间位置上,以得到一个单一的值。然后复制该值并将其连接到所有空间位置和minibatch上,从而产生一个额外的(恒定的)特征图。通过实验发现,把这一层插入到鉴别器的最后一层效果最好。

3.2 生成器和鉴别器的规范化

由于两个网络之间的不健康竞争,GAN容易产生信号强度的升级。大多数早期的解决方案通过使用批处理规范化(batch normalization)的变体来阻止这种情况。这些归一化方法最初是为了消除协变量移位而引入的。然而,作者并不认为这在GAN中是一个问题,因为作者认为GAN的实际需求是限制信号的大小和竞争。作者使用了一种不同的方法,它由两种成分组成,这两种成分都不包括可学习的参数。

  • EQUALIZED 学习率
    作者使用简单的正态分布N(0,1)进行权重初始化,然后在运行时显式缩放权重。这种方法确保动态范围和学习速度对于所有权重都是相同的。
  • Pixelwise Feature Vector Normalization in Generator
    为了防止由于竞争导致生成器和鉴别器中的幅度螺旋失控的情况,作者在每个卷积层之后将每个像素中的特征向量归一化为生成器中的单位长度。类似于局部响应归一化(local response normalization)的变体:
    在这里插入图片描述
    这里ε=10-8,N代表特征图数量,ax,y代表在像素(x,y)处原来的特征向量,而bx,y代表在像素(x,y)处normalization后的特征向量。作者通过实验发现,这种严厉的约束似乎并没有以任何方式损害生成器,在大多数数据集上,它并没有改变结果多少,但它在需要时非常有效地防止了信号幅度的上升。

3.3 Multi-scale Statistical Similarity for Assessing GAN Results

一个好的生成器将产生其局部图像结构与所有尺度上的训练集相似的样本。作者基于这个观点提出:通过考虑从生成图像和目标图像中提取的局部图像块的拉普拉斯金字塔(Laplacian pyramid)表示分布之间的多尺度统计相似性来研究这一点。多尺度统计从16×16像素的低分辨率开始,按照标准做法,金字塔逐渐加倍,直到达到全分辨率,每一个连续的水平编码的差异到前一层的上采样版本。

直观上,较小的Wasserstein距离表明patch的分布相似,这意味着在该空间分辨率下,训练图像和生成器样本在外观和变化上都是相似的。特别是,从最低分辨率的16×16图像中提取的补丁集之间的距离表明了大尺度图像结构的相似性。


4、实验

消融实验
在这里插入图片描述

收敛情况和训练速度
在这里插入图片描述
高分辨率图片(1024x1024)生成结果(下图全是生成的假人脸)
在这里插入图片描述
LSUN 数据集结果
LSUN BEDROOM类别的生成结果如下
在这里插入图片描述
LSUN其他类别图片生成结果
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/771942.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

将多个SQL查询合并的两种方式

说明:单个简单查询是非常容易的,但是为了避免多次访问访问数据库,我们会尽可能通过表关联将业务所需要的字段值一次性查出来。而有时候不太清楚表之间的关联关系(这取决于对业务的熟悉程度),或者实际情况就…

【SSL 1823】消灭怪物(非传统BFS)

题目大意 小b现在玩一个极其无聊的游戏,它控制角色从基地出发,一路狂奔夺走了对方的水晶,可是正准备回城时,发现地图上已经生成了 n n n 个怪。 现在假设地图是二维平面,所有的怪和角色都认为是在这个二维平面的点上…

甲骨文首次将LLMs引入数据库,集成Llama 3和Mistral,和数据库高效对话

信息时代,数据为王。数据库作为数据存储&管理的一种方式,正在以势不可挡的趋势与AI结合。 前有OpenAI 收购了数据库初创公司 Rockset,引发广泛关注;Oracle公司(甲骨文)作为全球最大的信息管理软件及服…

基于 Windows Server 2019 部署域控服务器

文章目录 前言1. 域控服务器设计规划2. 安装部署域控服务器2.1. 添加 Active Directory 域服务2.2. 将服务器提升为域控制器2.3. 检查域控服务器配置信息 3. 管理域账号3.1. 新建域管理员账号3.2. 新建普通域账号 4. 服务器加域和退域4.1. 服务器加域操作4.2. 服务器退域操作 总…

谷歌地图 | 路线优化 API 助力企业解锁物流新潜能

在当今竞争激烈的市场环境中,企业面临着越来越大的压力,需要提高运营效率、降低成本并满足不断增长的客户期望。对于依赖车队进行交付或服务的企业来说,这些挑战尤为艰巨。 近日, Google 地图平台路线优化 API 已经正式上线。路线…

推荐 2个功能强大的黑科技工具,真的会让你直呼卧槽

Waifu2X Waifu2x 是一个基于深度学习的开源项目,主要用于处理二次元动漫风格的图像。它使用卷积神经网络(CNN)进行超分辨率处理和降噪,能够将图像放大2倍或更多,同时显著提高清晰度和减少噪声。Waifu2x 特别针对日系漫…

React 中如何使用 Monaco

Monaco 是微软开源的一个编辑器,VSCode 也是基于 Monaco 进行开发的。如果在 React 中如何使用 Monaco,本文将介绍如何在 React 中引入 Monaco。 安装 React 依赖 yarn add react-app-rewired --dev yarn add monaco-editor-webpack-plugin --dev yarn…

海外短剧CPS推广分佣系统平台讲解,他和短剧播放平台有啥区别?

首先来讲讲什么是海外短剧系统?什么是海外短剧cps系统?这俩有何区别? 海外短剧系统 顾名思义:就是做一套海外短剧系统,把剧放在自己的系统内,让用户来充值,充值的钱全部都是我自己的&#xff…

广州自闭症机构哪家好?

在广州,众多的自闭症康复机构中,星贝育园自闭症儿童康复学校以其独特的优势脱颖而出。 一、专业的师资团队 我们拥有一支经验丰富、专业素养极高的师资队伍。每位老师都经过严格的专业培训,深入了解自闭症儿童的特点和需求。他们不仅具…

数字化工厂EasyCVR视频监控智能解决方案:引领工业4.0时代新趋势

随着工业4.0的深入发展和数字化转型的浪潮,数字化工厂视频监控智能解决方案成为了现代工业生产中不可或缺的一部分。这一解决方案集成了先进的视频监控技术、人工智能(AI)和大数据分析,为工厂提供了更高效、更安全、更智能的监控和…

css持续学习

一、样式层叠 当一个css样式发生冲突时,比如多处给一个字体设置了不同的颜色,这个时候就需要样式层叠了,它会进行三种比较 比较重要性 重要性从高到低: 1.带有 important 的作者样式(作者样式就是开发者写的样式&…

内网穿透--利用everything实现目录映射

免责声明:本文仅做技术交流与学习... 目录 来源文章 frp下载网址 为了隐藏: 演示: 1-靶机的everything开启http服务 2-Linux服务器: 3-靶机windows: 4-最后访问: 来源文章 渗透测试技巧|Everything的利用 frp下载网址 Release v0.58.1 fatedier/frp GitHub 为了隐…

js学习--制作猜数字

猜数字制作 <!DOCTYPE html> <html><head><meta charset"utf-8"><title></title></head><body><script>function fun() {alert("1-100猜数字");let num Math.floor(Math.random() * 100) 1;for …

js之模糊搜索

多的不说 少的不唠 直接上代码

吴恩达深度学习笔记:机器学习策略(2)(ML Strategy (2)) 2.3-2.4

目录 第三门课 结构化机器学习项目&#xff08;Structuring Machine Learning Projects&#xff09;第二周&#xff1a;机器学习策略&#xff08;2&#xff09;(ML Strategy (2))2.3 快速搭建你的第一个系统&#xff0c;并进行迭代&#xff08;Build your first system quickly…

基于antv x6实现的组织架构图

X6 是基于 HTML 和 SVG 的图编辑引擎&#xff0c;基于 MVC 架构&#xff0c;用户更加专注于数据逻辑和业务逻辑。 一、业务背景 将组织树形结构图形化&#xff0c;更直观的展示个人所在的组织架构。 二、功能点 组织结构按需渲染&#xff0c;支持层级展开、收缩按需求自定义…

2024 年 亚太赛 APMCM (C题)中文赛道国际大学生数学建模挑战赛 | 量子计算的物流配送 | 数学建模完整代码+建模过程全解全析

当大家面临着复杂的数学建模问题时&#xff0c;你是否曾经感到茫然无措&#xff1f;作为2022年美国大学生数学建模比赛的O奖得主&#xff0c;我为大家提供了一套优秀的解题思路&#xff0c;让你轻松应对各种难题&#xff01; 完整内容可以在文章末尾领取&#xff01; 该段文字…

uni-appx,实现登录功能,弹窗功能。组件之间传值

这篇文章的内容使用组合式API实现的&#xff0c;只有弹窗部分有选择式API的写法介绍。如果想要看其他选择式API&#xff0c;还请下载官方的hello-uni-appx源码进行学习&#xff0c;查看。想要看组合式API的写法&#xff0c;请查看源码 hello-uvue。 hello-uni-appx源码 相比于…

伦敦金价格走势图的资金管理怎么进行?

要成熟地交易伦敦金价格走势图&#xff0c;其实并不是一件容易的事情。其一&#xff0c;我们在很多广告或者周边朋友的宣传之下&#xff0c;觉得它能够帮助我们很快之内实现很多的财富增值&#xff0c;其二&#xff0c;很多投资者觉得伦敦金交易虽然不错&#xff0c;但是风险好…

wordpress 付费主题modown分享,可实现资源付费

该主题下载地址 下载地址 简介 Modown是基于Erphpdown 会员下载插件开发的付费下载资源、付费下载源码、收费附件下载、付费阅读查看隐藏内容、团购下载的WordPress主题&#xff0c;一款针对收费付费下载资源/付费查看内容/付费阅读/付费视频/VIP会员免费下载查看/虚拟资源售…