生成式对抗网络GAN

Generative Adversarial Nets由伊恩·古德费洛(Ian J.Goodfellow)等人于2014年发表在Conference on Neural Information Processing Systems (NeurIPS)上。NeurIPS是机器学习和计算神经科学领域的顶级国际学术会议之一。

1. GAN在哪些领域大放异彩

图像生成:

论文地址:styleGAN styleGAN2
图像生成是生成模型的基本问题,GAN相对先前的生成模型能够生成更高图像质量的图像。如生成逼真的人脸图像。https://thispersondoesnotexist.com是一个叫做‘这个人不存在’的网站,它是基于GAN的一个随机人脸生成网站,每次刷新该网站都将生成一个不同的人脸。
在这里插入图片描述

图像超分辨率

论文地址:SRGAN
将图像放大时,图片会变得模糊。使用GAN将32*32的图像扩展为64*64的真实图像,放大图像的同时提升图片的分辨率。
在这里插入图片描述

图像转化:

论文地址:CycleGAN
CycleGAN,即循环生成对抗网络,出自发表于 ICCV17 的论文《Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks》,和它的兄长Pix2Pix(均为朱大神作品)一样,用于图像风格迁移任务。以前的GAN都是单向生成,CycleGAN为了突破Pix2Pix对数据集图片一一对应的限制,采用了双向循环生成的结构,因此得名CycleGAN。

在这里插入图片描述

其他GAN领域

生成对抗网络(GANs)在多个领域都取得了显著的成就,其灵活性和强大的生成能力使其能够应用于各种应用。

  1. 图像生成与转换:

    • pix2pix 和 CycleGAN: 用于图像转换,例如风格迁移、图片翻译等。
    • StyleGAN 和 ProGAN: 生成高分辨率逼真的图像,用于人脸合成和自然图像生成。
  2. 人脸生成和编辑:

    • DeepFake 技术: 使用 GANs 进行逼真的人脸合成。
    • StarGAN 和 Age-cGAN: 实现多领域的人脸编辑,如年龄、性别、表情等。
  3. 图像修复和超分辨率:

    • Super-Resolution GANs(SRGAN): 用于提高图像的分辨率。
    • Deep Image Prior: 利用 GANs 进行图像修复。
  4. 生成式艺术:

    • Artbreeder: 利用 GANs 进行创造性的艺术生成,探索图像合成的艺术应用。
  5. 医学图像生成与分割:

    • 生成医学图像: GANs 用于生成具有各种病例特征的医学图像,用于培训机器学习模型。
    • 图像分割: 利用 GANs 进行医学图像的分割和增强。
  6. 风格迁移和设计:

    • Neural Style Transfer: 使用 GANs 进行艺术风格的图像转换。
    • FashionGAN: 用于时尚设计和生成。
  7. 文本生成:

    • Text-to-Image Synthesis: GANs 用于将文本描述转换为图像。
    • Conditional GANs: 用于生成与给定文本描述相关的图像。
  8. 无监督学习和数据增强:

    • 生成无监督特征: GANs 用于学习无监督的特征表示。
    • 数据增强: GANs 用于生成额外的训练数据,提高监督学习模型的性能。

其他GAN论文

  1. pix2pix: https://affinelayer.com/pixsrv/

  2. DiscoGAN:https://github.com/carpedm20/DiscoGAN-pytorch

  3. TPGAN: https://arxiv.org/pdf/1704.04086.pdf

  4. pix2pix HD:https://tcwang0509.github.io/pix2pixHD/

  5. stackGAN: https://arxiv.org/pdf/1612.03242.pdf

  6. AttnGAN:https://arxiv.org/abs/1711.10485

  7. DTN:https://arxiv.org/pdf/1611.02200.pdf

  8. MGAN: https://arxiv.org/pdf/1604.04382.pdf

  9. Age-cGAN:https://arxiv.org/pdf/1702.01983.pdf

  10. StarGAN:https://arxiv.org/abs/1711.09020

  11. Image Inpainting:https://arxiv.org/abs/1804.07723

  12. MaskGAN:https://arxiv.org/abs/1801.07736

GAN工作原理

生成对抗网络(GAN)由两个主要部分组成:生成器(Generator)和判别器(Discriminator)。这两个部分通过对抗的方式共同学习,使得生成器能够生成逼真的数据,而判别器能够区分真实数据和生成器生成的数据。

生成器

在统计学眼中,整个世界是通过采样各种不同的分布得到的。
生成模型:对整个数据的分布进行建模,使得能够生成各种分布。
生成图片、生成文本、生成各种东西就是去抓住整个数据的一个分布。

生成器(Generator):

  • 生成器的目标是生成看起来像真实数据的样本。
  • 它接收一个随机噪声向量(通常是从正态分布中采样得到的)作为输入,并通过神经网络生成数据。
  • 生成器的目标是欺骗判别器,使其无法区分生成的数据和真实数据。

辨别器

判别器(Discriminator):

  • 判别器的目标是区分生成器生成的数据和真实数据。
  • 它接收真实数据或生成器生成的数据作为输入,并通过神经网络输出一个概率值,表示输入是真实数据的概率。
  • 判别器的目标是正确地将真实数据识别为真实,并将生成的数据识别为伪造。

Generative Adversarial Nets Introduction部分

论文提到深度学习的前景是发现丰富的分层模型,这些模型代表了AI应用中遇到的各种数据的概率分布。即深度学习不仅仅是深度神经网络,更多的是对整个数据分布的一个特征的表示。
深度学习在辨别上做的不错,但在生成上的效果不好,难点在于去最大化似然函数时,我们要对概率函数很多近似,近似带来了很大的计算困难。这篇文章的关键是不用近似似然函数而可以用别的方法来得到一个计算上更好的模型

作者在文中做了一个形象的比喻:将生成器比作一个生产假币的造假者,而判别模型类似于警察,试图检测假币。造假者和警察会不断学习,造假者提升自己造假的手段,警察会提升自己判别真假币的能力。最后希望得到这样一个结果:造假者获胜,造的假钱跟真的一样,使得警察无法区分真币假币。

该框架可以针对多种模型和优化算法给出具体的训练算法。在本文中,我们探究了生成模型通过多层感知机传递随机噪声生成样本时的特殊情况,而判别模型也是多层感知机。我们把这种特殊情况称为adversarial nets。在这种情况下,我们可以只使用非常成功的反向传播和dropout算法来训练这两个模型,也可以只使用前向传播从生成模型中采样。不需要任何近似推断或马尔可夫链。

Generative Adversarial Nets Related work部分

在这一部分,作者提到之前的大多数关于深度生成模型的工作:一个是构造出一个分布函数,然后提供参数供其学习,学习出真实的分布,明白其均值、方差到底是什么。一个是不去构造分布函数,而是学一个模型来近似这个分布,但是不知道最后的分布是怎样的,算起来较容易。
随后提到他们观察到的一个结果:对 f f f的期望求导,等价于对 f f f自己求导。这也就是为什么他们使用误差反向传播的原因。
在这里插入图片描述
之后作者提到了一些相关的工作,包括VAE、NCE,并解释了与predictability minimization算法的区别

发现这里有总结的较好的,后续可以查看这里:https://blog.csdn.net/qq_45138078/article/details/128366117

Generative Adversarial Nets的缺陷及后续的改进

训练不稳定:外层循环迭代N次直到完成,如何判断是否收敛,这里有两项,一个是往上走(max),一个是往下走(min),有两个模型,所以如何判断收敛并不容易。整体来说,GAN的收敛是非常不稳定的。

判别器训练得太好:在价值函数中,等式右边的第二项存在一定的问题:在早期的时候G比较弱,生成的数据跟真实的数据差得比较远,这就很容易将D训练的特别好(D能够完美地区分开生成的数据和真实的数据),就导致log(1-D(G(z)))会变成0,求梯度再更新G的时候,就会发现求不动了。
在这里插入图片描述

后续论文改进

  1. Improved Techniques for Training GANs提出了一系列的训练技巧,包括正则化项、生成器和判别器的架构选择等,以提高GAN的训练稳定性和生成样本的质量。
  2. Wasserstein GAN引入Wasserstein距离(Earth Mover’s Distance)作为GAN的目标函数,通过减小生成分布和真实分布之间的差异,改善了训练的稳定性和生成图像的质量。
  3. Least Squares Generative Adversarial Networks使用最小二乘损失函数代替原始GAN的二元交叉熵损失,有助于解决训练过程中的模式崩溃问题,提高生成图像的质量。
  4. Self-Attention Generative Adversarial Networks引入了自注意力机制,使生成器能够更好地捕捉输入数据的长距离依赖关系,提高生成图像的细节和整体质量。
  5. Training Generative Adversarial Networks with Limited Data针对有限数据情况,提出了一种基于数据增强和迁移学习的方法,以改善生成模型在数据稀缺情况下的性能。

GAN未来及挑战

随着OpenAI发布DALL-E 2,自回归模型和扩散模型一夜之间成为大规模生成模型的新标准,而在此之前,生成对抗网络(GAN)一直都是主流选择,并衍生出StyleGAN等技术。
扩散模型:当前DALL-E, Midjourney, Stable Diffusion图片生成的核心都是Diffusion Model,它就是通过不停去除噪音期望获得好结果的生成模型。
在这里插入图片描述
扩散模型只需要训练一个模型,优化过程更加稳定。
扩散模型在条件生成任务上确实要优于GAN,特别是在生成的多样性方面。
扩散模型的训练过程相对简单,优化更为容易。
两阶段扩散模型可以进一步提高生成图片的质量,其效果通常超过了单一的GAN模型

大模型下的GAN-GigaGAN

针对增加StyleGAN架构容量会导致不稳定的问题,来自浦项科技大学(韩国)、卡内基梅隆大学和Adobe研究院的研究人员提出了一种全新的生成对抗网络架构GigaGAN,打破了模型的规模限制,展示了 GAN 仍然可以胜任文本到图像合成模型。(https://arxiv.org/abs/2303.05511)
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/323064.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

远程访问及控制

文章目录 远程访问及控制一、SSH远程管理1、SSH(Secure Shell)协议定义2、SSH的优点3、OpenSSHell 二、配置OpenSSH服务端1、sshd_config配置文件的常用选项2、sshd服务支持的两种验证方式2.1 密码验证2.2 秘钥对验证 三、SSH客户端程序的使用1、基本用法…

C# OpenCvSharp DNN 部署yolov3目标检测

目录 效果 yolov3.cfg 项目 代码 下载 C# OpenCvSharp DNN 部署yolov3目标检测 效果 yolov3.cfg [net] # Testing #batch1 #subdivisions1 # Training batch16 subdivisions1 width416 height416 channels3 momentum0.9 decay0.0005 angle0 saturation 1.5 exposure 1…

User-Agent(用户代理)是什么?

User-Agent(用户代理)是什么? User-Agent 即用户代理,简称“UA”,它是一个特殊字符串头。网站服务器通过识别 “UA”来确定用户所使用的操作系统版本、CPU 类型、浏览器版本等信息。而网站服务器则通过判断 UA 来给客…

【Web】什么是 XSS 攻击,如何避免?

🍎个人博客:个人主页 🏆个人专栏:Web ⛳️ 功不唐捐,玉汝于成 目录 前言 正文 常见方法: 结语 我的其他博客 前言 在当今数字化时代,网络安全成为信息技术领域中的一项至关重要的任务。X…

Mac 下载 nvm 后执行nvm -v 命令报错 nvm: command not found

1、问题:Mac 使用命令下载nvm 成功后执行 nvm -v 查看,报错:nvm command not found 2、原因:可能是系统更新后,默认的 shell 是 zsh,所以找不到配置文件 3、解决:可添加编辑.bash_profile 和 …

WebStom中代码美化工具prettier的配置

如果你的项目使用到了prettier代码美化工具之后,使用ctrlaltL调整代码格式的时候会发现,代码没有被正确格式化,这是因为prettier代码美化工具没有设置格式化vue代码的设置。在下面中的run for files的括号里面加上vue即可 最后一步就是确保es…

自媒体必备的8个素材网站,免费可商用。

自媒体必备的8个素材网站,视频、音效、音频、图片等素材非常齐全,免费下载,无需担心侵权,赶紧收藏起来吧~ 视频素材 1、菜鸟图库 https://www.sucai999.com/video.html?vNTYwNDUx 菜鸟图库可以找到设计、办公、图片、视频、音频…

11. PCL的搭建

在这里,前期已经在rk3588上搭建好了livox hap的环境,搭建好了ros环境,搭建好了rknn环境,接下来搭建PCL环境,因为后期的点云数据处理基本上都要用到PCL库处理点云数据。这里的搭建是看了下面博主的内容,抄过…

如何解决游戏显示找不到x3daudio1_7.dll,六种修复方法详解分享

一、x3daudio17.dll的作用 x3daudio17.dll是微软公司开发的一个动态链接库文件,它提供了音频处理和渲染的功能。该文件主要负责处理三维音效和多声道音频的输出,使得计算机可以提供更加逼真和立体的音频效果。因此,当x3daudio17.dll丢失时&a…

Linux系统命令 --- seq tr cut sort uniq

目录 一、seq ---- 输出序列化参数 1、seq 数字 按照顺序打印 2、-s 使用指定字符串分割数字 3、计算1-20,并求和 4、-w 在每一列数字前加零 默认补全 二、tr、对数字进行处理 1、替换 2、删除 3、压缩 4、补集 三、cut 截取 四、sort 排序 …

2023 年东北三省一区职业院校技能大赛“云计算应用(高职组)”赛项样题

2023 年东北三省一区职业院校技能大赛“云计算应用(高职组)”赛项样题 目录:需要竞赛软件包环境可练习博主! 2023 年东北三省一区职业院校技能大赛“云计算应用(高职组)”赛项样题 模块一 私有云(30 分) 任务 1. 私有云服务搭建&…

pc-lint plus 屏蔽错误的几种方式

如屏蔽错误530错误 1、全局屏蔽 修改规则文件,屏蔽530错误 2、多行屏蔽 3、单行屏蔽 4、注意项 (1) 支持C90的"// … "注释方式和C99的“/* … */”注释方式 (2) lint必须为小写且紧挨着“//”或“/*” (3) lint后可跟一个或多个Lint选项,…

Java实现二维码、条形码生成器

文章目录 前言 在数字化时代,二维码已经成为了信息交流的一种常见方式。它们被广泛用于各种应用,从产品标签到活动传单,以及电子支付。本文将向您展示如何在Spring Boot应用程序中整合ZXing库,以创建和解析QR码。无论您是想为您的…

Tiktok/抖音旋转验证码识别

一、引言 在数字世界的飞速发展中,安全防护成为了一个不容忽视的课题。Tiktok/抖音,作为全球最大的短视频平台之一,每天都有数以亿计的用户活跃在其平台上。为了保护用户的账号安全,Tiktok/抖音引入了一种名为“旋转验证码”的安…

【现代密码学】笔记5--伪随机置换(分组加密)《introduction to modern cryphtography》

【现代密码学】笔记5--伪随机置换(分组加密)《introduction to modern cryphtography》 写在最前面5 伪随机排列实践构造(块密码/分组密码) 写在最前面 主要在 哈工大密码学课程 张宇老师课件 的基础上学习记录笔记。 内容补充&…

Vue-15、Vue条件渲染

1、v-show 在Vue中&#xff0c;v-show是一个指令&#xff0c;用于根据表达式的值来控制元素的显示与隐藏。当指令的值为true时&#xff0c;元素显示&#xff1b;当指令的值为false时&#xff0c;元素隐藏。 v-show的用法如下&#xff1a; <!DOCTYPE html> <html lan…

新手做抖音小店如何选品?选什么样的品?这几点一定要记住

大家好&#xff0c;我是电商花花。 抖音小店如何选品&#xff1f;大家应该自己的选品方法和渠道&#xff0c;但是选品归根结底就是抓住用户的喜好&#xff0c;清楚他们想要什么样的商品&#xff0c;只有抓住用户的需求&#xff0c;客户才会买单&#xff0c;店铺才会出单。 所…

HTML 列表 iframe

文章目录 列表无序列表有序列表自定义列表 iframe 引入外部页面 列表 列表 是 装载 结构 , 样式 一致的 文字 或 图表 的容器 ; 列表 由于其 整齐 , 整洁 , 有序 的特征 , 类似于表格 , 但是其 组合的自由程度高于表格 , 经常用来进行布局 ; HTML 列表包括如下类型 : 无序列…

FASTQ 文件压缩格式有哪些?

FASTQ 文件压缩格式 .gz .bz2 .xz .rfq .rfq.xz FASTQ 文件是用于存储测序数据的一种格式&#xff0c;它包含了大量的文本信息&#xff0c;因此通常占用大量的存储空间。为了有效地处理和传输这些数据&#xff0c;通常需要对 FASTQ 文件进行压缩来节省存储空间及传输带宽。以下…

2024年软件测试五大趋势预测,软件测试服务商价值凸显

当今软件的高速发展对软件质量提出了更高的要求&#xff0c;而软件测试作为保证软件质量的关键环节&#xff0c;自然也成为业界关注的焦点。进入2024年&#xff0c;回顾中国软件测试的发展历程&#xff0c;我们不难发现中国市场日趋成熟&#xff0c;软件测试行业蓬勃发展&#…