理解VAE,可视化

引言

本文主要摘抄自:Understanding Variational Autoencoders (VAEs), Joseph Rocca, Sep 24, 2019,同时会加一些自己的理解和对原文的解释。
关于数据生成,目前深度生成模型中主流的有:

  • 生成对抗网络——GANs,这是老牌了,研究的已经非常成熟。
  • 变分自编码器——VAEs,主在图像生成的时候主要用于风格转换。
  • Transformer,主要用于自然语言处理。
  • Diffusion Models,扩散模型,听说吊打GANs在图像生成领域。

本文的重点主要是介绍VAE的思想和一些相关的基础概念,在写这篇博客的时候同时也去加深自己的理解,希望能够帮助到有需要的人。简而言之,VAE是一种自动编码器,其编码分布在训练过程中被正则化,以确保其潜在空间具有良好的特性,从而使我们能够生成一些新数据。此外,“变分”一词来源于正则化与统计中的变分推断方法之间的密切关系。听不懂这些没关系,我们慢慢来,同时在阅读这篇文章的时候相信你是有一些深度学习基础的,否则你也不可能浏览这个知识点,所以默认你有一些基础知识,那我们开始吧。

什么是降维

我们首先了解一下降维的概念。在机器学习中,降维就是减少描述某些数据的特征数量。这个减少的过程要么就是"selection"——只有一部分已存在的特征被保留下来),要么就是"extraction"——从原有的特征中生成数量较少的新特征。

比如我们有一个包含许多狗狗的健康信息的数据集,其中每个狗狗都有很多特征,如年龄、体重、饮食习惯、运动量、心率、血压、毛色、单双眼皮等。每个狗狗的这些因素都可以看作是判断狗狗是否健康的一个特征。但是特征维度太多,直接分析会需要很多的计算资源,并且许多特征并不能反应狗狗的健康状态,比如“毛色”这是狗狗生来具有的,所以我们从中提取能够更直观或有效反应健康状态的特征,这就是降维。

首先,我们将从旧特征”产生“新特征”的过程称作编码(encoder),解码(decoder)是这一过程的反过程。降维相当于是数据的压缩,encoder 压缩数据(是从原始特征空间到编码空间的过程,也叫隐空间 latent space),decoder 解压。而隐空间的维度是低于原始空间的,这个压缩过程是有损的,也就意味着一部分信息在 encoding 过程中会丢失, 过程无法还原这些特征。过程如图1所示,X=d(e(x))是一种非常理想的数据编码解码过程,怎么说呢有点像你平时给一些文件打成压缩包,占用的存储空间变小了,然后解压的时候也能够原原本本的还原数据。 不过在VAE的应用场景中,这种情况很难实现,大多情况还是第二种x≠d(e(x))。
降维的过程

图1.降维的过程
其实降维的目的无非不是找到一组最佳的encoder,decoder,即能够保留最多信息的 encoder 和能产生最少重建误差(reconstruction error)的 decoder。

主成成分分析(Principal components analysis,PCA)

一说到降维,第一个想到的应该就是 PCA 了,我们简要回顾下 PCA。PCA通过以线性组合的方式,从 n d n_d nd个原始特征,构建 n e n_e ne 个相互独立的新特征,让原始数据在子空间上的映射与原始数据之间尽可能接近。可以通过图2来了解这个过程
在这里插入图片描述

图2.PCA降维的过程

首先原始数据集有A到E五个点在平面上,表示这些点的位置需要一个坐标(x,y),也就是每一个点都需要至少两个维度表示,即2个数值,5个点需要10个数值。如果我们将其映射到一条直线上(图中的黑线),即过点做黑线的垂线,交点就是映射的位置。经过这样的映射,表示这些点,我只需要给出这些点到原点(0,0)的长度即可,也就是图右侧表格中的Encoded列,这样表示这5个点只需要5个数值即可,相比原来的10个数值特征数量减少了一半。当然这个压缩过程是有损的,在decoding的时候无法准确的还原,图中黑色虚线长度就形象的表示了数据丢失的程度,长度越短丢失的信息越少。(吐槽,这条线的划分看着有点像SVM)

自编码器Autoencoders

autoencoders就是神经网络降低维度的手段,其整体思路非常简单,将encoder和decoder设置为神经网络即可,通过迭代优化来学习最佳的encoding-decoding组合。可以这么理解:给定一个RGB图片形状为(255,255,3),通过encoder这个图片变成了(25,25,1),通过decoder变成了(255,255,3),只需要计算最开始的图像矩阵和最终decoder生成的图像矩阵之间的loss,随后反向传播即可,这个过程就是网络学习图片本身的特征,encoder的(25,25,1)就是网络学习到的特征表示。
autoencoder

图3. autoencoder

可知,网络结构越复杂,autoencoder 越可以降低更多的维度,同时保持较低的重构损失。 直观地讲,如果我们的 encoder 和 decoder 具有足够的自由度,则可以将任何初始维数减小为 1。也确实,具有“无限能力”的 encoder 理论上可以将我们的 N 个初始数据编码为1、2、3,……N 个,并且对应的 decoder 也可以进行逆变换,而在此过程中不会造成任何损失。

但是,在我们应该注意两点。 首先,没有重建损失的降维通常要付出代价:隐空间中缺乏可解释和可利用的结构(缺乏正则化),其次,在大多数情况下,降维的最终目的不仅仅是减少数据的维数,而且要在减少维数的同时将数据结构信息的主要部分保留在简化的表征中。 由于这两个原因,必须根据降维的最终目的来仔细控制和调整隐空间的尺寸和 autoencoder 的“深度”(压缩的程度和质量)。
在这里插入图片描述

图3.不同降维程度损失的信息

怎么理解没有重建损失的降维通常要付出代价:隐空间中缺乏可解释和可利用的结构(缺乏正则化),观察图4如果我们将原始的数据压缩到只有一个维度,是否有”生命“即左边的部分。但是这样我们会丢失很多信息,比如是否有轮子,是否会飞,是否会发出声音。这样压缩过后的数据很难将其利用起来,或者说利用价值不大。比如在图像生成领域,如果压缩的过厉害像左边的部分一样,我想生成风格不同的车,可能给我生成了一个石头,因为同样是没有生命的,这当然是理想情况讨论了,现实中压缩这么极端的模型生成的数据可能就跟你家电视收不到信号时满屏的噪声点一样。如果退而求其次,压缩成右边的部分那么就可以保留更多的信息,使得隐空间所表达的信息更有意义,具有可解释性。

Autoencoders 在样本生成中的限制

我们考虑一个极端的情况,有一种强大的 autoencoders,强大到可以将任何 N 个初始训练数据映射到实数轴上(每个数据点都被编码为实数值),并且可以没有任何重建损失地 decode。在这种情况下,autoencoders 可以在没有信息损失的情况下进行 encode 和 decode(尽管隐空间的维数较低),这样会导致严重的过拟合,意味着一旦 decode,隐空间的某些点将给出无意义的内容。
在这里插入图片描述

图4.不规则的潜空间阻止我们使用自动编码器来生成新内容。

通过图4我们可以更直观的理解,正方形、圆形、三角形被编码到了实数轴上可以无损的被decoder还原出来,这很好。但是其它的点在被decoding后就变成了一些没有意义的点,这样的数据对我们来说没有意义是我们不想看到的。

我们要明确一点就是,encoder是将原来的高纬度数据比如可能是(x,y,z)三维空间的数据,映射到一个低纬度空间比如可能是实数轴一样的一个一维空间。这个一维空间有无数种表示(实数轴上有无数个数值),原来的高维数据是有限的只能映射到一部分的实数上面,那么其它的数字对于decoder来说就是没有意义的,在数据生成这个角度来说就是败笔,因为没有办法生成新的数据,你给什么数据我只能还原他,相当于就是一个压缩功能。我们想要的是你能够压缩,同时也能够生成的模型。

variational autoencoders

这时我们不妨换个思路,把映射到某个具体的点改为映射成某个分布,这样是不是就保证每个点都是有意义的,一个分布中有无数的数值,那么是不是就可以用有限的数据生成无限的数据,并且生成的数据与原来的类似,不会生成一些没有意义数据。(把这句话的数据改为图像,理解起来或许可以更形象一些)这其实就是变分自编码器的思想。

如何形象或者说更具体的理解这一过程呢——“将输入的数据 encode 为具有一定方差而不是单个点的分布”

在传统的神经网络中,输入数据通常被映射到一个确定性的输出,也就是说,给定相同的输入,神经网络总是产生相同的输出。而在变分自编码器中,我们希望将输入数据映射到一个潜在空间中的分布,而不是一个确定的点。因此,编码器的输出并不是一个具体的值,而是一个概率分布。假设潜在空间是一个二维的高斯分布,具有均值向量 μ μ μ和方差向量 σ 2 σ^2 σ2。编码器的输出将是这两个向量,表示了给定输入图像后,潜在空间中高斯分布的参数。例如,如果我们用 μ=[-0.5, 0.3] 和 σ^2=[0.1, 0.2] 来表示某个手写数字的编码器输出,这意味着编码器认为给定的输入图像对应的潜在表示的均值大概位于 (-0.5, 0.3),并且具有一定的方差,使得在这个位置周围有一定的分布。

思路其实和之前的映射一样,将每一个输入映射到不同的潜在分布。 好多人在这个地方理解的时候搞混了,人为输入图像都是映射到一个潜在分布里面的不同点,这是不对的。如果还是映射成点的话和之前映射到实数轴上就是同一个道理了。

注意: 每个输入图像的潜在分布通常都是不同的。这是因为每个输入图像在潜在空间中都有其自己的表示,因此对应的潜在分布也会不同。换句话说,不同的输入图像会被映射到潜在空间中不同的区域,因此它们对应的概率分布会有所不同。
在训练过程中,VAE会尝试学习如何将输入数据映射到潜在空间中的合适位置(也就是映射成某个分布),以便在潜在空间中能够更好地捕捉到数据的分布。因此,尽管每个输入图像的潜在分布都是不同的,但我们希望这些分布能够相互重叠(注意重叠不是重合),从而使得潜在空间中的相似图像对应的概率分布也是相似的,这有助于模型生成具有一定连续性的新样本。

在这里插入图片描述

图5. autoencoder与VAE之间的差异

可从图5观察到autoender与VAE之间的差异,autoencoder是将输入数据映射成一个特定的点,不同的是VAE将输入数据映射到潜在空间(也就是低维空间,这样好理解)的一个分布,随后在这个对应的分布里面采样将其decoding成重建数据。

VAE的主要过程主要分为一下四个步骤:

1. 将输入 encode 为在隐空间上的分布
2. 从该分布中采样隐空间中的一个点
3. 对采样点进行 decode 并计算出重建误差
4. 重建误差通过网络反向传播

在实际应用中,我们会选择正态分布作为 encoder 的分布,以便可以训练 encoder 返回描述这些高斯分布的均值和方差。(为什么用高斯分布?因为方便啊,你也可以映射成其它的分布,但是计算可能麻烦或者不便于表达,现实中很多的事物都符合高斯分布这也是一个理由,高斯分布在很多场景都得到应用)值得关注的是VAE的loss是什么,autoencoder的loss很好理解,只要计算decoding后的数据与原始数据之间的差异即可。但是VAE不可以,如果这样会造成过拟合无法生成新的数据,所以要加入正则化,也就是不要拟合的那么彻底,需要有一些误差。
在这里插入图片描述

图6. 在 VAE 中,损失函数由两项组成

第一项很明显就是希望重构后的数据和原始的数据尽可能的有一些相似,称作“重构项”。第二项希望映射到潜在空间的分布尽可能的接近正态分布,也就是将隐空间的正则化,不要映射成一个点,称作“正则化项”。第二项的是KL散度,用于描述两个分布近似程度的指标,取值为 [ 0 , ∞ ] [0,\infty] [0,],取值为0的时候两个分布相同。

潜在空间是否正则化有哪些影响呢,可以从下图直观的去感受这一不同。
在这里插入图片描述

图7.潜在空间是否正则化的不同

没有正则化的潜在空间,距离相近的点代表的意思可能完全不同,如左边部分,红色代表三角形,绿色代表正方形,这样差异很大不说,一些其他没有被编码到的点会被decoder解码成没有意义的数据。相反正则化之后,在潜在空间距离相近的点或者说在潜在空间中相似的分布被解码之后也应该具有一定的相似性。这样的隐空间比较好,所有的点我们都可以拿来生成数据,这是一个具有良好性质的潜在空间。

至此,VAE大概就这些内容,本文所说的都是形象的理解不涉及到复杂的数学公式,另外我感觉原文写的数学推理也不是很好连贯性不够,挖个坑到时候自己重新排版一下。以上内容主要还是以理解为主,准备过段时间上推理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/519065.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Python的第三方库】flask

1. Flask是什么? 基于python的web后端开发轻量级框架; 基于MVT设计模式即Models,Views,Templates(html模板语言) 2.中文文档: https://dormousehole.readthedocs.io/en/2.1.2/index.html 3.依赖3个库: Jinja2 模版&#xff1…

armlinux-外部中断

s3c2440的中断框图 如果我们单纯配置一个按键的外部中断,就不存在子中断与优先级的问题。 由于是按键的外部中断,通过引脚的高低电平来触发。所以我们要先配置引脚的功能。 我们使用按键1,终端源为EINT8,对应引脚GPG0 通过用户手…

物联网实战--入门篇之(八)嵌入式-空气净化器

目录 一、风扇调速 二、通讯协议 三、净化器运行逻辑 一、风扇调速 单片机是不能直接驱动电机的,因为主芯片的驱动电流比较小(50mA左右),他们之间正常还要有个电机驱动器,常用的有TB6612、L298和L9110等,目前项目用的这个电机它…

全国航空机场分布矢量数据/旅游景点poi/全国港口码头分布/地铁站分布/火车站分布/POI矢量数据

民用航空机场是指针对包括跑道型机场、表面直升机场、高架直升机场、船上直升机场、直升机水上平台、滑翔机场、水上机场、有人操纵气球施放场以及其他专供民用航空器起降的划定区域。民用航空机场分为通用航空机场和公共运输机场;不包括临时机场和专用机场。 根据中…

谷歌修复了安卓中的 28 个漏洞和 Pixel 设备中的 25 个错误

关注公众号: 网络研究观 获取更多信息 本周,谷歌工程师修复了Android 中的 28 个漏洞和 Pixel 设备中的 25 个错误,其中包括两个已经被利用的问题。 据报道,网络取证已利用 Google Pixel 0day 漏洞在没有 PIN 码的情况下解锁智能…

【附下载】2024全行业数字化转型企业建设解决方案PPT合集

精品推荐,2024全行业数字化转型企业建设解决方案PPT合集,精品PPT源格式共21份。 以下是资料目录,如需下载,请前往星球获取: 1.制造业数字化转型解决方案及应用.pptx 2.医院数字化网络解决方案.pptx 3.食品饮料工厂数字…

Vuex(vue 项目中实现 频繁、大范围数据共享的技术方案)

参考文档(点击查看) 好处 1.数据的存取一步到位,不需层层传递 2.数据的流动非常清晰 3.存储在Vuex中的数据都是响应式的(数据更新后,使用数据的组件都会自动更新) Vuex基础配置 npm i vuex3.6.2state中用来存储数据&#xff0c…

js中使let关键字报错,改用var关键字解决

js中使let关键字报错,改用var关键字解决 项目场景:问题描述原因分析:解决方案:总结 项目场景: 使用 let 关键字报错,报错信息为: Uncaught ReferenceError: maxNum is not defined at getMaxNum (4-3.htm…

专题三——二分算法

目录 原理 模板 朴素二分算法 非朴素二分算法 一二分查找 二在排序数组中查找元素的第一个和最后一个位置 三点名 四x的平方根 五搜索插入位置 六山脉数组的峰顶索引 七寻找峰值 八寻找旋转排序数组中的最小值 原理 定义两个指针:left指向数组第一个元…

Layui三级联动插件使用方法

Layui高版本中没有在提供三级联动这个动画了,而是封装成了一个插件,使用方式也很简单 官网 省市县区三级联动下拉选择器 layarea - Layui 第三方扩展组件平台 (layuion.com)https://dev.layuion.com/extend/layarea/#doc html页面约束 整个选择器需要…

【保姆级讲解如何安装与配置Node.js】

🎥博主:程序员不想YY啊 💫CSDN优质创作者,CSDN实力新星,CSDN博客专家 🤗点赞🎈收藏⭐再看💫养成习惯 ✨希望本文对您有所裨益,如有不足之处,欢迎在评论区提出…

HTML1:html基础

HTML 冯诺依曼体系结构 运算器 控制器 存储器 输入设备 输出设备 c/s(client客户端) 客户端架构软件 需要安装,更新麻烦,不跨平台 b/s(browser浏览器) 网页架构软件 无需安装,无需更新,可跨平台 浏览器 浏览器内核: 处理浏览器得到的各种资源 网页: 结构 HTML(超…

SRS 实时视频服务器搭建及使用

一、SRS 介绍 SRS是一个开源的(MIT协议)简单高效的实时视频服务器,支持RTMP、WebRTC、HLS、HTTP-FLV、SRT、MPEG-DASH和GB28181等协议。 SRS媒体服务器和FFmpeg、OBS、VLC、 WebRTC等客户端配合使用,提供流的接收和分发的能力&am…

【机器学习】机器学习创建算法第4篇:K-近邻算法,学习目标【附代码文档】

机器学习(算法篇)完整教程(附代码资料)主要内容讲述:机器学习算法课程定位、目标,K-近邻算法定位,目标,学习目标,1 什么是K-近邻算法,1 Scikit-learn工具介绍,2 K-近邻算法API。K-近邻算法,1.4 …

Java:接口应用(Clonable 接口和深拷贝)

目录 1.引例2.Object中clone方法的实现3.Cloneable接口讲解4.深拷贝和浅拷贝4.1浅拷贝4.2深拷贝 1.引例 Java 中内置了一些很有用的接口, Clonable 就是其中之一. Object 类中存在一个 clone 方法, 调用这个方法可以创建一个对象的 “拷贝”. 但是要想合法调用 clone 方法。必…

Qt | Qt 的重要文件简介(推荐)

一、项目文件(pro 文件)及其语法 1、项目文件(pro 文件)的作用是列举项目中的源文件, 2、pro 文件的语法形式为:“变量 操作符 值”,比如 QT += widgets,多个值之间使用空格分开。 3、pro 文件的注释:从“#”开始,直至本行结束。 4、pro 文件的操作符见下表 5、pro 文…

【美团笔试题汇总】2023-09-02-美团春秋招笔试题-三语言题解(CPP/Python/Java)

🍭 大家好这里是KK爱Coding ,一枚热爱算法的程序员 ✨ 本系列打算持续跟新美团近期的春秋招笔试题汇总~ 💻 ACM银牌🥈| 多次AK大厂笔试 | 编程一对一辅导 👏 感谢大家的订阅➕ 和 喜欢&#x1f…

使用 mitmproxy 抓包 grpc

昨天在本地执行 grpc 的 quick start(python版本的),我了解 grpc 内部使用的是 HTTP2,所以我就想着抓包来试试,下面就来记录一下这个过程中的探索。 注意:我的电脑上面安装了 Fiddler Classic,…

数据结构day2--双向链表

双向链表: 即可以从头遍历到尾部和从尾部遍历到头部的链表,每个结点包括两个链域:前驱指针域和后继指针域,所以比起单向链表,其可以在任意一个结点访问前后两个结点 关于双向链表的一个完整步骤为: 创建一个表头结构…

微软detours代码借鉴点备注

comeasy 借鉴点1 Loadlibray的时间选择 注入库wrotei.dll,为了获取istream的接口,需要loadlibrary,但是在dllmain中是不建议这样做的。因此,动态库在dllmain的时候直接挂载了comeasy.exe的入口 //获取入口 TrueEntryPoint (i…