深度学习中的高斯分布

1 高斯分布数学表达

1.1 什么是高斯分布

高斯分布(Gaussian Distribution)又称正态分布(Normal Distribution)。高斯分布是一种重要的模型,其广泛应用与连续型随机变量的分布中,在数据分析领域中高斯分布占有重要地位。高斯分布是一个非常常见的连续概率分布。由于中心极限定理(Central Limit Theorem)的广泛应用,高斯分布在统计学上非常重要。中心极限定理表明,由一组独立同分布,并且具有有限的数学期望和方差的随机变量X1,X2,X3,...Xn构成的平均随机变量Y近似的服从正态分布当n趋近于无穷。另外众多物理计量是由许多独立随机过程的和构成,因而往往也具有高斯分布。

高斯分布的概率密度函数曲线呈钟形,因此又经常称之为钟形曲线。即随机变量X服从一个为数学期望μ、方差为σ^2的高斯分布,记为N(μ,σ^2)。在高斯分布中,以数学期望μ表示钟型的中心位置(也即曲线的位置),而标准差(standard deviation)σ表征曲线的离散程度。

当数学期望为0(u=0),方差为1(σ=1)时,该分布为标准正态分布(standard normal distribution)。下图展示了几种不同类型的正态分布概率密度函数曲线。

1.2 关键概念

  • 概率函数:把事件概率表示成关于事件变量的函数

  • 概率分布函数:一个随机变量ξ取值小于某一数值x的概率,这概率是x的函数,称这种函数为随机变量ξ的分布函数,简称分布函数,记作F(x),即F(x)=P(ξ<x) (-∞<x<+∞),由它并可以决定随机变量落入任何范围内的概率。

  • 概率密度函数:

 概率密度等于变量在一个区间(事件的取值范围)的总的概率除以该段区间的长度。

概率密度函数是一个描述随机变量在某个确定的取值点附近的可能性的函数。 

1.3 一元高斯分布

若随机变量X服从均值为μ,方差为σ2的高斯分布,那么:

高斯分布的图形像钟一样,下图展示了一般正态分布的图形。其中 μ = 0 , σ = 1。

对于一个非标准的正态分布,可以由标准正态分布经过以下3步变换得到:

  • 将x向右移动u个单位

  • 将密度函数x轴延展sigma倍

  • 将函数密度图像y轴压缩σ倍

如果X服从分布,X ∼ N(μ, σ2),那么具有以下的性质:

1.4 多元高斯分布

1.4.1 独立多元高斯分布

  如果我们令:

  我们有:

  使用矩阵的形式来表示的话,则有:

  定义符号:

  变量代换可得:

下面以 x=[x_{1},x_{2}]为例,画出二元高斯分布在变量之间相互独立的图像:

由上图可以看出,当变量之间相互独立的时候:

  • 当协方差矩阵的特征值越小时,分布函数图像越高越尖。

  • 当协方差矩阵的特征值相等时,分布函数图像在X1,X2面上的投影是圆形的。当特征值不相等时,分布函数图像在X1,X2面上的投影是椭圆形的,X1,X2相互独立时,椭圆的长轴和短轴平行与坐标轴。且变量对应的特征值越大,该变量分布的范围越分散,在二元高斯分布中,对应特征值大的变量在函数投影图像中对应的是椭圆的长轴。高维的高斯分布情况可以按照这个规律进行推广。

1.4.2 多元相关变量高斯分布

当变量之间存在相关关系的时候,协方差矩阵不再是对角阵,而是一个对称的矩阵,矩阵的每个元素\sigma _{i,j}^{2}表示变量i,j的协方差。

从上面2个图像中可以看出,变量之间具有相关关系时,与变量之间相互独立最大的区别是,投影面的椭圆长短轴不再平行与坐标轴。如果我们将坐标轴X1,X2旋转一下,与椭圆的长短轴平行,如下图所示:

由独立变量的二元高斯分布知,那么在新的坐标系下, x_{1}^{'},x_{2}^{'}​是相互独立的。上述过程称作为去相关性,这也是经典的降维方法主成分分析PCA的基础。以下是新坐标系的求解和原坐标系上的点在新坐标系下的坐标数学表达。
根据协方差矩阵的特征方程求解协方差矩阵的单位正交特征向量(先求出特征向量,再进行正交化与单位化),

此时x_{1}^{'},x_{2}^{'}之间没有相关关系。

2 高斯分布在深度学习中的作用

2.1 高斯分布广泛使用的原因

高斯分布(也称为正态分布或钟形曲线)在深度学习中被广泛应用的原因有以下几个方面:

  • 中心极限定理:高斯分布具有重要的数学性质,其中最重要的是中心极限定理。该定理指出,对于大多数随机变量的和,其分布趋向于高斯分布。这意味着在实际问题中,许多现象可以通过高斯分布来近似描述。

  • 参数化灵活性:高斯分布具有两个重要参数,均值和标准差,可以通过这两个参数来灵活地调整分布的形状。这使得高斯分布能够适应不同数据集的特征,并具有较强的拟合能力。

  • 中心性和离散性度量:高斯分布在数学上具有对称性,其均值和中位数相等,这使得它成为测量数据集中心性的一种常用方法。此外,标准差作为高斯分布的度量,能够衡量数据的离散程度。

  • 最大似然估计:在概率统计中,最大似然估计是一种常用的参数估计方法。高斯分布的参数估计可以通过最大似然估计进行计算,这使得高斯分布的应用更为方便。

在实际意义上,高斯分布在自然界和社会现象中出现的频率很高。许多自然和社会现象具有随机性,并且可以用高斯分布来描述。例如,在测量误差、人口统计、金融市场波动等领域中,高斯分布都被广泛应用。

2.2 高斯分布的应用场景

高斯分布(也称为正态分布)在深度学习模型中扮演着多个重要角色。以下是一些主要的应用场景:

  • 参数初始化:在神经网络的训练开始时,通常需要对权重进行初始化。使用高斯分布(尤其是标准正态分布)来初始化权重可以帮助在训练初期避免激活函数的饱和,确保初始权重既不太大也不太小。

  • 正则化:在某些情况下,高斯分布被用作先验分布,加入到损失函数中作为正则化项。这种正则化(如 L2 正则化)可以帮助防止过拟合,通过对权重的大小进行约束。

  • 生成模型:在生成对抗网络(GANs)和变分自编码器(VAEs)等生成模型中,高斯分布常用于生成潜在空间中的随机噪声。这些噪声向量后续被用来生成数据(如图像)。

  • 概率建模:在许多概率深度学习模型中,高斯分布用于建模输出变量,尤其是在处理连续值(如回归问题)时。

  • 激活函数:尽管不太常见,但在某些特殊的网络结构中,可以使用高斯函数作为激活函数,以模拟特定的生物神经网络行为。

  • 不确定性估计:在贝叶斯神经网络中,权重和偏置被视为随机变量,通常使用高斯分布来描述它们的不确定性。这种方法可以提供模型预测的不确定性估计。

  • 特征提取:在某些图像处理技术中,例如高斯模糊,使用高斯分布作为权重核,可以帮助模型在训练过程中更好地提取图像特征。

高斯分布由于其数学属性和在自然界中的普遍性,成为深度学习中的一个重要工具。它在处理不确定性、正则化和概率建模方面尤为重要。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/245251.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

模型部署系列:10x速度提升,Yolov8检测模型稀疏化——CPU上超500FPS

YOLOv8由广受欢迎的YOLOv3和YOLOv5模型的作者 Ultralytics 开发&#xff0c;凭借其无锚设计将目标检测提升到了一个新的水平。YOLOv8 专为实际部署而设计&#xff0c;重点关注速度、延迟和经济性。 [1] 详细内容请参阅 MarkAI Blog [2] 更多资料及工程项目请关注 MarkAI Githu…

PyTorch 模型训练性能大揭秘:从基础到高级技巧一网打尽!

PyTorch 是一个开源的 Python 机器学习库&#xff0c;基于Torch&#xff0c;用于自然语言处理等应用程序。 PyTorch既可以看作加入了GPU支持的numpy&#xff0c;也可以看成一个拥有自动求导功能的强大的深度神经网络&#xff0c;同时它也是大模型开发的首选工具。 《PyTorch模…

Android开发的技术与开发流程

目录 引言 1. Android开发环境搭建 1. 安装Java Development Kit&#xff08;JDK&#xff09; 2. 安装Android Studio 3. 配置虚拟设备&#xff08;可选&#xff09; 4. 创建你的第一个Android项目 5. 连接实体设备&#xff08;可选&#xff09; 2. Android基础知识 1…

代码随想录第三十一天(一刷C语言)|无重叠区间划分字母区间合并区间

创作目的&#xff1a;为了方便自己后续复习重点&#xff0c;以及养成写博客的习惯。 一、无重叠区间 思路&#xff1a;参考carl文档 按照右边界排序&#xff0c;从左向右记录非交叉区间的个数。最后用区间总数减去非交叉区间的个数就是需要移除的区间个数了。 ledcode题目&a…

AntDB数据库参加ACDU中国行杭州站,分享数据库运维实践与经验

关于ACDU与中国行&#xff1a; ACDU是由墨天轮社区举办的中国数据库联盟的品牌活动之一&#xff0c;在线下汇集数据库领域的行业知名人士&#xff0c;共同探讨数据库前沿技术及其应用&#xff0c;促进行业发展和创新的平台&#xff0c;也为开发者们提供友好交流的机会。 AntD…

关于面试总结--接口测试面试题

前言 接口测试最近几年被炒的火热了&#xff0c;越来越多的测试同行意识到接口测试的重要性。接口测试为什么会如此重要呢&#xff1f; 主要是平常的功能点点点&#xff0c;大家水平都一样&#xff0c;是个人都能点&#xff0c;面试时候如果问你平常在公司怎么测试的&#xff…

大数据安全 | 【实验】Diffie-Hellman密钥交换算法

文章目录 &#x1f4da;关于DH密钥交换算法&#x1f4da;实验目的&#x1f4da;流程梳理&#x1f407;Step1&#xff1a;实现快速幂取模运算&#x1f407;Step2&#xff1a;根据算法原理分别定义公钥和共享密钥的计算&#x1f407;Step3&#xff1a;求解问题一&#x1f407;Ste…

Python (八)网络编程

程序员的公众号&#xff1a;源1024&#xff0c;获取更多资料&#xff0c;无加密无套路&#xff01; 最近整理了一份大厂面试资料《史上最全大厂面试题》&#xff0c;Springboot、微服务、算法、数据结构、Zookeeper、Mybatis、Dubbo、linux、Kafka、Elasticsearch、数据库等等 …

Peter算法小课堂—简单建模(2)

太戈编程736题 题目描述&#xff1a; 你是一只汪星人&#xff0c;地球毁灭后你回到了汪星&#xff0c;这里每天有n个小时&#xff0c;你需要为自己选择正好连续的m小时作为每天睡眠的时间。从凌晨开始&#xff0c;第i小时内的睡眠质量为xi&#xff0c;请问经过选择后&#xf…

边缘检测@获取labelme标注的json黑白图掩码mask

import cv2 as cv import numpy as np import json import os from PIL import Imagedef convertPolygonToMask(jsonfilePath):

Meta 开启 Ray-Ban人工智能眼镜多模态 AI 功能测试,可识别物体、翻译语言

Meta 公司宣布他们将向部分用户推送其 Meta Ray-Ban 智能眼镜的多模态 AI 功能。这项功能允许 AI 助手通过眼镜的摄像头和麦克风了解佩戴者所看到和听到的事物&#xff0c;并提供相关信息和帮助。 Meta CEO 马克・扎克伯格在 Instagram 上展示了这项功能&#xff0c;他让眼镜推…

Power BI - 5分钟学习增加条件列

每天5分钟&#xff0c;今天介绍Power BI增加条件列。 什么是增加条件列&#xff1f; 简单理解&#xff0c;可以根据表中某列设置一个或者多个条件&#xff0c;判定的结果会生成一个新列。 举例&#xff1a; 首先&#xff0c;导入一张【Sales】样例表(Excel数据源导入请参考每…

如何在Ubuntu的Linux系统上搭建nacos集群

官方给出的集群部署架构图 集群部署说明 (nacos.io)3个或3个以上nacos节点才能构成集群当前示例中包含3个nacos节点&#xff0c;同时一个负载均衡器代理3个nacos&#xff0c;本示例中负载均衡器可使用的是nginx 准备并安装好正常运行的nginx&#xff0c;本示例略准备并安装好正…

USB2.0 Spec 中文篇

体系简介 线缆 USB 是一种支持热拔插的高速串行传输总线&#xff0c;使用一对&#xff08;两根&#xff09;差分信号来传输数据&#xff0c;半双工。要求使用屏蔽双绞线。 供电 USB 支持 “总线供电” 和 “自供电” 两种供电模式。在总线供电方式下&#xff0c;设备最多可…

等保二级测评国家收费标准是多少?

随着信息化的快速发展&#xff0c;网络安全问题日益突出&#xff0c;等保测评作为网络安全领域的重要环节&#xff0c;越来越受到企业和政府的重视。然而&#xff0c;很多人在进行等保测评时&#xff0c;对于等保二级测评的费用标准并不清楚。本文将详细介绍等保二级测评的国家…

自动化测试基础篇:Selenium 框架设计(POM)

【导语】Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中&#xff0c;就像真正的用户在操作一样。本文介绍selenium的框架设计。 自动化测试框架 1.什么是自动化测试框架 简单来说&#xff0c;自动化测试框架就是由一些标准&#xff0c;协议&#…

一、win10+yolov8+anaconda环境部署

1、安装anaconda &#xff08;1&#xff09;打开aonconda下载地址&#xff1a;https://www.anaconda.com/download&#xff0c;点击download下载。 2、下载完成后&#xff0c;双击打开&#xff0c;点击Next&#xff0c;I Agree&#xff0c;选择just me&#xff1b; 3、勾选…

计算机组成原理-ATT格式vsIntel格式

文章目录 AT&T格式 vs lntel格式 x86汇编语言是lntel格式&#xff0c;还有一种汇编语言格式是AT&T AT&T格式 vs lntel格式 lntel格式中取主存地址内容未指明长度默认为32位&#xff0c;对应下图中第四行右边的指令 百分号 美元符号 小括号 可用于计算机结构体数组…

lwIP 细节之六:connected、sent、poll 回调函数是何时调用的

使用 lwIP 协议栈进行 TCP 裸机编程&#xff0c;其本质就是编写协议栈指定的各种回调函数。将你的应用逻辑封装成函数&#xff0c;注册到协议栈&#xff0c;在适当的时候&#xff0c;由协议栈自动调用&#xff0c;所以称为回调。 注&#xff1a;除非特别说明&#xff0c;以下内…

MATLAB 最小二乘空间直线拟合 (37)

MATLAB 最小二乘空间直线拟合 (37) 一、算法介绍二、算法实现1.代码一、算法介绍 对于空间中的这样一组点:大致呈直线分布,散乱分布在直线左右, 我们可采用最小二乘方法拟合直线,使用下面的代码可以得到图中的结果。(其中图片中的点解释和具体的实现代码如下所示) C++…