我谈正态分布——正态偏态

目录

  • pdf和cdf
    • 参数
  • 标准正态分布
  • 期望和方差
  • 分布形态
  • 正态和偏态
    • 正态
    • 偏态
      • 瑞利分布
        • 偏度 (Skewness)
        • 峰度 (Kurtosis)
    • 比较

正态分布的英文是Normal Distribution,normal是“正常”或“标准”的意思,中文翻译是正态,多完美的翻译,正态对应偏态,正态是指分布曲线左右对称,偏度为零。正态分布的峰度也为0。

话说现在的翻译真让人受不了,比如那个multi-head attention。head还有body是按身体的部位命名的,那可能是语言习惯,就像描述像素邻域,他们用north, south, southeast这样描述,但是我们用上、下,右下描述,如果中文用北、南、东南这样描述是不是很奇怪,语言习惯不一样。

不会翻译还不如不翻了,那些翻译为头的人到底有脑子吗?很烦那种不说人话的翻译。

言归正传

正态分布(Normal Distribution),也被称为高斯分布(Gaussian Distribution),是一种重要的连续型概率分布。它在自然和社会科学的许多领域中都有广泛的应用。

pdf和cdf

正态分布的概率密度函数可以表示为:
f ( x ) = 1 σ 2 π e − 1 2 ( x − μ σ ) 2 f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2} f(x)=σ2π 1e21(σxμ)2
其中, x x x是随机变量的取值, μ \mu μ是均值, σ \sigma σ是标准差。记为 X ∼ N ( μ , σ 2 ) X\sim N(\mu, \sigma^2) XN(μ,σ2)

正态分布的图形是对称的,其形状像一个钟形曲线,均值(mean)、中位数(median)和众数(mode)都位于分布的中心点。数据集中在均值附近,随着离均值距离的增加,数据出现的概率迅速减少。

在这里插入图片描述

正态分布 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2)的分布函数为

F ( x ) = 1 2 π σ ∫ − ∞ x e − ( t − μ ) 2 2 σ 2 d t F(x) = \frac{1}{\sqrt{2\pi}\sigma} \int_{-\infty}^{x} e^{-\frac{(t-\mu)^2}{2\sigma^2}} dt F(x)=2π σ1xe2σ2(tμ)2dt

它是一条光滑上升的 S 形曲线。

在这里插入图片描述

参数

正态分布中的两个参数——均值 μ μ μ和标准差 σ σ σ如何影响正态分布图形的形状和位置。

  1. 如果固定 σ σ σ,改变 μ μ μ的值,则曲线沿 x 轴平移,而不改变其形状。也就是说正态密度函数的位置由参数 μ μ μ所确定,因此称 μ μ μ位置参数

  2. 如果固定 μ μ μ,改变 σ σ σ的值,则分布的位置不变,但 σ σ σ愈小,曲线呈高且窄,数据更加集中于均值周围; σ σ σ愈大,曲线呈低且宽,数据较为分散。也就是说正态密度函数的尺度由参数 σ σ σ所确定,因此称 σ σ σ尺度参数

总结,均值 μ μ μ决定分布的位置,而标准差 σ σ σ则决定了分布的宽度和数据的集中程度。

在这里插入图片描述

标准正态分布

设定随机变量 X X X服从正态分布 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2),并将其标准化为 U = X − μ σ U = \frac{X - \mu}{\sigma} U=σXμ,使得 U U U服从标准正态分布 N ( 0 , 1 ) N(0, 1) N(0,1)

对于标准正态分布(均值为0,标准差为1),概率密度函数为:
p ( z ) = 1 2 π e − z 2 2 p(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}} p(z)=2π 1e2z2
标准正态分布的累积分布函数:
Φ ( z ) = ∫ − ∞ z 1 2 π e − t 2 2   d t \Phi(z) = \int_{-\infty}^{z} \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}} \, dt Φ(z)=z2π 1e2t2dt

期望和方差

好巧不巧,正态分布的两个参数正好是均值和标准差。正态分布就是那么完美。

假设 U U U服从标准正态分布 N ( 0 , 1 ) N(0, 1) N(0,1)

  1. 均值的计算

    • 计算 U U U的期望值 E ( U ) E(U) E(U)
      E ( U ) = 1 2 π ∫ − ∞ ∞ u e − u 2 2 d u E(U) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} u e^{-\frac{u^2}{2}} du E(U)=2π 1ue2u2du
      由于被积函数是一个奇函数,其积分结果为零,即 E ( U ) = 0 E(U) = 0 E(U)=0
    • 因此,根据 X = μ + σ U X = \mu + \sigma U X=μ+σU,可以得出 X X X的期望值 E ( X ) E(X) E(X)
      E ( X ) = μ + σ × 0 = μ E(X) = \mu + \sigma \times 0 = \mu E(X)=μ+σ×0=μ
    • 结论:正态分布 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2)的均值为 μ \mu μ
  2. 方差的计算

    • 首先计算 U U U的方差 V a r ( U ) Var(U) Var(U)或者说是 U 2 U^2 U2的期望值 E ( U 2 ) E(U^2) E(U2)
      E ( U 2 ) = 1 2 π ∫ − ∞ ∞ u 2 e − u 2 2 d u E(U^2) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} u^2 e^{-\frac{u^2}{2}} du E(U2)=2π 1u2e2u2du
      利用分部积分法,最终得到 E ( U 2 ) = 1 E(U^2) = 1 E(U2)=1
    • 根据 X = μ + σ U X = \mu + \sigma U X=μ+σU,可以得出 X X X的方差 V a r ( X ) Var(X) Var(X)
      V a r ( X ) = V a r ( μ + σ U ) = σ 2 V a r ( U ) = σ 2 × 1 = σ 2 Var(X) = Var(\mu + \sigma U) = \sigma^2 Var(U) = \sigma^2 \times 1 = \sigma^2 Var(X)=Var(μ+σU)=σ2Var(U)=σ2×1=σ2
    • 结论:正态分布 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2)的方差为 σ 2 \sigma^2 σ2

注意: E ( X ) = μ E(X) = \mu E(X)=μ V a r ( X ) = σ 2 Var(X) = \sigma^2 Var(X)=σ2,均值 μ \mu μ和方差 σ 2 \sigma^2 σ2是正态分布的参数,只是在正态分布中正好等于期望和方差,而 E ( X ) E(X) E(X) V a r ( X ) Var(X) Var(X)是统计量,注意分区概念。有些刊物真是离谱了。
例如,Rafael Gonzalez的《数字图像处理》,此外这个 a a a也真多余。
在这里插入图片描述
和这个
在这里插入图片描述

分布形态

对于一个连续随机变量 X X X,其概率密度函数 f ( x ) f(x) f(x)描述了 X X X在某个特定值 x x x处的概率密度。需要注意的是, f ( x ) f(x) f(x)不直接表示概率,而是表示概率的密度。

对于任意区间 [ a , b ] [a, b] [a,b],随机变量 X X X落在这个区间内的概率可以通过计算该区间上的曲线下面积来得到。数学上,这可以通过积分来表示:
P ( a ≤ X ≤ b ) = ∫ a b f ( x )   d x P(a \leq X \leq b) = \int_{a}^{b} f(x) \, dx P(aXb)=abf(x)dx
要计算 X X X落在某个区间 [ a , b ] [a, b] [a,b]内的概率,可以使用正态分布的累积分布函数(CDF):
P ( a ≤ X ≤ b ) = Φ ( b ) − Φ ( a ) P(a \leq X \leq b) = \Phi(b) - \Phi(a) P(aXb)=Φ(b)Φ(a)
其中, Φ ( x ) \Phi(x) Φ(x)是正态分布的累积分布函数。

假设要计算标准正态分布中 Z Z Z落在 [ − 1 , 1 ] [-1, 1] [1,1]区间内的概率。

  1. 计算 Φ ( 1 ) \Phi(1) Φ(1)
    Φ ( 1 ) = ∫ − ∞ 1 1 2 π e − t 2 2   d t ≈ 0.8413 \Phi(1) = \int_{-\infty}^{1} \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}} \, dt \approx 0.8413 Φ(1)=12π 1e2t2dt0.8413

  2. 计算 Φ ( − 1 ) \Phi(-1) Φ(1)
    Φ ( − 1 ) = ∫ − ∞ − 1 1 2 π e − t 2 2   d t ≈ 0.1587 \Phi(-1) = \int_{-\infty}^{-1} \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}} \, dt \approx 0.1587 Φ(1)=12π 1e2t2dt0.1587

  3. 计算概率
    P ( − 1 ≤ Z ≤ 1 ) = Φ ( 1 ) − Φ ( − 1 ) = 0.8413 − 0.1587 = 0.6826 P(-1 \leq Z \leq 1) = \Phi(1) - \Phi(-1) = 0.8413 - 0.1587 = 0.6826 P(1Z1)=Φ(1)Φ(1)=0.84130.1587=0.6826

因此,标准正态分布中 Z Z Z落在 [ − 1 , 1 ] [-1, 1] [1,1]区间内的概率约为0.6826,即68.26%。

3 σ 3\sigma 3σ原则

  • 1 σ 1σ 1σ区间:大约68.27%的数据点位于平均值 μ μ μ的一个标准差 σ σ σ的范围内,即在 ( μ − σ , μ + σ ) (μ - σ, μ + σ) (μσ,μ+σ)之间。
    P ( μ − σ < X < μ + σ ) ≈ 0.6827 P(μ - σ < X < μ + σ) ≈ 0.6827 P(μσ<X<μ+σ)0.6827
  • 2 σ 2σ 2σ区间:大约95.45%的数据点位于平均值 μ μ μ的两个标准差 2 σ 2σ 2σ的范围内,即在 ( μ − 2 σ , μ + 2 σ ) (μ - 2σ, μ + 2σ) (μ2σ,μ+2σ)之间。
    P ( μ − 2 σ < X < μ + 2 σ ) ≈ 0.9545 P(μ - 2σ < X < μ + 2σ) ≈ 0.9545 P(μ2σ<X<μ+2σ)0.9545
  • 3 σ 3σ 3σ区间:大约99.73%的数据点位于平均值 μ μ μ的三个标准差 3 σ 3σ 3σ的范围内,即在 ( μ − 3 σ , μ + 3 σ ) (μ - 3σ, μ + 3σ) (μ3σ,μ+3σ)之间。
    P ( μ − 3 σ < X < μ + 3 σ ) ≈ 0.9973 P(μ - 3σ < X < μ + 3σ) ≈ 0.9973 P(μ3σ<X<μ+3σ)0.9973

正态分布的3σ原则指出,正态分布随机变量取值落在三倍标准差之外的概率非常小,大约是0.27%(即100% - 99.73%)。

  • 落在 μ ± 3 σ μ±3σ μ±3σ之外的概率为 1 − 0.9973 = 0.0027 1 - 0.9973 = 0.0027 10.9973=0.0027或者说约为0.27%。

在实际应用中,由于这个概率非常小,通常认为这样的事件几乎不会发生。因此,在很多情况下,可以将区间 ( μ − 3 σ , μ + 3 σ ) (μ - 3σ, μ + 3σ) (μ3σ,μ+3σ)视为正态分布随机变量的实际可能取值区间。这意味着在这个区间之外的值可以被视为异常值或者极端值。

这种处理方式简化了数据分析和决策制定的过程,尤其是在质量控制、过程改进等实际问题中, 3 σ 3σ 3σ原则提供了一种有效的方法来识别和处理异常数据点。这也就是所谓的正态分布的 3 σ 3σ 3σ原则。

normcdf(1)-normcdf(-1)
normcdf(2)-normcdf(-2)
normcdf(3)-normcdf(-3)

在这里插入图片描述

正态和偏态

正态

正态分布的曲线是左右对称的,其形状像一个钟形曲线,均值(mean)、中位数(median)和众数(mode)都位于分布的中心点。

偏态

偏态分布是指数据分布不是对称的,而是偏向一侧。偏态可以是正偏(右偏)或负偏(左偏)。

  • 当分布曲线的尾巴向右延伸时,称为正偏态;在正偏态分布中,大多数数据值集中在左侧,而右侧有较长的拖尾。
  • 当分布曲线的尾巴向左延伸时,称为负偏态。而在负偏态分布中,大多数数据值集中在右侧,左侧有较长的拖尾。

瑞利分布

看瑞利分布,我喜欢这个分布,并不知道什么用,就是喜欢它的流线型。

对于参数为 σ \sigma σ的瑞利分布,其概率密度函数 (PDF) 可以表示为:
f ( x ; σ ) = x σ 2 e − x 2 / ( 2 σ 2 ) , x ≥ 0 f(x;\sigma) = \frac{x}{\sigma^2} e^{-x^2/(2\sigma^2)}, \quad x \geq 0 f(x;σ)=σ2xex2/(2σ2),x0

其中, σ > 0 \sigma > 0 σ>0是尺度参数。

  • 均值(期望):
    E ( X ) = σ π 2 E(X) = \sigma \sqrt{\frac{\pi}{2}} E(X)=σ2π

  • 方差:
    V a r ( X ) = ( 4 − π ) σ 2 2 Var(X) = \left( 4 - \pi \right) \frac{\sigma^2}{2} Var(X)=(4π)2σ2

瑞利分布的均值和方差如何随着形状参数 σ \sigma σ的变化而变化。具体来说,当 σ \sigma σ增大时,均值和方差都会相应地增加。

偏度 (Skewness)

瑞利分布的偏度是正的,表明分布是右偏的。具体来说,偏度 γ 1 \gamma_1 γ1可以通过以下公式计算:
γ 1 = 2 π ( 4 − π 2 ) − 3 / 2 ≈ 0.6311 \gamma_1 = \sqrt{\frac{2}{\pi}} \left( \frac{4 - \pi}{2} \right)^{-3/2} \approx 0.6311 γ1=π2 (24π)3/20.6311

峰度 (Kurtosis)

峰度描述了分布的尖峭程度,对于瑞利分布,其峰度 β 2 \beta_2 β2可以表示为:
β 2 = ( 4 − π 2 ) − 2 ⋅ ( 3 − 6 π 4 − π + π 2 2 ) ≈ 3.245 \beta_2 = \left( \frac{4 - \pi}{2} \right)^{-2} \cdot \left( 3 - \frac{6\pi}{4 - \pi} + \frac{\pi^2}{2} \right) \approx 3.245 β2=(24π)2(34π6π+2π2)3.245

这里,峰度是指四阶标准化矩,而超峰度(excess kurtosis)则是指峰度减去3,因此瑞利分布的超量峰度为:
Excess Kurtosis = β 2 − 3 ≈ 0.245 \text{Excess Kurtosis} = \beta_2 - 3 \approx 0.245 Excess Kurtosis=β230.245

正态分布的偏度为0,峰度为3(超峰度为0),而瑞利分布的偏度为正值,峰度略大于3,这反映了它的分布形态特点。

在这里插入图片描述

比较

  • 对称性:正态分布是对称的,而偏态分布是非对称的。
  • 中心位置:在正态分布中,均值、中位数和众数都是相同的;而在偏态分布中,这三个统计量通常不同,且它们之间的关系可以用来判断偏态的方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/911734.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

jsp+servlet+mysql机票订票管理系统

jspsevletmysql机票订票管理系统 一、系统介绍二、功能展示1.机票查询2.选择航班3.填写乘客信息4.提交定单 四、其它1.其他系统实现 一、系统介绍 系统主要功能&#xff1a; 机票查询 1.航行类型 2.出发城市 3.到达城市 4.出发日期 5.返回日期 选择航班 1.航班信息 2.起飞时间…

【启程Golang之旅】一站式理解Go语言中的gRPC

在本文中将深入探讨如何使用Go语言构建基于gRPC的高效服务通信&#xff0c;无论你是刚刚接触gRPC还是已经有一定基础的开发者&#xff0c;这篇文章都将带你从理论到实践&#xff0c;全面理解如何借助Go和gRPC提升应用程序的性能与可维护性。 目录 初识gRPC gRPC基本使用 初识…

「QT」几何数据类 之 QMatrix4x4 4x4矩阵类

✨博客主页何曾参静谧的博客&#x1f4cc;文章专栏「QT」QT5程序设计&#x1f4da;全部专栏「VS」Visual Studio「C/C」C/C程序设计「UG/NX」BlockUI集合「Win」Windows程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「PK」Parasolid…

Pandas | 数据分析时将特定列转换为数字类型 float64 或 int64的方法

类型转换 传统方法astype使用value_counts统计通过apply替换并使用astype转换 pd.to_numericx对连续变量进行转化⭐参数&#xff1a;返回值&#xff1a;示例代码&#xff1a; isnull不会检查空字符串 数据准备 有一组数据信息如下&#xff0c;其中主要将TotalCharges、MonthlyC…

从0开始搭建一个生产级SpringBoot2.0.X项目(八)SpringBoot 使用Redis

前言 最近有个想法想整理一个内容比较完整springboot项目初始化Demo。 SpringBoot使用Redis 缓存数据 一、 pom引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-redis</artifactId>&…

stuid学生信息

文章目录 前端准备MySQL数据库封装JDBC 连接工具类 DBUtil查寻学生新增学生 前端准备 结构 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width,…

ssm071北京集联软件科技有限公司信息管理系统+jsp(论文+源码)_kaic

毕 业 设 计&#xff08;论 文&#xff09; 题目&#xff1a;北京集联软件科技有限公司信息管理系统 \ 摘 要 现代经济快节奏发展以及不断完善升级的信息化技术&#xff0c;让传统数据信息的管理升级为软件存储&#xff0c;归纳&#xff0c;集中处理数据信息的管理方式。本信息…

D62【python 接口自动化学习】- python基础之数据库

day62 SQL 基础 学习日期&#xff1a;20241108 学习目标&#xff1a;MySQL数据库-- 131 SQL基础和DDL 学习笔记&#xff1a; SQL的概述 SQL语言的分类 SQL的语法特征 DDL - 库管理 DDL - 表管理 总结 SQL是结构化查询语言&#xff0c;用于操作数据库&#xff0c;通用于绝大…

LongVU :Meta AI 的解锁长视频理解模型,利用自适应时空压缩技术彻底改变视频理解方式

Meta AI在视频理解方面取得了令人瞩目的里程碑式成就&#xff0c;推出了LongVU&#xff0c;这是一种开创性的模型&#xff0c;能够理解以前对人工智能系统来说具有挑战性的长视频。 研究论文 "LongVU&#xff1a;用于长视频语言理解的时空自适应压缩 "提出了一种革命…

golang分布式缓存项目 Day 1

注&#xff1a;该项目原作者&#xff1a;https://geektutu.com/post/geecache-day1.html。本文旨在记录本人做该项目时的一些疑惑解答以及部分的测试样例以便于本人复习。 LRU缓存淘汰策略 三种缓存淘汰策略 FIFO&#xff08;First In, First Out&#xff09;先进先出 原理&…

Axure设计之左右滚动组件教程(动态面板)

很多项目产品设计经常会遇到左右滚动的导航、图片展示、内容区域等&#xff0c;接下来我们用Axure来实现一下左右滚动的菜单导航。通过案例我们可以举一反三进行其他方式的滚动组件设计&#xff0c;如常见的上下滚动、翻页滚动等等。 一、效果展示&#xff1a; 1、点击“向左箭…

Rust项目结构

文章目录 一、module模块1.二进制文件的cargo项目2.库的cargo项目模块中使用crate关键字模块中使用super模块中结构体的访问规则模块中枚举的访问规则模块中use关键字不同模块定义了相同类型冲突解决办法使用pub use导出本模块的函数给外面模块引入外部依赖模块与子模块 小结3.…

分享:文本转换工具:PDF转图片,WORD转PDF,WORD转图片

前言 鉴于网上大多数在线转换工具要么需要收费&#xff0c;要么免费后但转换质量极差的情况&#xff0c;本人开发并提供了PDF转图片&#xff0c;WORD转PDF&#xff0c;WORD转图片等的文本转换工具。 地址 http://8.134.236.93/entry/login 账号 账号&#xff1a;STAR001&a…

【Linux探索学习】第十一弹——初识操作系统:冯诺依曼体系结构与操作系统的概念与定位

前言&#xff1a; 在学完我们前面的指令和工具之后&#xff0c;今天我们正式开启一个新的内容的学习——进程&#xff0c;在正式讲解进程之前&#xff0c;我们要先进入一些铺垫内容的学习&#xff0c;这就是我们今天要讲的冯诺依曼体系结构和操作系统的概念&#xff0c;下面我们…

Java:二维数组

目录 1. 二维数组的基础格式 1.1 二维数组变量的创建 —— 3种形式 1.2 二维数组的初始化 \1 动态初始化 \2 静态初始化 2. 二维数组的大小 和 内存分配 3. 二维数组的不规则初始化 4. 遍历二维数组 4.1 for循环 ​编辑 4.2 for-each循环 5. 二维数组 与 方法 5.1…

TVM计算图分割--分割方式

文章目录 TVM中的计算图分割方式1. Partition Pass2. dataflow_pattern3. 内置图分割接口4. Pipeline Executor5. BYOC框架6. UMA深度学习模型通常是用计算图来表示的。计算图是一种有向无环图,其中节点代表算子,表示一个操作,节点之间的边表示算子之间的数据依赖。计算图分…

RNA-seq 差异分析的点点滴滴(1)

引言 本系列[1])将开展全新的转录组分析专栏&#xff0c;主要针对使用DESeq2时可能出现的问题和方法进行展开。 为何使用未经标准化的计数数据&#xff1f; DESeq2 工具包在接收输入时&#xff0c;期望得到的是未经处理的原始计数数据&#xff0c;比如从 RNA-seq 或其他高通量测…

基于单片机的观赏类水草养殖智能控制系统的设计(论文+源码)

1总体设计 通过需求分析&#xff0c;本设计观赏类水草养殖智能控制系统的总体架构如图2.1所示&#xff0c;为系统总体设计框图。系统采用STM32单片机作为系统主控核心&#xff0c;利用DS18B20温度传感器、TDS传感器、CO2传感器、光敏传感器实现水草养殖环境中水温、CO2浓度、T…

中兴光猫修改SN,MAC,修改地区,异地注册,改桥接,路由拨号

前言 请先阅读上一篇博客获取到光猫超级密码电信光猫获取超级密码 电信光猫天翼网关4.0获取超级密码教程 四川电信光猫 中兴 F1855V2 ZXHN F1855V2 telent权限 实战 实测_天翼4.0光猫超级密码-CSDN博客 修改SN-修改地区&#xff0c;光猫异地注册&#xff0c;设置桥接模式&#…

基于卷积神经网络的农作物病虫害识别系统(pytorch框架,python源码)

更多图像分类、图像识别、目标检测等项目可从主页查看 功能演示&#xff1a; 基于卷积神经网络的农作物病虫害检测&#xff08;pytorch框架&#xff09;_哔哩哔哩_bilibili &#xff08;一&#xff09;简介 基于卷积神经网络的农作物病虫害识别系统是在pytorch框架下实现的…