数据并非都是正态分布:三种常见的统计分布及其应用

你有没有过这样的经历?使用一款减肥app,通过它的图表来监控自己的体重变化,并预测何时能达到理想体重。这款app预测我需要八年时间才能恢复到大学时的体重,这种不切实际的预测是因为应用使用了简单的线性模型来进行体重预测。这个模型将我所有过去的体重数据进行平均处理,然后绘制一条直线预测未来的体重变化。然而,体重减轻通常不会呈线性发展,使用更复杂的数学模型,如泊松回归,可能会更加贴近真实情况。

在探讨体重减轻的模型时,我们通常会遇到各种统计分布,其中最常见的是正态分布和泊松分布。正态分布,因其钟形的概率密度函数而广为人知,常用于描述自然现象中的随机变量,比如人的体重。它假设数据围绕一个中心值(平均值)对称分布,并且数据的分散程度(标准差)决定了分布的宽窄。

在处理计数数据,如一定时间内的体重变化次数时,泊松分布则显得更为合适。泊松分布用于描述在固定时间或空间内发生的独立事件的数量,适用于预测罕见事件。这在体重管理应用中尤为重要,因为体重的减少往往是非连续和间歇性的,可能受多种因素影响,如饮食、运动习惯等。

统计分布何来?

统计分布是统计推断领域的重要工具,它为数据分析和预测提供了基础。对非统计专业的学生,我通常用“数字平均下来是如何分布的”来定义分布。例如,正态分布中,大多数样本的平均值会相同。有些平均值会与“平均的平均值”相差极远,它们出现在分布的尾部。但大多数平均值会集中在中间,给分布一个钟形的形状。

根据数据的性质和所需的分析类型,会使用不同的分布。但是并不是所有的数据都符合正态分布。本文我们研究三种常见分布以及我们如何使用它们:正态分布、泊松分布和卡方分布。

正态分布

正态分布,也称为高斯分布,是统计学中使用最广泛的概率分布之一。这种分布以高斯的名字命名,最早在18世纪被描述。正态分布以其钟形曲线为特征,由两个参数定义:均值(平均值)和标准差。

正态分布用于数据倾向于围绕一个中心值聚集,且没有左右偏差的情况。它在心理学、金融和自然科学等多个领域都有应用。例如,一个大型人群中的智商分数、身高和血压测量值通常遵循正态分布。

你可能已经看到很多人使用它,比如听说过“按曲线打分”,这是学生们在课程中担心成绩时使用的术语。

假设你想描述你所在城市的胆固醇分布。你的城市有450,000名居民,但你只能测试1,000人。你抽取了1,000名居民的样本,并进行了血液测试。平均(均值)胆固醇为145毫克/分升,标准差为35毫克/分升。

你的样本看起来是这样的,胆固醇水平在X轴(水平方向),具有该水平的人数在Y轴(垂直方向)。

根据正态分布假设,你可以推断出城市中大约有26,118人(约5.8%)的胆固醇超过200毫克/分升。而超过200毫克/分升被认为是异常的,这样就可以为你的城市中需要治疗高胆固醇的人数做准备。

这个结果来自于一个样本中的1,000人,而无需对全城进行测试。正态分布可以用于模拟人群中某些疾病的传播。但你需要确保人群中的数据遵循正态分布。

形态:正态分布是一种连续分布,其图形呈现为著名的钟形曲线,对称且单峰,中心位于平均值(均值)。

参数:由两个参数决定——均值(μ)和标准差(σ),均值决定分布的中心位置,标准差决定分布的宽度即数据的波动范围。

应用:正态分布在自然和社会科学中极为常见,用于描述误差、衡量分数、身高、血压等自然现象和人类特征。

泊松分布

泊松分布是以法国数学家泊松的名字命名,于1837年引入。这种分布描述了在固定的时间或空间间隔内,给定数量的事件发生的概率,前提是这些事件以已知的恒定平均率独立发生。

这里我们讨论的是事件的计数,而不是像胆固醇水平那样从0到无穷大的数据测量。我们使用泊松分布来预测诸如城市中的预期谋杀案数量,或某一天急诊部的访问次数等。但是计数的独立性很重要,因为并不是所有事件都是独立的。

所以我们以一个城市的心脏病发作,并假设它们彼此独立为例。也就是说,我们不会有诸如天气或呼吸道疾病这样的混杂变量贯穿一座城市,所以不会将一个心脏病发作的概率与下一个心脏病发作的概率联系起来。

再次以450,000人为例,想模拟下个月的心脏病发作数量,我们这样做的目的是为紧急医疗服务和医院的人员、药品及医疗设备的可用性做好准备。所以使用过去30年的数据(360个月),计算出平均每月有10起心脏病发作。(再次强调,这是理论上的,只是假设,没有任何意义)

你的数据在图形上看起来是这样的:

根据这30年的数据,有95%的把握认为下个月将看到4到17起心脏病发作。如果低于或高于这个范围,就可能会有什么外在的因素施加了影响,比如大量人群开始使用一种新的抗心脏病药物,或一大群有高风险因素的人同时生病。(95%是按惯例,也可以根据分析找到任何认为合适的置信水平。)

如果使用正态分布进行这个分析,下个月的心脏病发作数量将在4.5到16.4之间。这与泊松分析的结果接近,这是因为中心极限定理。但是使用泊松分布对于罕见事件的计数数据总是更好。正态分布只有在你的数据是连续的(计数不是)、符合正态分布、独立且不罕见的情况下才有帮助;或者如果你想近似泊松分布的结果时才使用。

形态:泊松分布是一种离散分布,用于描述在固定时间或空间内发生的独立事件的次数。

参数:由一个参数 λ(事件发生的平均率)决定,λ越大,分布越平滑接近对称形态。

应用:泊松分布通常用于计数数据,如某时间段内发生的交通事故数、电话来电次数、某地区一定时间内的犯罪次数等。

卡方分布

卡尔·皮尔逊在1900年首次引入卡方分布。卡方分布通常用于独立性测试和拟合优度测试。它有助于确定分类变量之间是否存在显著的关联,或者样本是否符合预期的分布。

分类变量没有合理的顺序,如眼睛颜色。它可以是棕色、蓝色、绿色或其他。不是说蓝色必须在绿色之前,或棕色在蓝色之前。它们没有顺序。

在公共卫生研究中,卡方检验可用于检查吸烟状态(吸烟者与非吸烟者)与肺癌发病率之间的关系。通过应用卡方分布,研究人员可以确定这两个分类变量之间是否存在显著的关联。

假设有450名60岁的吸烟者和450名60岁的非吸烟者。查看他们的病历,在吸烟者中450人中有202人曾被诊断出肺癌。在非吸烟者中450人中有22人被诊断出肺癌。

仅仅用“肉眼”就可以看出那些吸烟的人患肺癌的风险更高:

但如果实际上吸烟者和非吸烟者之间的肺癌发病率没有差异,看到这些结果的概率是多少?你的结果有多大可能是错误的?这是p值。

这个数字非常小:0.00000000000000022

我们无法使用线性回归,因为这是分类数据。所以就需要进行逻辑回归,将吸烟和非吸烟编码为0和1;然后类似地对癌症和无癌症进行编码。计算给定吸烟状态的癌症几率。然后将这些几率转换为自然对数,将0和1的类别转换为更连续的分布。就可以预测给定吸烟状态的癌症对数几率,包括95%的置信区间等等。

对于简单地比较两个分类变量各有两个类别的情况(流行病学中的经典2x2表),上述的卡方独立性测试已经足够好。但是当你必须考虑其他因素,如社会经济状态、年龄或种族/性别时,使用逻辑回归更好。

形态:卡方分布是一种连续分布,形态不对称,其形状随自由度的增加而逐渐接近正态分布。

参数:由自由度(df)决定,自由度通常与样本大小或检验中涉及的类别数相关。

应用:卡方分布主要用于分类数据的假设检验,如检验两个分类变量之间是否独立(卡方独立性检验)或一个观测频数分布是否符合期望频数分布(拟合优度测试)。

线性回归时为什么要假设数据是正态分布的

在线性回归分析中,假设数据符合正态分布主要是为了便于进行统计推断,特别是关于回归参数(如斜率和截距)的假设检验和置信区间的计算。这种假设主要关注模型残差(误差项)的分布。以下是这一假设的几个关键原因和其统计意义:

1、中心极限定理

中心极限定理指出,大量独立同分布的随机变量之和趋于正态分布,不论原始变量的分布如何。在线性回归中,如果样本量足够大,即使残差不是完美的正态分布,估计的参数的分布也会接近正态分布。这使得正态分布的假设在实际应用中更具弹性。

2、统计推断的简便性

正态分布假设简化了许多统计推断任务。例如,如果残差是正态分布的,那么回归系数的抽样分布也将是正态的。这使得使用标准的t检验和F检验来评估模型参数的显著性成为可能,因为这些测试依赖于正态性假设来推导其概率分布。

3、最小化估计误差

正态分布假设支持最小二乘法(OLS)估计的有效性。当残差正态分布时,OLS估计器是“最佳”的线性无偏估计器(BLUE),这意味着在所有线性无偏估计中,它具有最小的方差。

4、处理异常值

正态分布的假设有助于识别异常值。在正态分布的假设下,大多数数据点应聚集在均值周围,只有少数数据点会落在分布的尾部。如果观察到的残差远离预期的正态分布,这可能表明模型中存在异常值或模型设定错误。

5、置信区间和预测

正态分布的假设允许构建围绕回归线的置信区间和预测区间。这些区间为基于模型的预测提供了可靠性度量,使得我们可以估计模型预测的不确定性。

尽管正态分布的假设为线性回归提供了许多统计上的便利,但在实际应用中,数据可能不总是遵循这一假设。因此,进行适当的诊断检查是重要的,例如检查残差图来评估正态性、独立性和方差齐性(同方差性)。如果发现违背这些假设的证据,可能需要使用更复杂的统计模型或变换数据来适应更适合数据的模型,比如泊松回归。

总结

我们介绍了3个常见的分布,下面是它们的一些核心区别:

  • 数据类型:正态分布用于连续数据,泊松分布用于计数数据,卡方分布用于分类数据的分析。
  • 分布形态:正态分布是对称的,泊松分布和卡方分布通常是不对称的。泊松分布的偏斜度依赖于参数 λ,卡方分布的偏斜度依赖于自由度。
  • 应用场景:正态分布用于模型连续变量的自然现象,泊松分布适用于事件的计数模型,卡方分布适用于进行分类数据的统计检验。

应用场景:

正态分布是统计学中最为人熟知的分布之一,通常用于描述自然和社会科学中的现象,如人类的身高、血压、考试成绩,以及工程产品的尺寸等。它的特点是数据在均值周围对称分布,形成著名的钟形曲线。由于中心极限定理,即使原始数据不符合正态分布,大量独立随机变量的平均值也会趋近于正态分布,这使得正态分布在金融模型中也广泛应用于描述例如股票回报率等。

泊松分布用于描述特定时间或空间内发生的离散事件次数,如电话呼入次数、网站点击量或某病种的发病率。这种分布适用于事件独立随机发生,且平均发生率相对稳定的情况。例如,在交通领域,泊松分布可以用来预测一定时间内通过某一点的车辆数。

卡方分布则主要用于分类数据的统计测试,如拟合优度测试和独立性测试。这使得卡方分布在社会科学研究中尤为重要,用于分析不同人群间的行为或特征的差异。例如,卡方分布可以用来检验吸烟与肺癌之间的关联性,或者分析不同广告对不同性别观众的影响是否存在显著差异。

https://avoid.overfit.cn/post/b077cb768e8e4f869f543d832deb7365

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/692830.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C++ list链表的使用和简单模拟实现

目录 前言 1. list的简介 2.list讲解和模拟实现 2.1 默认构造函数和push_back函数 2.2 迭代器实现 2.2.1 非const正向迭代器 2.2.2 const正向迭代器 2.2.3 反向迭代器 2.3 插入删除函数 2.3.1 insert和erase 2.3.2 push_back pop_back push_front pop_front 2.4 构…

LLVM Cpu0 新后端3

想好好熟悉一下llvm开发一个新后端都要干什么,于是参考了老师的系列文章: LLVM 后端实践笔记 代码在这里(还没来得及准备,先用网盘暂存一下): 链接: https://pan.baidu.com/s/1V_tZkt9uvxo5bnUufhMQ_Q?…

173.二叉树:找树左下角的值(力扣)

代码解决 /*** Definition for a binary tree node.* struct TreeNode {* int val;* TreeNode *left;* TreeNode *right;* TreeNode() : val(0), left(nullptr), right(nullptr) {}* TreeNode(int x) : val(x), left(nullptr, right(nullptr) {}* Tree…

强!推荐一款开源接口自动化测试平台:AutoMeter-API !

在当今软件开发的快速迭代中,接口自动化测试已成为确保代码质量和服务稳定性的关键步骤。 随着微服务架构和分布式系统的广泛应用,对接口自动化测试平台的需求也日益增长。 今天,我将为大家推荐一款强大的开源接口自动化测试平台: AutoMete…

【中国开源生态再添一员】天工AI开源自家的Skywork

刚刚看到《AI高考作文出圈,网友票选天工AI居首》,没想到在Huggingface中发现了Skywork大模型。天工大模型由昆仑万维自研,是国内首个对标ChatGPT的双千亿级大语言模型,天工大模型通过自然语言与用户进行问答式交互,AI生…

用c语言实现通讯录

目录 静态简易通讯录 代码: 功能模块展示: 设计思路: 动态简易通讯录(本质顺序表) 代码: 扩容模块展示: 设计思路: 文件版本通讯录 代码: 文件模块展示&#x…

突破网络屏障:掌握FRP内网穿透技术

1.FRP介绍 1.frp是什么 frp 是一款高性能的反向代理应用,专注于内网穿透。它支持多种协议,包括 TCP、UDP、HTTP、HTTPS 等,并且具备 P2P 通信功能。使用 frp,您可以安全、便捷地将内网服务暴露到公网,通过拥有公网 I…

【C++ STL】模拟实现 string

标题:【C :: STL】手撕 STL _string 水墨不写bug (图片来源于网络) C标准模板库(STL)中的string是一个可变长的字符序列,它提供了一系列操作字符串的方法和功能。 本篇文章,我们将模拟实现STL的…

【机器学习】消息传递神经网络(MPNN)在分子预测领域的医学应用

1. 引言 1.1. 分子性质预测概述 分子性质预测是计算机辅助药物发现流程中至关重要的任务之一,它在许多下游应用如药物筛选和药物设计中发挥着核心作用: 1.1.1. 目的与重要性: 分子性质预测旨在通过分子内部信息(如原子坐标、原…

汇总 |国内外医疗器械网络安全法规与标准

国内外关于医疗器械网络安全的法规和标准日益完善,旨在确保医疗器械在全生命周期内的网络安全,保障患者信息的安全和隐私,以及医疗器械的正常运行。不同国家和地区的法规和标准各有侧重,但都强调了医疗器械制造商、开发者、经营者…

contos7使用docker安装vulhub

contos7下使用docker安装vulhub 1. 安装docker 1. 更新yum (1)切换root用户 su root (2)更新yum yum update 2. 卸载旧版本的docker sudo yum remove docker sudo yum remove docker-client sudo yum remove docker-clien…

反AI浪潮中的新机遇:Cara艺术社区异军突起

近日,一个名为Cara的艺术社区在网络上迅速走红,其独特的反AI定位吸引了大量创意人士。在AI技术日益普及的今天,Cara社区反其道而行之,致力于打造一个无AI侵害的创作和交流环境。这一创新模式不仅赢得了艺术家的青睐,也为国内创业者提供了新的思考角度。 一、精准定位,守…

Linux shell编程基础

Shell 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。Shell 是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问 Linux 内核的服务。 Shell 脚本&#x…

Elasticsearch中各种query的适用场景

Elasticsearch 提供了丰富的 Query 类型,以满足各种搜索需求。以下列举一些常见的 Query 类型,并分析其区别和应用场景: 一、 几个常用的基本Query 1. Term Query 应用场景: 查找包含特定词语的文档,适合精确匹配单个词语的场景…

【C++第九课 - vector】vector介绍、vector使用,vector的底层实现、杨辉三角、全排列、只出现一次的数字

目录 一、vector的介绍二、vector的使用1、vector的构造函数2、vector的插入和三种遍历方式3、开空间4、insert5、find6、erase补充 三、vector的底层实现1、成员变量2、构造函数3、push_back4、访问方式5、pop_back6、insert - pos位置插入x7、resize8、拷贝构造9、赋值10、er…

【第13章】SpringBoot实战篇之项目部署

文章目录 前言一、准备1. 引入插件2. 打包3. 启动4. 后台启动 二、跳过测试模块三、外置配置文件1.引入插件2.忽略配置文件3. 外置配置文件 总结 前言 项目部署需要把项目部署到Linux服务器上,SpringBoot项目通过Maven打包即可快速生成可运行Jar包程序。 一、准备 …

每日一题——Python实现PAT乙级1042 字符统计(举一反三+思想解读+逐步优化)

一个认为一切根源都是“自己不够强”的INTJ 个人主页:用哲学编程-CSDN博客专栏:每日一题——举一反三Python编程学习Python内置函数 Python-3.12.0文档解读 目录 我的写法 优点 缺点和改进建议 时间复杂度分析 空间复杂度分析 改进后的代码 我…

【Androi】安卓发展历程详解

人不走空 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌赋:斯是陋室,惟吾德馨 目录 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌…

轻NAS玩客云使用Docker部署小雅并挂载到AList详细流程分享

文章目录 前言1. 本地部署AList2. AList挂载网盘3. 部署小雅alist3.1 Token获取3.2 部署小雅3.3 挂载小雅alist到AList中 4. Cpolar内网穿透安装5. 创建公网地址6. 配置固定公网地址 前言 本文主要介绍如何在安装了CasaOS的玩客云主机中部署小雅AList,并在AList中挂…

YOLOv8_obb的训练、验证、预测及导出[旋转目标检测实践篇]

1.旋转目标检测数据集划分和配置 从上面得到的images和labels数据还不能够直接训练,需要按照一定的比例划分训练集和验证集,并按照下面的结构来存放数据,划分代码如下所示,该部分内容和YOLOv8的训练、验证、预测及导出[目标检测实践篇]_yolov8训练测试验证-CSDN博客是重复的…