数据描述的统计量解释-上

目录

一.导读

二.介绍 

①算数平均数

②几何平均数

③标准差

④变异系数

⑤分位数

⑥方差

三.结尾


一.导读

在讲到数据描述的时候,我们提及了数据集中位置、离散程度、偏度和峰度以及单个数据变量的分布情况。而在这些当中,我们遇到了一些统计量的概念问题,有一些使我们数学统计学接触过的,有一些是我们不懂的,那么这一篇就是为了给大家对这些统计量进行解释。

另外,代码的具体使用在这两篇文章当中已有说明: 

数据探索与可视化:数据描述-上-CSDN博客

数据探索与可视化:数据描述-下-CSDN博客

二.介绍 

对于众数、中位数、极差简单概念这里不再过多强调,下面开始来介绍。 

①算数平均数

 {\mu} =1/n\times(X1+X2+X3+...+Xn)=1/n\times\sum_{i=1}^{n}xi

②几何平均数

G=\sqrt[n]{X1+X2+X3+...+Xn}=\sqrt[n]{\prod_{i=1}^{n}Xi}

几何平均值具有平滑化数据的特性,尤其对那些包含指数性增长或减少的数据集非常有用。与算术平均值相比,几何平均值更加关注相对变化,对异常值的影响较小。这使得它在处理百分比变化或比率时更为合适。 

值得注意的是:几何平均数在数学上是小于等于算数平均数的,这里大家自行去证明,我给出一定的提示:有根号的话,通过等式两边取对数进行,n则会变为分母,接着使用对数的变化规则进行化简,最后我们得到这么一个式子:

1/k(lnX1+lnX2+...+lnXk)\leqslant ln((X1+X2+...+Xk)/k)

令f(x)=ln(x)在其定义域为凸函数,根据Jensen不等式即可证明。

注意:当统计量或模型对于异常值敏感时,意味着这些异常值可能会显著地影响统计量的计算结果或模型的预测能力。这是因为:如果数据集中存在一个极端异常值,它可能会严重偏离整体数据的中心趋势,导致平均值不再准确地代表数据的集中趋势。

③标准差

标准差是一种用于衡量数据集中数值分散程度的统计量。它表示数据集中各个数据点相对于平均值的平均偏离程度。标准差越大,表示数据的离散程度越高;标准差越小,表示数据的离散程度越低。

 \sigma = \sqrt{\frac{\sum_{i=1}^{n} (Xi - \mu)^2}{n}}

④变异系数

变异系数(Coefficient of Variation,简称CV)是用于衡量数据相对于其均值的相对离散程度的统计量。它是标准差与均值之比,通常以百分比形式表示。变异系数提供了一种在不同尺度和单位的数据集之间比较离散程度的方法,较小的变异系数表明数据相对较集中,而较大的变异系数表示数据相对较分散。

例如,如果你要比较两个产品的质量变异,其中一个产品的质量以克为单位,另一个以千克为单位,使用标准差可能会使比较变得困难。但是,通过使用变异系数,你可以摆脱单位的束缚,更好地比较两者的相对离散程度。

需要注意的是,变异系数要求均值不等于零,因为在零均值的情况下,分母为零,计算变异系数将没有意义。

CV = \left( \frac{\sigma}{\mu} \right) \times 100\%

⑤分位数

分位数是统计学中用于将数据集划分为若干等分的值。分位数提供了一个描述数据分布的方式,通过将数据集划分为不同的部分,可以更好地理解数据的中心趋势离散程度

  1. 中位数(二分之一分位数): 将数据集按大小排序,中间的值即为中位数。如果数据集有偶数个数据点,中位数是中间两个数的平均值。

  2. 下四分位数(第一四分位数): 将数据集的下半部分(25%至50%)排序,下四分位数是这部分数据的中位数。

  3. 上四分位数(第三四分位数): 将数据集的上半部分(50%至75%)排序,上四分位数是这部分数据的中位数。

  4. 百分位数: 除了中位数、四分位数外,还可以计算其他百分位数,比如第(p)个百分位数,表示将数据集分成(p%)和((100-p%))两个部分的值。例如,第90百分位数是将数据集分成90%和10%两个部分的值。

分位数的应用包括描述数据的整体分布,检测异常值,以及进行盒图(box plot)等可视化分析。盒图通常用于直观地显示数据的中位数、四分位数和异常值。

⑥方差

方差是描述数据分布离散程度的一种统计量。它衡量了数据集中各个数据点与数据集均值之间的差异程度。更具体地说,方差是各个数据点与数据集均值之间差值的平方的平均值。

方差的值越大,表示数据点之间的差异越大,数据分布越分散;方差的值越小,表示数据点之间的差异越小,数据分布越集中。

方差在统计学和数据分析中有着广泛的应用,它能够帮助我们理解数据的分布情况,评估数据的稳定性和可靠性,以及进行假设检验等。然而,方差也有一些局限性,特别是对于异常值敏感,因此在某些情况下,为了更好地描述数据分布的形态,可能需要结合其他统计量进行分析。

 公式如下:

\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2

三.结尾

在下篇,我们将对其他统计量具体介绍帮助大家较好的去理解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/371012.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

机器学习系列——(十)支持向量机

一、背景 支持向量机(Support Vector Machine,SVM)是一种用于分类、回归和离群点检测等领域的监督学习方法。它最初由Vapnik和Cortes在1995年提出,被认为是机器学习领域中最成功的算法之一。 二、原理 2.1 线性SVM 我们先从最简…

openssl3.2 - use openssl cmd create ca and p12

文章目录 openssl3.2 - use openssl cmd create ca and p12概述笔记实验的openssl环境建立CA生成私钥和证书请求生成CA证书用CA签发应用证书用CA对应用证书进行签名将已经签名好的PEM证书封装为P12证书验证P12证书是否可用END openssl3.2 - use openssl cmd create ca and p12 …

Kafka系列(二)将消息数据写入Kafka系统--生产者【异步发送、同步发送、单线程发送、多线程发送、配置生产者属性、自定义序列化、自定义主题分区】

Kafka系列 发送消息到 Kafka 主题了解异步模式了解同步模式线程发送消息的步骤生产者用单线程发送消息生产者用多线程发送消息 配置生产者属性保存对象的各个属性一序列化序列化一个对象序列化对象的存储格式自己实现 序列化的步骤1. 创建序列化对象2. 编写序列化工具类3. 编写…

企业级大数据安全架构(九)FreeIPA管理员密码忘记后如何修改

作者:楼高 1重置Directory Server管理员密码 1.1停止directory server服务 [rootipa schema]# start-dirsrv HDP-HADOOP 如果你不知道你的实例名,可以通过如下方式获取 1.2生成一个新的HASH密码 停止服务后使用pwdhash命令生成一个新的HASH密码 [r…

HashMap的put和get流程

一、put流程图 首先进行哈希值的扰动,获取一个新的哈希值。(key null) ? 0 : (h key.hashCode()) ^ (h >>> 16); 判断tab是否位空或者长度为0,如果是则进行扩容操作。 if ((tab table) null || (n tab.length) 0)n (tab resize()).l…

JAVASE进阶:Collection高级(2)——源码剖析ArrayList、LinkedList、迭代器

👨‍🎓作者简介:一位大四、研0学生,正在努力准备大四暑假的实习 🌌上期文章:JAVASE进阶:Collection高级(1)——源码分析contains方法、lambda遍历集合 📚订阅…

Java学习-内部类

内部类概述 1.成员内部类 注意: 2.静态内部类 3.局部内部类(看看就行) 4.匿名内部类 应用场景:通常作为一个参数传给方法 Eg.小猫和小狗都参加游泳比赛

图解支付-金融级密钥管理系统:构建支付系统的安全基石

经常在网上看到某某公司几千万的个人敏感信息被泄露,这要是放在持牌的支付公司,可能就是一个非常大的麻烦,不但会失去用户的信任,而且可能会被吊销牌照。而现实情况是很多公司的技术研发人员并没有足够深的安全架构经验来设计一套…

使用WPS制作三线表

点击边框和底纹点击1、2、3、4并且应用于表格点击确定 再次选中表格点击右键表格属性选择边框和底纹 选中表格第一行右键点击表格属性选择边框和底纹 如果表格中存在虚线

用户访问一个购物网站时TCP/IP五层参考模型中每一层的功能

当用户访问一个购物网站时,网络上的每一层都会涉及不同的协议,具体网络模型如下图所示。 以下是每个网络层及其相关的协议示例: 物理层:负责将比特流传输到物理媒介上,例如电缆或无线信号。所以在物理层,可…

调用其他数据库,事务回滚

1、定时 JDBC 的事务 2、事务提交 3、事务回滚 样例 Transactional(propagation Propagation.REQUIRES_NEW)RequestMapping(value "/ix_work_order", method RequestMethod.POST, consumes MediaType.APPLICATION_JSON_VALUE,produces MediaType.APPLICATION_…

spring boot3x登录开发-上(整合jwt)

⛰️个人主页: 蒾酒 🔥系列专栏:《spring boot实战》 🌊山高路远,行路漫漫,终有归途。 目录 前置条件 jwt简介 导依赖 编写jwt工具类 1.配置项直接嵌入代码,通过类名.静态方法使用 2.配置项写到…

大数据 - Spark系列《三》- 加载各种数据源创建RDD

Spark系列文章: 大数据 - Spark系列《一》- 从Hadoop到Spark:大数据计算引擎的演进-CSDN博客 大数据 - Spark系列《二》- 关于Spark在Idea中的一些常用配置-CSDN博客 目录 3.1🧀加载文件(本地) 1. 加载本地文件路径 🌮使用te…

让IIS支持SSE (Server Sent Events)

本文只探讨IISPython网站的情况,对于asp.net也应该不用这么麻烦。 先上结论:用反向代理: IIS URL Rewrite waitress Waitress是一个纯python编写独立的WSGI服务器,功能比Gunicorn弱一些,但可以运行在windows平台上&…

基于springboot智慧养老平台源码和论文

首先,论文一开始便是清楚的论述了系统的研究内容。其次,剖析系统需求分析,弄明白“做什么”,分析包括业务分析和业务流程的分析以及用例分析,更进一步明确系统的需求。然后在明白了系统的需求基础上需要进一步地设计系统,主要包罗软件架构模式、整体功能模块、数据库设计。本项…

牛客周赛 Round 31

D. 思路&#xff1a;使用map构造两个链表。 #include <bits/stdc.h> using namespace std;map<int,int> l,r; int main() {int q;cin>>q;int op-1e9-1;int ed1e91;r[op]ed;l[ed]op;while(q--){int a;cin>>a;if(a1){int x,y;cin>>x>>y;int…

echarts使用之饼图(四)

1 基本使用 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><meta http-equiv"X-UA-Compatible" cont…

【Elasticsearch】从入门到精通

目前java常见的针对大数据存储的方案并不多&#xff0c;常见的就是mysql的分库分表、es存储 这里偏向es存储方案&#xff0c;es不同的版本之间其实差异还挺大的&#xff0c;本篇博文版本Elasticsearch 7.14.0 Springboot整合Easy-Es Easy-Es官方文档 Elasticsearch的初步认识 …

【MATLAB源码-第135期】基于matlab的变色龙群优化算法CSA)机器人栅格路径规划,输出做短路径图和适应度曲线。

操作环境&#xff1a; MATLAB 2022a 1、算法描述 变色龙群优化算法&#xff08;Chameleon Swarm Algorithm&#xff0c;CSA&#xff09;是一种新颖的群体智能优化算法&#xff0c;受到自然界中变色龙捕食和社交行为的启发。变色龙以其独特的适应能力而著称&#xff0c;能够根…

【vue3学习P5-P10】vue3语法;vue响应式实现

0、vue2和vue3对比 框架版本API方式双向绑定原理domFragmentsTree-Shakingvue2选项式API&#xff08;Options API&#xff09;基于Object.defineProperty&#xff08;监听&#xff09;实现&#xff0c;不能双向绑定对象类型的数据【通过Object.defineProperty里面的set和get做…