数据分析之统计学基础

数据分析是现代企业和科研中不可或缺的一部分,而统计学是数据分析的基石。在本篇博客中,我们将介绍统计学的基础知识,涵盖数据类型、描述性统计(集中趋势、离散程度和偏差程度),并通过代码实例加以说明。

一、数据三大类型

在统计分析中,数据通常分为三大类型:分类数据、顺序数据和数值数据。

1. 分类数据

分类数据是指那些可以分为不同类别的数据,但这些类别之间没有内在顺序。例如:性别(男、女)、颜色(红、绿、蓝)。

2. 顺序数据

顺序数据是指可以排序的数据,但不同类别之间的差异不能被量化。例如:评级(好、中、差),满意度(非常满意、满意、不满意)。

3. 数值数据

数值数据是指可以量化并具有明确意义的数字数据。这类数据可以进一步分为离散数据(如人口数量)和连续数据(如身高、体重)。

二、描述性统计 - 集中趋势

描述性统计的集中趋势指标主要包括:众数、中位数、平均数和分位数。

1. 众数

使用场景:数据量大,识别最常见的类别。

常用数据类型:分类数据

import numpy as np
from scipy import stats

data = [1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5]
mode = stats.mode(data)
print(f"众数: {mode.mode[0]}, 频数: {mode.count[0]}")

优点:简单直观,易于理解。缺点:在多众数情况下可能不适用。

2. 中位数

使用场景:集中趋势分析

常用数据类型:顺序数据、数值数据

median = np.median(data)
print(f"中位数: {median}")

优点:不受极端值影响。缺点:不能利用所有数据。

3. 平均数

分类:简单平均数、加权平均数

使用场景:数据的均衡点

常用数据类型:数值数据

mean = np.mean(data)
print(f"平均数: {mean}")

优点:利用所有数据,计算简单。缺点:受极端值影响大。

4. 分位数

使用场景:反映数据的集中趋势

常用数据类型:数值数据

q1 = np.percentile(data, 25)
q3 = np.percentile(data, 75)
print(f"第一四分位数: {q1}, 第三四分位数: {q3}")

优点:提供数据分布信息。缺点:计算复杂。

三、描述性统计 - 离散程度

描述性统计的离散程度指标主要包括:异众比率、四分位差、极差、标准差和变异系数。

1. 异众比率

使用场景:衡量众数代表性

常用数据类型:分类数据

def heterogeneity_ratio(data):
    mode_count = stats.mode(data).count[0]
    total_count = len(data)
    return 1 - (mode_count / total_count)

hr = heterogeneity_ratio(data)
print(f"异众比率: {hr}")

优点:简单直观。缺点:仅适用于分类数据。

2. 四分位差

使用场景:反映中间50%的数据离散程度

常用数据类型:数值数据

iqr = q3 - q1
print(f"四分位差: {iqr}")

优点:不受极端值影响。缺点:只考虑中间部分数据。

3. 极差

使用场景:反映数据范围

常用数据类型:数值数据

range_ = np.ptp(data)
print(f"极差: {range_}")

优点:计算简单。缺点:受极端值影响大。

4. 标准差

使用场景:数据离散程度

常用数据类型:数值数据

std_dev = np.std(data)
print(f"标准差: {std_dev}")

优点:利用所有数据。缺点:受极端值影响。

5. 变异系数

使用场景:数据变异程度

常用数据类型:数值数据

cv = std_dev / mean
print(f"变异系数: {cv}")

优点:标准化的离散程度指标。缺点:对于均值接近于零的数据不适用。

四、描述性统计 - 偏差程度

1. Z 分数

使用场景:统一量级,增加可比性

常用数据类型:数值数据

z_scores = stats.zscore(data)
print(f"z-scores: {z_scores}")

优点:标准化数据。缺点:需要计算均值和标准差。

2. 协方差和相关系数

使用场景:衡量两个变量的关系

常用数据类型:数值数据

x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]

# 协方差
covariance = np.cov(x, y)[0, 1]
print(f"协方差: {covariance}")

# 相关系数
correlation = np.corrcoef(x, y)[0, 1]
print(f"相关系数: {correlation}")

优点:揭示变量间关系。缺点:仅适用于线性关系。

总结:通过理解和应用上述统计学基础知识,可以帮助我们更好地分析和解释数据,提高数据分析的准确性和科学性。希望本篇博客对你有所帮助!

(交个朋友/找资源/ai办公/技术接单,注明来意)

61353774f66242828147d0210ee69159.jpg

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/659311.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何批量结构化分汇多工作表sheet?

目录 一、如遇合并表格,注意结构化二、确认主键,合并所有文件数据三、sheet2同理四、案例总结 如果遇到这样情形,多文件夹多文件,多工作表的分汇场景;可以参考以下方法解决。 一、如遇合并表格,注意结构…

汇编原理(四)[BX]和loop指令

loop:循环 误区:在编译器里写代码和在debug里写代码是不一样的,此时,对于编译器来说,就需要用到[bx] [bx]: [bx]同样表示一个内存单元,他的偏移地址在bx中,比如下面的指令 move bx, 0 move ax,…

IAR9.30安装和注册相关

下载解压licpatcher64工具,把licpatcher64.exe拷贝到IAR的安装目录中双击运行。 示例IAR9.30.1默认安装如下如下,一共三个分别拷贝运行,不要遗漏。 C:\Program Files\IAR Systems\Embedded Workbench 9.1\arm\bin C:\Program Files\IAR Syst…

一书读懂Python全栈安全,剑指网络空间安全

写在前面 通过阅读《Python全栈安全/网络空间安全丛书》,您将能够全面而深入地理解Python全栈安全的广阔领域,从基础概念到高级应用无一遗漏。本书不仅详细解析了Python在网络安全、后端开发、数据分析及自动化等全栈领域的安全实践,还紧密贴…

系统与软件工程软件测试过程

系统与软件工程 软件测试 测试过程 ;对应的国标是GB/T 38634.4 2020 ,该标准的范围规定适应用于治理、管理和实施任何组织,项目或较小规模测试活动的软件测试的测试过程,定义了软件测试通用过程,给出了描述过程的支持信息图表。 一 术语和定义 1.1实测…

力扣hot100:23. 合并 K 个升序链表

23. 合并 K 个升序链表 这题非常容易想到归并排序的思路,俩升序序列合并,可以使用归并的方法。 不过这里显然是一个多路归并排序;包含多个子数组的归并算法,这可以让我们拓展归并算法的思路。 假设n是序列个数,ni是…

这么多不同接口的固态硬盘,你选对了嘛!

固态硬盘大家都不陌生,玩游戏、办公存储都会用到。如果自己想要给电脑或笔记本升级下存储,想要存储更多的文件,该怎么选购不同类型的SSD固态盘呐,下面就来认识下日常使用中常见的固态硬盘。 固态硬盘(Solid State Drive, SSD)作为数据存储技术的革新力量,其接口类型的选…

5.25.6 深度学习在放射图像中检测和分类乳腺癌病变

计算机辅助诊断 (CAD) 系统使用数字化乳房 X 线摄影图像并识别乳房中存在的异常情况。深度学习方法从有限数量的专家注释数据中学习图像特征并预测必要的对象。卷积神经网络(CNN)在图像检测、识别和分类等各种图像分析任务中的性能近年来表现出色。本文提…

VSCode连接远程服务器使用jupyter报错问题解决

目录 一. 问题描述二. jupyter环境确认三. 插件安装 一. 问题描述 经常会遇到一种问题就是, VSCode连接远程服务器, 上次jupyter notebook 还用的好好的, 下次打开就显示找不到内核了. 今天提供了全套解决方案, 帮大家迅速解决环境问题. 二. jupyter环境确认 首先进入自己需…

OPPO Reno12系列发布:用它玩游戏比凉茶还要“凉”

在这个智能手机市场日新月异的时代,每一次新品发布都牵动着无数科技爱好者的心。最近,OPPO官微传来好消息,即将推出的OPPO Reno12系列不仅搭载了顶尖的旗舰芯片,还与联发科天玑强强联手,进行了深度的优化调校&#xff…

【408真题】2009-21

“接”是针对题目进行必要的分析,比较简略; “化”是对题目中所涉及到的知识点进行详细解释; “发”是对此题型的解题套路总结,并结合历年真题或者典型例题进行运用。 涉及到的知识全部来源于王道各科教材(2025版&…

Honor of Kings 2024.03.29 Ban for 3 day

我又被举报消极然后禁赛 都说了别选蔡文姬,对面三个肉,非要选个软辅助 吐槽下这游戏策划:游戏体验感越来越差,公正也很差 对说了对面4个法师,就是不出魔抗,把把都是0-N开局,到底谁消极啊&#x…

apexcharts数据可视化之圆环柱状图

apexcharts数据可视化之圆环柱状图 有完整配套的Python后端代码。 本教程主要会介绍如下图形绘制方式: 基础圆环柱状图多组数据圆环柱状图图片背景自定义角度渐变半个圆环图虚线圆环图 基础圆环图 import ApexChart from react-apexcharts;export function Cir…

基于jeecgboot-vue3的Flowable流程-我的任务(一)

因为这个项目license问题无法开源,更多技术支持与服务请加入我的知识星球。 1、首先可以用现成生成代码的前端来做这个,只要做一些调整就可以了,这样利用现有的一些模板可以快速构建我的任务,否则vue2与vue3相差太大,移…

将文件批量重命名001到100?怎么批量修改文件夹名字?这四款工具不要错过!

你们有没有遇到过需要批量修改文件(文件夹)名的情况?从网上下载一些文件都会带有一些后缀名字。大量的文件,一个一个修改重命名的话,这简直是个头疼的事情。市面上虽然有很多批量文件重命名工具,但要么收费…

memblock_free_all释放page到buddy,前后nr_free的情况

https://www.cnblogs.com/tolimit/p/5287801.html 在zone_sizes_init 之后,各个node,zone的page总数已知。但是此时的每个order的空闲链表是空的,也就是无法通过alloc_page这种接口来分配。此时page还在memblock管控,需要memblock…

IT人的拖延——别让“对失败的担忧”吓跑了“幸福感”

除了完美主义情结外,拖延的另一大重要原因是“对于失败的担忧”,当我们尝试没有把握的事,或者是曾经做这件事失败过,再次需要尝试时,因为对自我有“成功”的期望,自然就会担忧失败的可能性。比如&#xff0…

前端Vue自定义个性化导航栏菜单组件的设计与实现

摘要: 随着前端技术的飞速发展和业务场景的日益复杂,组件化开发已成为提升开发效率和降低维护成本的关键手段。本文将以Vue uni-app平台为例,介绍如何通过自定义导航栏菜单组件,实现业务逻辑与界面展示的解耦,以及如何…

基于 Coze 从 0-1 搭建专属 小白的Bot 机器人

基于 Coze 从 0-1 搭建专属 小白的Bot 机器人 ​ 作为一个GIS从业人员,对于AI的使用是必不可少的,在过去的一两年里各种大模型频出,AI技术已经成为GIS领域的一项重要工具,为我们提供了许多强大的功能和解决方案。看到好文章都在介…

在PyCharm中,不希望新建Python文件自动打开Python控制台

很久没更新水一下 第一步编辑配置 第二步编辑配置模板 第三步取消勾选 第四步确定