【数据分析系列】交叉列联表与卡方检验:数据解读与Python实践应用

目录

一、交叉列联表和卡方检验的关系

(一)什么是交叉列联表

(二)什么是卡方检验

(三)除了卡方检验,列联表分析还可以结合其他统计方法

二、列联表只能用于两个分类变量吗?

三、卡方检验:统计量与P值的协同作用及应用指南

卡方检验中的卡方统计量和P值的作用:

四、列联表和卡方检验实例

(一)数据收集

(二)列联表构造

(三)卡方检验步骤

Step1:建立原假设

Step2:计算期望频数/理论频数:

Step3:计算卡方统计量:

​编辑

Step4:确定自由度:

Step5:查χ2方分布临界值表,确定接受域

在卡方检验中,确定P值通常有以下几种方法:

五、Python实现交叉列联分析和卡方检验

 (一)导入库

(二)输入列联表数据

(三)使用chi2_contingency函数执行卡方检验

(四)输出卡方统计量

(五)输出P值 

(六) 输出自由度

(七) 输出理论频数

一、交叉列联表和卡方检验的关系

(一)什么是交叉列联表

交叉列联表是一种统计表格,用于展示两个或多个分类变量之间的频数分布情况。它通过将变量的不同类别交叉组合,形成一个表格,其中每个单元格表示相应类别的组合出现的频数。

例如,假设我们有一个关于学生性别和喜欢的学科的调查数据:男生中有30人喜欢数学,10人喜欢英语;女生中有20人喜欢数学,30人喜欢英语。我们可以将这些数据整理成一个交叉列联表,如下所示:

(二)什么是卡方检验

卡方检验是一种统计方法,用于检验两个分类变量之间是否独立。它通过比较观察频数和期望频数之间的差异来判断变量之间是否存在关联。

在交叉列联表中,我们可以使用卡方检验来分析变量之间的关系。例如,在上面的例子中,我们可以使用卡方检验来检验学生的性别是否与他们喜欢的学科有关。

(三)除了卡方检验,列联表分析还可以结合其他统计方法

  1. 费舍尔精确检验(Fisher's Exact Test):适用于样本量较小的情况,当样本量较大时,其结果与卡方检验相似。
  2. 列联系数(如Phi系数、Cramer's V系数):用于衡量变量之间的关联强度。
  3. 修正的卡方检验或Yates' continuity correction:用于处理某些特殊情况下的数据偏差。
  4. 多维度扩展分析:对多个变量进行Log-linear模型分析,探索变量间的复杂关系和相互作用模式。

二、列联表只能用于两个分类变量吗?

虽然列联表最基础的形式是用于展示两个分类变量之间的频数分布情况,但这并不意味着它仅限于两个变量。列联表同样可以扩展以分析多个分类变量之间的关系,这种情况下通常称为多维列联表或多路列联表。

在多维列联表中,表格会有更多的维度,用来表示三个或三个以上变量的交叉分类。例如,如果你正在分析学生的学科成绩(优秀、良好、及格、不及格)、性别(男、女)以及是否参加过辅导班(是、否)之间的关系,那么就需要一个三维列联表来呈现这些变量的所有可能组合及其频数分布。

多维列联表可能会更加复杂,难以直接可视化,因此在分析时可能需要借助特定的统计软件来进行汇总和解释,也可能需要应用更高级的统计方法,如对多个变量进行的log-linear模型分析,来探索变量间的复杂关系和相互作用模式。

三、卡方检验:统计量与P值的协同作用及应用指南

卡方检验中的卡方统计量通常指计算得出的测试统计值,而P值则代表在原假设为真的条件下,观察到的统计量或更极端情况的概率。在实际应用中,两者都非常重要,但通常以P值作为判断假设是否成立的最终标准。

卡方检验中的卡方统计量和P值的作用:

1. 卡方统计量的计算与意义
   - 卡方统计量是通过比较观察频数与理论频数之间的差异来计算的。
   - 它反映了数据与预期模式之间的偏离程度。
   - 卡方值越大,表明观察数据与理论预期的差异越大,进而说明原假设可能不成立。

2. P值的获取与解释
   - P值是依据卡方统计量、数据的自由度以及预设的显著性水平(通常为0.05)来获取的[。
   - P值小,意味着在原假设成立的条件下,出现当前结果或更极端情形的概率低,因此有理由拒绝原假设。
   - 相反,P值较大时,没有足够证据拒绝原假设,从而认为数据与预期模式相符。

3. P值的确定:
   - 根据卡方统计量和相应的自由度,查找卡方分布表或使用统计软件得到P值。
   - P值表示在原假设成立的情况下,观察到当前卡方统计量或更极端情况的概率。

4. 结论推断:
   - 如果P值小于或等于显著性水平(通常为0.05),则拒绝原假设,认为分类变量之间存在显著关系。
   - 如果P值大于显著性水平,则没有足够证据拒绝原假设,认为分类变量之间无显著关系。

综上所述,卡方统计量提供了量化的数据变异性大小,而P值给出了这种变异性是否具有统计学意义的概率解释。两者共同构成了完整的卡方检验流程,协助研究者做出更准确的统计推断。在具体应用时,应结合研究目的和数据特性选择合适的检验方法,并正确解读卡方统计量与P值,以便得出科学合理的结论。

四、列联表和卡方检验实例

让我们通过一个详细的实例来理解列联表和卡方检验的应用。假设我们想要探究大学生的专业选择(文科 vs. 理科)与其性别(男 vs. 女)之间是否存在关联。这是一个典型的定类变量间关系的研究问题,非常适合使用列联表和卡方检验。

(一)数据收集

(二)列联表构造

(三)卡方检验步骤

Step1:建立原假设
  • 零假设 (H0): 学生的性别与其专业选择之间是相互独立的,即性别不影响专业选择。
  • 备择假设 (H1): 学生的性别与其专业选择之间存在关联。

Step2:计算期望频数/理论频数

对于每个单元格,根据行总和与列总和计算如果两个变量完全独立时该单元格应有的频数。

在这个表格中,我同时展示了:

  • 每个格子左上角的实际观察频数(最初提供的数据);
  • 每个格子右下角的计算出的期望频数(基于假设变量间独立的理论值)。

这样的展示方式有助于直观对比实际数据与理论期望之间的差异,进而进行卡方检验分析,判断这些差异是否具有统计学意义。

Step3:计算卡方统计量

计算得出的卡方统计量(χ²)大约为0.646。

Step4:确定自由度

对于2x2表,自由度 = (行数 - 1) * (列数 - 1) = (2-1)*(2-1) = 1。

Step5:查χ2方分布临界值表,确定接受域

假设显著性水平a取0.05

使用卡方分布表来确定P值。根据计算的卡方统计量(χ²)和确定自由度(df),得到p值为0.818,0.42>0.05,则P值大于显著性水平,则没有足够证据拒绝原假设,认为分类变量之间无显著关系,即学生的性别与其专业选择之间是相互独立的,即性别不影响专业选择。
在卡方检验中,确定P值通常有以下几种方法:
  1. 查表法

    • 使用卡方分布表来确定P值。首先,你需要计算卡方统计量(χ²)和确定自由度(df)。
    • 在卡方分布表中找到对应的自由度,然后找到大于或等于你的卡方统计量的值。
    • 对应的表格值就是你的P值或者P值范围。
  2. 统计软件

    • 使用统计软件(如SPSS、R、Stata、Excel等)进行卡方检验,软件会直接给出P值。
    • 在R语言中,可以使用chisq.test()函数来进行卡方检验,它会返回包括P值在内的完整检验结果。
    • 在Excel中,可以使用CHIDIST函数来计算给定卡方值和自由度的P值。
  3. 在线计算器

    使用在线卡方检验P值计算器输入你的卡方统计量和自由度,计算器会给出P值

五、Python实现交叉列联分析和卡方检验

 (一)导入库

from scipy.stats import chi2_contingency
import numpy as np

(二)输入列联表数据

# 假设observed是观察频数列联表,例如此例题中的两个分类变量的频数分布
observed = np.array([[ 20, 30],
            [25, 25]])

(三)使用chi2_contingency函数执行卡方检验

chi2, p, dof, expected = chi2_contingency(observed)

(四)输出卡方统计量

print("Chi-square statistic:", chi2)

(五)输出P值 

print("Expected frequencies:")
print(expected)
print("P-value:", p)

(六) 输出自由度

print("Degrees of freedom:", dof)

(七) 输出理论频数

print("Expected frequencies:")
print(expected)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/687768.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

解决富文本中抖音视频无法播放的问题——403

问题 富文本中的抖音视频无法播放,资源状态码是403禁止访问打开控制台,可以看到在项目中打开,数据请求的请求头多了一个Referer: http://localhost:3000/而复制链接在新窗口直接打开,请求头中并不会携带Referer 解决方案 在ind…

windows 系统通过 cmd 命令终止进程

windows 系统通过 cmd 命令终止进程 1、使用 netstat 命令查看特定端口的占用情况 例如,要查看端口号为 8015 的情况,可以执行以下命令: netstat -ano | findstr 8105此命令会显示所有占用端口 8105 的网络连接,并列出 PID&…

2009年408真题解析

2009年408真题解析 【2009.1】为解决计算机主机与打印机之间速度不匹配问题,通常设置一个打印数据缓冲区,主机将要输出的数据依次写入该缓冲区,而打印机则依次从该缓冲区中取出数据。该缓冲区的逻辑结构应该是。 A.栈 B.队列 C.树 D.图 …

2024-06-06 问AI: 在深度学习中,什么是欧几里德长度?

文心一言 在深度学习中,欧几里德长度(也称为欧几里得距离或欧氏距离)是一个常用的概念,它衡量的是在多维空间中两个点之间的真实距离,或者说是向量的自然长度(即该点到原点的距离)。以下是关于…

[职场] 缺点范文 #知识分享#经验分享#媒体

缺点范文 回答示范1: 我的公开演讲能力比较差,在公共场合讲话的时候我会感到紧张,不过谈论我熟悉的领域我会比较放松。所以当我需要做公开发言的时候,我必须要准备得很充分。我确实羡慕那些无论什么话题都能够高谈阔论的人。 回…

中国版Wayve决战端到端,等待数据的大力出奇迹

作者 |王博 编辑 |德新 「人工智能的定律只有一个,就是规模定律(Scaling Law),大力出奇迹。端到端是描述方式,更应该去考虑如何去生产更多的自动驾驶合适的数据,来喂养更大更合适的模型,取得更…

多目标应用:NSGA2求解无人机三维路径规划(MATLAB代码)

详细介绍 多目标应用:基于非支配排序的鱼鹰优化算法NSOOA求解无人机三维路径规划(MATLAB代码)-CSDN博客 一次运行结果 完整MATLAB代码 多目标应用:NSGA2求解无人机三维路径规划(MATLAB代码)

香港优才计划线上申请10大步骤,2024年流程截图,diy照做就可以

我是糖爸,已获批香港优才。10个步骤申请香港优才真的很简单,因为现在入境处只接受线上申请啦,你自己上传资料就可以,找中介也是你自己准备资料给他帮忙上传,何不自己动手上传呢,省个几万。 10大步骤分别是&…

吴恩达深度学习笔记:机器学习(ML)策略(1)(ML strategy(1))1.7-1.8

目录 第三门课 结构化机器学习项目(Structuring Machine Learning Projects)第一周 机器学习(ML)策略(1)(ML strategy(1))1.7 什么时候该改变开发/测试集和指…

智能视频监控平台LntonCVS视频融合共享平台保障露营安全解决方案

在当今社会,都市生活的快节奏和压力使得越来越多的人渴望逃离城市的喧嚣,寻求一种短暂的慢生活体验。他们向往在壮丽的山河之间或宁静的乡村中露营,享受大自然的宁静与美好。随着露营活动的普及,露营地的场景也变得更加丰富多样&a…

Three.js和Babylon.js,webGL中的对比效果分析!

hello,今天分享一些three.js和babylon.js常识,为大家选择three.js还是babylon.js做个分析,欢迎点赞评论转发。 一、Babylon.js是什么 Babylon.js是一个基于WebGL技术的开源3D游戏引擎和渲染引擎。它提供了一套简单易用的API,使开发…

UFS Explorer Professional Recovery: 如何从启用了 mSATA 缓存的 Drobo 设备中恢复数据

天津鸿萌科贸发展有限公司是 UFS Explorer Professional Recovery 数据恢复软件的授权代理商。 UFS Explorer Professional Recovery 数据恢复软件提供综合性的解决方案,用于解决复杂的数据恢复案例,包括那些采用特殊存储技术的案例,或介质受…

如何解决访问网站时IP被限制的问题?

在互联网上,用户可能会面临一个令人困扰的问题——当尝试访问某个特定的网站时,却发现自己的IP地址被该网站屏蔽。 IP地址被网站屏蔽是一个相对常见的现象,而导致这种情况的原因多种多样,包括恶意行为、违规访问等。本文将解释IP地…

jupyter notebook默认工作目录修改

jupyter notebook默认工作目录修改 1、问题2、如何修改jupyter notebook默认工作目录 1、问题 anaconda安装好之后,我们启动jupyter notebook会发现其默认工作目录是在C盘,将工作目录放在C盘会让C盘很快被撑爆,我们应该将jupyter notebook默…

日志分析集群最新版

日志分析集群-8版本 作者:行癫(盗版必究) 第一部分:Elasticsearch 一:环境准备 1.简介 ​ 部署模式:es集群采用无主模式 ​ es版本:8.13.4 ​ jdk版本:使用es内嵌的jdk21&#x…

易语言QQ机器人2.0源码

易语言QQ机器人2.0 效果图源码说明领取源码下期更新预报 效果图 源码说明 .程序集 Smessage, VJ_DirectUI .程序集变量 Format, StringFormat.子程序 _初始化, , , 当基于本类的对象被创建后,此方法会被自动调用.子程序 _销毁, , , 当基于本类的对象被销毁前&#x…

【论文阅读】MODELING AND SOLVING THE TRAVELING SALESMAN PROBLEM WITH PRIORITY PRIZES

文章目录 论文基本信息摘要1.引言2. INTEGER QUADRATIC PROGRAM FOR TSPPP3. MIXED INTEGER LINEAR PROGRAMS FOR TSPPP4. TABU SEARCH ALGORITHM FOR TSPPP5. COMPUTATIONAL RESULTS6. CONCLUDING REMARKS补充 论文基本信息 《MODELING AND SOLVING THE TRAVELING SALESMAN P…

鸿蒙开发教程:新手入门必看

一 开发设备要求 Windows环境运行要求: 根据华为官方文档,为了开发基于鸿蒙系统的应用,电脑的配置需求如下: 操作系统:建议至少为Windows 10 64位或Windows 11 64位版本。内存:至少需要8GB以上。硬盘空间…

MyBatis中 set标签

1、set标签特点: set标签用于更新语句中set标签解析为set关键字set可以去除跟新语句中无用的逗号通常是和if标签一起使用 2、set标签的使用 编写接口方法编写sql语句 注意 当set标签中有条件成立时就会附加set关键字,字段为null时该列不会被更新。se…