解密辛普森悖论:如何在数据分析中保持清醒头脑

解密辛普森悖论:如何在数据分析中保持清醒头脑

之前也参加fine Bi的 培训,学到了辛普森悖论,今天为大家介绍一下


文章目录

  • 解密辛普森悖论:如何在数据分析中保持清醒头脑
  • 前言
  • 我们来举一个例子
  • 数据分析
  • 解释
  • 管理应用的启示


前言

什么是辛普森悖论?来自维基百科是这么说的
辛普森悖论(英语:Simpson’s paradox),是概率和统计中的一种现象,其中趋势出现在几组数据中,但当这些组被合并后趋势消失或反转。 这个结果在社会科学和医学科学统计中经常遇到, 当频率数据被不恰当地给出因果解释时尤其成问题。当干扰变量和因果关系在统计建模中得到适当处理时,这个悖论就可以得到解决。 辛普森悖论已被用来说明统计误用可能产生的误导性结果[
该现象于20世纪初就有人讨论,但一直到1951年,爱德华·H·辛普森在他发表的论文中阐述此一现象后,该现象才算正式被描述解释。后来就以他的名字命名此悖论,即辛普森悖论。

我们来举一个例子

辛普森悖论的一个常见例子涉及职业棒球运动员的击球率。一名球员有可能在很多年里每年都比另一名球员有更高的击球率,但在如果把他们全部加起来反而低了,这些年里都有较低的击球率。当年份之间的击球数存在较大差异时,就会发生这种现象。数学家肯·罗斯 (Ken Ross)使用两位棒球运动员德里克·杰特 (Derek Jeter)和大卫·贾斯蒂斯 (David Justice ) 在 1995 年和 1996 年期间的击球率证明了这一点:

在这里插入图片描述

比如
A球员 1995 年 ,12/48 (48次击球,12次命中),击球率0.25,
B球员 1995 年 ,104/411 (411次击球,104次命中),击球率0.253
1995 年 击球率 是 B球员

A球员 1996 年 ,183/582 (582次击球,183次命中),击球率0.314,
B球员 1996 年 ,45/140 (140次击球, 45次命中),击球率0.321
1996 年 击球率 也是 B球员

A球员 1995 年 和 1996 年 195/630 (630次击球,195次命中),击球率0.310
B球员 1995 年 和 1996 年 195/551 (551次击球,149次命中),击球率0.270
但是2年加起来 1995 年 和 1996 年 击球率 就是 A球员高

所以在做数据分析的时候 ,每年击球率都高,不代表 所有年份击球率都很高 所以 ,如果可能还需要下钻分析。

数据分析

为了避免辛普森悖论出现。就需要斟酌个别分组的权重,以一定的系数去消除以分组资料基数差异所造成的影响,同时必需了解该情境是否存在其他潜在要因而综合考虑

或者需要算 每年和汇总年份的都需要算出来,来斟酌数据分析。

解释

辛普森悖论是一个统计学术语
中文名:辛普森悖论
外文名:Simpson’s paradox
提出时间“”1951年
提出人:E.H.辛普森
理论学科:统计学
应用领域:数据分析

所以 辛普森悖论 这个词是一用来表示对于同一组数据,在分组中占尽优势而在总评中却处于劣势的悖论 ,出现这个悖论 的原因在于这些数据中存着“潜在变量”


管理应用的启示

来自科学百科的说明:

辛普森悖论就像是欲比赛100场篮球以总胜率评价好坏,于是有人专找高手挑战20 场而胜1场,另外80场找平手挑战而胜40场,结果胜率41%,另一人则专挑高手挑战80场而胜8场,而剩下20场平手打个全胜,结果胜率为28%,比 41%小很多,但仔细观察挑战对象,后者明显较有实力。
量与质是不等价的,无奈的是量比质来得容易量测,所以人们总是习惯用量来评定好坏,而此数据却不是重要的。除了质与量的迷思之外,辛普森悖论的另外一个启示是:如果我们在人生的抉择上选择了一条比较难走的路,就得要有可能不被赏识的领悟,所以这算是怀才不遇这个成语在统计上的诠释。

除了质与量的迷思之外,辛普森悖论的另外一个启示是: 如果我们在人生的抉择上选择了一条比较难走的路,就得要有可能不被赏识的领悟,所以这算是怀才不遇这个成语在统计学上的诠释。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/534597.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

使用hexo+gitee从零搭建个人博客

一、环境准备 1.Node.js:下载 | Node.js 中文网 (nodejs.cn) ,Hexo 是基于Node.js 的博客框架 教程:https://blog.csdn.net/weixin_52799373/article/details/123840137 node -v npm -v 安装 Node.js 淘宝镜像加速器 (cnpm&am…

python中的异常

1、NoSuchElementException 找不到元素 2、ElementNotInteractableException 元素无法交互 可能原因1:元素定位到以后,无法点击---元素未渲染完 解決:使用expected_conditions模块下的element_to_be_clickable来判断元素是否可被点击&#…

二叉树应用——最优二叉树(Huffman树)、贪心算法—— Huffman编码

1、外部带权外部路径长度、Huffman树 从图中可以看出,深度越浅的叶子结点权重越大,深度越深的叶子结点权重越小的话,得出的带权外部路径长度越小。 Huffman树就是使得外部带权路径最小的二叉树 2、如何构造Huffman树 (1&#xf…

“筑爱助残 快乐出游”带残疾人之家的残疾人出游活动

为拓宽残疾人的视野、增强残疾人的自信和勇气,感受外面世界的美好和多彩,帮助他们融入社会拥抱大自然,重拾美好生活的信心,营造残健互助的社会氛围。4月10日,嘉善蒲公英志愿者团队组织爱心司机开展以“筑爱助残 快乐出…

openGauss学习笔记-260 openGauss性能调优-使用Plan Hint进行调优-同层参数化路径的Hint

文章目录 openGauss学习笔记-260 openGauss性能调优-使用Plan Hint进行调优-同层参数化路径的Hint260.1 功能描述260.2 语法格式260.3 示例 openGauss学习笔记-260 openGauss性能调优-使用Plan Hint进行调优-同层参数化路径的Hint 260.1 功能描述 通过predpush_same_level Hi…

linux下如何查看防火墙状态

systemctl status firewalld (看防火墙进程) cat /etc/selinux/config (看是否启用linux安全模式)

【Python】控制台进度条

在Python开发中,有时需要向用户展示一个任务的进度,以提供更好的交互体验。下面我将展示如何使用Python来创建一个简单的控制台进度条。 效果: 代码: import time import sys def print_progress_bar(completed, total, length…

蓝桥杯省赛冲刺(3)广度优先搜索

广度优先搜索(Breadth-First Search, BFS)是一种在图或树等非线性数据结构中遍历节点的算法,它从起始节点开始,按层级逐步向外扩展,即先访问离起始节点最近的节点,再访问这些节点的邻居,然后是邻…

Kyligence 发布企业级 AI 解决方案,Data + AI 落地迈向新阶段

4月11日,Kyligence 2024 数智论坛暨春季发布会成功召开。Kyligence 正式发布全新的企业级 AI 解决方案,基于服务金融、零售、制造、医药等行业领先客户的落地实践,Kyligence 为企业提供准确、可靠、智能的 AI 指标平台一站式解决方案&#x…

头歌-机器学习 第10次实验 逻辑回归

第1关:逻辑回归核心思想 任务描述 本关任务:根据本节课所学知识完成本关所设置的编程题。 相关知识 为了完成本关任务,你需要掌握: 什么是逻辑回归; sigmoid函数。 什么是逻辑回归 当一看到“回归”这两个字&a…

Harmony鸿蒙南向驱动开发-CLOCK接口使用

CLOCK,时钟是系统各个部件运行的基础,以CPU时钟举例,CPU 时钟是指 CPU 内部的时钟发生器,它以频率的形式工作,用来同步和控制 CPU 内部的各个操作。 CLOCK接口定义了完成CLOCK操作的通用方法集合,包括&…

五一出游 请带上我。必备全家桶。出游变成搬家。千里快递员,这样的人就不要带了。学习过后,你会使用这些句子了吗?

五一出游,即劳动节假期出游,需要准备的物品会根据旅行的目的地、天气状况、交通方式和个人习惯有所不同。以下是一个基本的全家桶必备物品清单: 一、 证件类: 身份证驾驶证(如果自驾)护照/港澳通行证/台…

递归、搜索与回溯算法:递归

递归 在解决⼀个规模为n的问题时,如果满⾜以下条件,我们可以使⽤递归来解决: a. 问题可以被划分为规模更⼩的⼦问题,并且这些⼦问题具有与原问题相同的解决⽅法。 b. 当我们知道规模更⼩的⼦问题(规模为 n - 1&…

MySQL事务、主从、分库分表常见面试题

文章目录 1.事务的特性2.并发事务问题,如何解决,默认隔离级别3.undo log和redo log的区别4.事务中的隔离性是如何保证的(解释一下MVCC)5.主从同步原理6.分库分表 1.事务的特性 2.并发事务问题,如何解决,默认…

Windows部署ChatGLM3步骤

一、环境要求 硬件 内存:> 16GB 显存: > 13GB(4080 16GB) 软件 python 版本推荐3.10 - 3.11 transformers 库版本推荐为 4.36.2 torch 推荐使用 2.0 及以上的版本,以获得最佳的推理性能 二、部署步骤 1、新建pytho…

无缝集成:使用Spring Boot和Vue实现头像上传与回显功能

🌟 前言 欢迎来到我的技术小宇宙!🌌 这里不仅是我记录技术点滴的后花园,也是我分享学习心得和项目经验的乐园。📚 无论你是技术小白还是资深大牛,这里总有一些内容能触动你的好奇心。🔍 &#x…

乡村振兴多元共治,共绘乡村新蓝图:政府引领、企业助力、村民参与

乡村振兴是一项复杂而艰巨的任务,需要从多个角度进行考虑。以下是从不同身份出发对乡村振兴建设的思考: 1、政府领导的角度: 政府是乡村振兴的主要推动者和组织者。在制定和实施乡村振兴战略时,政府需要注重规划引领,科…

【webrtc】源码下载与编译

目录 下载 下依赖 内存需求 !! 参考文章 : 下载 (1) windows ,centos上都会报错 (2) ubuntu A : 在git上设置代理 B fetch通过 ubuntu的界面 proxy设置了代理 这将会拉取webRTC源码,且额外加了a…

群晖虚拟机搭建Synology Drive并实现Obsidian笔记异地多端同步

文章目录 一、简介软件特色演示: 二、使用免费群晖虚拟机搭建群晖Synology Drive服务,实现局域网同步1 安装并设置Synology Drive套件2 局域网内同步文件测试 三、内网穿透群晖Synology Drive,实现异地多端同步Windows 安装 Cpolar步骤&#…

目标检测——瓷砖瑕疵检测数据集

一、重要性及意义 瓷砖瑕疵检测在瓷砖制造和质量控制过程中具有极其重要的地位,其重要性和意义主要体现在以下几个方面: 首先,瓷砖瑕疵检测是确保产品质量的关键环节。瓷砖作为家居装修中不可或缺的材料,其表面质量直接影响到装…