做数据分析为何要学统计学(6)——什么问题适合使用方差分析?

方差分析(ANOVA,也称变异数分析)是英国统计学家Fisher(1890.2.17-1962.7.29)提出的对两个或以上样本总体均值进行差异显著性检验的方法。

它的基本思想是将测量数据的总变异(即总方差)按照变异来源划分为组间效应和组内效应,进行估计,从而确定差异的显著性。根据考虑因素的数量,可方差分析分为单因素方差分析、二因素方差分析和多因素方差分析。

方法分析使用的前提条件与t检验相同,也需要满足样本正态分布,方差齐性的要求。以下我们分别对单因素方差分析和多因素方差分析进行介绍。

1.单因素方差分析(oneway anova)

只有一个因素(变量)的方差分析。对于只有两组数据的方差分析等价于t检验。以下为三组数据例子。

某工厂对三条流水线加工的产品进行8次抽样,产品有效成分(含量mg)如下表所示。试分析三条流水线的生产质量是否无差异。

流水线样本
A[26.68, 26.01, 24.83, 25.05, 24.38, 24.1 , 26.38, 26.68]
B[26.45, 25.68, 23.29, 27.01, 23.21, 25.24, 24.65, 26.39]
C[24.49, 23.84, 25.87, 24.05, 24.1 , 25.64, 24.35, 25.07]

代码:

from statsmodels.api import stats
import numpy as np
#准备样本数据
X=np.array([[26.68, 26.01, 24.83, 25.05, 24.38, 24.1 , 26.38, 26.68],
       [26.45, 25.68, 23.29, 27.01, 23.21, 25.24, 24.65, 26.39],
       [24.49, 23.84, 25.87, 24.05, 24.1 , 25.64, 24.35, 25.07]])
#样本正太分布检验
stats.normaltest(X,axis=1)
#样本方差齐性检验
stats.levene(X[0],X[1],X[2])
#单因素方差分析.使用scipy.stats的f_oneway函数也行。但statsmodels的anova_oneway还可以进行方差不齐情况下的检验
stats.anova_oneway(X,use_var="equal")

上述三类检验的p值均大于0.05,说明可以使用方差检验且检验结果支持三条流水线产品质量无差异的假设。

2.多因素方差分析(anova)

多因素方差分析,用于研究一个因变量是否受到多个自变量(也称为因素)的影响。多因素方差分析既可以分析单个因素的作用(主效应),也可以分析因素之间的交互作用(交互效应)。如下例。

某工厂统计了多个工人使用不同机床的产品产量,试分析产量是否受工人技能和机床性能的影响。

我们仍然使用 statsmodels.api.stats统计学软件包进行处理,代码如下:

from statsmodels.api import stats
from statsmodels.formula.api import ols
#定义样本数据,当数据量比较大时,可以采用文件读取方式
X=pd.DataFrame(data=[('w1', 'm1', 20), ('w1', 'm2', 22), ('w1', 'm3', 24),
       ('w1', 'm4', 16), ('w1', 'm5', 26), ('w2', 'm1', 12),
       ('w2', 'm2', 10), ('w2', 'm3', 14), ('w2', 'm4',  4),
       ('w2', 'm5', 22), ('w3', 'm1', 20), ('w3', 'm2', 20),
       ('w3', 'm3', 18), ('w3', 'm4',  8), ('w3', 'm5', 16),
       ('w4', 'm1', 10), ('w4', 'm2', 12), ('w4', 'm3', 18),
       ('w4', 'm4',  6), ('w4', 'm5', 20), ('w5', 'm1', 14),
       ('w5', 'm2',  6), ('w5', 'm3', 10), ('w5', 'm4', 18),
       ('w5', 'm5', 10)],columns = ['Worker','Machine','Qnt'])
#构造线性回归表达式,用于方差分析
formula=ols('Qnt ~ Worker + Machine', data=X).fit() 
#多因素方差分析 
stats.anova_lm(formula) 

结果如下:

最后一列为p值。可以看出不同工人的产量有差异(p=0.02<0.05),而不同机器上的产量差异不显著。

如果我们想进一步分析是哪几个工人的产量差异比较明显时,我们可以使用Tukey法进行多重差异性检验。代码如下:

from statsmodels.stats.multicomp import pairwise_tukeyhsd
#要注意,因变量要写在前面而自变量(因素)写在后面
print(pairwise_tukeyhsd(X['Qnt'],X['Worker']))

结果如下:

我们可以看出,w1,w5所在行的reject=True,说明两者的产量在总体水平估计上差异显著,产量均值之差为-10(\bar{w_5}-\bar{w_1}),而其它工人之间产量差异不算显著。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/231568.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Go语言初始化数组的六种方式

介绍 在Go语言中&#xff0c;有多种方式可以初始化数组&#xff0c;本文将介绍初始化数组的六种方法。 方式1&#xff1a;指定数组大小并初始化 var array [3]int [3]int{1, 2, 3}指定数组的大小为3&#xff0c;并初始化为指定的值1, 2, 3。 方式2&#xff1a;根据初始化值…

Linux 中用户与权限

目录 1.添加用户 useradd 2.修改用户属性 usermod 3.用户组管理 3.1新建组 3.2 组和用户的关系 3.3 修改组名 3.4 删除组 4.权限管理 4.1.文件类型 4.2 权限 4.3 修改文件权限 1.添加用户 useradd 1&#xff09;创建用户 useradd 用户名 2&#xff09;设置用户密码…

Vue3问题:如何在页面上添加水印?

前端功能问题系列文章&#xff0c;点击上方合集↑ 序言 大家好&#xff0c;我是大澈&#xff01; 本文约3100字&#xff0c;整篇阅读大约需要5分钟。 本文主要内容分三部分&#xff0c;如果您只需要解决问题&#xff0c;请阅读第一、二部分即可。如果您有更多时间&#xff…

【npm | npm常用命令及镜像设置】

npm常用命令及镜像设置 概述常用命令对比本地安装全局安装--save &#xff08;或 -S&#xff09;--save-dev &#xff08;或 -D&#xff09; 镜像设置设置镜像方法切换回npm官方镜像选择镜像源 主页传送门&#xff1a;&#x1f4c0; 传送 概述 npm致力于让 JavaScript 开发变得…

MyBatis进阶之结果集映射注解版

文章目录 注解实现结果集映射注解实现关系映射常用功能注解汇总 注解实现结果集映射 注意 配置结果集映射&#xff0c;只用看 SQL 执行结果&#xff0c;不看 SQL 语句&#xff01; 注意 由于注解在映射结果集上没有实现 <resultMap> 的 100% 功能&#xff0c;因此&#x…

在AWS Lambda上部署标准FFmpeg工具——Docker方案

大纲 1 确定Lambda运行时环境1.1 Lambda系统、镜像、内核版本1.2 运行时1.2.1 Python1.2.2 Java 2 启动EC23 编写调用FFmpeg的代码4 生成docker镜像4.1 安装和启动Docker服务4.2 编写Dockerfile脚本4.3 生成镜像 5 推送镜像5.1 创建存储库5.2 给EC2赋予角色5.2.1 创建策略5.2.2…

Swagger2的使用

手写Api文档的几个痛点&#xff1a; 文档需要更新的时候&#xff0c;需要再次发送一份给前端&#xff0c;也就是文档更新交流不及时。 接口返回结果不明确 不能直接在线测试接口&#xff0c;通常需要使用工具&#xff0c;比如postman 接口文档太多&#xff0c;不好管理 Sw…

kafka学习笔记--生产者消息发送及原理

本文内容来自尚硅谷B站公开教学视频&#xff0c;仅做个人总结、学习、复习使用&#xff0c;任何对此文章的引用&#xff0c;应当说明源出处为尚硅谷&#xff0c;不得用于商业用途。 如有侵权、联系速删 视频教程链接&#xff1a;【尚硅谷】Kafka3.x教程&#xff08;从入门到调优…

HNU计算机视觉作业二

前言 选修的是蔡mj老师的计算机视觉&#xff0c;上课还是不错的&#xff0c;但是OpenCV可能需要自己学才能完整把作业写出来。由于没有认真学&#xff0c;这门课最后混了80多分&#xff0c;所以下面作业解题过程均为自己写的&#xff0c;并不是标准答案&#xff0c;仅供参考 …

【改进YOLOv8】融合可扩张残差(DWR)注意力模块的小麦病害检测系统

1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 研究背景与意义&#xff1a; 随着计算机视觉技术的快速发展&#xff0c;深度学习在图像识别和目标检测领域取得了巨大的突破。其中&#xff0c;YOLO&#xff08;You Only Look O…

《opencv实用探索·八》图像模糊之均值滤波、高斯滤波的简单理解

1、前言 什么是噪声&#xff1f; 该像素与周围像素的差别非常大&#xff0c;导致从视觉上就能看出该像素无法与周围像素组成可识别的图像信息&#xff0c;降低了整个图像的质量。这种“格格不入”的像素就被称为图像的噪声。如果图像中的噪声都是随机的纯黑像素或者纯白像素&am…

短剧分销平台搭建:短剧变现新模式

短剧作为今年大热的行业&#xff0c;深受大众追捧&#xff01;短剧剧情紧凑&#xff0c;几乎每一集都有高潮剧情&#xff0c;精准击中了当下网友的碎片化时间。 短剧的形式较为灵活&#xff0c;可以轻松融入各种的元素&#xff0c;比如喜剧、悬疑、爱情等&#xff0c;可以满足…

工业 4.0 | 数字孪生入门指南

工业 4.0 在多年热议后悄然落地&#xff0c;如今&#xff0c;制造、能源和运输企业正在越来越多地从中受益。 仿真未来场景 公司可以使用数字孪生仿真未来场景&#xff0c;以了解天气、车队规模或工况差异等因素对性能的影响。该方法可为维护计划提供决策支撑&#xff0c;并可…

[陇剑杯 2021]简单日志分析

[陇剑杯 2021]简单日志分析 题目做法及思路解析&#xff08;个人分享&#xff09; 问一&#xff1a;某应用程序被攻击&#xff0c;请分析日志后作答&#xff1a; 黑客攻击的参数是______。&#xff08;如有字母请全部使用小写&#xff09;。 题目思路&#xff1a; 分析…

探索Python中封装的概念与实践

更多资料获取 &#x1f4da; 个人网站&#xff1a;ipengtao.com 封装是面向对象编程中的核心概念&#xff0c;它能够帮助程序员隐藏类的内部细节&#xff0c;并限制对类成员的直接访问。本文将深入探讨Python中封装的机制&#xff0c;介绍封装的类型和优势&#xff0c;并提供详…

重写 AppiumService 类,添加默认启动参数,并实时显示启动日志

一、前置说明 在Appium的1.6.0版本中引入了AppiumService类&#xff0c;可以很方便的通过该类来管理Appium服务器的启动和停止。经过测试&#xff0c;使用该类的实例执行关闭server时&#xff0c;并没有释放端口号&#xff0c;会导致第二次启动时失败。另外&#xff0c;使用该…

什么是MyBatis、什么是MyBatis-Plus、简单详细上手案例

什么是MyBatis MyBatis是一个开源的Java持久层框架&#xff0c;用于简化与关系型数据库的交互。它通过将SQL语句与Java代码进行分离&#xff0c;提供了一种优雅的方式来处理数据库操作。 MyBatis的核心思想是将SQL语句与Java方法进行映射&#xff0c;使得开发人员可以通过配置…

Java LeetCode篇-深入了解二叉树的经典解法(多种方式实现:构造二叉树)

&#x1f525;博客主页&#xff1a; 【小扳_-CSDN博客】 ❤感谢大家点赞&#x1f44d;收藏⭐评论✍ 文章目录 1.0 从前序与中序遍历序列来构造二叉树 1.1 实现从前序与中序遍历序列来构造二叉树思路 1.2 代码实现从前序与中序遍历序列来构造二叉树 2.0 从中序与后序遍历序…

实用篇 | 一文学会人工智能中API的Flask编写(内含模板)

----------------------- &#x1f388;API 相关直达 &#x1f388;-------------------------- &#x1f680;Gradio: 实用篇 | 关于Gradio快速构建人工智能模型实现界面&#xff0c;你想知道的都在这里-CSDN博客 &#x1f680;Streamlit :实用篇 | 一文快速构建人工智能前端展…

【优选算法系列】【专题二滑动窗口】第三节.904. 水果成篮和438. 找到字符串中所有字母异位词

文章目录 前言一、水果成篮 1.1 题目描述 1.2 题目解析 1.2.1 算法原理 1.2.2 代码编写 1.2.3 题目总结二、找到字符串中所有字母异位词 2.1 题目描述 2.2 题目解析 2.2.1 算法原理 2.2.2 代码编写 …