做数据分析为何要学统计学(7)——什么问题适合使用方差分析?

方差分析(ANOVA,也称变异数分析)是英国统计学家Fisher(1890.2.17-1962.7.29)提出的对两个或以上样本总体均值进行差异显著性检验的方法。

它的基本思想是将测量数据的总变异(即总方差)按照变异来源划分为组间效应和组内效应,进行估计,从而确定差异的显著性。根据考虑因素的数量,可方差分析分为单因素方差分析、二因素方差分析和多因素方差分析。

方法分析使用的前提条件与t检验相同,也需要满足样本正态分布,方差齐性的要求。以下我们分别对单因素方差分析和多因素方差分析进行介绍。

1.单因素方差分析(oneway anova)

只有一个因素(变量)的方差分析。对于只有两组数据的方差分析等价于t检验。以下为三组数据例子。

某工厂对三条流水线加工的产品进行8次抽样,产品有效成分(含量mg)如下表所示。试分析三条流水线的生产质量是否无差异。

流水线样本
A[26.68, 26.01, 24.83, 25.05, 24.38, 24.1 , 26.38, 26.68]
B[26.45, 25.68, 23.29, 27.01, 23.21, 25.24, 24.65, 26.39]
C[24.49, 23.84, 25.87, 24.05, 24.1 , 25.64, 24.35, 25.07]

代码:

from statsmodels.api import stats
import numpy as np
from scipy.stats import normaltest,levene
#准备样本数据
X=np.array([[26.68, 26.01, 24.83, 25.05, 24.38, 24.1 , 26.38, 26.68],
       [26.45, 25.68, 23.29, 27.01, 23.21, 25.24, 24.65, 26.39],
       [24.49, 23.84, 25.87, 24.05, 24.1 , 25.64, 24.35, 25.07]])
#样本正太分布检验
normaltest(X,axis=1)
#样本方差齐性检验
levene(X[0],X[1],X[2])
#单因素方差分析.使用scipy.stats的f_oneway函数也行。但statsmodels(0.13.2)的anova_oneway还可以进行方差不齐情况下的检验
stats.anova_oneway(X,use_var="equal")

上述三类检验的p值均大于0.05,说明可以使用方差检验且检验结果支持三条流水线产品质量无差异的假设。

2.多因素方差分析(anova)

多因素方差分析,用于研究一个因变量是否受到多个自变量(也称为因素)的影响。多因素方差分析既可以分析单个因素的作用(主效应),也可以分析因素之间的交互作用(交互效应)。如下例。

某工厂统计了多个工人使用不同机床的产品产量,试分析产量是否受工人技能和机床性能的影响。

我们仍然使用 statsmodels.api.stats统计学软件包进行处理,代码如下:

from statsmodels.api import stats
from statsmodels.formula.api import ols
import pandas as pd
#定义样本数据,当数据量比较大时,可以采用文件读取方式
X=pd.DataFrame(data=[('w1', 'm1', 20), ('w1', 'm2', 22), ('w1', 'm3', 24),
       ('w1', 'm4', 16), ('w1', 'm5', 26), ('w2', 'm1', 12),
       ('w2', 'm2', 10), ('w2', 'm3', 14), ('w2', 'm4',  4),
       ('w2', 'm5', 22), ('w3', 'm1', 20), ('w3', 'm2', 20),
       ('w3', 'm3', 18), ('w3', 'm4',  8), ('w3', 'm5', 16),
       ('w4', 'm1', 10), ('w4', 'm2', 12), ('w4', 'm3', 18),
       ('w4', 'm4',  6), ('w4', 'm5', 20), ('w5', 'm1', 14),
       ('w5', 'm2',  6), ('w5', 'm3', 10), ('w5', 'm4', 18),
       ('w5', 'm5', 10)],columns = ['Worker','Machine','Qnt'])
#构造线性回归表达式,用于方差分析
formula=ols('Qnt ~ Worker + Machine', data=X).fit() 
#多因素方差分析 
stats.anova_lm(formula) 

结果如下:

最后一列为p值。可以看出不同工人的产量有差异(p=0.02<0.05),而不同机器上的产量差异不显著。

如果我们想进一步分析是哪几个工人的产量差异比较明显时,我们可以使用Tukey法进行多重差异性检验。代码如下:

from statsmodels.stats.multicomp import pairwise_tukeyhsd
#要注意,因变量要写在前面而自变量(因素)写在后面
print(pairwise_tukeyhsd(X['Qnt'],X['Worker']))

结果如下:

我们可以看出,w1,w5所在行的reject=True,说明两者的产量在总体水平估计上差异显著,产量均值之差为-10(\bar{w_5}-\bar{w_1}),而其它工人之间产量差异不算显著。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/241216.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

鱼fish数据集VOC+yolo-1400张(labelImg标注)

鱼类&#xff0c;是最古老的脊椎动物。易蓄积重金属。 部分不同染色体数目的杂交的后代依然有生育能力。它们几乎栖居于地球上所有的水生环境&#xff0c;从淡水的湖泊、河流到咸水的大海和大洋。 今天要介绍鱼的数据集。 数据集名称&#xff1a;鱼 fish 数据集格式&#xf…

Python 自动化之修理PDF文件(二)

PDF文件_合并与拆分PDF文档Pro版本 文章目录 PDF文件_合并与拆分PDF文档Pro版本前言一、要做成什么样子二、主要用到的函数三、基本思路1.引入库2.创建用户输入模块3.确定主框架 四、文档合并代码模块1.用户输入和函数调用2.引导用户输入文档信息3.合并文档内容4.命名新文档生成…

python+requests+unittest API接口测试实例(详解)

我在网上查找了下接口测试相关的资料&#xff0c;大都重点是以数据驱动的形式&#xff0c;将用例维护在文本或表格中&#xff0c;而没有说明怎么样去生成想要的用例&#xff0c; 问题&#xff1a; 测试接口时&#xff0c;比如参数a&#xff0c;b&#xff0c;c&#xff0c;我要…

rk3568 RGMII KSZ8795 MAC TO MAC

RK3568与KSZ8795交换机芯片连接&#xff0c;直接MAC TO MAC方式&#xff0c;这样一下就扩展会4路网口&#xff0c;应该场合比较多&#xff0c;移植过程如下&#xff1a; 参考《Rockchip_Developer_Guide_Linux_MAC_TO_MAC_CN.pdf》 《rockchip RGMIImv88e6390 管理型交换机功…

【设计模式--行为型--命令模式】

设计模式--行为型--命令模式 命令模式定义结构案例优缺点使用场景 命令模式 定义 将一个请求封装为一个对象&#xff0c;使发出请求的责任和执行请求的责任分割开。这样两者之间通过命令对象进行沟通&#xff0c;这样方便将命令对象进行存储&#xff0c;传递&#xff0c;调用…

基于ssm的前后端分离鲜花销售系统论文

摘 要 现代经济快节奏发展以及不断完善升级的信息化技术&#xff0c;让传统数据信息的管理升级为软件存储&#xff0c;归纳&#xff0c;集中处理数据信息的管理方式。本鲜花销售系统就是在这样的大环境下诞生&#xff0c;其可以帮助管理者在短时间内处理完毕庞大的数据信息&am…

几本学习中整理和面试的PDF,以及精选面试资料

今天和大家分享我在学习过程中整理的笔记&#xff0c;以及我在准备面试中&#xff0c;阅读的PDF&#xff0c;包括Spring Cloud学习手册、Docker学习手册、RabbitMQ学习手册、Spring 6手册、Maven手册、22w字面试手册等等&#xff0c;包括了大部分后端技术以及大部分高频面试题&…

大数据湖体系规划与建设方案:PPT全文51页,附下载

关键词&#xff1a;大数据解决方案&#xff0c;数据湖解决方案&#xff0c;数据数仓建设方案&#xff0c;大数据湖建设规划&#xff0c;大数据湖发展趋势 一、大数据湖体系规划与建设背景 在传统的企业信息化建设中&#xff0c;各个业务系统通常是独立建设的&#xff0c;导致…

【数据结构—栈的实现(数组栈)】

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言 一、栈 1.1栈的概念及结构 二、栈的实现 2.1头文件的实现—Stack.h 2.2源文件的实现—Stack.c 2.3源文件的测试—test.c 三、栈的实际测试数据展示 3.1正常的出…

麦克风相关知识——图后续处理

这篇文章重点介绍几种实用的波束形成算法&#xff08;delaysum&#xff0c;delaysub&#xff0c;一阶差分自适应BF&#xff09;原理及实现效果&#xff0c;再简单介绍一些知名品牌助听器中的BF方案&#xff1b; 1.易实现的BF算法介绍 1.1 delaysum 延时相加和延时相减是最基…

边缘计算系统设计与实践:引领科技创新的新浪潮

文章目录 一、边缘计算的概念二、边缘计算的设计原则三、边缘计算的关键技术四、边缘计算的实践应用《边缘计算系统设计与实践》特色内容简介作者简介目录前言/序言本书读者对象获取方式 随着物联网、大数据和人工智能等技术的快速发展&#xff0c;传统的中心化计算模式已经无法…

MySQL命令行备份数据库的关键步骤

MySQL是一个广泛使用的开源关系数据库管理系统&#xff0c;它常用于各种规模的应用&#xff0c;从个人博客到大型企业级系统。在使用MySQL的过程中&#xff0c;数据备份是一项至关重要的任务&#xff0c;它能够确保在发生数据丢失或系统故障时&#xff0c;我们可以恢复和重新部…

JavaScript实现飘窗功能

实现飘窗功能很简单 html代码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title…

基于yolov2深度学习网络的人员跌倒检测识别matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1 YOLOv2深度学习网络 4.2 人员跌倒检测识别原理 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 clc; clear; close all; warning off; a…

2023最新软件测试面试题(带答案)

1. 请自我介绍一下(需简单清楚的表述自已的基本情况&#xff0c;在这过程中要展现出自信&#xff0c;对工作有激情&#xff0c;上进&#xff0c;好学) 面试官您好&#xff0c;我叫###&#xff0c;今年26岁&#xff0c;来自江西九江&#xff0c;就读专业是电子商务&#xff0c;毕…

【Zerotier】自建PLANET服务器内网地址连接

之前已经完成了【Zerotier】通过docker自建PLANET服务器&#xff0c;但是遇到一个问题&#xff0c;因为各种原因&#xff0c;内网里面的ZeroTier Client无法通过PLANET服务器的公网地址连接&#xff0c;愁怀了这下。在经过多方测试验证后&#xff0c;可以采取重新生成一个PLANE…

应收应付模块如何启用?

应收应付模块启动操作手册 系统平台——系统工具——系统状态控制 查看要修改的日期 财务结账到指定期限后进行联用 点击与总账联用按钮

自激活T细胞为肿瘤免疫治疗提供新思路—高分文献分享

CD28是在所有小鼠和人类T细胞上表达的共刺激受体&#xff0c;用来调节T细胞受体(TCR) 的响应。异常的CD28 信号传导是癌症、自身免疫和病毒感染中T细胞功能障碍的决定性特征之一。早期的一些研究表明CD28对CD4 T细胞更重要&#xff0c;但也有越来越多的研究者发现其对CD8 T细胞…

(反序列化)小记录

目录 [CISCN 2023 华北]ez_date 绕过MD5和sha1强相关绕过 date()绕过 payload [FSCTF 2023]ez_php [CISCN 2023 华北]ez_date <?php error_reporting(0); highlight_file(__FILE__); class date{public $a;public $b;public $file;public function __wakeup(){if(is_a…

【Pyqt5】QWidget: Must construct a QApplication before a QWidget

问题说明&#xff1a; pyqt6切换为pyqt5时&#xff0c;引用自定义类时报错&#xff0c;QWidget: Must construct a QApplication before a QWidget 解决办法 修改导入python包的导入顺序后可以正常运行 使用pyqt5时需将pyqtgraph放到pyqt5之后导入