参考资料:用python动手学统计学
1、导入库
# 导入库
# 用于数值计算的库
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats
# 用于绘图的库
from matplotlib import pyplot as plt
import seaborn as sns
sns.set()
2、数据准备
本例是检验不同颜色按钮的吸引力是否相同。数据准备如下:
data=pd.DataFrame({
'color':['blue','blue','red','red'],
'click':['click','not','click','not'],
'freq':[20,230,10,40]
})
data
3、将数据转换为列联表
cross=data.pivot_table(index='color',columns='click',values='freq',aggfunc='sum')
cross
4、使用scipy.stats.chi2_contingency()函数进行卡方检验
stats.chi2_contingency(cross,correction=True)
这里对此函数进行以下两点说明:
(1)本函数要求给定的数据为列联表的形式,而非原始的未汇总的数据。
(2)correction为True时,表示对数据进行连续型矫正;当设置为False,则不做连续性矫正。
通常当自由度为1时,需要进行连续型矫正。
卡方检验的相关理论内容参考:
excel统计分析——卡方检验(基本原理)-CSDN博客
excel统计分析——卡方适合性检验-CSDN博客
excel统计分析——卡方独立性检验(上)-CSDN博客
excel统计分析——卡方独立性检验(下)-CSDN博客
5、结论
差异极显著:即按钮的颜色显著地影响了按钮的吸引力。