一、什么是相关系数
相关系数:用来衡量两个变量之间的相关性的大小。
根据数据满足的不同条件,选择不同的相关系数进行计算和分析。
两种最为常用的相关系数:person相关系数和spearman等相关系数。
二、Person相关系数
1、什么是Person相关系数
所以,一定要先画散点图,看是否为线性相关 ,才能使用相关系数判断相关性的强弱(绝对值越大的相关性越强,即绝对值趋近1)
2、补充:如何计算基本统计量
(1)使用matlab函数
(2)使用excel的数据分析工具
(3)使用SPSS 软件
3、计算Person相关系数的大小
(1) matlab代码计算得数据
(2) excel优化表格
4、判断相关系数异于0的显著性(假设检验)
比起相关系数的大小,我们往往更关注的是显著性 (即相关系数是否显著异于0)
假设检验的一般步骤:
1、提出原假设H0(相关系数等于0)和备择假设H1
2、选择统计量
3、计算检验值
4、由置信水平求拒绝域(这里p值判断法更好用)
5、判断
(1)matlab代码计算(p值判断法)
计算得到检验值后,计算p值(p值:在检验值两侧之外的分布概率,即图中红线部分)
所以,直观来看,
p值越大,越能将检验值(边界)推向接受域内,说明原假设成立,相关系数等于0;
反之,p值越小,相关系数异于0的显著性越大。
代码:
(2)SPSS计算相关系数和显著性,并生成表格
分析->相关->双变量
注:excel生成的带颜色的表格和这种表格不可兼得,这里更推荐这种带*号的表格
5、假设检验的条件(正态分布)
(1)Shapiro-wilk检验(小样本3至50)
(2)JB检验(大样本>30)
x只能是向量,所以只能一列列地检验
对H和P初始化,可以节省时间和消耗
ans=5.0000e-05 则返回0.001
(3)Q-Q图(超大样本->10000)
三、Spearman相关系数 (对数学要求相对较低)
(1)公式定义
(2)等级的Person定义
也可以写[R,P]=corr(Test, 'type', 'Spearman') ,直接计算相关系数和p值
(3) 假设检验
1)小样本
2)大样本
四、两种相关系数的比较