方差和标准差:
一个随机变量,的值的变化程度可以用方差计算:
;其中 是期望。
另外一种等价表达式:
其中为均值,N为总体例数
我们举个例子:
服从均一分布,取值为0.1,0.2,0.3,0.4,0.5 ,每种值的概率是20%,可算出期望是0.3,那么方差就是:
标准差是方差的平方根,随机变量的标准差是
此处为了方便,计算方差和标准差时,分母是N,计算的是总体方差和总体标准差。(在实际应用中,因为样本是抽样样本,计算方差和标准差时,分母应是N-1,也就是说计算的是样本方差和样本标准差。)
协方差:
协方差可以用来衡量两个变量的线性相关性,并且可以化简到容易计算的形式(化简过程有问题可以找下证明或者举个例子亲自算一下):
我们举第一个例子:
服从均一分布,取值为0.1,0.2,0.3,0.4,0.5 ,每种值的概率是20%,可算出期望是0.3,标准差是;
服从均一分布,取值为10000,20000,30000,40000,50000 ,每种值的概率是20%,可算出期望是30000,标准差是;
假设 和 线性相关,此时 ,那么取0.1取10000的概率为0.2,取0.1取20000、30000、40000、50000的概率都为0,以此类推。
和的协方差就是:
我们再举第二个例子:
把上个例子中的随机变量改变,随机变量不改变。
服从均一分布,取值为1,2,3,4,5 ,每种值的概率是20%,可算出期望是3,标准差是;
假设 和 线性相关,此时 ,那么取0.1取1的概率为0.2,取0.1取2、3、4、5的概率都为0,以此类推。
和的协方差就是:
两个例子对比一下,两个例子中的两个随机变量都是线性相关的,求出来的协方差都大于0,但是两个协方差的数值有较大差异,相差了10000倍。
皮尔逊相关系数:
皮尔逊相关系数是两个随机变量 和 的协方差与标准差之商:
我们可以计算上述两个例子里的皮尔逊相关系数:
第一个例子:
第二个例子:
皮尔逊相关系数都为1。
协方差、皮尔逊相关系数与线性相关
完全线性相关、线性相关、线性独立、完全独立:
如果变量可以用表示成 ,那么两个随机变量完全线性相关,否则不是完全线性相关。不是完全线性相关的两个变量有可能线性相关,有可能线性独立。如果两个变量有一定的线性关系,那么两个变量线性相关;如果和没有任何关系(完全独立)或者左右对称的线性关系可以抵消掉,那么两个变量线性独立。我们举一些例子。
完全线性相关的例子:
如果,点集如散点图所示,那么概率矩阵和计算协方差如下,协方差为4大于0(绿色部分值的加和),皮尔逊系数为1:
线性相关的例子:
如果,点集如散点图所示,那么概率矩阵和计算协方差如下,协方差为12大于0,皮尔逊系数为0.98:
线性独立的例子:
仍然是,取不同的数值再算一下,点集如散点图所示,协方差为0,皮尔逊系数为0,此时左右对称的线性关系可以抵消掉:
线性独立的另外一个例子,点集如散点图所示,此时和 完全独立,协方差为0,皮尔逊系数为0:
通过上述例子可以看出,当两变量线性独立时,协方差一定等于0;当协方差等于0时,两变量也一定线性独立,但是并不代表两变量完全独立(完全独立的例子)。
下图是皮尔逊相关系数的一个图示便于理解:
总结
如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
协方差和皮尔逊相关系数都可以衡量两个随机变量的线性相关性(注意只是线性相关性),协方差受随机变量数值大小的影响,而皮尔逊相关系数不受随机变量数值大小的影响。所以两随机变量的协方差越大并不代表这两个变量越线性相关,而两随机变量的皮尔逊相关系数绝对值越大这两个变量越线性相关。
协方差的范围是;协方差<0时,线性负相关;协方差>0时,线性正相关;协方差=0时,线性独立。皮尔逊相关系数的范围是;当为-1时,完全线性负相关;当为1时,完全线性正相关;当>-1且<0时,线性负相关,绝对值越大越线性负相关;当>0且<1时,线性正相关,绝对值越大越线性正相关;当=0时,线性独立。