问题引入:
公司评价
假设你是一个公司的财务经理,掌握了公司所有数据,如:固定资产、流动资金、借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折扣、职工人数、分工和教育程度等等,你要如何选择关键因素进行汇报呢?
需要把这种有很多变量的数据高度概括,即找出少数代表多数。
两种降维方法:主成分分析和因子分析法
1,主成成分分析法简介
是因子分析的一个特例。
研究如何通过少数几个主成分来解释多个变量间的内部结构。
即从原始变量中导出少数几个主分量,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。
1.1 主成分分析法基本思想
以两个变量为例
假设只有两个变量x和x,从散点图可见两个变量间存在相关关系,这意味着两个变量提供的信息有重叠
如果把两个变量用一个变量来表示,同时这一个新的变量又尽可能包含原来的两个变量的信息,这就是降维。
1.2 .主成分分析法的原理
当指标数较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。
数学上的处理是将原始的p个变量作线性组合,作为新的变量。设p个原始变量为X1,X2……x,,构造新的变量指标z1,z2.,……,zm(m<=p),和原始变量之间的关系表示为
系数山的确定原则:
① zi与zj(i≠j; i,j=1,2,…,m)相互无关;
② z是x1,x2…,Xp,的一切线性组合中方差最大者,
zz是与z,不相关的x1,x2,…,Xm-1的所有线性组合中方差最大者
Zm是与Z1,Z2,…,Zm-1都不相关的x1,x2,…,xp的所有线性组合中方差最大者。
则新变量指标z1……,Zm分别称为原变量指标的第1,第2,…第m主成分
主成分分析的实质就是确定原来变量Xj(j=1,2,…,p)
在诸主成分zj(i=1,2,…,m)上的荷载Lij(i=1,2,…,m;=1,2,…,p)
从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。
1.3 主成成分分析法的解题步骤
①对原来的p个指标进行标准化,以消除变量在水平和量纲上的影响。
②根据标准化后的数据矩阵求出协方差矩阵或相关系数矩阵
③求出协方差矩阵或相关系数矩阵的特征根和特征向量
④确定主成分,并对各主成分所包含的信息给予适当的解释。
1.4 主成成分分析法各统计量的意义
特征值:衡量主成分解释力度的指标,代表引入该主成分后可以解释平均多少个原始变量的信息。一般可以用特征值大于1作为纳入标准,如果小于1则解释力度不如直接引入原始变量
累积贡献率:前k个主成分的累积贡献率按照方差贡献率从大到小排列,前k个主成分累积提取了多少原始信息一般来说达到85%即可。
1.5 补充
2,因子分析法
2.1.因子分析法简介
因子分析可以看作主成分分析的推广和拓展,因子分析的用途与在成分分析类似,它也是一种降维方法。由于因子往往比主成分更易得到解释,故因子分析比主成分分析更容易成功,从而有更广泛的应用。通过对变量之间关系的研究,找出能综合原始变量的少数几个因子,使得少数因子能够反映原始信息的绝大部分信息,然后根据相关性大小将原始变量分组,使得组内变量之间相关性较高,而不同组的变量之间相关性较低。
3,总结:
3.1 主成分分析法小结
优点:
不要求数据呈正态分布,主成分就是按数据离散程度最大的方向对基组进行旋转,这特性扩展了其应用范围:通过对原始变量进行综合与简化,可以客观地确定各个指标的权重,避免主观判断的随意性。
缺点:
主成分分析适用于变量间有较强相关性的数据,若原始数据相关性弱,:则起不到很好的降维作用;
降维后,存在少量信息丢失,不可能包含100%原始数据。
原始数据经过标准化处理之后,含义会发生变化,且主成分的解释含义:较原始数据比较模糊。
假设标准化后的原始变量间存在多重共线性,即原始变量之间存在不可忽视的信息重叠,主成分分析不能有效剔除信息重叠
3.2 因子分析法小结
优点:
它不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据;
缺点:
在计算因子得分时,采用的是最小二乘法,此法有时可能会失效。