1.背景:
在以前计算能力还很弱的年代,我们要分析经济数据是一件很困难的事情,所以我们需要对指标特征进行降维;
2.数据降维的意义:
一般我们降维的特征数据彼此之间是存在一定的相关性的,
二维降至一维数据:
复杂指标缩减至二维指标:
1.当指标纬度较高时,并不方便我们进行可视化展示,所以我们需要对数据指标进行降维。
2.使得数据集更易使用。
3.降低算法的计算开销。
4.去除噪声。
5.使得结果容易理解。
可视化示例:
这样就非常方便我们分析发达国家,发展中国家等国家的综合实力的判断了
3.数据降维的方式(PCA)
1.PCA:
1.全称Principal components analysis(主成分分析技术)
2.其余算法:奇异值分解(SVD)、主成分分析(PCA)、因子分析(FA)、独立成分分析(ICA)
2.目的:
寻找K(K<n)维数据,使n维空间降至K维空间,并且损失函数尽量最小;(n->k:找到一个n维空间的向量,投影到u1…u2,uk形成的空间上)
3.思路:
PCA的主要思想
是将n维特征
映射到k维上
,这k维
是全新的正交特征
也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作
就是从原始的空间中
顺序地找一组相互正交
的坐标轴,新的坐标轴
的选择与原来的数据
本身是密切相关的。
3.1为什么要相互正交呢?
正交的特征向量
使得在新的特征空间中,每个特征之间的协方差为零
,这意味着它们是无关的
,这样可以更好地表达数据的方差。因为在 PCA 中,我们希望找到方差最大的方向作为主成分,而相互正交的向量正是保证了这一点。——>彼此之间是正交的
,这样可以最大程度地保留原始数据的信息
,并且让新的特征
之间尽可能地独立
,避免冗余信息。这也就意味着,通过正交化处理后的特征向量之间不会存在线性相关性
,从而减少了
特征之间的多重共线性问题
。
3.2举个例子:如果是非正交会怎么样?
假设
我们有一个二维数据集,其中的数据点分布在 x 轴和 y 轴方向上。我们希望通过 PCA 将这个数据集从二维空间映射到一维空间。
首先
,让我们看看如果特征向量不是正交的情况下会发生什么。假设我们选择两个非正交的特征向量作为主成分,分别表示 x 轴方向和 y 轴方向。如果这两个特征向量不是正交的,意味着它们之间存在一定的夹角,那么在新的特征空间中,这两个特征之间会有一定的关联性。
现在
,假设我们要在这个新的特征空间中找到一个方向,使得数据的方差最大化。但由于这两个特征之间存在关联性,我们无法找到一个方向同时使得 x 轴方向和 y 轴方向上的方差都最大化。因此,我们无法准确地找到数据的主要方向,也就无法有效地降低数据的维度。
相反
,如果我们选择的特征向量是正交的,那么它们之间不存在关联性,我们就可以在新的特征空间中找到一个方向,使得数据的方差最大化。这样,我们就可以准确地找到数据的主要方向,有效地降低数据的维度,同时尽量保留数据的信息。
因此
,PCA 中要求特征向量相互正交,这样可以更好地提取数据的主要特征,减少冗余信息,从而实现降维的目的。
3.3如何找到主成分方向呢?
事实上:通过计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值和特征向量,选择特征值最大(即方差最大)的k个特征所对应的特征向量组成的矩阵。这样就可以将数据矩阵转换到新的空间当中,实现数据特征的降维。
所以,PCA算法有两种实现方法:基于特征值分解协方差矩阵实现PCA算法、基于SVD分解协方差矩阵实现PCA算法。
(特征值分解)流程如下:
**大致思路:**将一个方阵分解
为特征向量和特征值
的形式。这个过程有助于我们理解和分析线性变换的性质以及矩阵的结构;(而分解的K个特征值
所对应的K个特征向量所组成的矩阵
,可用于转换到新的空间
当中实现数据特征的降维
)