数据降维-主成分分析PCA

1.背景：

在以前计算能力还很弱的年代，我们要分析经济数据是一件很困难的事情，所以我们需要对指标特征进行降维；
在这里插入图片描述

2.数据降维的意义：

一般我们降维的特征数据彼此之间是存在一定的相关性的，
二维降至一维数据：
在这里插入图片描述

复杂指标缩减至二维指标：
1.当指标纬度较高时，并不方便我们进行可视化展示，所以我们需要对数据指标进行降维。
2.使得数据集更易使用。
3.降低算法的计算开销。
4.去除噪声。
5.使得结果容易理解。
在这里插入图片描述

可视化示例：
这样就非常方便我们分析发达国家，发展中国家等国家的综合实力的判断了

3.数据降维的方式（PCA）

1.PCA：

1.全称Principal components analysis（主成分分析技术）
2.其余算法：奇异值分解(SVD)、主成分分析(PCA)、因子分析(FA)、独立成分分析(ICA)

2.目的：

寻找K(K<n)维数据，使n维空间降至K维空间，并且损失函数尽量最小；（n->k：找到一个n维空间的向量，投影到u1…u2,uk形成的空间上）

3.思路：

PCA的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴，新的坐标轴的选择与原来的数据本身是密切相关的。

3.1为什么要相互正交呢？

正交的特征向量使得在新的特征空间中，每个特征之间的协方差为零，这意味着它们是无关的，这样可以更好地表达数据的方差。因为在 PCA 中，我们希望找到方差最大的方向作为主成分，而相互正交的向量正是保证了这一点。——>彼此之间是正交的，这样可以最大程度地保留原始数据的信息，并且让新的特征之间尽可能地独立，避免冗余信息。这也就意味着，通过正交化处理后的特征向量之间不会存在线性相关性，从而减少了特征之间的多重共线性问题。

3.2举个例子：如果是非正交会怎么样？

假设我们有一个二维数据集，其中的数据点分布在 x 轴和 y 轴方向上。我们希望通过 PCA 将这个数据集从二维空间映射到一维空间。
首先，让我们看看如果特征向量不是正交的情况下会发生什么。假设我们选择两个非正交的特征向量作为主成分，分别表示 x 轴方向和 y 轴方向。如果这两个特征向量不是正交的，意味着它们之间存在一定的夹角，那么在新的特征空间中，这两个特征之间会有一定的关联性。
现在，假设我们要在这个新的特征空间中找到一个方向，使得数据的方差最大化。但由于这两个特征之间存在关联性，我们无法找到一个方向同时使得 x 轴方向和 y 轴方向上的方差都最大化。因此，我们无法准确地找到数据的主要方向，也就无法有效地降低数据的维度。
相反，如果我们选择的特征向量是正交的，那么它们之间不存在关联性，我们就可以在新的特征空间中找到一个方向，使得数据的方差最大化。这样，我们就可以准确地找到数据的主要方向，有效地降低数据的维度，同时尽量保留数据的信息。
因此，PCA 中要求特征向量相互正交，这样可以更好地提取数据的主要特征，减少冗余信息，从而实现降维的目的。