主成分分析法(PCA)
- 主成分分析法(PCA)
- 主成分分析的基本思想
- 主成分的计算
- 主成分分析的原理
- 主成分分析的特点
- 主成分分析的应用
主成分分析法(PCA)
主成分分析的基本思想
- PCA是1901 年Pearson在研究回归分析时附带提出的,其数学基础是在1933 年由Hotelling奠定。
- 由于各种量测到数据通常是以矩阵的形式记录、表达和存储的,实际中的很多数据信息往往是重叠与冗余的。从线性代数的观点来看,就是这些数据矩阵中存在相关的行或列。因此需要对其进行处理和提炼,抽取出有意义、独立的变量。
- 主成分分析(Principal Component Analysis, 简称PCA)是一种常用的基于变量协方差矩阵对信息进行处理、压缩和抽提的有效方法。它把原有的多个指标转化成少数几个代表性较好的综合指标,这少数几个指标能够反映原来指标大部分的信息(85%以上),并且各个指标之间保持独立,避免出现重叠信息。主成分分析主要起着降维和简化数据结构的作用。
为什么要进行主成分分析
压缩变量个数,用较少的变量去解释原始数据中的大部分变量,剔除冗余信息。即将许多相关性很高的变量转化成个数较少、能解释大部分原始数据方差且彼此互相独立的几个新变量,也就是所谓的主成分。
消除原始变量间存在的共线性,克服由此造成的运算不稳定、矩阵病态等问题。
主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理
很显然,系统在一个低维空间要比在一个高维空间容易得多。
维数对分类的影响
在实际应用中,当特征个数增加到某一个临界点后,继续增加反而会导致分类器的性能变差。
数据降维
主成分的计算
考虑这样一个问题,有n个d维的样本
x
1
,
x
2
,
x
3
,
…
,
x
n
x_1, x_2, x_3, …, x_n
x1,x2,x3,…,xn,如何能够用仅仅一个d维的向量
x
0
x_0
x0来最好代表这n个样本,或者更确切的说,我们希望这个代表向量
x
0
x_0
x0与各个样本
x
k
(
k
=
1
,
2
…
.
.
,
n
)
x_k(k=1,2…..,n)
xk(k=1,2…..,n)的距离的平方和越小越好。
只要把向量
x
k
x_k
xk向通过样本均值的直线w作垂直投影就能得到最小平方误差的结果。
- 协方差矩阵能处理多维问题;
- 协方差矩阵是一个对称矩阵,而且对角线是各个维度上的方差。
- 协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的。
- 样本矩阵中若每行是一个样本,则每列为一个维度,所以计算协方差时要按列计算均值。
结论:为了最大化 w T S w w^TSw wTSw,我们选取协方差矩阵S最大特征值对应的那个特征向量最为投影直线w的方向。
主成分求解步骤:
主成分分析的原理
- 根据方差(特征值)最大化原理,用一组新的、线性无关且相互正交的向量来表征原来数据矩阵的行(或列)。这组新向量(主成分)是原始数据向量的线性组合。
- 通过对原始数据的平移、尺度伸缩(减均值除方差)和坐标旋转(特征分解),得到新的坐标系(特征向量)后,用原始数据在新坐标系下的投影(点积)来替代原始变量。
主成分分析的特点
- 主成分是原变量的线性组合;
- 各个主成分之间互不相关;
- 不同的主成分轴之间相互正交。
- 主成分按照方差从大到小依次排列,第一主成分对应最大的方差(特征值);
- 每个主成分方差为协方差阵对应的特征值;
主成分分析的应用
人脸图像降维