特征选择概述

提示：特征选择

文章目录

1，什么是特征选择
2，特征选择的过程
- 2.1，特征子集的产生过程
- 2.2，特征子集的评价准则
- 2.3，特征选择的停止准则
- 2.4，特征子集的分类验证
3，特征选择的方法分类
参考文件

1，什么是特征选择

特征选择是指从原始特征集中选择一些特征组成新的特征子集，选择特征时需要参照某个标准，根据这个标准去筛选特征，进而降低原始特征集的维度，用经过筛选后的特征集去辨识故障时要求其能达到比原始特征集更精确的识别度，同时能够降低计算复杂度。

2，特征选择的过程

第一步先随机产生一个特征子集，
第二步采用某个标准对这个子集进行评估，如果评估结果和设定的停止准则是一致的，那么就将这个特征子集导出形成最优特征子集，则就返回重复前面的步骤，直到得到满足条件的最优特征子集。
最后，验证所选的特征子集是否能够达到前述对其的要求。

从图中可以清晰地看出特征选择方法包含 4 个基本步骤（产生子集、子集评价、停止准则、结果验证）。目前特征选择方法的研究重点是如何产生较优的子集以及用什么样的准则去评价故障特征子集。
在这里插入图片描述

2.1，特征子集的产生过程

全局搜索
从理论上讲全局搜索可以对每个特征进行评价，在进行搜索前需要设定一个评价准则，根据这个准则去评价原始转子故障特征集里的每一个特征，将满足条件的特征筛选出来形成最后的特征子集。但是这种搜索算法会带来巨大的计算量，尤其当原始特征集规模较大时，计算时间较长。
- 广度优先搜索
- 分支限界搜索
- 定向搜索
- 最优优先搜索
启发式搜索
启发式方法相对于全局搜索则相对简单的多，它不是对所有的特征都进行评价，而是根据某种顺序不时地往当前的特征子集里增加或删除特征，从而得到敏感特征集。这类特征选择方法主要有：序列前向选择方法，浮动搜索法，广义序列后向选择方法等。这类方法计算速度较快，但是它的缺点是牺牲了整体最优，容易导致局部极值点。
- 序列前向选择
- 序列后向选择
- 双向搜索
- 增L去R选择算法
- 序列浮动选择
- 决策树
随机搜索
由随机产生的某个候选特征子集开始，依据一定的规则和信息向全局最优解渐渐靠近。与上述两种方法相比较，这种方法的不足之处是高度的不确定性。常用的随机搜索方法包括粒子群算法 Particl Swarm Optimization PSO 免疫算法 Immune Algorithm IA）等。
- 随机产生序列选择算法
- 模拟退火算法
- 遗传算法

随机算法的共同缺点：依赖于随机因素，有实验结果难以重现。

2.2，特征子集的评价准则

距离准则
距离准则是用来衡量两个样本之间的相似程度，进而用它来描述某个特征对于分类是否有帮助。距离准则不仅可以用来度量变量之间的相似度，还能度量变量之间的差异性，一般假设最优特征子集应该使得同类样本之间的距离比较小，且使得不同类别样本之间的距离比较大。因此距离准则作为一种标准可以选择出一些敏感特征组成敏感特征集。
信息准则
信息熵可以作为一种标准来刻画特征对故障辨识的不确定度。通过它可以描述某个特征含有多少信息量。一些有代表性的评估准则有：信息增益、关联度以及互信息等信息增益能够准确地选出对故障敏感的特征，剔除对分类无用的特征。信息增益在决策树算法中被选做评价准则来筛选特征。互信息可以用来表述两个随机变量之间包含有多少共同的信息，在特征选择中通过计算某个特征与某个故障类型之间的互信息来评价该特征对分类的作用。信息度量在特征选择方法中起着比较重要的作用，尽管它们的计算方法是不一样的，但是它们所想达到的效果是一样的，就是通过对这些度量函数的计算选择出那些对分类贡献大的特征也就是能够准确识别故障的特征。近年来关于信息度量的研究成为了一个热点，大量的关于信息度量的特征选择方法被提了出来。
一致性准则
假设从两类不同的样本中各取出一个样本，如果它们的特征值相同，那么它们就是不一致的，否则它们是一致的。不一致度被用来衡量样本之间的一致性，一个数据集的不一致度指的是这个数据集中不一致的样本所占的百分比。一致度准则的目的是寻找一个规模最小的特征子集，而且这个特征子集区分故障类别的能力并没有因为数据集规模的缩小而受到影响。一致性准则特征选择方法的优点是可以有效地剔除那些对故障分类没有作用的特征，缩小原始特征集的规模。缺点是仅适用于离散特征。常用的基于一致性准则的特征选择算法有 LVF Focus 等。
相关性准则
相关性准则研究的是一些特征与类别、特征与特征之间的相关性。在对特征进行评价时，如果这个特征与故障类别间的关联度比较高，那么这个特征就可以为我们所用，我们可以把它放到最优子集里面去，另外如果某个特征和最优子集里的某个特征的关联度比较高，那么这个特征将会被剔除。常用的统计相关系数有很多，如概率误差、线性可判定分析、平方关联系数、t-test 等。
分类器错误率
使用特定的分类器，用给定的特征子集对样本集进行分类，用分类的精度来衡量特征子集的好坏。

以上5种度量方法中，相关性、距离、信息增益、一致性属于筛选器，而分类器错误率属于封装器。

2.3，特征选择的停止准则

特征选择的过程是一个循环过程，因此需要一个停止循环的条件来判断这个循环过程什么时候结束，这个条件即称为停止准则。这个准则的确立需要参考前面两小节所讲的内容，通常情况下它是一个阈值，在循环的过程中如果评价函数值达到这个值，那么就需要停止循环，这个时候得到的特征子集将会被保存下来作为最优子集，当条件不满足时，则循环重新开始，重新产生子集，执行循环直至满足条件。阈值的准确设置对停止准则影响很大，在设置这个固定值的时候，需要对特征选择算法有足够的了解，根据算法的要求来设置一个恰当的值。如果这个值设置的不合适，那么将会导致算法进入死循环或者算法的性能达不到预期的效果。在实际的应用中需要结合具体的特征选择算法设置阈值，有时也会采用算法的运行时间或者算法的运行次数作为停止条件，即当算法运行到一定的时间或者次数时，即使还没有求得最优结果，也结束算法的运行将结果输出。

2.4，特征子集的分类验证

特征选择的分类验证是指在分类器上验证所选特征子集是否对分类有帮助，将通过特征选择得到的特征子集输入到分类器中去，验证这个特征集能否准确地识别出旋转机械的故障状态，确保选择的特征子集有比原始特征集更强的分类能力，能够提高分类准确率，这就是特征选择算法所要达到的目的。

3，特征选择的方法分类

本小节从评价准则方面对特征选择方法进行分类，根据特征选择方法与后续学习算法的关系，可以将其分为过滤方法(Filter)、封装方法(Wrapper)、嵌入法。过滤方法是指特征选择的过程与后续学习算法间相互独立，封装和嵌入法均依赖于具体的分类学习算法，下面对以上三种方法进行具体分析。

过滤式特征选择方法
过滤式特征选择方法的优点是计算速度快，这类方法使用合适的标准通过增强特征与类的相关性，消减特征之间的相关性来快速地选择出特征。过滤式特征选择方法依据数据的内部特性评估某个特征的好坏，它高运算效率的优点决定了它适合处理规模比较大的数据集。但是当特征与分类器的联系比较紧密时，这种方法就不能保证它筛选出来的特征子集具有较小的维度。即使这类方法最终找到的特征集满足事先设定的条件，那么这个特征集也是很庞大的，甚至其中会包含一些对分类无用的特征。给寻找关键性的敏感特征带来了阻碍。过滤式特征选择方法的一般过程如图所示。
- 方差过滤
- 相关性过滤（基于卡方，F检验和互信息的相关性过滤）
Embedded嵌入法
嵌入法是一种让算法自己决定使用哪些特征的方法，即特征选择和算法训练同时进行。在使用嵌入法时，我们先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据权值系数从大到小选择特征。这些权值系数往往代表了特征对于模型的某种贡献或某种重要性，比如决策树和树的集成模型中的feature_importances_属性，可以列出各个特征对树的建立的贡献，我们就可以基于这种贡献的评估，找出对模型建立最有用的特征。因此相比于过滤法，嵌入法的结果会更加精确到模型的效用本身，对于提高模型效力有更好的效果。并且，由于考虑特征对模型的贡献，因此无关的特征（需要相关性过滤的特征）和无区分度的特征（需要方差过滤的特征）都会因为缺乏对模型的贡献而被删除掉，可谓是过滤法的进化版。

过滤法中使用的统计量可以使用统计知识和常识来查找范围（如p值应当低于显著性水平0.05），而嵌入法中使用的权值系数却没有这样的范围可找——我们可以说，权值系数为0的特征对模型丝毫没有作用，但当大量特征都对模型有贡献且贡献不一时，我们就很难去界定一个有效的临界值。这种情况下，模型权值系数就是我们的超参数，我们或许需要学习曲线，或者根据模型本身的某些性质去判断这个超参数的最佳值究竟应该是多少。在我们之后的学习当中，每次讲解新的算法，我都会为大家提到这个算法中的特征工程是如何处理，包括具体到每个算法的嵌入法如何使用。在这堂课中，我们会为大家讲解随机森林和决策树模型的嵌入法。另外，嵌入法引入了算法来挑选特征，因此其计算速度也会和应用的算法有很大的关系。如果采用计算量很大，计算缓慢的算法，嵌入法本身也会非常耗时耗力。并且，在选择完毕之后，我们还是需要自己来评估模型。
封装式特征选择方法
包装法也是一个特征选择和算法训练同时进行的方法，与嵌入法十分相似，它也是依赖于算法自身的选择，比如coef_属性或feature_importances_属性来完成特征选择。但不同的是，我们往往使用一个目标函数作为黑盒来帮助我们选取特征，而不是自己输入某个评估指标或统计量的阈值。包装法在初始特征集上训练评估器，并且通过coef_属性或通过feature_importances_属性获得每个特征的重要性。然后，从当前的一组特征中修剪最不重要的特征。在修剪的集合上递归地重复该过程，直到最终到达所需数量的要选择的特征。区别于过滤法和嵌入法的一次训练解决所有问题，包装法要使用特征子集进行多次训练，因此它所需要的计算成本是最高的。

注意，在这个图中的“算法”，指的不是我们最终用来导入数据的分类或回归算法（即不是随机森林），而是专业的数据挖掘算法，即我们的目标函数。这些数据挖掘算法的核心功能就是选取最佳特征子集。

最典型的目标函数是递归特征消除法（Recursive feature elimination, 简写为RFE）。它是一种贪婪的优化算法，旨在找到性能最佳的特征子集。它反复创建模型，并在每次迭代时保留最佳特征或剔除最差特征，下一次迭代时，它会使用上一次建模中没有被选中的特征来构建下一个模型，直到所有特征都耗尽为止。然后，它根据自己保留或剔除特征的顺序来对特征进行排名，最终选出一个最佳子集。包装法的效果是所有特征选择方法中最利于提升模型表现的，它可以使用很少的特征达到很优秀的效果。除此之外，在特征数目相同时，包装法和嵌入法的效果能够匹敌，不过它比嵌入法算得更见缓慢，所以也不适用于太大型的数据。相比之下，包装法是最能保证模型效果的特征选择方法。