特征选择概述

提示:特征选择

文章目录

  • 1, 什么是特征选择
  • 2,特征选择的过程
    • 2.1,特征子集的产生过程
    • 2.2,特征子集的评价准则
    • 2.3,特征选择的停止准则
    • 2.4,特征子集的分类验证
  • 3, 特征选择的方法分类
  • 参考文件


1, 什么是特征选择

特征选择是指从原始特征集中选择一些特征组成新的特征子集,选择特征时需要参照某个标准,根据这个标准去筛选特征,进而降低原始特征集的维度,用经过筛选后的特征集去辨识故障时要求其能达到比原始特征集更精确的识别度,同时能够降低计算复杂度。

2,特征选择的过程

  • 第一步先随机产生一个特征子集,
  • 第二步采用某个标准对这个子集进行评估,如果评估结果和设定的停止准则是一致的,那么就将这个特征子集导出形成最优特征子集,则就返回重复前面的步骤,直到得到满足条件的最优特征子集。
  • 最后,验证所选的特征子集是否能够达到前述对其的要求。

从图中可以清晰地看出特征选择方法包含 4 个基本步骤(产生子集、子集评价、停止准则、结果验证)。目前特征选择方法的研究重点是如何产生较优的子集以及用什么样的准则去评价故障特征子集。
在这里插入图片描述

2.1,特征子集的产生过程

  • 全局搜索
    从理论上讲全局搜索可以对每个特征进行评价,在进行搜索前需要设定一个评价准则,根据这个准则去评价原始转子故障特征集里的每一个特征,将满足条件的特征筛选出来形成最后的特征子集。但是这种搜索算法会带来巨大的计算量,尤其当原始特征集规模较大时,计算时间较长。
    • 广度优先搜索
    • 分支限界搜索
    • 定向搜索
    • 最优优先搜索
  • 启发式搜索
    启发式方法相对于全局搜索则相对简单的多,它不是对所有的特征都进行评价,而是根据某种顺序不时地往当前的特征子集里增加或删除特征,从而得到敏感特征集。这类特征选择方法主要有:序列前向选择方法,浮动搜索法,广义序列后向选择方法等。这类方法计算速度较快,但是它的缺点是牺牲了整体最优,容易导致局部极值点。
    • 序列前向选择
    • 序列后向选择
    • 双向搜索
    • 增L去R选择算法
    • 序列浮动选择
    • 决策树
  • 随机搜索
    由随机产生的某个候选特征子集开始,依据一定的规则和信息向全局最优解渐渐靠近。与上述两种方法相比较,这种方法的不足之处是高度的不确定性。常用的随机搜索方法包括粒子群算法 Particl Swarm Optimization PSO 免疫算法 Immune Algorithm IA)等。
    • 随机产生序列选择算法
    • 模拟退火算法
    • 遗传算法

随机算法的共同缺点:依赖于随机因素,有实验结果难以重现。

2.2,特征子集的评价准则

  • 距离准则
    距离准则是用来衡量两个样本之间的相似程度,进而用它来描述某个特征对于分类是否有帮助。距离准则不仅可以用来度量变量之间的相似度,还能度量变量之间的差异性,一般假设最优特征子集应该使得同类样本之间的距离比较小,且使得不同类别样本之间的距离比较大。因此距离准则作为一种标准可以选择出一些敏感特征组成敏感特征集。
  • 信息准则
    信息熵可以作为一种标准来刻画特征对故障辨识的不确定度。通过它可以描述某个特征含有多少信息量。一些有代表性的评估准则有:信息增益、关联度以及互信息等信息增益能够准确地选出对故障敏感的特征,剔除对分类无用的特征。信息增益在决策树算法中被选做评价准则来筛选特征。互信息可以用来表述两个随机变量之间包含有多少共同的信息,在特征选择中通过计算某个特征与某个故障类型之间的互信息来评价该特征对分类的作用。信息度量在特征选择方法中起着比较重要的作用,尽管它们的计算方法是不一样的,但是它们所想达到的效果是一样的,就是通过对这些度量函数的计算选择出那些对分类贡献大的特征也就是能够准确识别故障的特征。近年来关于信息度量的研究成为了一个热点,大量的关于信息度量的特征选择方法被提了出来。
  • 一致性准则
    假设从两类不同的样本中各取出一个样本,如果它们的特征值相同,那么它们就是不一致的,否则它们是一致的。不一致度被用来衡量样本之间的一致性,一个数据集的不一致度指的是这个数据集中不一致的样本所占的百分比。一致度准则的目的是寻找一个规模最小的特征子集,而且这个特征子集区分故障类别的能力并没有因为数据集规模的缩小而受到影响。一致性准则特征选择方法的优点是可以有效地剔除那些对故障分类没有作用的特征,缩小原始特征集的规模。缺点是仅适用于离散特征。常用的基于一致性准则的特征选择算法有 LVF Focus 等。
  • 相关性准则
    相关性准则研究的是一些特征与类别、特征与特征之间的相关性。在对特征进行评价时,如果这个特征与故障类别间的关联度比较高,那么这个特征就可以为我们所用,我们可以把它放到最优子集里面去,另外如果某个特征和最优子集里的某个特征的关联度比较高,那么这个特征将会被剔除。常用的统计相关系数有很多,如概率误差、线性可判定分析、平方关联系数、t-test 等。
  • 分类器错误率
    使用特定的分类器,用给定的特征子集对样本集进行分类,用分类的精度来衡量特征子集的好坏。

以上5种度量方法中,相关性、距离、信息增益、一致性属于筛选器,而分类器错误率属于封装器。

2.3,特征选择的停止准则

特征选择的过程是一个循环过程,因此需要一个停止循环的条件来判断这个循环过程什么时候结束,这个条件即称为停止准则。这个准则的确立需要参考前面两小节所讲的内容,通常情况下它是一个阈值,在循环的过程中如果评价函数值达到这个值,那么就需要停止循环,这个时候得到的特征子集将会被保存下来作为最优子集,当条件不满足时,则循环重新开始,重新产生子集,执行循环直至满足条件。阈值的准确设置对停止准则影响很大,在设置这个固定值的时候,需要对特征选择算法有足够的了解,根据算法的要求来设置一个恰当的值。如果这个值设置的不合适,那么将会导致算法进入死循环或者算法的性能达不到预期的效果。在实际的应用中需要结合具体的特征选择算法设置阈值,有时也会采用算法的运行时间或者算法的运行次数作为停止条件,即当算法运行到一定的时间或者次数时,即使还没有求得最优结果,也结束算法的运行将结果输出。

2.4,特征子集的分类验证

特征选择的分类验证是指在分类器上验证所选特征子集是否对分类有帮助,将通过特征选择得到的特征子集输入到分类器中去,验证这个特征集能否准确地识别出旋转机械的故障状态,确保选择的特征子集有比原始特征集更强的分类能力,能够提高分类准确率,这就是特征选择算法所要达到的目的。

3, 特征选择的方法分类

本小节从评价准则方面对特征选择方法进行分类,根据特征选择方法与后续学习算法的关系,可以将其分为过滤方法(Filter)、封装方法(Wrapper)、嵌入法。过滤方法是指特征选择的过程与后续学习算法间相互独立,封装和嵌入法均依赖于具体的分类学习算法,下面对以上三种方法进行具体分析。

  • 过滤式特征选择方法
    过滤式特征选择方法的优点是计算速度快,这类方法使用合适的标准通过增强特征与类的相关性,消减特征之间的相关性来快速地选择出特征。过滤式特征选择方法依据数据的内部特性评估某个特征的好坏,它高运算效率的优点决定了它适合处理规模比较大的数据集。但是当特征与分类器的联系比较紧密时,这种方法就不能保证它筛选出来的特征子集具有较小的维度。即使这类方法最终找到的特征集满足事先设定的条件,那么这个特征集也是很庞大的,甚至其中会包含一些对分类无用的特征。给寻找关键性的敏感特征带来了阻碍。过滤式特征选择方法的一般过程如图所示。
    在这里插入图片描述

    • 方差过滤
    • 相关性过滤(基于卡方,F检验和互信息的相关性过滤)
  • Embedded嵌入法
    嵌入法是一种让算法自己决定使用哪些特征的方法,即特征选择和算法训练同时进行。在使用嵌入法时,我们先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据权值系数从大到小选择特征。这些权值系数往往代表了特征对于模型的某种贡献或某种重要性,比如决策树和树的集成模型中的feature_importances_属性,可以列出各个特征对树的建立的贡献,我们就可以基于这种贡献的评估,找出对模型建立最有用的特征。因此相比于过滤法,嵌入法的结果会更加精确到模型的效用本身,对于提高模型效力有更好的效果。并且,由于考虑特征对模型的贡献,因此无关的特征(需要相关性过滤的特征)和无区分度的特征(需要方差过滤的特征)都会因为缺乏对模型的贡献而被删除掉,可谓是过滤法的进化版。
    在这里插入图片描述
    过滤法中使用的统计量可以使用统计知识和常识来查找范围(如p值应当低于显著性水平0.05),而嵌入法中使用的权值系数却没有这样的范围可找——我们可以说,权值系数为0的特征对模型丝毫没有作用,但当大量特征都对模型有贡献且贡献不一时,我们就很难去界定一个有效的临界值。这种情况下,模型权值系数就是我们的超参数,我们或许需要学习曲线,或者根据模型本身的某些性质去判断这个超参数的最佳值究竟应该是多少。在我们之后的学习当中,每次讲解新的算法,我都会为大家提到这个算法中的特征工程是如何处理,包括具体到每个算法的嵌入法如何使用。在这堂课中,我们会为大家讲解随机森林和决策树模型的嵌入法。另外,嵌入法引入了算法来挑选特征,因此其计算速度也会和应用的算法有很大的关系。如果采用计算量很大,计算缓慢的算法,嵌入法本身也会非常耗时耗力。并且,在选择完毕之后,我们还是需要自己来评估模型。

  • 封装式特征选择方法
    包装法也是一个特征选择和算法训练同时进行的方法,与嵌入法十分相似,它也是依赖于算法自身的选择,比如coef_属性或feature_importances_属性来完成特征选择。但不同的是,我们往往使用一个目标函数作为黑盒来帮助我们选取特征,而不是自己输入某个评估指标或统计量的阈值。包装法在初始特征集上训练评估器,并且通过coef_属性或通过feature_importances_属性获得每个特征的重要性。然后,从当前的一组特征中修剪最不重要的特征。在修剪的集合上递归地重复该过程,直到最终到达所需数量的要选择的特征。区别于过滤法和嵌入法的一次训练解决所有问题,包装法要使用特征子集进行多次训练,因此它所需要的计算成本是最高的。
    在这里插入图片描述
    注意,在这个图中的“算法”,指的不是我们最终用来导入数据的分类或回归算法(即不是随机森林),而是专业的数据挖掘算法,即我们的目标函数。这些数据挖掘算法的核心功能就是选取最佳特征子集。

    最典型的目标函数是递归特征消除法(Recursive feature elimination, 简写为RFE)。它是一种贪婪的优化算法,旨在找到性能最佳的特征子集。 它反复创建模型,并在每次迭代时保留最佳特征或剔除最差特征,下一次迭代时,它会使用上一次建模中没有被选中的特征来构建下一个模型,直到所有特征都耗尽为止。 然后,它根据自己保留或剔除特征的顺序来对特征进行排名,最终选出一个最佳子集。包装法的效果是所有特征选择方法中最利于提升模型表现的,它可以使用很少的特征达到很优秀的效果。除此之外,在特征数目相同时,包装法和嵌入法的效果能够匹敌,不过它比嵌入法算得更见缓慢,所以也不适用于太大型的数据。相比之下,包装法是最能保证模型效果的特征选择方法。

工作原理如下:
首先,使用所有特征训练一个模型,并计算每个特征的权重或系数。
然后,排序这些特征的权重或系数,并删除权重或系数最小的特征。
重复步骤1和步骤2,直到特征数量达到预设的值

参考文件

1, https://www.cnblogs.com/heaad/archive/2011/01/02/1924088.html
2, https://blog.csdn.net/2301_81199775/article/details/138661091
3, 转子故障数据集的特征选择方法研究

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/667759.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

摸鱼大数据——Hive函数4-6

4、类型转换函数 类型转换: cast(字段名称 as 想要的数据类型) 示例: -- 数据类型转换 -- string->int select cast("123" as int),"123"; ​ -- string->float/double select cast("123.555" as float),"123.555"…

绘画智能体分享

这是您请求的故宫雪景图,角落有一只可爱的胖猫,采用了水墨画风格,类似于张大千的作品。希望您喜欢这幅画! 🎨 选项 1【转变风格】——将这幅画转变为梵高的后印象派风格,增添一些梵高特有的笔触和色彩。 &…

【算法】位运算算法——消失的两个数字(困难)

题解:消失的两个数字(位运算算法) 目录 1.题目2.题解3.示例代码如下4.总结 1.题目 题目链接:LINK 2.题解 本题要求时间复杂度O(N),空间复杂度O(1),分别否了我们 排序遍历 和 哈希数组 的想法。想要在规定时间/空间复杂度内完成本题,需要借…

FreeRTOS实时系统 在任务中增加数组等相关操作 导致单片机起不来或者挂掉

在调试串口任务中增加如下代码,发现可以用keil进行仿真,但是烧录程序后,调试串口没有打印,状态灯也不闪烁,单片机完全起不来 博主就纳了闷了,究竟是什么原因,这段代码可是公司永流传的老代码了&…

戴尔向“数”而行,以“质”致远,做新质生产力的躬耕者

【全球存储观察 | 热点关注】 自1984年戴尔成立,一路走来,戴尔科技集团40年长期持续的技术创新,一直引领全球科技行业的技术趋势。 到如今,AIGC风行一时,在重塑千行百业的同时,也加速了科技行业…

解决安装 WP Super Cache 插件提示 Advanced-Cache.Php 是另一个插件创建的

昨天晚上一个站长求助明月,说是安装 WP Super Cache 插件的时候提示 advanced-cache.php 被占用了,无法完成安装,收到截图看了才明白原来提示的是“advanced-cache.php 文件,由另一个插件或者系统管理员创建的”,如下图…

java属性重写

介绍 关于,属性没有重写只能是编译类型的 代码 package b;public class main_ {public static void main(String[] args) {//向上转型,父类的引用转向了子类的fathetr fatnew son();System.out.println("编译类型是father时的sum属性是"fat.…

如何理解央行买卖国债?

浙商证券覃汉认为,央行对长债的风险持续关注,30年国债收益率较难突破2.5%,区间底部已经多次印证,在学习效应影响下,长端利率预计继续以震荡调整为主。 1、央行买卖国债的政策要求、历史经验、优势 2023年中央金融工作…

实现音乐创作梦想的利器——Cockos Reaper for Mac/win

在当今数字音频制作领域,专业人士和业余爱好者都在寻找一款功能强大、易于操作的软件来实现他们的音乐创作梦想。而Cockos Reaper作为一款跨平台的数字音频工作站软件,既适用于Mac系统,也适用于Windows系统,成为众多音乐制作人心目…

每日一题——Python实现PAT乙级1020 月饼(举一反三+思想解读+逐步优化)

一个认为一切根源都是“自己不够强”的INTJ 个人主页:用哲学编程-CSDN博客专栏:每日一题——举一反三Python编程学习Python内置函数 Python-3.12.0文档解读 目录 我的写法 专业点评: 时间复杂度分析: 空间复杂度分析&#…

小邪大佬最新版微信hook

目前小邪大佬已经更新到最新版本微信hook了。 /发送文件 BOOL SendCdnFilePbMsg(string sendId, string cdnkey, string aes_key,string file_name,string md5, int size, string syncKey) {FileMessage sfm;sfm.set_file_id(cdnkey);sfm.set_size(size);sfm.set_aes_key(aes_…

【计算机毕业设计】基于SSM++jsp的在线云音乐系统【源码+lw+部署文档】

目录 摘 要 ABSTRACT 第1章 绪论 1.1背景及意义 1.2 国内外研究概况 1.3 研究的内容 第2章 相关技术 2.1 JSP技术介绍 2.2 JAVA简介 2.3 MyEclipse开发环境 2.4 Tomcat服务器 2.5 MySQL数据库 2.6 SSM三大框架 第3章 系统分析 3.1 需求分析 3.2 系统可行性分析 3.2.1技术可行性…

CANDela studio基础使用

ECU Information 可以修改ECU的名称 里面有个Supported Interfaces,可以在CDDT里面选择支持的通讯接口 可以在tools下面新建internface,也可以从其他CDDT文件里面复制过来,复制的时候注意要另外将里面的参数再复制一次。 也可以在这里点击新…

云原生架构相关技术_4.服务网格

1.技术特点 服务网格(ServiceMesh)是分布式应用在微服务软件架构之上发展起来的新技术,旨在将那些微服务间的连接、安全、流量控制和可观测等通用功能下沉为平台基础设施,实现应用与平台基础设施的解耦。这个解耦意味着开发者无需…

多输入多输出 | MATLAB实现PSO-SVM粒子群优化支持向量机多输入多输出

多输入多输出 | MATLAB实现PSO-SVM粒子群优化支持向量机多输入多输出 目录 多输入多输出 | MATLAB实现PSO-SVM粒子群优化支持向量机多输入多输出预测效果基本介绍程序设计往期精彩参考资料 预测效果 基本介绍 多输入多输出 | MATLAB实现PSO-SVM粒子群优化支持向量机多输入多输出…

Ethercat设备 转 成profinet IO协议项目案例

1 案例说明 设置网关采集EtherCAT设备数据把采集的数据转成profinet IO协议转发给其他系统。 2 准备工作 3. 仰科网关。支持采集EtherCAT设备数据,profinet IO协议转发。 4. 电脑。IP设置成192.168.1.198,和网关在同一个网段。 5. 网线、12V电源。 3 …

Qt xml学习之calculator-qml

1.功能说明:制作简易计算器 2.使用技术:qml,scxml 3.项目效果: 4.qml部分: import Calculator 1.0 //需要引用对应类的队友版本 import QtQuick 2.12 import QtQuick.Window 2.12 import QtQuick.Controls 1.4 import QtScxml…

shopee签名x-sap-ri、x-sap-sec算法还原

最新版签名,免账号登录成功率百分百,需要可d 两种方式base64 MTQzMDY0OTc3OA QXVndXN0MjItZnF4

内存取证例题及Volatility2.6的使用(含命令详细解析)

文章目录 一、背景二、什么是内存取证?三、参考文章四、工具及题目五、解析1、哪个Volatility配置文件最适合这台机器?拓展1.1 2、获取镜像时有多少个进程在运行?拓展1.2 3、cmd.exe的进程ID是什么?4、最可疑的进程名称是什么&…

轻松实现PDF文件的在线浏览

福昕软件最近发布了一款名为Cloud API的产品,通过几行代码即可轻松实现PDF文件的在线浏览。先一睹为快吧。 简介 先看看产品官网:福昕 Cloud API Cloud API包括两个形态产品,一个是在线的PDF查看工具,叫PDF Embed API,另外一个…