数据挖掘(三)特征构造

前言

基于国防科技大学 丁兆云老师的《数据挖掘》课程
数据挖掘
数据挖掘(一)数据类型与统计
数据挖掘(二)数据预处理

3、特征构造

在这里插入图片描述

3.1 基本特征构造方法:

3.1.1 运用已有知识直接构造:

一般是根据原有特征挖掘新的更有用的特征,比如给出了质量和体积,则可以构造出密度特征

3.1.2 其它常见技巧:

常见构造特征技巧及运用场景:

在这里插入图片描述

3.1.3 时间类型数据特征构造:

时间特征(Time-Based Features):
如果数据中包含时间信息,可以从中提取各种时间特征,如年、月、日、季节、工作日、周末等。这些时间特征可以帮助模型捕捉到时间的周期性和趋势性,对于时间序列数据或具有时间相关性的数据集特别有用。

例:

在这里插入图片描述

在这里插入图片描述

3.2 离散数据进行哑编码:

哑编码(Dummy Encoding)和独热编码(One-Hot Encoding)是常用的特征编码方法,用于将分类变量转换为数值表示。它们在不同的情况下有不同的适用性,选择哪种编码方法取决于数据的特点和机器学习算法的需求。

  1. 哑编码(Dummy Encoding):
    哑编码是一种将分类变量转换为二进制(0和1)表示的编码方法。对于具有k个类别的分类变量,哑编码会创建k-1个二进制特征(或称为哑变量),并用0和1表示类别的存在与否。其中,k-1个特征中的每一个对应于一个类别,而最后一个类别作为参考类别,不需要单独编码。哑编码的主要优点是编码后的特征具有较低的维度,适用于线性模型和一些需要较少特征的机器学习算法。
  2. 独热编码(One-Hot Encoding):
    独热编码是一种将分类变量转换为二进制向量表示的编码方法。对于具有k个类别的分类变量,独热编码会创建k个二进制特征,每个特征对应一个类别,并且只有一个特征的值为1,其余特征的值为0。独热编码的优点是它能够保留所有类别之间的相互独立性,适用于大多数机器学习算法,特别是需要考虑类别之间距离或关系的算法,如决策树、支持向量机等。
import pandas as pd

# 创建包含分类变量的数据集
data = pd.DataFrame({'颜色': ['红', '蓝', '绿', '红', '绿']})

# 哑编码
dummy_encoded = pd.get_dummies(data['颜色'], prefix='颜色')
print(dummy_encoded)

# 独热编码
one_hot_encoded = pd.get_dummies(data['颜色'], prefix='颜色', drop_first=True)
print(one_hot_encoded)
颜色_红  颜色_蓝  颜色_绿
0      1      0      0
1      0      1      0
2      0      0      1
3      1      0      0
4      0      0      1

   颜色_蓝  颜色_绿
0      0      0
1      1      0
2      0      1
3      0      0
4      0      1

例题:

1.类别无序:

在这里插入图片描述

采用哑编码或者onehot编码

2.类别有序:

在这里插入图片描述

直接映射到[0,m]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/626866.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Elasticsearch分词及其自定义

文章目录 分词发生的阶段写入数据阶段执行检索阶段 分词器的组成字符过滤文本切分为分词分词后再过滤 分词器的分类默认分词器其他典型分词器 特定业务场景的自定义分词案例实战问题拆解实现方案 分词发生的阶段 写入数据阶段 分词发生在数据写入阶段,也就是数据索…

centos7.9安装PHP运行环境

MySQL安装 报错:源 "MySQL 8.0 Community Server" 的 GPG 密钥已安装,但是不适用于此软件包。请检查源的公钥 URL 是否配置正确。 解决: yum install mysql-server -y --nogpgcheck 查询初始密码 grep temporary password /var…

振弦式应变计的与实际测量值不一致怎么办

在进行结构健康监测或其他工程测量时,精确性和可靠性至关重要。振弦式表面应变计是一种广泛使用的测量工具,它通过测量材料表面的应变来评估结构的应力状态。然而,在实际应用中,振弦式应变计的测量值与实际应变值之间的不一致问题…

Springboot+MybatisPlus如何实现分页和模糊查询

实现分页查询的时候我们需要创建一个config配置类 1、创建MybatisPlusConfig类 Configuration //表明这是一个配置类 ConditionalOnClass(Value{PaginationInterceptor.class} //ConditionalOnClass:当指定的类存在时,才会创建对应的Bean // 这里当PaginationInt…

单调栈练习

最大矩形面积 如果栈为空&#xff0c;或者新的元素是大于栈顶元素的&#xff0c;那么新来的元素不会破坏栈的单调性&#xff0c;那么就把这个柱子入栈。 特别注意&#xff1a;这里的s.empty()和s.top().height < a不能调换顺序&#xff0c;包括后面的判断也要先判断栈是否为…

基于yolov2深度学习网络的单人口罩佩戴检测和人脸定位算法matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 MATLAB2022A 3.部分核心程序 ..............................................................I0 imresize…

C++初阶学习第六弹——string(1)——标准库中的string类

前言&#xff1a; 在前面&#xff0c;我们学习了C的类与对象&#xff0c;认识到了C与C语言的一些不同&#xff0c;今天&#xff0c;我们将进入C的 关键部分——STL&#xff0c;学习完这部分之后&#xff0c;我们就可以清楚的认识到C相比于C语言的快捷与便利 目录 一、为什么有s…

实时网络监控 - 一目了然网络状况

网络问题排查一直是IT管理员头痛的问题。随着网络规模的不断扩大和业务复杂度的提升&#xff0c;如何快速定位和解决网络故障变得尤为关键。本文详细介绍了一款名为 AnaTraf 的网络流量分析工具,它能提供全流量回溯分析、实时网络监控、性能分析等功能,助力企业快速诊断和解决各…

Linux/ubuntu build编译make时出现has modification time int the future的问题解决方法

针对Linux由于双系统之间的时间冲突导致linux时间经常变化&#xff0c;出现执行make命令时出现“make[2]: Warning: File xxx.c’ has modification time 1.6e05 s in the future “警告的问题&#xff0c;亦或者虚拟机出现相同的问题。 由于时钟同步问题&#xff0c;出现 warn…

ChatGlm的部署和训练

一、chatGlm的环境部署 1.安装anocoda 下载安装anaconda。具体教程详见官网教程。 2.安装CUDA 1&#xff09;首先在终端查看你的Nividian版本&#xff0c;命令如下&#xff1a; 2)如果你没有下载你要去下载cuda下载网站&#xff0c;这里是12.3是因为我cuda version版本12…

正则表达式教程

正则表达式在线工具网站&#xff1a;https://regexr.com

项目管理-案例重点知识(整合管理)

项目管理&#xff1a;每天进步一点点~ 活到老&#xff0c;学到老 ヾ(◍∇◍)&#xff89;&#xff9e; 何时学习都不晚&#xff0c;加油 一、整合管理 案例重点 重点内容&#xff1a; &#xff08;1&#xff09;项目章程内容和作用 &#xff08;2&#xff09;项目管理计划…

牛客网刷题 | BC84 牛牛学数列2

目前主要分为三个专栏&#xff0c;后续还会添加&#xff1a; 专栏如下&#xff1a; C语言刷题解析 C语言系列文章 我的成长经历 感谢阅读&#xff01; 初来乍到&#xff0c;如有错误请指出&#xff0c;感谢&#xff01; 描述 这次牛牛又换了个数…

Linux环境变量详解

文章目录 1. 前言2 什么是PATH环境变量3. 如何添加PATH环境变量4. 系统中的其他环境变量5. 环境变量的由来6. 环境变量的基本操作6.1 设置环境变量6.2 通过getenv获取环境变量6.3 环境变量的应用场景 7. 通过命令行参数获取环境变量 1. 前言 本篇文章将以PATH环境变量为例来对整…

基于svpwm(羊角波)控制策略的二极管钳位型三电平逆变器双闭环simulink仿真

本人搭建了基于svpwm&#xff08;羊角波&#xff09;控制策略的二极管钳位型三电平逆变器双闭环simulink仿真模型&#xff0c;该模型按照三电平SVPWM理论生成羊角波&#xff0c;并搭建了双闭环控制系统。效果十分优异&#xff0c;配置参考文献&#xff0c;适合学习使用。 DC&a…

Music Star Studio

Music Star Studio资产包配有一个模块化音乐工作室、40多个游戏道具和完整的场景。 音乐之星工作室包括一个主舞台、一个评委舞台和一个观众座位。工作室是模块化的,您可以使用提供的建筑元素进一步设计您的工作室,如柱子、地板砖、墙砖、楼梯、围栏、舞台、玻璃墙、墙报等。…

C++进阶:红黑树介绍及模拟实现(图示详解过程)

C进阶&#xff1a;红黑树介绍及模拟实现 上次介绍了AVL树&#xff1a;C进阶&#xff1a;AVL树详解及模拟实现&#xff08;图示讲解旋转过程&#xff09; 今天就来紧接着来红黑树啦!!! 文章目录 1.红黑树介绍约束规则 2.项目文件规划3.整体框架&#xff08;节点和Tree&#xf…

从零开始:C++ String类的模拟实现

文章目录 引言1.类的基本结构2.构造函数和析构函数3.基本成员函数总结 引言 在C编程中&#xff0c;字符串操作是非常常见且重要的任务。标准库中的std::string类提供了丰富且强大的功能&#xff0c;使得字符串处理变得相对简单。然而&#xff0c;对于学习C的开发者来说&#x…

树莓派|串口通信协议

1、串口通信原理 串口通讯(Serial Communication)&#xff0c;是指外设和计算机间&#xff0c;通过数据信号线、地线等&#xff0c;按位进行传输数据的一种通讯方式。串口是一种接口标准&#xff0c;它规定了接口的电气标准&#xff0c;没有规定接口插件电缆以及使用的协议。串…

霍廷格电源 Tru plasma DC3030 通快DC3040 MF3030

霍廷格电源 Tru plasma DC3030 通快DC3040 MF3030