数据分箱 baggingboosting onehot独热编码 woe编码 sklearn的ensemble(集成学习)

目录

数据分箱就是将连续变量离散化。

bagging&boosting

onehot独热编码

 独热编码的结果如下:

woe编码

WOE编码的基本原理

步骤一:计算WOE

步骤二:应用WOE

WOE编码的优点

示例

数据示例

步骤一:计算每个类别的违约率

步骤二:计算WOE值

步骤三:应用WOE编码

 模块介绍:万能的ensemble(集成学习)


数据分箱就是将连续变量离散化。

数据分箱(Data Binning)是一种常见的数据预处理技术,它将连续的数据值重新划分为几个“箱子”或区间,从而将连续变量转换为有序的分类变量。这种技术在数据分析和机器学习中非常有用,因为它可以帮助简化数据、减少噪声影响、提高模型训练效率,并且可以使某些类型的分析和建模变得更加容易

数据分箱(Data Binning)是一种数据预处理技术,它涉及将一组数据值分配到几个连续的区间(箱子)中。这个过程通常用于以下几种情况:

  1. 数据简化:通过将大量的数据点分组到较少的箱子中,可以简化数据集,使得数据更加容易理解和分析。

  2. 异常值处理:分箱可以帮助识别和处理异常值,例如,可以将超出正常范围的值归入一个单独的箱子。

  3. 平滑数据:分箱可以用来平滑数据,减少噪声的影响,特别是在数据挖掘和机器学习中。

  4. 数据离散化:对于某些算法,特别是决策树和规则学习算法,分箱可以将连续变量转换为离散变量,从而更适合算法的应用。

数据分箱的步骤通常包括:

  • 确定箱子的数量:这可以通过主观判断,或者使用一些统计方法,如等宽分箱、等频分箱或基于聚类的方法来决定。
  • 分配数据到箱子:根据确定的箱子边界,将数据点分配到相应的箱子中。
  • 处理边界值:确定如何处理那些落在箱子边界上的数据点,通常可以选择向上或向下分配。

数据分箱后的箱子可以用箱子的中值、平均值、边界值或其它统计量来代表箱子内的所有数据点,这取决于具体的应用场景和分析目的。在实施数据分箱时,需要谨慎考虑分箱策略,因为不恰当的分箱可能会导致信息的丢失或引入偏差。

 

 

 

 

import pandas as pd

# 客户信息 DataFrame
customers_df = pd.DataFrame({
    'CustomerID': [1, 2, 3, 4],
    'CustomerName': ['Alice', 'Bob', 'Charlie', 'David'],
    'Time':[10,20,30,40]
})

# 订单信息 DataFrame
orders_df = pd.DataFrame({
    'OrderID': [100, 101, 102, 103],
    'CustomerID': [1, 2, 3, 5],
    'OrderAmount': [200, 150, 300, 250],
    'Time':[10,20,30,80]
})
display(customers_df)
display(orders_df)

pd.merge(customers_df,orders_df,
         on=["CustomerID","Time"]#这里on=列名组成的列表,但只能是二者共有的列名
         #on表示在这些列使用连接
         ,how='right')#这里how表示取右侧的行。右侧customerID为1235,
#所以合并后的customerID只有1235,没有左边列表的ID4

orders_df = pd.DataFrame({
    'OrderID': [100, 101, 102, 103],
    'CustomerID': [1, 2, 3, 5],
    'OrderAmount': [200, 150, 300, 250],
    'Time':[10,20,30,80]
})
data_cut=pd.cut(orders_df['OrderAmount'],100)
data_cut

 

pd.cut(待分享的pd【指定索引】,分成多少个箱子)

返回值个数=样本个数,即某样本属于哪个箱子 

bagging&boosting

随机森林模型是Bagging算法的一个代表,而AdaBoost和GBDT(Gradient Boosting Decision Tree,梯度提升决策树)是Boosting算法的代表。

Bagging(Bootstrap Aggregating)算法:

Bagging是一种集成学习技术,它通过结合多个模型来提高预测的稳定性和准确性。以下是Bagging的主要步骤:

  1. 数据采样:从原始数据集中进行有放回的随机抽样,生成多个不同的训练子集。
  2. 模型训练:使用这些子集分别训练多个独立的模型(例如决策树)。
  3. 结果聚合:对于分类问题,通常采用投票机制来决定最终的类别;对于回归问题,则采用平均或中位数来聚合模型的预测结果。

Bagging的关键特点是每个模型都是在不同的数据子集上训练的,这有助于减少模型的方差,避免过拟合。

Boosting算法:

Boosting是一种逐步增强模型预测力的策略,通过连续地训练模型来关注前一个模型错误分类或预测的样本。以下是Boosting的主要步骤:

  1. 初始化模型:通常从一个简单的模型开始,这个模型对训练数据的预测能力很弱。
  2. 迭代训练:在每一轮迭代中,都会训练一个新的模型,这个模型会特别关注前一个模型预测错误的样本。
  3. 模型组合:每个模型都会根据自己的预测能力赋予一个权重,所有模型的加权预测结果将作为最终的预测。

Boosting的关键特点是模型是顺序训练的,每个新模型都在尝试纠正前一个模型的错误,这有助于减少模型的偏差。

总结:

  • Bagging:并行化处理,每个模型独立训练,最后汇总结果,主要目的是减少方差。
  • Boosting:顺序化处理,每个模型基于前一个模型的性能进行训练,逐步提高性能,主要目的是减少偏差。

这两种集成学习方法在机器学习中都非常流行,它们可以应用于各种不同的机器学习任务,并且通常能够提供比单个模型更好的性能。

onehot独热编码

这段代码使用了scikit-learn库中的OneHotEncoder类来进行独热编码。 

  1. from sklearn.preprocessing import OneHotEncoder 这一行导入了scikit-learn库中的预处理模块,并从中导入OneHotEncoder类。OneHotEncoder用于将分类特征转换为二进制编码形式。

  2. enc = OneHotEncoder() 这一行创建了OneHotEncoder类的实例,并将其赋值给变量enc。这样就可以使用该实例对数据进行独热编码了。

  3. enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]]) 这一行调用了enc对象的fit方法,并传入了一个包含多个列表的列表作为参数。这些列表代表了要被独热编码的特征值。fit方法会根据这些特征值来确定哪些类别需要进行编码。

  4. enc.transform([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]]).toarray() 这一行调用了enc对象的transform方法,并传入了一个与上一行相同的列表作为参数。transform方法会对传入的列表进行独热编码,并将其转换为NumPy数组格式。最后,.toarray()方法将转换后的结果强制转换为NumPy数组类型。

综上所述,这段代码的主要作用是对给定的特征值进行独热编码,并将其转换为NumPy数组格式。

 独热编码的结果如下:

[[1.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0],
 [0.0, 1.0, 0.0, 1.0, 0.0, 1.0, 0.0, 0.0, 0.0],
 [1.0, 0.0, 0.0, 0.0, 1.0, 0.0, 1.0, 0.0, 0.0],
 [0.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0]]

这个结果是通过以下步骤计算得出的:

  1. 独热编码器拟合数据enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])。这一步确定了每个特征的类别数量。在这个例子中,有三个特征,每个特征的类别数量分别是:第一个特征有2个类别(0和1),第二个特征也是2个类别(0和1),第三个特征有3个类别(0, 1, 和 2)。

  2. 转换数据enc.transform([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])。这一步将原始数据转换为独热编码格式。

  3. 转换结果.toarray()将结果转换为NumPy数组。

每个特征的独热编码如下:

  • 第一个特征(0和1)有两个类别,所以需要2位来表示。
  • 第二个特征(0和1,2)同样有3个类别,也需要3位来表示。
  • 第三个特征(0, 1, 2,3)有4个类别,所以需要4位来表示。

因此,每个样本(原始数据中的一个列表)将被转换为一个长度为2 + 3 + 4 = 9的向量。但为什么结果是9位呢?这是因为独热编码器默认会添加一个偏置列(即第一个列),以确保每个样本至少有一个特征为1,从而避免数据稀疏性带来的问题。所以,最终每个样本的独热编码向量长度为8位(7位特征 + 1位偏置)。

看点在这里 

第三个特征出现了3、0、1、1,被认为只需要三位,所以不是找最大的 者、 

woe编码

WOE编码(Weight of Evidence Encoding)是一种用于分类变量编码的方法,主要用于机器学习中的特征工程阶段。它通过计算每个类别的权重证据(WOE)来对类别进行编码,而不是简单地使用标签编码或独热编码。这种方法能够保留原类别信息的同时,也考虑到了不同类别之间的相关性。

WOE编码的基本原理

步骤一:计算WOE

对于每一个类别 �c,我们首先计算它的WOE值。WOE值的计算公式如下:

其中:

  • �(�)P(c) 是类别 �c 的先验概率,即该类别出现的频率。
  • �(good)P(good) 是“好”类的先验概率,通常指目标变量的正例比例。
步骤二:应用WOE

一旦计算出所有类别的WOE值,就可以将这些值作为新的特征加入到模型中进行训练。

WOE编码的优点

  1. 数值稳定性:由于WOE是基于对数变换的,它可以处理不平衡的数据分布,并且比直接使用类别标签更加稳定。
  2. 可解释性:WOE保留了原始类别信息的含义,使得模型更容易理解和解释。
  3. 减少维度:相比于独热编码,WOE可以显著降低特征空间的维度,因为它不需要为每个类别创建一个新的特征。

示例

假设我们有如下的数据集:

类别目标变量
A1
B0
C1
D0

我们可以按照上述步骤计算每个类别的WOE值,然后将其应用到我们的模型中。

请注意,WOE编码通常用于信用评分、欺诈检测等金融领域,在这些领域中,我们需要有效地处理大量的分类变量。

WOE(Weight of Evidence)编码通常用于金融风险模型,特别是在信用评分模型中。以下是一个简化的例子,说明如何计算WOE值并将其应用于数据。

数据示例

假设我们有一个关于贷款申请的数据集,包含两个特征:Education(教育程度)和Loan Default(是否违约)。Loan Default是目标变量,取值为1(违约)或0(未违约)。

EducationLoan Default
Bachelor0
Master0
PhD1
Bachelor0
Master1
Bachelor1

步骤一:计算每个类别的违约率

首先,我们需要计算每个教育类别的违约率(违约客户数/该类别总客户数)和非违约率。

EducationDefault CountTotal CountDefault RateNon-Default Rate
Bachelor201000.200.80
Master151500.100.90
PhD5500.100.90

步骤二:计算WOE值

WOE值的计算公式是

假设整个数据集的违约率是0.15,非违约率是0.85,我们可以计算每个教育类别的WOE值:

EducationDefault RateNon-Default RateWOE
Bachelor0.200.800.4055
Master0.100.90-0.5108
PhD0.100.90-0.5108

步骤三:应用WOE编码

现在,我们可以用计算出的WOE值替换原始的Education类别。

EducationLoan DefaultWOE (Education)
Bachelor00.4055
Master0-0.5108
PhD1-0.5108
Bachelor00.4055
Master1-0.5108
Bachelor10.4055

这样,原始的类别变量Education就被转换成了数值变量WOE (Education),可以用于建模。WOE编码有助于模型更好地理解每个类别与目标变量的关系。

 

具体列式

根据你给出的数据,我们可以计算出每个教育类别的WOE值。以下是计算过程:

Bachelor

  • 违约率:0.20
  • 整体违约率:0.15
  • 非违约率:0.85
  • WOE = log(0.20 / 0.15) - log(0.80 / 0.85)

Master

  • 违约率:0.10
  • 整体违约率:0.15
  • 非违约率:0.85
  • WOE = log(0.10 / 0.15) - log(0.90 / 0.85)

PhD

  • 违约率:0.10
  • 整体违约率:0.15
  • 非违约率:0.85
  • WOE = log(0.10 / 0.15) - log(0.90 / 0.85)

将这些值代入公式中,我们可以得到每个教育类别的WOE值。

 

 

 模块介绍:万能的ensemble(集成学习)

在scikit-learn(通常简称为sklearn)库中,ensemble模块是一个提供集成学习方法的模块。集成学习方法通过结合多个基学习器(通常是决策树)来构建更加强大和鲁棒的模型。这个模块包含了多种流行的集成学习算法,如下:

  1. Bagging方法:

    • BaggingClassifier: 用于分类的Bagging集成。
    • BaggingRegressor: 用于回归的Bagging集成。
  2. 随机森林:

    • RandomForestClassifier: 用于分类的随机森林算法。
    • RandomForestRegressor: 用于回归的随机森林算法。
  3. Extra-Trees:

    • ExtraTreesClassifier: 用于分类的Extra-Trees(极度随机树)算法。
    • ExtraTreesRegressor: 用于回归的Extra-Trees算法。
  4. AdaBoost:

    • AdaBoostClassifier: 用于分类的AdaBoost算法。
    • AdaBoostRegressor: 用于回归的AdaBoost算法。
  5. 梯度提升:

    • GradientBoostingClassifier: 用于分类的梯度提升决策树(GBDT)算法。
    • GradientBoostingRegressor: 用于回归的梯度提升决策树算法。
  6. VotingClassifier: 用于分类的投票/堆叠集成,可以组合多个不同的分类器。

  7. StackingClassifierStackingRegressor`: 用于分类和回归的堆叠集成,通过堆叠多个不同的模型来提高性能。

ensemble模块中的这些类都是高级API,它们封装了复杂的集成学习过程,使得用户可以很容易地在自己的数据集上应用这些强大的机器学习技术。使用这些类通常涉及以下步骤:

  1. 实例化一个集成学习对象,指定所需的参数(例如基学习器的数量、类型等)。
  2. 使用fit方法在训练数据上训练模型。
  3. 使用predict方法对新数据进行预测。
  4. 使用score方法评估模型在测试数据上的性能。

这些集成学习方法通常能够提供比单个模型更好的泛化能力和鲁棒性,因此在机器学习竞赛和实际应用中非常受欢迎。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/960118.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Jetson Xavier NX (ARM) 使用 PyTorch 安装 Open3D-ML 指南

由于 Jetson 为 ARM64 (aarch64) 的系统架构,所以不能用 pip install 直接安装,需要通过源码编译。 升级系统 JetPack 由于 Open3D-ML 目前只支持 CUDA 10.0 以及 CUDA 11.*,并且 JetPack 的 CUDA 开发环境只有10.2、11.4以及12.2&#xff0…

【Linux系统】进程间通信:进程池

进程池的结构图示如下: 一、初始化进程池 1、创建多个子进程 通过 main 命令行参数获取需要创建子进程的个数 判断 argc 个数,使用 usage 提示 在编程和命令行工具中,“usage” 通常指的是命令或程序的使用说明,即如何正确使用该…

【问题解决】el-upload数据上传成功后不显示成功icon

el-upload数据上传成功后不显示成功icon 原因 由于后端返回数据与要求形式不符,使用el-upload默认方法调用onSuccess钩子失败,上传文件的状态并未发生改变,因此数据上传成功后并未显示成功的icon标志。 解决方法 点击按钮,调用…

怎样在PPT中启用演讲者视图功能?

怎样在PPT中启用演讲者视图功能? 如果你曾经参加过重要的会议或者演讲,你就会知道,演讲者视图(Presenter View)对PPT展示至关重要。它不仅能帮助演讲者更好地掌控演讲节奏,还能提供额外的提示和支持&#…

【2025年数学建模美赛F题】(顶刊论文绘图)模型代码+论文

全球网络犯罪与网络安全政策的多维度分析及效能评估 摘要1 Introduction1.1 Problem Background1.2Restatement of the Problem1.3 Literature Review1.4 Our Work 2 Assumptions and Justifications数据完整性与可靠性假设:法律政策独立性假设:人口统计…

MapReduce,Yarn,Spark理解与执行流程

MapReduce的API理解 Mapper 如果是单词计数:hello:1, hello:1, world:1 public void map(Object key, // 首字符偏移量Text value, // 文件的一行内容Context context) // Mapper端的上下文,…

如何让Dev-C++支持C++11及以上标准

目录 问题描述解决方案步骤1&#xff1a;打开编译选项 问题描述 在Dev-C中使用C11/17/20新特性&#xff08;如pop_back()等&#xff09;时&#xff0c;可能出现编译错误&#xff1a; #include <iostream> #include<string> using namespace std; int main() {str…

springBoot 整合ModBus TCP

ModBus是什么&#xff1a; ModBus是一种串行通信协议&#xff0c;主要用于从仪器和控制设备传输信号到主控制器或数据采集系统&#xff0c;例如用于测量温度和湿度并将结果传输到计算机的系统。&#xff08;百度答案&#xff09; ModBus 有些什么东西&#xff1a; ModBus其分…

linux常用加固方式

目录 一.系统加固 二.ssh加固 三.换个隐蔽的端口 四.防火墙配置 五.用户权限管理 六.暴力破解防护 七.病毒防护 八.磁盘加密 九.双因素认证2FA 十.日志监控 十一.精简服务 一.系统加固 第一步&#xff1a;打好系统补丁 sudo apt update && sudo apt upgra…

const的用法

文章目录 一、C和C中const修饰变量的区别二、const和一级指针的结合const修饰的量常出现的错误是:const和一级指针的结合总结&#xff1a;const和指针的类型转换公式 三、const和二级指针的结合 一、C和C中const修饰变量的区别 C中&#xff1a;const必须初始化&#xff0c;叫常…

Arduino大师练成手册 -- 控制 MH-SD 卡模块

要在 Arduino 上控制 MH-SD 卡模块&#xff0c;你可以按照以下步骤进行&#xff1a; 硬件连接 VCC&#xff1a;连接到 Arduino 的 3.3V 或 5V 引脚&#xff08;根据模块的要求&#xff09;。 GND&#xff1a;连接到 Arduino 的 GND 引脚。 CS&#xff1a;连接到 Arduino 的…

Android OpenGL(六) 纹理

纹理 纹理是一个2D图片&#xff08;甚至也有1D和3D的纹理&#xff09;&#xff0c; 它可以用来添加物体的细节&#xff1b;你可以想象纹理是一张绘有砖块的纸&#xff0c;无缝折叠贴合到你的3D的 房子上&#xff0c;这样你的房子看起来就像有砖墙外表了 纹理环绕方式 纹理坐…

一文大白话讲清楚webpack基本使用——18——HappyPack

文章目录 一文大白话讲清楚webpack基本使用——18——HappyPack1. 建议按文章顺序从头看&#xff0c;一看到底&#xff0c;豁然开朗2. 啥是HappyPack3. 怎么使用HappyPack 一文大白话讲清楚webpack基本使用——18——HappyPack 1. 建议按文章顺序从头看&#xff0c;一看到底&a…

深入 Rollup:从入门到精通(二)Rollup简介

1. 简介 对于将rollup描述为一个打包工具&#xff0c;我觉得并不是很精准&#xff0c;稍有些笼统&#xff0c;未能完全展示它的功能。 我更倾向于将它定义为&#xff1a; 以模块化的方式加载你的 js 文件&#xff08;如果使用插件&#xff0c;也可以支持其他静态资源文件&…

【数据结构】_C语言实现不带头非循环单向链表

目录 1. 链表的概念及结构 2. 链表的分类 3. 单链表的实现 3.1 SList.h头文件 3.2 SList.c源文件 3.3 Test_SList.c测试文件 关于线性表&#xff0c;已介绍顺序表&#xff0c;详见下文&#xff1a; 【数据结构】_顺序表-CSDN博客 本文介绍链表&#xff1b; 基于顺序表…

HTML5 Web Worker 的使用与实践

引言 在现代 Web 开发中&#xff0c;用户体验是至关重要的。如果页面在执行复杂计算或处理大量数据时变得卡顿或无响应&#xff0c;用户很可能会流失。HTML5 引入了 Web Worker&#xff0c;它允许我们在后台运行 JavaScript 代码&#xff0c;从而避免阻塞主线程&#xff0c;保…

Excel 技巧21 - Excel中整理美化数据实例,Ctrl+T 超级表格(★★★)

本文讲Excel中如何整理美化数据的实例&#xff0c;以及CtrlT 超级表格的常用功能。 目录 1&#xff0c;Excel中整理美化数据 1-1&#xff0c;设置间隔行颜色 1-2&#xff0c;给总销量列设置数据条 1-3&#xff0c;根据总销量设置排序 1-4&#xff0c;加一个销售趋势列 2&…

手撕Diffusion系列 - 第九期 - 改进为Stable Diffusion(原理介绍)

手撕Diffusion系列 - 第九期 - 改进为Stable Diffusion&#xff08;原理介绍&#xff09; 目录 手撕Diffusion系列 - 第九期 - 改进为Stable Diffusion&#xff08;原理介绍&#xff09;DDPM 原理图Stable Diffusion 原理Stable Diffusion的原理解释Stable Diffusion 和 Diffus…

倍频增量式编码器--角度插值法输出A,B(Aangular Interpolation)

问题是&#xff1a; 最大速度&#xff0c;周期刻度&#xff0c;最小细分刻度&#xff0c;可以计算得到&#xff1a; 结论&#xff1a; 按照最高速度采样&#xff1b;数字A,B输出间隔时间&#xff1a;按照计算角度 插入细分角度运算算时间&#xff08;最快速度&#xff09;&a…

基于微信小程序的助农扶贫系统设计与实现(LW+源码+讲解)

专注于大学生项目实战开发,讲解,毕业答疑辅导&#xff0c;欢迎高校老师/同行前辈交流合作✌。 技术范围&#xff1a;SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容&#xff1a;…