统计学习算法——决策树

内容来自B站Up主:风中摇曳的小萝卜https://www.bilibili.com/video/BV1ar4y137GD,仅为个人学习所用。

问题引入

有15位客户向某银行申请贷款,下面是他们的一些基本信息,类别列表示是否通过贷款申请,是表示通过贷款申请,否表示未通过贷款申请。
在这里插入图片描述

某银行想,这样做工作量太大,有没有方法能够快速判断一个用户的贷款申请通过不通过呢?

决策树

以工作为标准进行划分,发现有工作的全部被批准,而没有工作的只有4位被批准,得出结论:有工作的被批准,这显然和样本结果不符合。
在这里插入图片描述
若使用两个标准,首先考虑工作因素划分,然后将分类不当的继续按照信誉划分,如下图
在这里插入图片描述
得出结论:客户有工作可以直接批准;若没有工作,继续查看其信誉。若信誉非常好,可以批准,否则拒绝。这就是构建了一个决策树。

虽然按照决策树进行判断很方便,但是如何确定按什么标准进行划分呢?

基尼系数

基尼系数是一种衡量数据集纯度的指标。基尼系数越小,表明该节点包含的样本越可能属于同一类别,纯度越高;基尼系数越大,表明样本的类别越混杂,纯度越低。

计算公式为: G i n i ( D ) = 1 − ∑ k = 1 K p k 2 Gini(D)=1-\sum_{k = 1}^{K}p_k^2 Gini(D)=1k=1Kpk2
用1减去所有事件概率的平方。本例中,代入公式有 1 − p ( 批准 ) 2 − p ( 不批准 ) 2 1-p(批准)^2-p(不批准)^2 1p(批准)2p(不批准)2
在这里插入图片描述

  • 当批准的概率,被批准的概率分别为1和0时,基尼系数为0;
  • 当批准的概率,被批准的概率分别为0和1时,基尼系数为0;
  • 当批准的概率,被批准的概率分别为0.5和0.5时,基尼系数为0.5。

在这里插入图片描述
由此图可以看出,当一定被批准或拒绝时,基尼系数为0;当批准或拒绝不确定,概率为0.5时候,基尼基数达到最大。一般选择基数小的作为决策树下一级分类的标准。

对于本例,不考虑任何标准,只看最后的结果。15份申请中有9份通过,6份未通过。计算基尼系数
在这里插入图片描述
根据上图,这是个很大的值,说明数据类似于随机生成。

考虑有工作的客户,5位客户有工作,5人通过,0人未通过,计算基尼系数
在这里插入图片描述
考虑没有工作的客户,10位无工作,4位通过,6人未通过,计算基尼系数
在这里插入图片描述
计算以工作为标准的基尼系数,进行加权平均计算
在这里插入图片描述
同理,计算其他标准的基尼系数
在这里插入图片描述
发现,以房子为标准,基尼系数最小,按照此标准来构建决策树。
在这里插入图片描述
左侧被分类很好,继续分类右边。

接下来按照无房子继续计算概率。无房子的客户有9位,其中被批准的3位,未通过的6位,计算基尼系数
在这里插入图片描述
无房子且有工作的3位,通过批准的3位,未通过批准的0位;无工作的6位,通过批准的0位,未通过批准的6位。计算工作的基尼系数
G i n i ( 工作,是 ) = 1 − ( 3 3 ) 2 − 0 = 0 Gini(工作,是)=1-(\frac{3}{3})^2-0=0 Gini(工作,是)=1(33)20=0
G i n i ( 工作,否 ) = 1 − ( 6 6 ) 2 − 0 = 0 Gini(工作,否)=1-(\frac{6}{6})^2-0=0 Gini(工作,否)=1(66)20=0
G i n i ( 工作 ) = 3 9 ∗ 0 + 6 9 ∗ 0 = 0 Gini(工作)=\frac{3}{9}*0+\frac{6}{9}*0=0 Gini(工作)=930+960=0

无房子,信誉非常好的1位,通过批准的1位,未通过批准的0位;信誉好的4位,通过批准的2位,未通过批准的2位;信誉一般的4位,通过批准的0位,未通过批准的4位。计算基尼系数

G i n i ( 信誉,非常好 ) = 1 − ( 1 1 ) 2 − 0 = 0 Gini(信誉,非常好)=1-(\frac{1}{1})^2-0=0 Gini(信誉,非常好)=1(11)20=0
G i n i ( 信誉,好 ) = 1 − ( 2 4 ) 2 − ( 2 4 ) 2 = 0.5 Gini(信誉,好)=1-(\frac{2}{4})^2-(\frac{2}{4})^2=0.5 Gini(信誉,好)=1(42)2(42)2=0.5
G i n i ( 信誉,一般 ) = 1 − ( 4 4 ) 2 − 0 = 0 Gini(信誉,一般)=1-(\frac{4}{4})^2-0=0 Gini(信誉,一般)=1(44)20=0
G i n i ( 信誉 ) = 1 9 ∗ 0 + 4 9 ∗ 1 2 + 4 9 ∗ 0 = 0.22 Gini(信誉)=\frac{1}{9}*0+\frac{4}{9}*\frac{1}{2}+\frac{4}{9}*0=0.22 Gini(信誉)=910+9421+940=0.22

通过上述计算可知,应该选择是否有工作作为下一级的分类标准。
在这里插入图片描述
这是由基尼系数得出的决策树,称为CART决策树。

生成的决策树一般是二叉树。

决策树的生成容易造成过拟合问题,需要进行剪枝。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/954623.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Pytorch导出onnx模型并在C++环境中调用(含python和C++工程)

Pytorch导出onnx模型并在C环境中调用(含python和C工程) 工程下载链接:Pytorch导出onnx模型并在C环境中调用(python和C工程) 机器学习多层感知机MLP的Pytorch实现-以表格数据为例-含数据集和PyCharm工程中简单介绍了在…

Uniapp判断设备是安卓还是 iOS,并调用不同的方法

在 UniApp 中,可以通过 uni.getSystemInfoSync() 方法来获取设备信息,然后根据系统类型判断当前设备是安卓还是 iOS,并调用不同的方法。 示例代码 export default {onLoad() {this.checkPlatform();},methods: {checkPlatform() {// 获取系…

VMWare虚拟机+Ubuntu24.04+ROS2Jazzy版本安装——踩坑及爬坑过程

VMWare安装 VMWare安装参考VMWare安装,WMWare workstation从17版本以后就面向个人用户免费开放了,所以在安装的最后只要勾选“用于个人”这个选项,就无需再输入激活码等,非常方便。 WMWare workstation17的获取地址:通…

【Golang 面试题】每日 3 题(三十一)

✍个人博客:Pandaconda-CSDN博客 📣专栏地址:http://t.csdnimg.cn/UWz06 📚专栏简介:在这个专栏中,我将会分享 Golang 面试中常见的面试题给大家~ ❤️如果有收获的话,欢迎点赞👍收藏…

分布式数据存储基础与HDFS操作实践(副本)

以下为作者本人撰写的报告,步骤略有繁琐,不建议作为参考内容,可以适当浏览,进一步理解。 一、实验目的 1、理解分布式文件系统的基本概念和工作原理。 2、掌握Hadoop分布式文件系统(HDFS)的基本操作。 …

《OpenCV》——模版匹配

文章目录 OpenCV——模版匹配简介模版匹配使用场景OpenCV 中模板匹配的函数参数 OpenCV——模版匹配实例导入所需库读取图片并处理图片对模版图片进行处理进行模版匹配显示模版匹配的结果注意事项 OpenCV——模版匹配简介 OpenCV 是一个非常强大的计算机视觉库,其中…

迅翼SwiftWing | ROS 固定翼开源仿真平台正式发布!

经过前期内测调试,ROS固定翼开源仿真平台今日正式上线!现平台除适配PX4ROS环境外,也已实现APROS环境下的单机飞行控制仿真适配。欢迎大家通过文末链接查看项目地址以及具体使用手册。 1 平台简介 ROS固定翼仿真平台旨在实现固定翼无人机决策…

基于深度学习的视觉检测小项目(十二) 使用线条边框和渐变颜色美化界面

到目前为止,已经建立起了基本的项目架构,样式表体系也初步具备,但是与成品的界面相比,还是差点什么。 我的界面效果图: 优秀demo的界面截图: 是的,我的界面太“平” 了,没有立体感&…

MySQL(高级特性篇) 06 章——索引的数据结构

一、为什么使用索引 索引是存储引擎用于快速找到数据记录的一种数据结构,就好比一本教科书的目录部分,通过目录找到对应文章的页码,便可快速定位到需要的文章。MySQL中也是一样的道理,进行数据查找时,首先查看查询条件…

Springboot + vue 图书管理系统

🥂(❁◡❁)您的点赞👍➕评论📝➕收藏⭐是作者创作的最大动力🤞 💖📕🎉🔥 支持我:点赞👍收藏⭐️留言📝欢迎留言讨论 🔥🔥&…

2025年01月15日Github流行趋势

1. 项目名称:tabby - 项目地址url:https://github.com/TabbyML/tabby - 项目语言:Rust - 历史star数:25764 - 今日star数:1032 - 项目维护者:wsxiaoys, apps/autofix-ci, icycodes, liangfung, boxbeam - 项…

详解数据增强中的平移shft操作

Shift 平移是指在数据增强(data augmentation)过程中,通过对输入图像或目标进行位置偏移(平移),让目标在图像中呈现出不同的位置。Shift 平移的目的是增加训练数据的多样性,从而提高模型对目标在…

Linux:地址空间(续)与进程控制

hello,各位小伙伴,本篇文章跟大家一起学习《Linux:地址空间与进程控制》,感谢大家对我上一篇的支持,如有什么问题,还请多多指教 ! 如果本篇文章对你有帮助,还请各位点点赞&#xff0…

RabbitMQ(三)

RabbitMQ中的各模式及其用法 工作队列模式一、生产者代码1、封装工具类2、编写代码3、发送消息效果 二、消费者代码1、编写代码2、运行效果 发布订阅模式一、生产者代码二、消费者代码1、消费者1号2、消费者2号 三、运行效果四、小结 路由模式一、生产者代码二、消费者代码1、消…

ssh,samba,tftp,nfs服务安装和配置

前提准备 sudo ufw disable sudo ufw status sudo apt update ssh服务 sudo apt-get install openssh-server sudo apt-get install openssh-client sudo apt-get install ssh echo "PasswordAuthentication yes" >> /etc/ssh/ssh_config //配置ssh客户…

.NetCore 使用 NPOI 读取带有图片的excel数据

在.NetCore使用NPOI插件进行批量导入时,获取Excel中的所有的图片数据,存到集合中。 1.定义类PictureData 代码如下: public class PictureData { public byte[] Data { get; set; } } 2.数据集引用 using NPOI.XSSF.UserModel; usin…

MAC上安装Octave

1. 当前最新版Octave是9.3版本,需要把mac os系统升级到14版本(本人之前的版本是10版本) https://wiki.octave.org/Octave_for_macOS octave的历史版本参考此文档:Octave for macOS (outdated) - Octavehttps://wiki.octave.org/Oc…

文档智能:OCR+Rocketqa+layoutxlm <Rocketqa>

此次梳理Rocketqa,个人认为该篇文件讲述的是段落搜索的改进点,关于其框架:粗检索 重排序----(dual-encoder architecture),讲诉不多,那是另外的文章; 之前根据文档智能功能&#x…

算法每日双题精讲 —— 二分查找(二分查找,在排序数组中查找元素的第一个和最后一个位置)

🌟快来参与讨论💬,点赞👍、收藏⭐、分享📤,共创活力社区。 🌟 别再犹豫了!快来订阅我们的算法每日双题精讲专栏,一起踏上算法学习的精彩之旅吧!&#x1f4aa…

【RDMA学习笔记】1:RDMA(Remote Direct Memory Access)介绍

从帝国理工的PPT学习。 什么是RDMA Remote Direct Memory Access,也就是Remote的DMA,是一种硬件机制,能直接访问远端结点的内存,而不需要处理器介入。 其中: Remote:跨node进行数据传输Direct&#xff…