决策树:ID3、C4.5和CART特征选择方式

1 前言

该文章主要目的是记录ID3、C4.5和CART特征选择方式,这里只对决策树进行简单介绍。
决策树(Decision Tree)算法是一种有监督学习算法,它利用分类的思想,根据数据的特征构建数学模型,从而达到数据的筛选和决策的目标。它的重点是将看似无序、杂乱的已知数据,通过某种技术手段转化成可以预测未知数据的树状模型。每一条从根节点(对最终分类结果贡献最大的属性)到叶子节点(最终分类结果)的路径都代表一条决策的规则。

在预测时,从根节点出发,根据特征实际值,转移至某个子节点,直至叶子节点,从而完成决策。
在决策树构建的过程中,首先由所有的数据构成根节点,根据某种策略对某个特征进行划分,数据集被分割成若干份,每一份构成一个子节点。进而对子节点继续划分,直至决策树生成完毕。
常用的决策树构建算法有ID3、C4.5和CART等,它们之间关键区别是用于划分数据集的特征的选择策略不同,以下对其策略进行介绍。

2 ID3

ID3算法使用信息增益指导决策树的划分。
首先介绍概念:。熵表示随机变量不确定性的度量。先给出公式:
I n f o ( Y ) = − ∑ y p ( y ) log ⁡ p ( y ) Info(Y)=-\sum_{y}{p(y)\log{p(y)}} Info(Y)=yp(y)logp(y)
对于决策树中的某一个节点,可以通过上述公式计算熵,其中 Y Y Y表示类别, y y y表示具体的类别值。熵越小越好。
信息增益表示特征 A A A使得类Y的不确定性减小的程度。公式如下:
G a i n ( D , A ) = I n f o ( D ) − I n f o ( D , A ) Gain(D,A)=Info(D)-Info(D,A) Gain(D,A)=Info(D)Info(D,A)
D是数据集, A A A表示被划分的特征。 I n f o ( D ) Info(D) Info(D)表示某个节点的熵, I n f o ( X , D ) Info(X,D) Info(X,D)表示当前节点按照 A A A划分之后,得到的子节点的熵的加权和。
I n f o ( D , A ) = ∑ a ∣ D A = a ∣ ∣ D ∣ I n f o ( D A = a ) Info(D,A)=\sum_{a}{\frac{|D_{A=a}|}{|D|}Info(D_{A=a})} Info(D,A)=aDDA=aInfo(DA=a)
D A = a D_{A=a} DA=a表示 A A A为a的样本组成的子节点,权重是 D A = a D_{A=a} DA=a的样本数量与 D D D的样本数量的比值。
每次划分,计算每个特征的 G a i n ( D , A ) Gain(D,A) Gain(D,A),选择 G a i n ( D , A ) Gain(D,A) Gain(D,A)最大的特征划分数据集。

3 C4.5

C4.5相比于ID3的主要区别是使用信息增益率替代信息增益。信息增益率是信息增益与自身熵 I V ( D , A ) IV(D,A) IV(D,A)的比值。
G a i n _ r a t i o ( D , A ) = G a i n ( D , A ) I V ( D , A ) Gain\_ratio(D,A)=\frac{Gain(D,A)}{IV(D,A)} Gain_ratio(D,A)=IV(D,A)Gain(D,A)
自身熵表示当前节点划分的程度,划分的子节点越少,越均匀,自身熵越小,信息增益率越大。
I V ( D , A ) = − ∑ a ∣ D A = a ∣ ∣ D ∣ log ⁡ ∣ D A = a ∣ ∣ D ∣ IV(D,A)=-\sum_a{\frac{|D_{A=a}|}{|D|}\log{\frac{|D_{A=a}|}{|D|}}} IV(D,A)=aDDA=alogDDA=a
每次划分,计算每个特征的信息增益率,选择信息增益率最大的特征划分数据集。

4 CART

相比于上面的方法,CART使用基尼(Gini)指数选择特征。
基尼(Gini)指数使用 p ( y ) ( 1 − p ( y ) ) p(y)(1-p(y)) p(y)(1p(y))替代 p ( y ) log ⁡ p ( y ) p(y)\log{p(y)} p(y)logp(y),公式如下:
G i n i ( D ) = ∑ i p ( y ) ( 1 − p ( y ) ) = 1 − ∑ i p 2 ( y ) Gini(D)=\sum_{i}p(y)(1-p(y))=1-\sum_i{p^2(y)} Gini(D)=ip(y)(1p(y))=1ip2(y)
做这个替代有什么影响呢。可以看一下图像。
p ( y ) log ⁡ p ( y ) p(y)\log{p(y)} p(y)logp(y)为:

p ( y ) ( 1 − p ( y ) ) p(y)(1-p(y)) p(y)(1p(y))为:

可以看到 p ( y ) log ⁡ p ( y ) p(y)\log{p(y)} p(y)logp(y)图像比较倾斜,而 p ( y ) ( 1 − p ( y ) ) p(y)(1-p(y)) p(y)(1p(y))比较对称,在0.5取到最大值。一个类别准确率为0.5是最具不确定性的,也就是最差的,所以从图像上看明显 p ( y ) ( 1 − p ( y ) ) p(y)(1-p(y)) p(y)(1p(y))更符合目标。
D根据特征A被划分为多个子结点后,得到的子节点的基尼(Gini)指数的加权和。
G i n i ( D , A ) = ∑ a ∣ D A = a ∣ ∣ D ∣ G i n i ( D A = a ) Gini(D,A)=\sum_{a}{\frac{|D_{A=a}|}{|D|}Gini(D_{A=a})} Gini(D,A)=aDDA=aGini(DA=a)
每次划分,计算每个特征的 G i n i ( D , A ) Gini(D,A) Gini(D,A),选择 G i n i ( D , A ) Gini(D,A) Gini(D,A)最大的特征划分数据集。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/932194.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

2023 年“泰迪杯”数据分析技能赛B 题企业财务数据分析与造假识别

2023 年“泰迪杯”数据分析技能赛B 题企业财务数据分析与造假识别 一、背景 财务数据是指企业经营活动和财务结果的数据记录,反映了企业的财务状况 与经营成果。对行业、企业的财务数据进行分析,就是要评价其过去的经营业绩、 衡量现在的财务状况、预测…

UE5.5 Geometry库平面切割原理分析

平面切割--FMeshPlaneCut 平面定义: 面上一个点 法线 算法流程如下 求几何体所有顶点和面的有向距离(Signs) Sign计算: float Sign (VertexPos - PlaneOrigin).Dot(PlaneNormal); 遍历所有几何体所有交叉边, 进行SplitEdge 对于位于切割面两侧的交叉边(Sign…

【计算机学习笔记】GB2312、GBK、Unicode等字符编码的理解

之前编写win32程序时没怎么关注过宽字符到底是个啥东西,最近在编写网络框架又遇到字符相关的问题,所以写一篇文章记录一下(有些部分属于个人理解,如果有错误欢迎指出) 目录 几个常见的编码方式Unicode和UTF-8、UTF-16、…

CSS 快速上手

目录 一. CSS概念 二. CSS语法 1. 基本语法规范 2. CSS的三种引入方式 (1) 行内样式 (2) 内部样式表 (3) 外部样式表 3. CSS选择器 (1) 标签选择器 (2) 类选择器 (3) id选择器 (4) 通配符选择器 (5) 复合选择器 <1> 空格 <2> 没有空格 <3> &q…

【时间之外】IT人求职和创业应知【60】-卡脖子

目录 新闻一&#xff1a;达成合作&#xff0c;将在中国推出生成式人工智能服务 新闻二&#xff1a;机器人新赛道 新闻三&#xff1a;简化用户信息获取流程&#xff0c;提升小程序体验 去年人口出生下降&#xff0c;3年以后&#xff0c;幼儿园要关闭很多&#xff0c;6年以后小…

centos9升级OpenSSH

需求 Centos9系统升级OpenSSH和OpenSSL OpenSSH升级为openssh-9.8p1 OpenSSL默认为OpenSSL-3.2.2&#xff08;根据需求进行升级&#xff09; 将源码包编译为rpm包 查看OpenSSH和OpenSSL版本 ssh -V下载源码包并上传到服务器 openssh最新版本下载地址 wget https://cdn.openb…

node.js中实现GETPOST请求

创建基本的服务器 const express require(express); const indexRouter require(./router); // 引入路由 const app express(); const port 3000; // 挂载路由 app.use(/api, indexRouter); app.listen(port, () > {console.log(Server is running on http://localhost…

shell 条件测试

一、命令执行结果判定 && &#xff1a; 在命令执行后如果没有任何报错时会执行符号后面的动作 || &#xff1a; 在命令执行后有报错执行符号后的动作 [rootlong ~]# a10 [rootlong ~]# echo $a 10 [rootlong ~]# [ $a -gt "5" ] && echo yes || e…

JS中的原型链与继承

原型链的类比 JS中原型链&#xff0c;本质上就是对象之间的关系&#xff0c;通过protoype和[[Prototype]]属性建立起来的连接。这种链条是动态的&#xff0c;可以随时变更。 这个就跟C/C中通过指针建立的关系很相似&#xff0c;比如&#xff0c;通过指针建立一个链表&#xf…

【Linux网络编程】第七弹---构建类似XShell功能的TCP服务器:从TcpServer类到主程序的完整实现

✨个人主页&#xff1a; 熬夜学编程的小林 &#x1f497;系列专栏&#xff1a; 【C语言详解】 【数据结构详解】【C详解】【Linux系统编程】【Linux网络编程】 目录 1、TcpServer.hpp 1.1、TcpServer类基本结构 1.2、 Execute() 2、Command.hpp 2.1、Command类基本结构 …

C语言控制语句与案例

控制语句与案例 1. 选择结构 1.1 if 语句 if 语句用于根据条件执行不同的代码块。最基本的语法形式如下&#xff1a; // 单分支 if (条件) {// 条件为真时执行的代码 }// 双分支 if (条件) {// 条件为真时执行的代码 } else {// 条件为假时执行的代码 }// 多分支 if (条件1…

【分子材料发现】——GAP:催化过程中吸附构型的多模态语言和图学习(数据集处理详解)(二)

Multimodal Language and Graph Learning of Adsorption Configuration in Catalysis https://arxiv.org/abs/2401.07408Paper Data: https://doi.org/10.6084/m9.figshare.27208356.v2 1 Dataset CatBERTa训练的文本字符串输入来源于Open Catalyst 2020 &#xff08;OC20…

SpringBoot自动配置底层核心源码

SpringBoot底层核心源码 一、工程创建二、进一步改造三、自动配置 探究SpringBoot的自动配置原理&#xff0c;我们可以自己写一个启动类的注解。 一、工程创建 首先创建一个工程&#xff0c;工程目录如下&#xff1a; 自定义一个启动函数&#xff1a; package org.springboo…

【Springboot3+vue3】从零到一搭建Springboot3+vue3前后端分离项目之后端环境搭建

【Springboot3vue3】从零到一搭建Springboot3vue3前后端分离项目&#xff0c;整合knef4j和mybaits实现基础用户信息管理 后端环境搭建1.1 环境准备1.2 数据库表准备1.3 SpringBoot3项目创建1.4 MySql环境整合&#xff0c;使用druid连接池1.5 整合mybatis-plus1.5.1 引入mybatie…

【书生大模型实战营】Linux 基础知识-L0G1000

前言&#xff1a;书生大模型实战营是上海人工智能实验室开展的大模型系列实践活动&#xff0c;提供免费算力平台&#xff0c;学员通过闯关式任务&#xff0c;可获得免费算力和存储&#xff0c;助力项目实践。本期是第4期&#xff0c;时间从十一月份开始&#xff0c;持续到十二月…

JS进阶DAY3|事件(二)事件流

目录 一、事件流说明 1.1 事件流概念 1.2 事件捕获阶段 1.3 事件冒泡阶段 二、事件传播的两个阶段说明 2.1 事件捕获 2.2 事件冒泡 3.3 示例代码 三、阻止冒泡 四、事件解绑 4.1 removeEventListener方法 4.2 使用 DOM0 级事件属性 4.3 使用一次性事件监听器 一、…

【AI工具】强大的AI编辑器Cursor详细使用教程

目录 一、下载安装与注册 二、内置模型与配置 三、常用快捷键 四、项目开发与问答 五、注意事项与技巧 参考资料 近日&#xff0c;由四名麻省理工学院&#xff08;MIT&#xff09;本科生共同创立的Anysphere公司宣布&#xff0c;其开发的AI代码编辑器Cursor在成立短短两年…

【AWR软件】AWR 软件添加电磁结构

文章目录 前言步骤 前言 微波虚拟 实验 步骤 project -> add em struture -> new em structure 输入名称&#xff0c;create. 添加端口&#xff1a;add edge port

uni-app登录界面样式

非常简洁的登录、注册界面模板&#xff0c;使用uni-app编写&#xff0c;直接复制粘贴即可&#xff0c;无任何引用&#xff0c;全部公开。 废话不多说&#xff0c;代码如下&#xff1a; login.vue文件 <template><view class"screen"><view class"…

普通算法——一维前缀和

一维前缀和 题目链接&#xff1a;https://www.acwing.com/problem/content/797/ 题目描述&#xff1a; 输入一个长度为 n 的整数序列。接下来再输入 m 个询问&#xff0c;每个询问输入一对 l,r。对于每个询问&#xff0c;输出原序列中从第 l 个数到第 r 个数的和。 **什么是…