机器学习入门(第五天)——决策树(每次选一边)

Decision tree

知识树

Knowledge tree

一个小故事

A story

挑苹果:

根据这些特征,如颜色是否是红色、硬度是否是硬、香味是否是香,如果全部满足绝对是好苹果,或者红色+硬但是无味也是好苹果,从上图可以看出来,只要做足够的循环判断即可得到结果。

如下图:

一步步走下来,就能挑到好苹果。这就是决策树

  1. 最顶端的叫根节点,所有样本的预测都是从根节点开始。

  2. 每一个圆形节点表示判断,每个节点只对样本的某个属性进行判断。

  3. 圆形节点是标记节点,走到圆形节点表示判断结束,将圆形节点中的标签作为对应的预测结果。

如何构建决策树:

  1. 构建的决策树按顺序对每个特征进行判断(低效)

  2. 每个判断节点都尽可能让一半进入A分支,另一半进入B分支(高效)

引入新的知识,信息熵

信息熵

Information entropy

  1. 每走一步,我们都在确定苹果的好坏。

  2. 在根节点时,我们对苹果的好坏一无所知。

  3. 经过对颜色的判断后,如果是红色,我们明白好坏的概率是1/2。虽然还包含了1/2的不确定性。

  4. 如果苹果红色的前提下又硬,我们100%确定它是好苹果。此时不确定性坍塌为0。

  5. 这是一个减少不确定性的过程。

从整体来讲,我们希望决策树每走一步,不确定性都下降的快一些,让我们的判断步数无限小。

什么是信息的不确定性?

就是信息熵

在信息论与概率统计中,熵(entropy)是表示随机变量不确定性的度量,设X是一个取有限个值的离散随机变量,其概率分布为

则随机变量X的熵定义为

面试可能会问到这个公式,还有交叉熵、相对熵

熵越大,则随机变量的不确定性越大。其中0 ≤ H(P) ≤ log n

举例计算

Example

假设投色子,6个的概率分别是1/6,计算如下:

其中6个1/6(log左边的六分之一)加起来就是1

则最终=log6

这也解释了为什么上面H(P) ≤ log n

另外,均由分布的时候,熵最大,因为所有可能都是一样的,如上面的6个面都是1/6。

如果有1个坏苹果和9个好苹果时,我们可以认为大部分都是坏苹果。内部并不混乱,确定性很大,熵很小。

信息增益

Information gain

表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。

特征A对训练集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即:g(D, A) = H(D) - H(D|A)

当前的信息熵等于划分完(如划分成两个)的信息熵之和。

信息增益算法

输入:训练数据集D和特征A

输出:特征A对训练数据集D的信息

  1. 计算数据集D的经验熵H(D)

  2. 计算特征A对数据集D的经验条件熵H(D|A)

  3. 计算信息增益

举个例子

Example

是否信贷

ID年龄有工作有自己房子信贷情况类别
1青年一般
2青年
3青年
4青年一般
5青年一般
6中年一般
7中年
8中年
9中年非常好
10中年非常好
11老年非常好
12老年
13老年
14老年非常好
15老年一般

对上表所给的训练数据集D,根据信息增益准则选择最优特征。首先计算经验熵H(D)

计算类别:一共15个类别,9个是,6个否

然后计算各特征对数据集D的信息增益,分别以A1,A2,A3,A4表示年龄、有工作、有自己房子和信贷情况4个特征,则

  1. 首先计算年龄

    H(D)=0.971上面计算了,H(D1)青年,H(D2)中年,H(D3)老年

  2. 计算有工作

    H(D)=0.971,H(D1)是有工作,H(D2)是无工作

  3. 计算有无房子

  4. 计算信贷情况

有无房子是作为信贷的第一个划分,下降的最快

信息增益比

Information gain ratio

信息增益比:

如果以信息增益为划分依据,存在偏向选择取值较多的特征,信息增益是对这一问题进行矫正。

举例

如上面的例子,后面加入了身份证这个特征,身份证又是唯一的,算法对样本画了个15叉树,一层就搞定了全部的分类。

这样会造成一个问题,划分会倾向于特征取值数目较多的,即分的更快。

但在预测集上就出现很大的问题了,即预测集的身份证肯定也是唯一的。

定义:

特征A对训练数据集D的信息增益比

定义为其信息增益g(D,A)与训练数据集D关于特征A的经验熵H(D)之比:

计算

如上面的年龄,有3个类(青年、中年、老年),

信息增益比和信息增益的区别就是除以

决策树的构建

Build the decision tree

C4.5算法,大体相同,只不过计算的是信息增益比,而不是信息增益。我们通常也是用C4.5作为决策树的算法,其区别也就在于多了个分母。

总结

Summarization

  1. 决策树的核心思想:以树结构为基础,每个节点对某特征进行判断,进入分支,直到到达叶节点。

  2. 决策树构造的核心思想:让信息熵快速下降,从而达到最少的判断次数获得标签。

  3. 判断信息熵下降速度的方法:信息增益。

  4. 构建决策树算法:ID3(使用信息增益)、C4.5(使用使用信息增益比)。

  5. 信息增益会导致节点偏向选取取值角度的特征的问题。

    关于第5点的补充,统计学习和西瓜书都是给的这个解释,但还有另一种解释,就是信息增益导致大数问题——>概率是否准确的问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/205905.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

传教士与野人过河问题

代码模块参考文章:传教士与野人过河问题(numpy、pandas)_python过河问题_醉蕤的博客-CSDN博客 问题描述 一般的传教士和野人问题(Missionaries and Cannibals):有N个传教士和C个野人来到河边准 备渡河。…

vscode集成git

1、首先电脑要安装git 打开git官网地址:Git进行下载,如下图界面: 如图片中描述:一般进入官网后会识别电脑对应系统(识别出了我的电脑是Windows系统 。如果未识别到电脑系统,可在左侧选择自己电脑对应的系统…

Maven——使用Nexus创建私服

私服不是Maven的核心概念,它仅仅是一种衍生出来的特殊的Maven仓库。通过建立自己的私服,就可以降低中央仓库负荷、节省外网带宽、加速Maven构建、自己部署构件等,从而高效地使用Maven。 有三种专门的Maven仓库管理软件可以用来帮助大家建立…

vue3使用动态component

使用场景: 多个组件通过component标签挂载在同一个组件中,通过触发时间进行动态切换。vue3与vue2用法不一样,这里有坑! 使用方法: 1.通过vue的defineAsyncComponent实现挂载组件 2.component中的is属性 父组件&am…

deque容器结构学习笔记

1.结构图 2.deque对比vector和list deque双端队列,就像是list和vector的结合 vector: 优点:1.可以随机读取 2. 空间利用率高 缺点:1. 除了尾插尾删,其他插入删除效率比较低 2. 扩容效率低 list: 优点&…

第16关 革新云计算:如何利用弹性容器与托管K8S实现极速服务POD扩缩容

------> 课程视频同步分享在今日头条和B站 天下武功,唯快不破! 大家好,我是博哥爱运维。这节课给大家讲下云平台的弹性容器实例怎么结合其托管K8S,使用混合服务架构,带来极致扩缩容快感。 下面是全球主流云平台弹…

threeJs引入模型使用3D模型(vite+React+Ts)

要在 Three.js 中使用 3D 模型,你需要加载模型文件并将其添加到场景中。Three.js 支持多种不同的模型格式,比如 OBJ、FBX、GLTF 等。 init vitelatest //创建一个vite的脚手架 选择react并配置Ts 安装three.js准备 npm install react-three/drei np…

Ubuntu Server 20.04.6下Anaconda3安装Pytorch

环境 Ubuntu 20.04.6 LTS Anaconda3-2023.09-0-Linux-x86_64.sh conda 23.7.4 Pytorch 1.11.0 安装 先创建一个工作环境,环境名叫lia: conda create -n lia python3.8环境的使用方法如下: conda activate lia # 激活环境 conda deactiv…

2021年8月18日 Go生态洞察:整合Go的网络体验

🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁 🦄 博客首页——🐅🐾猫头虎的博客🎐 🐳 《面试题大全专栏》 🦕 文章图文…

ps 透明印章制作

ps 透明印章制作 1、打开不透明印章2、抠出红色印章3、新建图层4、填充红色印章到新图层5、导出透明印章 1、打开不透明印章 打开ps软件,菜单栏选择 文件-打开 选择本地不透明印章 打开 2、抠出红色印章 ps菜单栏 选择 选择-色彩范围 点击色彩范围 色彩范围窗口 取…

13.单调栈(接雨水、柱状图最大矩形)【灵神基础精讲】

单调栈【灵神基础精讲】 https://www.bilibili.com/video/BV1VN411J7S7/ 单调栈和单调队列的关系:单调队列单调栈滑窗 单调栈,顾名思义就是栈内元素单调按照递增(递减)顺序排列的栈。 适用问题:单调栈分为单调递增栈和单调递减栈&#xff0c…

在Linux上安装KVM虚拟机

一、搭建KVM环境 KVM(Kernel-based Virtual Machine)是一个基于内核的系统虚拟化模块,从Linux内核版本2.6.20开始,各大Linux发行版就已经将其集成于发行版中。KVM与Xen等虚拟化相比,需要硬件支持的完全虚拟化。KVM由内…

Nginx实现(动静分离)

动静分离应该是听的次数较多的性能优化方案,那先思考一个问题:「「为什么需要做动静分离呢?它带来的好处是什么?」」 其实这个问题也并不难回答,当你搞懂了网站的本质后,自然就理解了动静分离的重要性。先来…

设计模式之装饰模式(2)--有意思的想法

目录 背景概述概念角色 基本代码分析❀❀花样重难点聚合关系认贼作父和认孙做父客户端的优化及好处继承到设计模式的演变过程 总结 背景 这是我第二次写装饰模式,这一次是在上一次的基础上进一步探究装饰模式,这一次有了很多新的感受和想法,也…

如何提高销售技巧,增加客户的成交率?

如何提高销售技巧,增加客户的成交率? 在如今的市场环境中,销售技巧的高低往往决定了你是否能够成功地打动客户的心。想要提高销售业绩,除了产品质量和服务的保障,更需要你精进销售技巧,从而让客户愿意为你…

MySQL三大日志详细总结(redo log undo log binlog)

MySQL日志 包括事务日志(redolog undolog)慢查询日志,通用查询日志,二进制日志(binlog) 最为重要的就是binlog(归档日志)事务日志redolog(重做日志)undolog…

一个资深测试工程师面试一来就问我这些题目

📢专注于分享软件测试干货内容,欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!📢交流讨论:欢迎加入我们一起学习!📢资源分享:耗时200小时精选的「软件测试」资…

一个数据中心的PUE修养,必将迎来液冷存储的曙光

实现小于1.3的PUE硬指标,数据中心液冷存储将功不可没。 【全球存储观察 | 科技热点关注】 4000亿千瓦时,能耗如此惊人,这是预计到2030年全国数据中心的年耗电总量。 小于1.3,看似微不足道的数字,这是新建…

有趣的代码——井字棋游戏的实现

前面我们讲解过一个猜数字游戏的实现,想来应该让大家感受到了属于编程的趣味性,并且在实现过程中应该也收获了知识。但猜数字这种简单的游戏肯定满足不了大家对于游戏的高标注、严要求,估计玩不了多久就会没有兴趣了,所以&#xf…

8. 队列

队列(queue)是一种遵循先入先出规则的线性数据结构。顾名思义,队列模拟了排队现象,即新来的人不断加入队列的尾部,而位于队列头部的人逐个离开。 如下图所示,我们将队列的头部称为“队首”,尾部称为“队尾”&#xff…