深度神经网络——决策树的实现与剪枝

概述

决策树 是一种有用的机器学习算法,用于回归和分类任务。 “决策树”这个名字来源于这样一个事实:算法不断地将数据集划分为越来越小的部分,直到数据被划分为单个实例,然后对实例进行分类。如果您要可视化算法的结果,类别的划分方式将类似于一棵树和许多叶子。

这是决策树的快速定义,但让我们深入了解决策树的工作原理。 更好地了解决策树的运作方式及其用例,将帮助您了解何时在机器学习项目中使用它们。

决策树的结构

决策树的结构类似于流程图,从一个起点或根节点开始,根据过滤条件的判断结果,逐级分支,直至达到树的末端,即叶子节点。每个内部节点代表一个特征的测试条件,而叶子节点则代表数据点的分类标签。
在这里插入图片描述
决策树是一种层次化的决策模型,它通过一系列的问题将数据分类。以下是决策树结构的关键组成部分和特性:

  1. 根节点(Root Node)

    • 决策树的起点,代表整个数据集。
  2. 内部节点(Internal Nodes)

    • 表示决策问题或属性测试。每个内部节点对应一个特征(或属性)的分割点。
  3. 分支(Branches)

    • 从每个内部节点延伸出来,代表测试的不同结果。分支的数量取决于该节点特征的可能值。
  4. 叶子节点(Leaf Nodes)

    • 树的末端,代表最终决策或分类结果。在分类问题中,叶子节点通常包含类别标签;在回归问题中,它们包含预测值。
  5. 路径(Path)

    • 从根节点到任一叶子节点的连接序列,代表一系列决策规则。
  6. 分割(Split)

    • 在内部节点处,根据特征值将数据集分割成子集的过程。
  7. 特征(Feature)

    • 用于分割数据的特征或属性。
  8. 阈值(Threshold)

    • 用于确定数据点是否沿着特定分支的值。
  9. 纯度(Purity)

    • 衡量节点中数据点是否属于同一类别的指标。高纯度意味着节点中的数据点属于同一类别。
  10. 深度(Depth)

    • 从根节点到树中任意节点的最长路径长度。
  11. 宽度(Width)

    • 树中叶子节点的最大数量。
  12. 树高(Tree Height)

    • 从根节点到最远叶子节点的边数。
  13. 基尼指数(Gini Index)

    • 用于分类树的内部节点评估,衡量节点不纯度的指标。
  14. 熵(Entropy)

    • 另一种衡量节点不纯度的指标,常用于构建分类树。
  15. 信息增益(Information Gain)

    • 通过分割获得的信息量,用于选择最佳分割点。
  16. 决策规则(Decision Rules)

    • 从根到叶的路径上的一系列决策,用于对数据点进行分类。

决策树的结构使得模型不仅能够进行预测,还能够解释预测背后的逻辑。这种可解释性使得决策树在需要模型透明度的应用中非常有用。然而,决策树也容易过拟合,特别是当树变得非常深和复杂时。因此,剪枝技术通常用于简化决策树,提高其泛化能力。

决策树算法

决策树的构建过程采用递归二元分割算法,该算法通过评估不同特征对数据集进行分割的效果,选择最佳分割点。分割的目的是使得每个子集尽可能地“纯”,即包含的数据点属于同一类别或具有相似的响应值。

分割成本的确定

决策树是一种常用用于分类和回归任务。在回归问题中,决策树的目标是预测一个连续的输出值。如果你使用决策树进行回归预测,并希望计算预测误差,你可以使用均方误差(Mean Squared Error, MSE)作为评估指标。MSE 衡量的是模型预测值与实际值之间差异的平方的平均值。

对于决策树来说,计算 MSE 的过程如下:

  1. 使用决策树模型进行预测:给定一个训练好的决策树模型,对于每个数据点,使用模型进行预测,得到预测值 prediction_i

  2. 计算误差:对于每个数据点,计算其实际值 y_i 与预测值 prediction_i 之间的差异,然后计算这个差异的平方。

  3. 求和:将所有数据点的误差平方求和。

  4. 平均:将求和结果除以数据点的总数 n,得到 MSE。

数学公式表示为:

M S E = 1 n ∑ i = 1 n ( y i − prediction i ) 2 {MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \text{prediction}_i)^2 MSE=n1i=1n(yipredictioni)2

其中:

  • n n n 是数据集中的样本数量。
  • y i y_i yi是第i` 个样本的实际值。
  • p r e d i c t i o n i {prediction}_i predictioni 是模型对第 i 个样本的预测值。

在 Python 中,如果使用 scikit-learn 库,可以很容易地计算决策树模型的 MSE。以下是一个简单的例子:

from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error
import numpy as np

# 假设 X 是特征数据,y 是目标变量
X = ...  # 特征数据
y = ...  # 目标变量

# 创建决策树回归模型
tree_reg = DecisionTreeRegressor()

# 训练模型
tree_reg.fit(X, y)

# 进行预测
y_pred = tree_reg.predict(X)

# 计算 MSE
mse = mean_squared_error(y, y_pred)
print(f"Mean Squared Error: {mse}")

MSE 仅适用于回归问题。如果你在处理分类问题,可能需要考虑其他指标,如准确率、召回率、F1 分数等。此外,MSE 对异常值敏感,因此在某些情况下,你可能还想使用其他指标,如平均绝对误差(Mean Absolute Error, MAE)来评估模型性能。

决策树的剪枝

决策树的剪枝是防止模型过拟合的重要技术。过拟合的决策树可能会在训练数据上表现良好,但在未见过的数据上泛化能力差。剪枝通过移除树中的一些分支来简化模型,从而提高其在新数据上的预测性能。以下是几种常见的决策树剪枝方法:

  1. 预剪枝(Pre-pruning)

    • 在构建决策树的过程中,预剪枝会在树生长的每个阶段评估是否应该停止分裂。如果某个节点的分裂不能显著提高模型的性能,那么这个节点将被标记为叶子节点,不再进一步分裂。
  2. 后剪枝(Post-pruning)

    • 后剪枝是在决策树完全生长完成后进行的。它从树的叶子节点开始,评估移除节点对模型性能的影响。如果移除某个节点后的模型性能没有显著下降,那么这个节点将被删除。
  3. 错误率降低剪枝(Reduced-Error Pruning)

    • 这种方法是在后剪枝的基础上,通过比较剪枝前后的错误率来决定是否剪枝。如果剪枝后的模型在交叉验证集上的错误率没有增加,或者增加的幅度在可接受范围内,那么剪枝是成功的。
  4. 代价复杂性剪枝(Cost-Complexity Pruning)

    • 代价复杂性剪枝是一种后剪枝技术,它通过引入一个参数来平衡模型的复杂度和预测误差。这种方法允许模型在剪枝过程中保持一定程度的复杂性,同时减少过拟合的风险。
  5. 最小描述长度剪枝(Minimum Description Length Pruning)

    • 这种方法基于信息论原理,试图找到能够最小化描述模型和数据所需的信息量(即描述长度)的树。它考虑了模型的复杂性和预测误差,以找到最佳的剪枝点。
  6. 基于规则的剪枝

    • 在某些情况下,可以使用领域知识来定义规则,以指导剪枝过程。例如,如果某个特征在数据集中的分布非常不均匀,可以考虑剪枝掉依赖于该特征的分支。

使用决策树的注意事项

决策树在需要快速分类且计算时间受限的场景下非常有用。它们能够清晰地展示数据集中哪些特征最具预测力,并且与许多其他机器学习算法相比,决策树的规则更易于解释。此外,决策树能够处理分类变量和连续变量,减少了预处理的需求。

然而,决策树在预测连续属性值时可能表现不佳,且在类别众多而训练样本较少的情况下,分类准确性可能降低。

通过深入理解决策树的工作原理和特性,我们可以更好地判断在机器学习项目中何时使用它们,以及如何优化它们的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/729273.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【linux】操作系统使用wget下载网络文件,内核tcpv4部分运行日志

打印日志代码及运行日志(多余日志被删除了些): 登录 - Gitee.comhttps://gitee.com/r77683962/linux-6.9.0/commit/55a53caa06c1472398fac30113c9731cb9e3b482 测试步骤和手段: 1、清空 kern.log; 2、使用wget 下载linux-6.9.tar.gz&…

webgis 之 地图投影

地图投影 什么是地图投影目的种类等角投影的分类墨卡托投影Web 墨卡托投影 参考小结 为了更好地展示地球上的数据,需要将地球投影到一个平面上。地图投影是一个数学问题,按照一定的几何关系,将地球上的经纬度坐标映射到一个平面上的坐标。地球…

c++里 父类私有的虚函数,也是可以被子类重写和继承的。但父类私有的普通函数,子类无法直接使用

谢谢 。今天看课本上有这么个用法,特测试一下。这样就也可以放心的把父类的私有函数列为虚函数了,或者说把父类的虚函数作为私有函数了。 再补充一例:

用Nuitka打包 Python,效果竟如此惊人!

目录 为什么选择Nuitka? Nuitka的工作原理 Nuitka的工作流程大致如下: 安装Nuitka 实战案例 示例代码 打包程序 运行可执行文件 进阶技巧 优化选项 多文件项目 打包第三方库 使用Python开发一个程序后,将Python脚本打包成独立可执…

小红书xs-xt解密

在进行小红书爬虫的时候,有一个关键就是解决动态密文的由来 这边用atob对X-S密文进行解密 可以看到他是一个字符串 可以发现他本来是一个json对象,因为加密需要字符串,所以将json对象转化 为了字符串 而在js中,常用JSON.stringify进行json对象到字符串的转化。 这边将JS…

无版权图片素材搜索网站,解决无版权图片查找问题

在数字内容创作领域,图片素材的选择至关重要。一张高质量、合适的图片不仅能够吸引读者的眼球,还能有效传达信息。然而,找到既免费又无版权限制的图片素材并非易事。小编将为大家介绍几个解决这一问题的无版权图片素材搜索网站,这…

第19章 大数据架构设计理论与实践

19.1 传统数据处理系统存在的问题 海量数据的,数据库过载,增加消息队列、甚至数据分区、读写分离、以及备份以及传统架构的性能的压榨式提升,都没有太明显的效果,帮助处理海量数据的新技术和新架构开发被提上日程。 19.2 大数据处…

国产MCU芯片(2):东软MCU概览及触控MCU

前言: 国产芯片替代的一个主战场之一就是mcu,可以说很多国内芯片设计公司都打算或者已经在设计甚至有了一款或多款的量产产品了,这也是国际大背景决定的。过去的家电市场、过去的汽车电子市场,的确国产芯片的身影不是很常见,如今不同了,很多fabless投身这个行业,一种是…

性能测试并发量评估新思考:微服务压力测试并发估算

性能测试并发量评估新思考 相信很多人在第一次做压力测试的时候,对并发用户数的选择一直有很多的疑惑,那么行业内有一些比较通用的并发量的计算方法,但是这些方法在如今微服务的架构下多少会有一些不适合,下面的文章我们对这些问题…

从0开始C++(三):构造函数与析构函数详解

目录 构造函数 构造函数的基本使用 构造函数也支持函数重载 构造函数也支持函数参数默认值 构造初始化列表 拷贝构造函数 浅拷贝和深拷贝 析构函数 总结 练习一下ヽ( ̄▽ ̄)ノ 构造函数 构造函数的基本使用 构造函数是一种特殊的成…

不知道怎么下载原版系统,这几个原版系统下载网站可以帮你

电脑是我们日常办公生活中必备不可少的设备,无论是个人使用还是企业部署,拥有一个稳定、安全且纯净的操作系统对于保障数据安全和提升使用体验至关重要。然而,网络上充斥着各种二次打包的系统版本,这些版本往往携带了第三方软件或…

班古精准营养X朗格力:教你如何应对慢阻肺

#肺科营养#朗格力#班古营养#复合营养素#肺部营养#肺部健康# 肺是除皮肤外人体中唯一直接与外界联系的器官。一副好肺,能为身体供应充足的氧气,使生命动力更足,人体免疫力、自愈力更强。肺好,生命动力就足,保肺就是保命!但有不少人却没能拥有健康的肺,而是患上了慢阻肺。 专家指…

国外创意二维码活动:喜力Heineken助力爱尔兰濒临倒闭酒吧转型博物馆?

今天分享一个很有意思的国外二维码活动案例。爱尔兰酒馆拥有非常悠久的历史,闻名于世界。但是因为经营成本、税收等的不断增加,自2005年起,四分之一的爱尔兰酒吧相继关闭,这其中包括拥有1229年历史的世界上最古老的酒吧。 于是&a…

Hi3861 OpenHarmony嵌入式应用入门--点灯

本篇实现对gpio的控制,通过控制输出进行gpio的点灯操作。 硬件 我们来操作IO2,控制绿色的灯。 软件 GPIO API API名称 说明 hi_u32 hi_gpio_deinit(hi_void); GPIO模块初始化 hi_u32 hi_io_set_pull(hi_io_name id, hi_io_pull val); 设置某个IO…

用群辉NAS打造影视墙(Video Station篇)

目录 一、群辉套件Video Station 1、安装 2、进入系统 3、配置刮削器 4、获取TMDB网站API密钥 5、配置DNS (1)开启SSH (2)使用终端工具连接到NAS (3)修改hosts文件 (4)再次测试连接 6、设置目录 二、手机端APP设置 三、电视端APP 四、解决影视信息错误 N…

TikTok API接口——获取TikTok用户QRcode二维码

一、引言 在数字化时代,QRcode二维码已经成为连接线上线下的重要桥梁。在社交媒体领域,TikTok作为短视频领域的佼佼者,用户量庞大且活跃度高。为了满足用户之间更便捷的互动需求,我们特别开发了一款针对TikTok平台的接口&#xf…

MATLAB神经网络---lstmLayer(LSTM 长短期记忆神经网络)

前言 描述LSTM就要先描述一下循环神经网络 循环神经网络 循环神经网络通过使用带自反馈的神经元,使得网络的输出不仅和当前的输入有关,还和上一时刻的输出相关,于是在处理任意长度的时序数据时,就具有短期记忆能力。 如下是一个…

内存优化技巧:让数据处理更高效

Pandas无疑是我们数据分析时一个不可或缺的工具,它以其强大的数据处理能力、灵活的数据结构以及易于上手的API赢得了广大数据分析师和机器学习工程师的喜爱。 然而,随着数据量的不断增长,如何高效、合理地管理内存,确保Pandas Da…

【贪心算法初级训练】在花坛上是否能种下n朵花、碰撞后剩余的行星

1、在花坛上是否能种下n多花 一个很长的花坛,一部分地已经种植了花,另一部分却没有,花不能种植在相邻的地块上否则它们会争夺水源,两者都会死去。给你一个整数数组表示花坛,由若干个0和1组成,0表示没种植花…

课程设计:班级通讯录管理系统(Java+MySQL)

本项目旨在开发一个基于Java的班级通讯录管理系统,使用MySQL作为数据库,采用Swing进行UI设计。系统主要功能包括管理员登录认证、班级信息管理、学生信息管理。每个班级拥有独立窗口,同时注重窗口复用和代码精简,实现自适应布局&a…