机器学习入门案例(3)之使用决策树预测是否适合打网球

大家好,我是邵奈一,一个不务正业的程序猿、正儿八经的斜杠青年。
1、世人称我为:被代码耽误的诗人、没天赋的书法家、五音不全的歌手、专业跑龙套演员、不合格的运动员…
2、这几年,我整理了很多IT技术相关的教程给大家,爱生活、爱分享。
3、如果您觉得文章有用,请收藏,转发,评论,并关注我,谢谢!
博客导航跳转(请收藏):邵奈一的技术博客导航
| 公众号 | 微信 | CSDN | 掘金 | 51CTO | 简书 | 微博 |


教程目录

  • 0x00 教程内容
        • 1. 引入相关依赖的包
        • 2. 定义函数并生成决策树
        • 3. 定义函数并保存生成的树图
        • 4. 定义函数用于生成向量化数据
        • 5. 调用函数进行预测
        • 6. 预测新样本
  • 0xFF 总结

0x00 教程内容

背景说明:
使用的数据集为tennis.txt,其中包含了14个样本,每个样本都包含了与天气相关的特征以及是否适合打球的相关信息。具体数据如下:

序号天气气温湿度类别
1N
2N
3多云Y
4适中Y
5正常Y
6正常N
7多云正常Y
8适中N
9正常Y
10适中正常Y
11适中正常Y
12多云适中Y
13多云正常Y
14适中N
1. 引入相关依赖的包
# 导入pandas库,用于数据处理和分析
import pandas as pd
# 导入numpy库,用于数值计算
import numpy as np
# 导入sklearn库中的tree模块,用于构建决策树模型
from sklearn import tree
# 导入pydotplus库,用于绘制决策树图形
import pydotplus

如果提示:

ModuleNotFoundError: No module named 'pydotplus'

使用以下命令安装pydotplus:
方式一:直接在jupyter notebook中安装

!pip install pydotplus

如下图所示:
在这里插入图片描述
执行完重新引入一下库即可。

方式二:直接在pip命令行中安装

pip install pydotplus

效果如图:

(base) C:\Users\shaonaiyi>pip install pydotplus
WARNING: Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ProtocolError('Connection aborted.', ConnectionResetError(10054, '远程主机强迫关闭了一个现有的连接。', None, 10054, None))': /simple/pydotplus/
Collecting pydotplus
  Downloading pydotplus-2.0.2.tar.gz (278 kB)
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 278.7/278.7 kB 58.8 kB/s eta 0:00:00
  Preparing metadata (setup.py) ... done
Requirement already satisfied: pyparsing>=2.0.1 in c:\users\shaonaiyi\anaconda3\lib\site-packages (from pydotplus) (3.0.9)
Building wheels for collected packages: pydotplus
  Building wheel for pydotplus (setup.py) ... done
  Created wheel for pydotplus: filename=pydotplus-2.0.2-py3-none-any.whl size=24554 sha256=dc6225242106622dbd9d9e581bff72da1217c2b2a5048a2d712a0778536353dd
  Stored in directory: c:\users\shaonaiyi\appdata\local\pip\cache\wheels\89\e5\de\6966007cf223872eedfbebbe0e074534e72e9128c8fd4b55eb
Successfully built pydotplus
Installing collected packages: pydotplus
2. 定义函数并生成决策树
# 生成决策树
def createTree(trainingData):
    # 从训练数据中提取特征矩阵和标签
    data = trainingData.iloc[:, :-1] # 获取特征矩阵(除了最后一列)
    labels = trainingData.iloc[:, -1] # 获取标签(即最后一列)
    # 创建一个分类决策树模型,使用信息熵作为划分标准
    trainedTree = tree.DecisionTreeClassifier(criterion="entropy") # 分类决策树
    # 使用特征矩阵和标签训练决策树模型
    trainedTree.fit(data, labels) # 训练
    # 返回训练好的决策树模型
    return trainedTree
  • createTree 是一个函数,它接受一个参数 trainingData。这个参数预期是一个数据集,其中每一行是一个样本,每一列是一个特征,最后一列是目标标签。
  • data = trainingData.iloc[:, :-1] 这行代码从 trainingData 中取出所有的行(即所有的样本)和除最后一列之外的所有列。这是为了获取决策树训练所需的特征数据
  • labels = trainingData.iloc[:, -1] 这行代码取出 trainingData 的最后一列,这是为了获取决策树训练所需的目标标签
  • trainedTree = tree.DecisionTreeClassifier(criterion="entropy") 这行代码创建一个 DecisionTreeClassifier 对象,这个对象将会用于创建决策树。这里,criterion="entropy" 指定了决策树的建立基于信息增益率(也称为交叉熵),这是在决策树的每个划分中,选择最优划分特征的标准。
  • trainedTree.fit(data, labels) 这行代码调用 fit 方法,使用前面获取的特征标签来训练决策树模型。
  • 最后,函数返回训练好的决策树模型 trainedTree
3. 定义函数并保存生成的树图
def showtree2pdf(trainedTree,finename):
    # 将训练好的决策树导出为Graphviz格式的数据
    dot_data = tree.export_graphviz(trainedTree, out_file=None)
    # 从Graphviz格式的数据中创建一个图形对象
    graph = pydotplus.graph_from_dot_data(dot_data)
    # 将图形对象保存为PDF文件,文件名为finename
    graph.write_pdf(finename)
  • 这个Python函数 showtree2pdf 的目的是将一个通过Graphviz格式导出的树形结构保存为PDF文件。
  • 函数接受两个参数:trainedTree,表示需要导出的树形结构;finename,表示导出PDF文件的名字。
  • 在函数体中,首先使用 tree.export_graphviz 方法将 trainedTree 导出为Graphviz格式的字符串 dot_data。然后,使用 pydotplus.graph_from_dot_data 方法将 dot_data 转换为一个PyDotPlus图形对象 graph
  • 最后,使用 graph.write_pdf 方法将图形保存为PDF文件,文件名为 finename
  • 这个函数需要三个库:treepydotplusnetworkx。其中 treenetworkx 是用于创建和处理树形结构的库,而 pydotplus 是用于处理Graphviz格式的库。
4. 定义函数用于生成向量化数据

定义一个 data2vector 函数,其作用是将非数值型的特征转换分类编码,以便在机器学习模型中使用。这个函数在数据预处理阶段非常有用,可以帮助我们处理非数值型数据,并为后续的分析和建模提供更便利的数据形式。

def data2vector(data):
    # 获取数据中除最后一列之外的所有列名
    names = data.columns[:-1]
    # 遍历每一列
    for i in names:
        # 将当前列转换为分类数据类型
        col = pd.Categorical(data[i])
        # 将当前列的分类编码替换为原始值
        data[i] = col.codes
    # 返回处理后的数据
    return data
  • col = pd.Categorical(data[i])表示将当前所遍历的列转换为分类数据类型。pd.Categorical 函数将每个唯一的类别分配一个整数编码,比如编码可以为0、1、2等等。
  • 接着使用代码data[i] = col.codes将当前所遍历的列的分类编码覆盖掉原本的初始值,完成替换操作。
  • 函数中,通过pd.Categorical(list).codes可以得到原始数据对应的序号列表,从而将类别信息转化成数值信息

为了便于理解,补充说明例子如下:

import pandas as pd
data = pd.DataFrame({
    'A': ['apple', 'banana', 'apple', 'orange'],
    'B': ['red', 'green', 'red', 'yellow'],
    'C': [10, 20, 30, 40],
    'Label': ['positive', 'negative', 'positive', 'positive']
})
print("原始数据:")
print(data)
transformed_data = data2vector(data)
print("转换后的数据:")
print(transformed_data)

输出结果为:

原始数据:
        A       B   C     Label
0   apple     red  10  positive
1  banana   green  20  negative
2   apple     red  30  positive
3  orange  yellow  40  positive
转换后的数据:
   A  B  C     Label
0  0  1  0  positive
1  1  0  1  negative
2  0  1  2  positive
3  2  2  3  positive

其中 ‘apple’ 对应编码 0,‘banana’ 对应编码 1,‘orange’ 对应编码 2,执行完后,可以发现已经将A、B、C列都已经进行了编码,将非数值型的特征转换为了分类编码。pd.Categorical 函数和 col.codes 是 pandas 库中常用的函数。

这种非数值型数据到分类编码的转换有几个优点:

  • 保留类别关系:分类编码将不同类别之间的顺序关系保留下来。例如,在某些情况下,类别 ‘apple’ 编码为 0,类别 ‘banana’ 编码为 1,这样的编码反映了它们在原始数据中的相对顺序。
  • 适应机器学习算法:大多数机器学习算法和统计模型只能处理数值型数据。通过将非数值型数据转换为分类编码,我们可以在这些算法中使用这些特征,而无需进一步处理。
  • 节省内存:分类数据类型在内存中占用的空间通常比字符串或对象类型要少。这在处理大型数据集时尤为重要,可以降低内存占用和提高计算效率。

需要注意的是,分类编码并不适用于所有情况。在某些情况下,我们可能需要使用其他编码方式,例如独热编码(One-Hot Encoding)或特征哈希(Feature Hashing),以满足特定的数据需求。

5. 调用函数进行预测
data = pd.read_table("tennis.txt",header=None,sep='\t') #读取训练数据
trainingvec=data2vector(data) #向量化数据
decisionTree=createTree(trainingvec) #创建决策树
showtree2pdf(decisionTree,"tennis.pdf")  #图示决策树

说明:如果没有tennis.txt文件,可以观注公中号私发tennis.txt自动获取。

执行后,可能会报错:

InvocationException: GraphViz's executables not found

首先,先安装graphviz库,命令如下:

!pip install graphviz

然后,直接在网址:https://graphviz.org/download/中下载软件,我下载的版本是2.50.0版本:
在这里插入图片描述
下载后,需要安装,我直接安装在Anaconda安装目录的Library\bin目录下即可,比如我的地址为:D:\SmallTools\Anaconda3\Library\bin,因为我的Anaconda已经配置了环境变量了,所以无需再单独配置环境变量(安装时,也有是否配置环境变量选项,也可以选中它),选择则不需要单独配置环境变量路径,否则需要将Graphviz\bin路径配置到环境变量里。当然也可以在代码中配置,即在notebook中加入以下代码:

import os
os.environ["PATH"] += os.pathsep + "D:/SmallTools/Anaconda3/Library/bin/graphviz/bin/"

参考教程如下:https://blog.csdn.net/weixin_36407399/article/details/87890230

如果没有问题,重新执行代码,此时会在本地生成决策树图,名称为“tennis.pdf”:
在这里插入图片描述

可以看到里面的内容就是决策树的可视化呈现。字段分别为:天气、气温、湿度、风、类别,其中X[2]就表示第3个特征变量:湿度,X[0]则表示第1个特征变量:天气,X[3]则表示第4个特征变量:风力;entropy则表示该节点的熵值;samples则表示该节点中的样本数,比如说第一个节点,也即根节点中的14就是训练集中的样本数量;value则表示不同种类所占的个数,比如说根节点中value左边的5表示“否”的数量,9则表示“是”的数量。

6. 预测新样本

输入:

testVec = [0,0,1,1] # 天气晴、气温冷、湿度高、风力强
print(decisionTree.predict(np.array(testVec).reshape(1,-1))) #预测

输出:
['否']

由此可以知道,天气晴、气温冷、湿度高、风力强,预测不会出来打网球。

0xFF 总结

  1. 这是决策树预测的典型例子,变种还有很多,但大体相似,本例子的亮点是绘制了决策树图,更加直观。
  2. 请继续关注我,我将更新更多使用教程。

邵奈一 原创不易,如转载请标明出处,教育是一生的事业。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/146779.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何解决网页中的pdf文件无法下载?pdf打印显示空白怎么办?

问题描述 偶然间,遇到这样一个问题,一个网页上的附件pdf想要下载打印下来,奈何尝试多种办法都不能将其下载下载,点击打印出现的也是一片空白 百度搜索了一些解决方案都不太行,主要解决方案如:https://zh…

【万字长文】Python 日志记录器logging 百科全书 之 日志过滤

Python 日志记录器logging 百科全书 之 日志过滤 前言 在Python的logging模块中,日志过滤器(Filter)用于提供更细粒度的日志控制。通过过滤器,我们可以决定哪些日志记录应该被输出,哪些应该被忽略。这对于复杂的应用…

【每日一题】—— D. Epic Transformation(Codeforces Round 710 (Div. 3))(找规律+贪心)

🌏博客主页:PH_modest的博客主页 🚩当前专栏:每日一题 💌其他专栏: 🔴 每日反刍 🟡 C跬步积累 🟢 C语言跬步积累 🌈座右铭:广积粮,缓称…

vue离线地图(瓦片)

最近公司要弄一个这样的离线地图,要求在图上打点画线之类的。折腾了几天,学习了三种方式: 1.拿到各省市区的经纬度json,通过echarts来制作,再套一个卫星图的地图背景 2.下载地图瓦片,再通过百度/高德的离线…

image J 对Western blot 条带进行灰度分析 量化分析

用ImageJ对条带进行定量分析 | Public Library of Bioinformatics (plob.org) 3分钟Get!大牛教你用 image J 对Western blot 条带进行灰度分析! - 哔哩哔哩 (bilibili.com) 科研人员做的western blot实验一般需要对其结果扫描后进行灰度分析&#xff0…

【Qt之QWizard】使用2,示例分析

效果图 根据首页的选择不同&#xff0c;进入不同的选项。 以下是代码。 示例 .h #ifndef LICENSEWIZARD_H #define LICENSEWIZARD_H#include <QWizard>QT_BEGIN_NAMESPACE class QCheckBox; class QLabel; class QLineEdit; class QRadioButton; QT_END_NAMESPACEcla…

vue请求代理查看真实地址

查看真实地址方式&#xff1a; 通过配置vue.config.js文件&#xff0c;直接在请求头输出完整地址&#xff1a; /api/: { changeOrigin: true, target: process.env.VUE_APP_PLATFORM_URL, logLevel: debug, // 在终端输出 onProxyRes(proxyR…

请求头,响应头

目录 常见的请求方式 GET/POST HEAD&#xff08;报文首部&#xff0c;验证URI有效性&#xff09; PUT/DELETE(报文文件) OPTIONS&#xff08;查询URI支持的HTTP方法&#xff09; Connection: keep-alive TCP 就会一直保持连接。 Cache-Control public&#xff1a;响应…

数据银行:安全保障的重要一环

随着信息技术的快速发展&#xff0c;数据银行已经成为了我们日常生活中不可或缺的一部分。它存储了我们的个人信息、财务数据、医疗记录等重要信息&#xff0c;这些信息对于我们的生活和工作至关重要。然而&#xff0c;由于数据的安全性备受关注&#xff0c;因此&#xff0c;对…

【星海出品】SDN neutron (四) 流分析

Neutron框架之流分析 1.控制端neutron-server通过wsgi接收北向REST API请求&#xff0c;neutron-plugin通过rpc与设备端进行南向通信。 2.设备端agent则向上通过rpc与控制端进行通信&#xff0c;向下则直接在本地对网络设备进行配置。 3.Neutron-agent的实现很多&#xff0c;彼…

容斥dp,二项式反演

前言 由于水平有限&#xff0c;这篇文章比较难懂&#xff0c;并且也有很多不够透彻的地方&#xff0c;如果您有任何的看法&#xff0c;非常感谢您私信指导。 容斥dp 用dp的方法来描述容斥&#xff0c;大概的想法是&#xff0c;把容斥系数分到每一步里去乘。 通常当你有容斥…

本田发布全新CB1000 Hornet,是杜卡迪街霸劈了腿还是Z1000红杏出墙?

米兰车展上&#xff0c;本田带来了全新的大黄蜂CB1000 Hornet&#xff0c;外观方面抛弃了之前的本田推出的Neo Sports Caf风格&#xff0c;新款的外观看起来要更加战斗一点。不过新的这个前脸改的&#xff0c;我只能说是杜卡迪街霸劈了腿还是Z1000红杏出墙&#xff1f;外观方面…

【Python】Numpy(学习笔记)

一、Numpy概述 1、Numpy Numpy&#xff08;Numerical Python&#xff09;是一个开源的Python科学计算库&#xff0c;用于快速处理任意维度的数组。 Numpy使用ndarray对象来处理多维数组&#xff0c;该对象是一个快速而灵活的大数据容器&#xff0c; Numpy num - numerical 数…

Kohana框架的安装及部署

Kohana框架的安装及部署 tipsKohana安装以及部署1、重要文件作用说明1.1 /index.php1.2 /application/bootstrap.php 2、项目结构3、路由配置3.1、隐藏项目入口的路由3.2、配置默认路由3.3、配置自定义的路由(Controller目录下的控制器)3.4、配置自定义的路由(Controller/direc…

JS操作canvas

<canvas>元素本身并不可见&#xff0c;它只是创建了一个绘图表面并向客户端js暴露了强大的绘图API。 1 <canvas> 与图形 为优化图片质量&#xff0c;不要在HTML中使用width和height属性设置画布的屏幕大小。而要使用CSS的样式属性width和height来设置画布在屏幕…

父组件用ref获取子组件数据

子组件 Son/index.vue 子组件的数据和方法一定要记得用defineExpose暴露&#xff0c;不然父组件用ref是获取不到的&#xff01;&#xff01;&#xff01; <script setup> import { ref } from "vue"; const sonNum ref(1); const changeSon () > {sonNum.…

DAY54 392.判断子序列 + 115.不同的子序列

392.判断子序列 题目要求&#xff1a;给定字符串 s 和 t &#xff0c;判断 s 是否为 t 的子序列。 字符串的一个子序列是原始字符串删除一些&#xff08;也可以不删除&#xff09;字符而不改变剩余字符相对位置形成的新字符串。&#xff08;例如&#xff0c;"ace"是…

探秘Vue组件间通信:详解各种方式助你实现目标轻松搞定!

&#x1f3ac; 江城开朗的豌豆&#xff1a;个人主页 &#x1f525; 个人专栏 :《 VUE 》 《 javaScript 》 &#x1f4dd; 个人网站 :《 江城开朗的豌豆&#x1fadb; 》 ⛺️ 生活的理想&#xff0c;就是为了理想的生活 ! ​ 目录 ⭐ 专栏简介 &#x1f4d8; 文章引言 一…

threejs(13)-着色器设置点材质

着色器材质内置变量 three.js着色器的内置变量&#xff0c;分别是 gl_PointSize&#xff1a;在点渲染模式中&#xff0c;控制方形点区域渲染像素大小&#xff08;注意这里是像素大小&#xff0c;而不是three.js单位&#xff0c;因此在移动相机是&#xff0c;所看到该点在屏幕…

基于单片机的电源切换控制器设计(论文+源码)

1.系统设计 在基于单片机的电源切换控制器设计中&#xff0c;系统功能设计如下&#xff1a; &#xff08;1&#xff09;实现电源的电压检测&#xff1b; &#xff08;2&#xff09;如果电压太高&#xff0c;通过蜂鸣器进行报警提示&#xff0c;继电器进行切换&#xff0c;使…