【机器学习】机器学习的基本分类-监督学习-决策树-ID3 算法

ID3(Iterative Dichotomiser 3)是决策树的一种构造算法,由 Ross Quinlan 在 1986 年提出。它主要用于分类问题,通过信息增益选择特征来构建决策树。ID3 假设数据是离散型特征,且不支持连续型数据。


1. 核心思想

  1. 划分标准

    • 使用 信息增益(Information Gain)作为特征选择的标准。
    • 选择信息增益最大的特征进行分裂。
  2. 递归构造

    • 从根节点开始,每次根据信息增益选择特征,生成子节点。
    • 对每个子节点重复这一过程,直到满足停止条件(例如数据不可再分,或者所有样本类别相同)。

2. 信息增益

信息增益基于**信息熵(Entropy)**的概念:

信息熵的定义

信息熵衡量数据集的不确定性:

H(D) = - \sum_{i=1}^C p_i \log_2(p_i)

  • D:数据集。
  • C:类别数。
  • p_i:数据集中属于第 i 类的概率。
条件熵

划分数据集 D 后的条件熵为:

H(D|A) = \sum_{v \in \text{Values}(A)} \frac{|D_v|}{|D|} H(D_v)

  • A:划分特征。
  • D_v​:特征 A 的值为 v 时的子数据集。
  • |D_v|/|D|:数据划分到 v 类的比例。
信息增益公式

信息增益是划分前后信息熵的减少:

IG(D, A) = H(D) - H(D|A)

  • H(D):划分前的熵。
  • H(D|A):划分后的条件熵。
  • 特征 A 的信息增益越大,说明使用 A 划分后数据集的不确定性降低越多,划分效果越好。

3. ID3 算法步骤

  1. 输入

    • 数据集 D(包含样本和对应的类别标签)。
    • 特征集 A。
  2. 步骤

    1. 计算当前数据集的熵 H(D)。
    2. 对于每个特征 A ∈ A:
      • 计算特征 A 的信息增益 IG(D, A)。
    3. 选择信息增益最大的特征 A^*,作为当前节点的分裂特征。
    4. 根据特征 A^* 的每个取值 v,划分数据集:
      • 如果子数据集 D_v​ 为空,设置叶节点为多数类别。
      • 如果子数据集 D_v​ 非空,递归构造子树。
    5. 当满足停止条件时,停止分裂。
  3. 输出

    • 决策树。

4. 算法特点

优点
  1. 简单易实现:基于熵和信息增益的数学原理,计算相对直观。
  2. 解释性强:生成的决策树规则可以直接解释分类依据。
缺点
  1. 对连续特征无直接支持:需要离散化连续特征。
  2. 易过拟合:树可能过于复杂,适应训练数据的噪声。
  3. 偏好多值特征:特征的可能取值越多,信息增益往往越高,可能导致模型偏向这些特征。

5. 示例

数据示例

假设有以下样本数据:

天气温度湿度风力是否运动
晴天
晴天
阴天
雨天
雨天正常

目标:构造决策树判断是否运动。


计算步骤
  1. 计算根节点的熵 H(D) 数据集中是否运动的比例为:

    • P(是) = 3/5, P(否) = 2/5。
      熵为:
    H(D) = -\frac{3}{5} \log_2 \frac{3}{5} - \frac{2}{5} \log_2 \frac{2}{5} \approx 0.971
  2. 计算每个特征的条件熵 H(D|A) 和信息增益

    • 天气(Weather)

      • H(D|\text{Sunny}) = -1 \log_2(1) = 0
      • 对所有天气取值加权计算条件熵,得到 H(D|\text{Weather})
      • 信息增益 IG(D, \text{Weather}) = H(D) - H(D|\text{Weather})
    • 温度(Temperature)

      • 类似方法计算温度的条件熵和信息增益。
    • 湿度、风力

      • 按相同方法计算。
  3. 选择信息增益最大的特征

    • A^* = \text{Weather},构造根节点。
  4. 递归分裂子数据集

    • 对子数据集重复计算,直到满足停止条件。

 6. 代码实现

Python 示例
from math import log2

# 计算熵
def entropy(labels):
    total = len(labels)
    counts = {}
    for label in labels:
        counts[label] = counts.get(label, 0) + 1
    return -sum((count / total) * log2(count / total) for count in counts.values())

# 计算信息增益
def information_gain(data, labels, feature_index):
    total_entropy = entropy(labels)
    feature_values = [row[feature_index] for row in data]
    unique_values = set(feature_values)
    conditional_entropy = 0
    for value in unique_values:
        subset = [labels[i] for i in range(len(data)) if data[i][feature_index] == value]
        conditional_entropy += (len(subset) / len(data)) * entropy(subset)
    return total_entropy - conditional_entropy

# 示例数据
data = [
    ["晴天", "高", "高", "弱"],
    ["晴天", "高", "高", "强"],
    ["阴天", "高", "高", "弱"],
    ["雨天", "中", "高", "弱"],
    ["雨天", "低", "正常", "弱"]
]
labels = ["否", "否", "是", "是", "是"]

# 特征索引(天气、温度、湿度、风力)
for i in range(4):
    print(f"Feature {i}, Information Gain: {information_gain(data, labels, i):.4f}")

输出结果

Feature 0, Information Gain: 0.9710
Feature 1, Information Gain: 0.4200
Feature 2, Information Gain: 0.1710
Feature 3, Information Gain: 0.3219

7. 扩展

  1. C4.5 算法

    • 使用信息增益比替代信息增益,解决偏好多值特征问题。
    • 支持连续型特征。
  2. CART 算法

    • 支持分类与回归,使用基尼指数或均方误差。

ID3 是决策树的早期版本,适用于简单的分类问题,但由于其限制(如无法处理连续型特征、易过拟合),后续算法(如 C4.5 和 CART)进一步改进了 ID3。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/930349.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

记录:ubuntu 使用chattts的过程。

你知道什么是穷人吗?穷人就是没钱还想学习。 git GitHub - 2noise/ChatTTS: A generative speech model for daily dialogue. 因为所以。cosyvoice,gpt-s . 0.先找一个目录吧。 1.命令行模式 duyichengduyicheng-computer:~/gitee$ git clone https:…

LabVIEW氢同位素单质气体定量分装系统

氢同位素单质气体在多个行业中有重要应用,如能源和化工。传统的分装方法面临精度和自动化程度不足的问题。为此,开发了一套基于LabVIEW和质量流量控制器的定量分装系统,提高分装精度和效率,同时减少资源浪费和环境污染。 项目背景…

分类预测 | PSO-PNN粒子群优化概率神经网络多特征分类预测

分类预测 | PSO-PNN粒子群优化概率神经网络多特征分类预测 目录 分类预测 | PSO-PNN粒子群优化概率神经网络多特征分类预测分类效果基本描述程序设计参考资料 分类效果 基本描述 1.Matlab实现PSO-PNN粒子群优化概率神经网络多特征分类预测,运行环境Matlab2018b及以…

鸿蒙开发-Divider 组件

在 ArkTS 中,Divider组件是用于在界面上显示分割线的组件,以下是其详细介绍: 基本功能 Divider组件主要用于将页面中的不同部分进行视觉上的分隔,使页面布局更加清晰和有条理,增强用户界面的可读性和美观性。 常用属…

SpringBoot实战——个人博客项目

目录 一、项目简介 ?二、项目整体架构 数据库模块 后端模块 前端模块 ?三、项目具体展示 ?四、项目的具体实现 1、一些准备工作 ??数据库、数据表的创建 ??设置数据库和MyBatis的配置 ??将前端项目引入到当前项目中 2、登录注册模块 ??实体类的创建 ?…

利用sda剩余空间,扩容(lvm)

r如果余空间没有使用,直接扩容 pvdisplay vgdisplay pvresize /dev/sda3 扩展逻辑卷的大小: lvextend -l 100%FREE /dev/mapper/openeuler-root 对于ext4文件系统: resize2fs /dev/mapper/vg_openeuler-openeuler--root 对于xfs文件系…

【Golang】Go语言编程思想(一):接口

接口 接口的概念 现在我们要实现一个函数,用于对给定的 url 进行解析,具体的代码实现如下: package mainimport ("fmt""io""net/http" )func retrieve(url string) string {resp, err : http.Get(url)if er…

智能文档解析综述:结构化信息提取的技术、挑战与前景

综述论文:https://arxiv.org/abs/2410.21169 摘要 文档解析对于将非结构化和半结构化文档(如合同、学术论文和发票)转换为结构化、机器可读的数据至关重要。通过从非结构化输入中提取可靠的结构化数据,文档解析为众多应用提供了极…

如何将CSDN博客下载为PDF文件

1.打开CSDN文章内容 2.按键盘上的f12键(或者右键—审查元素)进入浏览器调试模式,点击控制台(Console)进入控制台 3.在控制台输入以下代码,回车 4.在弹出的打印页面中将布局设置成横向,纵向会…

C# GDI绘制的小熊进度条

C# GDI小熊进度条 1、添加自定义控件winform using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Threading.Tasks; using System.Windows.Forms;…

嵌入式入门Day25

数据结构Day 6,IO Day1 查找算法顺序查找折半查找(二分查找)哈希查找 IO概念标准IO创建递归索引(用于查询结构体定义) 文件IO标准IO缓冲区指针相关函数 查找算法 顺序查找 关键字:分为主关键字和次关键字主关键字&am…

操作系统——虚拟内存管理

笔记内容及图片整理自XJTUSE “操作系统” 课程ppt,仅供学习交流使用,谢谢。 背景 进程必须全部放入物理内存后方可运行,这个规则将程序大小限制为物理内存大小。许多情况下并不需要将整个程序置于内存中,比如程序几乎从不执行但…

Java 在Json对象字符串中查找和提取特定的数据

1、在处理JSON数据时,需要提出个别字段的值,通过正则表达式提取特定的数据 public static void main(String[] args) {//定义多个JSON对象字符串类型,假设每个对象有a,b,c 字段String strJson "{\"a\":1.23,\"b\"…

进度与预算

一个项目,如果进度上可以按时完成,一般来说预算不会超标,或者超标幅度有限。 一个项目,如果进度上严重超期,预算基本上会超标,而且超标很大。 现在很多项目,人力成本占比都比较大&#xff0c…

Ungoogled Chromium127编译指南 Windows篇 - 安装Visual Studio 2022(六)

1. 引言 在编译Ungoogled Chromium之前,正确安装和配置Visual Studio 2022是至关重要的一步。作为主要的开发环境,Visual Studio不仅提供了必要的编译工具,还包含了大量构建过程中需要的组件和库。本文将详细介绍如何在Windows系统上安装和配…

电子商务人工智能指南 3/6 - 聊天机器人和客户服务

介绍 81% 的零售业高管表示, AI 至少在其组织中发挥了中等至完全的作用。然而,78% 的受访零售业高管表示,很难跟上不断发展的 AI 格局。 近年来,电子商务团队加快了适应新客户偏好和创造卓越数字购物体验的需求。采用 AI 不再是一…

精确的单向延迟测量:使用普通硬件和软件

论文标题:Precise One-way Delay Measurement with Common Hardware and Software(精确的单向延迟测量:使用普通硬件和软件) 作者信息:Maciej Muehleisen 和 Mazen Abdel Latif,来自Ericsson Research Eri…

字符串的特征

底层是char类型的数组 char[] replace():替换 split():切分 indexOf():第一个字符所在位置,从0开始算 substring(3, 6):字符串截取,包括3不包括6 字符串不可变 本质上是数组,数组是固定值…

三维扫描检测在汽车制造中的应用

三维扫描,通过先进三维扫描技术获取产品和物体的形面三维数据,建立实物的三维图档,满足各种实物3D模型数据获取、三维数字化展示、3D多媒体开发、三维数字化存档、逆向设计、产品开发、直接3D打印制造或辅助加工制造等一系列的应用。 三维扫描…

【已解决】黑马点评项目中启动Spring Boot服务失败,com.sun.tools.javac.tree.JCTree qualid

黑马点评项目中启动Spring Boot服务失败 报错提示 java: java.lang.NoSuchFieldError: Class com.sun.tools.javac.tree.JCTree$JCImport does not have member field com.sun.tools.javac.tree.JCTree qualid这是因为 lombok 版本不兼容造成的 找到 pom.xml 文件&#xff0…