《机器学习》集成学习之随机森林

目录

一、集成学习

1、简介

2、集成学习的代表

3、XGBoost和随机森林的对比

相同点:

不同点:

二、Bagging之随机森林

1、简介

2、随机森林的核心思想

3、随机森林生成步骤

4、随机森林的优点

5、随机森林的缺点

三、随机森林的代码实现

1、API接口

核心参数

 2、代码实现


一、集成学习

1、简介

集成学习是一种通过结合多个基学习器(Base Learners)来构建更强模型的机器学习方法。其核心思想是“三个臭皮匠,顶个诸葛亮”,即通过集成多个弱学习器的预测结果,可以获得比单一模型更好的泛化性能和鲁棒性。集成学习广泛应用于分类、回归和异常检测等任务。

 

2、集成学习的代表

  • bagging方法:典型的是随机森林
  • boosting方法:典型的是Xgboost
  • stacking方法:堆叠模型 

3、XGBoost和随机森林的对比

  • 相同点:
    • 两者都是由多棵树组成,最终的结果都是由多棵树一起决定。
    • 在使用CART树时,两者可以是分类树或者回归树。
  • 不同点:
    • 组成随机森林的树可以并行生成,而XGBoost是串行生成。
    • 随机森林的结果是多数表决表决的,而XGBoost则是多棵树累加之和。
    • 随机森林对异常值不敏感,而XGBoost对异常值比较敏感。
    • 随机森林是减少模型的方差,而XGBoost是减少模型的偏差。
    • 随机森林不需要进行特征归一化,而XGBoost则需要进行特征归一化。
    • XGBoost在训练之前,预先对数据进行了排序,然后保存为blockblock结构,后面的迭代中重复地使用这个结构,大大减小计算量。这个blockblock结构也使得并行成为了可能,在进行节点的分裂时,需要计算每个特征的增益,最终选增益最大的那个特征去做分裂,那么各个特征的增益计算就可以开多线程进行。

二、Bagging之随机森林

1、简介

随机森林是一种基于集成学习的机器学习算法,属于Bagging(Bootstrap Aggregating)方法的一种。它通过构建多个决策树并将它们的结果进行集成,从而提高模型的准确性和鲁棒性。随机森林广泛应用于分类和回归任务,具有较好的泛化能力和抗过拟合特性。 

2、随机森林的核心思想

  • Bagging

    • 随机森林通过对训练数据进行有放回的随机采样(Bootstrap Sampling),生成多个不同的子数据集。

    • 每个子数据集用于训练一个独立的决策树。

  • 随机特征选择

    • 在构建每棵决策树时,随机森林不仅对样本进行随机采样,还对特征进行随机选择。

    • 每次分裂节点时,只从随机选择的特征子集中选择最优特征,而不是从所有特征中选择。

  • 集成学习

    • 训练完成后,随机森林通过投票(分类任务)或平均(回归任务)的方式,将多棵决策树的结果进行集成,得到最终预测结果。

3、随机森林生成步骤

  • 数据采样

    • 从原始训练集中通过Bootstrap Sampling随机抽取n个样本(可能有重复),形成一个子数据集。

    • 重复此过程,生成Di个子数据集。

  • 构建决策树

    • 对每个子数据集,构建一棵决策树。

    • 在每次分裂节点时,从随机选择的特征子集中选择最优特征进行分裂。

  • 集成预测

    • 对于分类任务,采用多数投票法,将每棵树的预测结果进行投票,得票最多的类别为最终预测结果。

    • 对于回归任务,采用平均值法,将所有树的预测结果取平均作为最终预测值。

4、随机森林的优点

  • 抗过拟合

    • 通过Bagging和随机特征选择,随机森林能够有效降低模型的方差,减少过拟合的风险。

  • 高准确性

    • 集成多棵决策树的结果,通常比单棵决策树的预测效果更好。

  • 鲁棒性强

    • 对噪声数据和缺失值不敏感,能够处理高维数据。

  • 可解释性

    • 可以通过特征重要性评估,了解哪些特征对预测结果影响较大。

  • 并行化

    • 每棵树的构建是独立的,可以并行化处理,提高训练效率。

5、随机森林的缺点

  • 训练时间较长

    • 当树的数量较多时,训练时间会显著增加。

  • 内存占用较大

    • 需要存储多棵决策树,内存消耗较大。

  • 不易解释性:

    • 随机森林模型还有许多不好解释的地方,有点算个黑盒模型。

三、随机森林的代码实现

1、API接口

RandomForestClassifier()
核心参数
参数名默认值说明
n_estimators100随机森林中树的数量。树越多,模型越稳定,但计算成本也越高。
criterion'gini'分裂节点的评价标准。可选值:
'gini':基尼不纯度。
'entropy':信息增益。
max_depthNone树的最大深度。如果为 None,则节点会一直扩展,直到所有叶子节点纯净或达到 min_samples_split
min_samples_split2分裂内部节点所需的最小样本数。如果样本数少于该值,则不会继续分裂。
min_samples_leaf1叶子节点所需的最小样本数。如果某次分裂导致叶子节点样本数少于该值,则不会进行分裂。
min_weight_fraction_leaf0.0叶子节点所需的最小权重比例。
max_features'sqrt'每次分裂时考虑的最大特征数。可选值:
'auto' 或 'sqrt':取特征总数的平方根。
'log2':取特征总数的对数。
- 整数:直接指定特征数。
- 浮点数:指定特征总数的百分比。
max_leaf_nodesNone树的最大叶子节点数。如果为 None,则不限制叶子节点数。
min_impurity_decrease0.0如果分裂导致不纯度的减少大于该值,则进行分裂。
bootstrapTrue是否使用 Bootstrap 采样。如果为 False,则使用整个数据集训练每棵树。
n_jobsNone并行运行的作业数。如果为 -1,则使用所有可用的 CPU 核心。
random_stateNone随机种子,用于控制随机性。设置固定值可以使结果可重复。
warm_startFalse如果为 True,则复用上一次调用的结果,继续训练更多的树。
ccp_alpha0.0用于最小化成本复杂度剪枝的复杂度参数。值越大,剪枝越强。
max_samplesNone如果 bootstrap=True,则指定每个基学习器使用的样本数。可以是整数或浮点数(比例)。

 2、代码实现

判断邮件是否是垃圾邮件

import pandas as pd
import matplotlib.pyplot as plt
from pylab import mpl
from sklearn.metrics import confusion_matrix
from sklearn import metrics
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

df = pd.read_csv('../data/spambase.csv')

# 可视化混淆矩阵
def cm_plot(y, yp):
    cm = confusion_matrix(y, yp)  # 计算混淆矩阵
    plt.matshow(cm, cmap=plt.cm.Blues)  # 使用蓝色调绘制混淆矩阵
    plt.colorbar()  # 添加颜色条
    for x in range(len(cm)):
        for y in range(len(cm)):
            # 在每个单元格中标注数值
            plt.annotate(cm[x, y], xy=(x, y), horizontalalignment='center', verticalalignment='center')
    plt.ylabel('True label')  # 设置y轴标签
    plt.xlabel('Predicted label')  # 设置x轴标签
    return plt

# 数据划分
x = df.iloc[:,:-1]
y = df.iloc[:,-1]
xtrain, xtest, ytrain, ytest = train_test_split(x,y,test_size=0.2,random_state=2)
rf = RandomForestClassifier(n_estimators=100,max_features=0.8,random_state=22)
rf.fit(xtrain,ytrain)

# 自测
train_predicted = rf.predict(xtrain)
res = metrics.classification_report(ytrain,train_predicted)
print('自测结果',res)
# 测试集测试
test_predicted = rf.predict(xtest)
res1 = metrics.classification_report(ytest,test_predicted)
print('测试集结果',res1)

# 可视化混淆矩阵
cm_plot(ytrain,train_predicted).show()

# 可视化重要特征
importances = rf.feature_importances_
im = pd.DataFrame(importances,columns=["importances"])
clos = df.columns
clos_1 = clos.values
clos_2 = clos_1.tolist()
clos = clos_2[0:-1]
im['clos'] = clos
im = im.sort_values(by=['importances'],ascending=False)[:10]
mpl.rcParams['font.sans-serif']=['Microsoft YaHei']
mpl.rcParams['axes.unicode_minus']= False

index = range(len(im))
plt.yticks(index,im.clos)
plt.barh(index,im['importances'])
plt.show()

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/950765.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

四、VSCODE 使用GIT插件

VSCODE 使用GIT插件 一下载git插件与git Graph插件二、git插件使用三、文件提交到远程仓库四、git Graph插件 一下载git插件与git Graph插件 二、git插件使用 git插件一般VSCode自带了git,就是左边栏目的图标 在下载git软件后vscode的git插件会自动识别当前项目 …

JS进阶--JS听到了不灭的回响

作用域 作用域(scope)规定了变量能够被访问的“范围”,离开了这个“范围”变量便不能被访问 作用域分为局部和全局 局部作用域 局部作用域分为函数和块 那 什么是块作用域呢? 在 JavaScript 中使用 { } 包裹的代码称为代码块…

《自动驾驶与机器人中的SLAM技术》ch1:自动驾驶

目录 1.1 自动驾驶技术 1.2 自动驾驶中的定位与地图 1.1 自动驾驶技术 1.2 自动驾驶中的定位与地图 L2 在技术实现上会更倾向于实时感知,乃至可以使用感知结果直接构建鸟瞰图(bird eye view, BEV),而 L4 则依赖离线地图。 高精地…

【合作原创】使用Termux搭建可以使用的生产力环境(九)

前言 在上一篇【合作原创】使用Termux搭建可以使用的生产力环境(八)-CSDN博客中我们讲到了如何安装IDEA社区版,并在Termux中安装VNC服务器,在proot-distro的Debian中启动xfce桌面,并通过这个方式解决了IDEA社区版中无…

生成模型:变分自编码器-VAE

1.基本概念 1.1 概率 这里有: x为真实图像,开源为数据集, 编码器将其编码为分布参数 x ^ \hat{x} x^为生成图像, 通过解码器获得 p ( x ) ^ \hat{p(x)} p(x)^​: 观测数据的分布, 即数据集所构成的经验分布 p r e a l ( x ) p_{real}(x) preal​(x): …

中国省级产业结构高级化及合理化数据测算(2000-2023年)

一、数据介绍 数据名称:中国省级产业结构高级化、泰尔指数 数据年份:2000-2023年 数据范围:31个省份 数据来源:中国统计年鉴、国家统计局 数据整理:内含原始版本、线性插值版本、ARIMA填补版本 数据说明&#xf…

高级数据库系统 复习提纲

第一章 数据库技术的回顾与发展 简述三代数据库的发展历史及其对应特点: 新型数据库在“数据模型”上的创新: 简述数据库和什么相关技术结合,产生了什么新型数据库? 1. 数据库和并行处理技术结合,产生“并行数据库”…

C++实现图书管理系统(Qt C++ GUI界面版)

前瞻 本项目基于【C】图书管理系统(完整版) 图书管理系统功能概览: 登录,注册学生,老师借书,查看自己当前借书情况,还书。管理员增加书,查看当前借阅情况,查看当前所有借阅人,图书信息。 效果…

【LeetCode: 560. 和为 K 的子数组 + 前缀和 + 哈希表】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

微信小程序实现登录注册

文章目录 1. 官方文档教程2. 注册实现3. 登录实现4. 关于作者其它项目视频教程介绍 1. 官方文档教程 https://developers.weixin.qq.com/miniprogram/dev/framework/路由跳转的几种方式: https://developers.weixin.qq.com/miniprogram/dev/api/route/wx.switchTab…

嵌入式系统 (2.嵌入式硬件系统基础)

2.嵌入式硬件系统基础 2.1嵌入式硬件系统的组成 嵌入式硬件系统以嵌入式微处理器为核心,主要由嵌入式微处理器、总线、存储器、输入/输出接口和设备组成。 嵌入式微处理器 嵌入式微处理器采用冯诺依曼结构或哈佛结构:前者指令和数据共享同一存储空间…

多模态大模型初探索:通过ollama部署多模态大模型

文章目录 前言模型下载 前言 今天和同事聊天,聊到多模态大模型,感觉可以作为2025年的一个新的探索方向。希望和大家一起学习,一起进步。 今天也是尝试了我能想到的最基本最快速地本地部署多模态大模型的方式,那便是使用ollama。…

【超详细】React SSR 服务端渲染实战

前言 这篇文章和大家一起来聊一聊 React SSR,本文更偏向于实战。你可以从中学到: 从 0 到 1 搭建 React SSR 服务端渲染需要注意什么 react 18 的流式渲染如何使用 文章如有误,欢迎指出,大家一起学习交流~。 &…

js策略模式

定义一组算法,将每个算法封装成一个独立的类,并使它们可以互相替换。策略模式使得算法的变化不会影响到使用算法的客户。 const priceProcessor {pre(originPrice) {if (originPrice > 100) {return originPrice - 20;}return originPrice * 0.9;}…

Python中的可变对象与不可变对象;Python中的六大标准数据类型哪些属于可变对象,哪些属于不可变对象

Python中的可变对象与不可变对象;Python中的六大标准数据类型哪些属于可变对象,哪些属于不可变对象 Python中的可变对象与不可变对象一、Python的六大标准数据类型1. 数字类型 (Number)2. 字符串 (String)3. 列表 (List)4. 元组 (Tuple)5. 集合 (Set)6. …

js状态模式

允许一个对象在其内部状态改变时改变它的行为。 状态模式将对象的状态封装成独立的类,并使它们可以互相转换 // 定义状态接口class State {constructor() {if (this.constructor State) {throw new Error(不能实例化抽象类);}}// 定义状态方法handle(context) {th…

基于64QAM的载波同步和定时同步性能仿真,包括Costas环和gardner环

目录 1.算法仿真效果 2.算法涉及理论知识概要 3.MATLAB核心程序 4.完整算法代码文件获得 1.算法仿真效果 matlab2022a仿真结果如下(完整代码运行后无水印): 仿真操作步骤可参考程序配套的操作视频。 2.算法涉及理论知识概要 载波同步是…

【Web安全】SQL 注入攻击技巧详解:布尔盲注(Boolean-Based Blind SQL Injection)

【Web安全】SQL 注入攻击技巧详解:布尔盲注(Boolean-Based Blind SQL Injection) 引言 布尔盲注(Boolean-Based Blind SQL Injection)是一种在无法直接从数据库获取数据的情况下,通过观察数据库响应的布尔…

太速科技-418-基于AD9361 +ZYNQ7020 的软件无线电 SDR 套件

基于AD9361 ZYNQ7020 的软件无线电 SDR 套件 一、板卡信息 ● ZYNQ芯片采用XC7Z020,逻辑容量更大,支持更大的逻辑设计; ● 内存采用两片512M DDR3,共1GByte,更大容量。 ● 支持千兆网口,支持ZEDFMCO…

SpringBoot日常:集成Kafka

文章目录 1、pom.xml文件2、application.yml3、生产者配置类4、消费者配置类5、消息订阅6、生产者发送消息7、测试发送消息 本章内容主要介绍如何在springboot项目对kafka进行整合,最终能达到的效果就是能够在项目中通过配置相关的kafka配置,就能进行消息…