【机器学习】机器学习的基本分类-监督学习-随机森林(Random Forest)

随机森林是一种基于集成学习(Ensemble Learning)思想的算法,由多个决策树构成。它通过结合多棵决策树的预测结果来提升模型的泛化能力和准确性,同时减少过拟合的风险。


1. 随机森林的核心思想

  1. 多样性
    • 随机森林通过引入随机性,使每棵树有所不同,从而避免单一模型的过拟合问题。
  2. 集成决策
    • 对于分类问题,随机森林通过多数投票法确定最终类别。
    • 对于回归问题,随机森林通过平均法预测最终结果。

随机森林的“随机性”体现在两个方面:

  • 数据随机性(Bagging 方法):
    • 每棵树训练时使用一个由原始训练集通过**自助采样法(Bootstrap Sampling)**生成的样本子集。
    • 每个样本子集中可能包含重复的数据,也可能遗漏一些数据(袋外样本,Out-Of-Bag)。
  • 特征随机性
    • 每次节点分裂时,随机选择特征的子集作为候选,进一步增加模型的多样性。

2. 随机森林的构建过程

(1) 构建步骤
  1. 输入
    • 数据集 D。
    • 树的数量 T。
    • 每次分裂时的随机特征数量 m。
  2. 训练过程
    • 第 1 步:为每棵树随机采样一个样本子集(Bootstrap)。
    • 第 2 步:从所有特征中随机选择 m 个候选特征。
    • 第 3 步:使用候选特征按 CART 算法构造一棵决策树。
    • 第 4 步:重复以上步骤 T 次,构建 T 棵树。
  3. 预测
    • 分类问题:采用多数投票。
    • 回归问题:取均值。

(2) 特征子集数量选择
  • 对于分类问题,推荐选择 m = \sqrt{M}​,其中 M 是特征总数。
  • 对于回归问题,推荐选择 m = M/3

3. 随机森林的袋外估计(OOB)

随机森林中的每棵树仅使用部分训练数据,而剩余的数据称为袋外样本(Out-of-Bag Samples)。袋外样本可以用来:

  1. 估计模型性能:袋外样本作为验证集评估模型的预测准确性。
  2. 避免独立验证集:节约数据资源。

袋外误差(OOB Error):

OOB \ Error = \frac{1}{N} \sum_{i=1}^{N} L(y_i, \hat{y}_i)

其中:

  • N:总样本数。
  • L:损失函数(如分类错误率)。

4. 随机森林的优缺点

优点
  1. 高精度:通过集成学习减少单一决策树的误差。
  2. 抗过拟合:引入随机性和平均化策略,有效避免过拟合。
  3. 特征重要性评估:能够评估每个特征对模型的重要性。
  4. 袋外估计:无需额外划分验证集即可估计模型性能。
  5. 鲁棒性:对异常值和噪声数据不敏感。
缺点
  1. 计算复杂度高:训练过程需要构建大量决策树,计算开销大。
  2. 解释性较差:相比单一决策树,随机森林的结果较难解释。
  3. 内存占用大:需要存储所有决策树,特别是特征数量较多时。

5. 随机森林的应用场景

  1. 分类问题:如图片分类、文本分类、金融欺诈检测。
  2. 回归问题:如房价预测、销量预测。
  3. 特征选择:通过计算特征重要性,筛选关键特征。
  4. 异常检测:分析样本的异常程度。

6. 随机森林的特征重要性

随机森林可以评估每个特征对目标变量的重要性,通过两种方法:

  1. 基于分裂点的累计贡献
    • 计算每个特征作为分裂点时,对目标变量的贡献。
    • 累加所有树上的贡献值。
  2. 基于袋外误差
    • 随机打乱某一特征后,计算袋外误差的变化量。
    • 袋外误差增加越多,说明该特征越重要。

7. 随机森林的代码实现(分类问题)

以下是一个简单的 Python 实现:

from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载数据集
data = load_iris()
X = data.data
y = data.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 创建随机森林模型
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print("分类准确率:", accuracy)

# 特征重要性
importances = model.feature_importances_
for i, importance in enumerate(importances):
    print(f"特征 {data.feature_names[i]} 的重要性: {importance:.4f}")

输出结果

分类准确率: 1.0
特征 sepal length (cm) 的重要性: 0.1041
特征 sepal width (cm) 的重要性: 0.0446
特征 petal length (cm) 的重要性: 0.4173
特征 petal width (cm) 的重要性: 0.4340

8. 随机森林的扩展

(1) ExtraTrees(极端随机森林)
  • 在每个节点分裂时,随机选择特征和分裂阈值(而不是最优阈值)。
  • 增加随机性,降低过拟合。
(2) 随机森林 + 特征选择
  • 使用随机森林评估特征重要性后,筛选最重要的特征进行建模。

9. 随机森林与其他集成学习方法的对比

方法随机森林梯度提升树(GBDT)
模型类型并行训练顺序训练
特征选择随机选取特征每次迭代关注所有特征
参数调节较少(如树数、深度)较多(如学习率、树数)
性能快速,抗过拟合精度高,但较慢

随机森林是一种性能稳定、应用广泛的模型,尤其适合中小规模数据的分类和回归任务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/928927.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

中国矿业大学《2024年868自动控制原理真题》 (完整版)

本文内容,全部选自自动化考研联盟的:《中国矿业大学868自控考研资料》的真题篇。后续会持续更新更多学校,更多年份的真题,记得关注哦~ 目录 2024年真题 Part1:2024年完整版真题 2024年真题

SQL SERVER 2016 AlwaysOn 无域集群+负载均衡搭建与简测

之前和很多群友聊天发现对2016的无域和负载均衡满心期待,毕竟可以简单搭建而且可以不适用第三方负载均衡器,SQL自己可以负载了。windows2016已经可以下载使用了,那么这回终于可以揭开令人憧憬向往的AlwaysOn2016 负载均衡集群的神秘面纱了。 …

生产看板到底在看什么?

说起生产看板,可能很多人脑海里冒出来的画面是:车间里一块挂在墙上的大板子,上面贴满了各式各样的卡片、表格,甚至还有几个闪闪发光的指示灯。但是,无论是精益生产方式代表——丰田,还是当下以“智能制造”…

数据链路层(四)---PPP协议的工作状态

1 PPP链路的初始化 通过前面几章的学习,我们学了了PPP协议帧的格式以及组成,那么对于使用PPP协议的链路是怎么初始化的呢? 当用户拨号上网接入到ISP后,就建立起了一条个人用户到ISP的物理链路。这时,用户向ISP发送一…

第四届全国过程模拟与仿真大会召开,积鼎科技相伴大会6年成长

第四届全国过程模拟与仿真学术会议于2024年11月29日-12月2日在广州圆满召开。积鼎科技,作为自主流体仿真软件研发的领航企业,与大会相伴四年,自首届以来一直积极参与其中,见证了大会从初创到逐渐壮大的全过程。每一次参会&#xf…

【RDMA】RDMA read和write编程实例(verbs API)

WRITE|READ编程(RDMA read and write with IB verbs) (本文讲解的示例代码在:RDMA read and write with IB verbs | The Geek in the Corner) 将 RDMA 与verbs一起使用非常简单:首先注册内存块&#xff0c…

JAVAWeb之CSS学习

前引 CSS,层叠样式表(Cascading Style Sheets),能够对网页中元素位置的排版进行像素级精确控制,支持几乎所有的字体字号样式,拥有网页对象和模型样式编辑的能力,简单来说,美化页面。…

Linux CentOS

​阿里云开源镜像下载链接 https://mirrors.aliyun.com/centos/7/isos/x86_64/ VMware 安装 CentOS7 自定义 下一步 选择稍后安装操作系统 选择 输入 查看物理机CPU内核数量 CtrlShiftEsc 总数不超过物理机内核数量 推荐内存 自选 推荐 推荐 默认 拆分成多个 默认 自定义硬件…

gazebo 仿真阶段性问题汇总三

目录 报错:关节设置为 revolute 缺少 limit 属性解决方法 轮子转向左右相反解决方法 rviz2只显示一次雷达数据,刷新后消失解决方法 修改2D雷达为3D雷达2d 雷达3D 雷达 报错:关节设置为 revolute 缺少 limit 属性 revolute 表示是有限制的旋转…

python学习笔记14 python中的库,常见的内置库(random、hashlib、json、时间、os)

接着上一篇python学习记录的内容,今天我们来看库 内置库:time、random、os、json…第三方库:requests,pandas,numpy…自定义库:xxx.py 导入的方式 import 直接将一个库导入进来 import base.day04.login_demo as t # 导入login_…

微信小程序版小米商城的搭建流程详解!

很多初学微信小程序语法的同学,可能不知道如何布局和搭建一个项目,下面我将讲解初学者如何搭建项目和注意事项。 一、 app.json的配置 {"pages": ["pages/index/index","pages/classification/classification","pag…

PETR:Position Embedding Transformation forMulti-View 3D Object Detection

全文摘要 本文介绍了一种名为“位置嵌入变换(PETR)”的新方法,用于多视角三维物体检测。该方法将三维坐标的位置信息编码为图像特征,并产生具有三维位置感知能力的特征。通过对象查询可以感知这些特征并进行端到端的目标检测。在…

2024前端框架年度总结报告(二):新生qwik+solid和次新生svelte+Astro对比 -各自盯着前端的哪些个痛点 - 前端的区域发展差异

引言 2024年,前端开发依然是技术领域的热点之一。随着 Web 应用的日益复杂,前端框架的更新换代也加速了。尽管 React、Vue 和 Angular 老牌框架年度总结 等“老牌”框架仍然占据着主流市场,但一些新兴的框架在不断挑战这些“巨头”的地位&am…

多模态大语言模型的对比

简介 文章主要对比了包括 VideoLLaMA 2 、CogVLM2-video 、MiniCPM-V等模型 目前主流的多模态视觉问答大模型,大部分采用视觉编码器、大语言模型、图像到文本特征的投影模块 目录 简介1. VideoLLaMA 21.1 网络结构1.2 STC connector具体的架构 2. MiniCPM-V 2.62.…

美畅物联丨智能监控,高效运维:视频汇聚平台在储能领域的实践探索

在当今全球能源格局不断变化的大背景下,对清洁能源的需求正以惊人的速度增长。储能项目作为平衡能源供需、提升能源利用效率的关键环节,其规模和复杂度也在不断攀升。在储能项目的运营管理过程中,安全监控、设备运维以及数据管理等方面面临着…

node.js实现分页,jwt鉴权机制,token,cookie和session的区别

文章目录 1. 分⻚功能2. jwt鉴权机制1.jwt是什么2.jwt的应用3.优缺点 3. cookie,token,session的对比 1. 分⻚功能 为什么要分页 如果数据量很⼤,⽐如⼏万条数据,放在⼀个⻚⾯显⽰的话显然不友好,这时候就需要采⽤分⻚…

消息中间件-Kafka2-3.9.0源码构建

消息中间件-Kafka2-3.9.0源码构建 1、软件环境 JDK Version 1.8Scala Version 2.12.0Kafka-3.9.0 源码包 下载地址:https://downloads.apache.org/kafka/3.9.0/kafka-3.9.0-src.tgzGradle Version > 8.8Apache Zookeeper 3.7.0 2、源码编译 打开源码根目录修改…

修复docker启动失败:Failed to start Docker Application Container Engine

配置了镜像源之后,运行sudo systemctl restart docker.service失败,提示让运行systemctl status docker.service或journalctl -xeu docker.service查看详细信息。 运行后者发现有如下日志: 红色区域是我设置的一个镜像源这个日志的意思就是…

【英特尔IA-32架构软件开发者开发手册第3卷:系统编程指南】2001年版翻译,2-43

文件下载与邀请翻译者 学习英特尔开发手册,最好手里这个手册文件。原版是PDF文件。点击下方链接了解下载方法。 讲解下载英特尔开发手册的文章 翻译英特尔开发手册,会是一件耗时费力的工作。如果有愿意和我一起来做这件事的,那么&#xff…

遗传算法与深度学习实战(26)——编码卷积神经网络架构

遗传算法与深度学习实战(26)——编码卷积神经网络架构 0. 前言1. EvoCNN 原理1.1 工作原理1.2 基因编码 2. 编码卷积神经网络架构小结系列链接 0. 前言 我们已经学习了如何构建卷积神经网络 (Convolutional Neural Network, CNN),在本节中&a…