集成学习 | 集成学习思想:Bagging思想

目录

  • 一. Bagging思想
    • 1. Bagging 算法
    • 2. 随机森林(Random Forest)算法

在正文开始之前,我们先来聊一聊什么是集成学习?
集成学习是一种算法思想:将若干个弱学习器分组之后,产生一个新的学习器

	弱学习器指预测误差在50%以下的学习器,其中弱学习器可以是分类器、回归器
		弱分类器:其分类准确率仅比随机猜测的分类器好一点,因为随机猜测的准确率通常是50%(在二分类问题中)

集成学习的成功在于保证弱分类器的多样性
下面我们来介绍集成学习的三种重要思想:

  • Bagging
  • Boosting
  • Stacking

一. Bagging思想

1. Bagging 算法

Bagging算法又称自举汇聚法

	思想:
		在原始数据集上通过有放回抽样(bootstrap)的方式,重新选择出S个新数据集
		通过训练S个新数据集得到S个分类器/回归器的集成技术
	
	处理操作:
		Bagging算法训练出来的模型:
			在分类问题中,会使用多数投票统计结果
			在回归问题中,会使用求均值统计结果
	
	bagging算法的弱学习器:
		基本的算法模型,如: Linear、Ridge、Lasso、Logistic、Softmax、ID3、C4.5、CART、SVM、KNN均可

注意:

  1. bagging算法抽取出来的S个数据集是不同的,数据集内有重复样本,且重复样本各不相同;即构造了多个学习器&数据的多样性
  2. bagging算法只有数据不同弱学习器相同
  3. bagging算法在抽样时,每个子集的样本数量必须和原始样本数量一致,因此抽取的子集中存在重复数据
  4. bagging算法在模型训练时,允许存在重复数据

在这里插入图片描述

	结合策略一般为:多数投票(分类)/求均值(回归)

2. 随机森林(Random Forest)算法

随机森林算法在Bagging算法的基础上进行修改后的一种算法

	思想:
		1. 在原始样本集(n个样本)上通过有放回抽样(bootstrap)的方式,选出n个样本,共m个数据集
		2. 将抽取出来的子数据集(存在重复数据)进行决策树训练:
				从抽样采集到的所有属性中,随机选择K个属性
				从K个属性中选择出最佳分割属性作为当前节点的划分属性
		按照这种方式来迭代的创建m棵决策树
		3. 这m个决策树形成随机森林,通过投票表决结果决定数据属于那一类
	
	处理操作:
		Random Forest算法在得到m个决策树形成随机森林后,通过投票表决结果/求均值决定最终数据
	
	Random Forest算法的弱学习器:
		一定是决策树

注意:

  1. Random Forest算法抽取出来的m个数据集是不同的,每个数据集中的随机k个属性是不同的,这就导致构建的决策树也不相同;即构造了多个不同的学习器&数据的多样性
  2. Random Forest算法数据不同弱学习器构造不同
  3. Random Forest算法在抽样时,每个子集的样本数量必须和原始样本数量一致,因此抽取的子集中存在重复数据
  4. Random Forest算法在模型训练时,允许存在重复数据
    在这里插入图片描述

感谢阅读🌼
如果喜欢这篇文章,记得点赞👍和转发🔄哦!
有任何想法或问题,欢迎留言交流💬,我们下次见!
本文相关代码存放位置
    【Bagging思想 代码实现

祝愉快🌟!


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/466480.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

快速文字快闪pr模板视频制作素材

Premiere快速文字开场视频模板(pr快闪模板)下载。 项目特点:全高清分辨率,适用于任何字体,包含帮助文件,适用于Premiere Pro 2021及以上版本。 来自:pr模板网,免费下载地址:https://prmuban.com…

JavaScript进阶:js的一些学习笔记-原型

文章目录 js面向对象1. 原型2. constructor属性3. 对象原型4. 原型继承5. 原型链 js面向对象 构造函数 属性和方法 function Person(name,age){this.name name;this.age age;this.play ()>{console.log(玩!);} } const a new Person(1,12),b new Person(2…

深入探讨ChatGPT:技术突破与应用前景

目录 一、ChatGPT究竟是什么? 二、ChatGPT的发展脉络 三、ChatGPT的突出优势 强大的语言生成能力 多场景适应性 多语言处理能力 广泛的应用范围 数据敏感性的重视 四、结语:ChatGPT的未来与挑战 Tips:国内的ChatGPT ⭐ 点击进入Chat…

基于MATLAB的OFDM系统实现

1、内容简介 略 78-可以交流、咨询、答疑 基于MATLAB的OFDM系统实现 2、内容说明 略正交频分复用;16QAM;QPSK;系统仿真;误码率 OFDM(正交频分复用)的基本原理是将高速的数据流通过串并转换分解成若干低…

B140XW01 V8 +OZ9956B PDF

B140XW01 V8 PDF OZ9956B 14B38-COW 18650串联50欧点亮一颗灯珠

结构体成员访问操作符

1.结构体成员的直接访问: 结构体变量.成员名: 2.结构体成员的间接访问: 间接访问应用于指向结构体变量的指针:如下

Linux系统——nload命令

目录 引言 一、nload安装 二、nload命令详解 1.命令使用 2.命令详解 3.命令选项 3.1-u选项 nload -u h 自动变更单位,Bit/s nload -u H 自动变更单位,Byte/s 3.2-m选项 nload -m 不显示流量图 nload -m -H ens33 不显示流量图,以By…

Jenkins流水线将制品发布到Nexus存储库

1、安装jenkins(建议别用docker安装,坑太多) docker run -d -p 8089:8080 -p 10241:50000 -v /var/jenkins_workspace:/var/jenkins_home -v /etc/localtime:/etc/localtime --name my_jenkins --userroot jenkins/jenkins:2.449 坑1 打开x…

Vue3项目部署安装

Vue3ts部署 查看官网安装项目vue3的命令(四个)其中有: yarn create vuelatest 我执行时遇到报错,可能是我yarn版本不是最新 的问题, 改用这个命令去掉latest即可 yarn create vue 新项目先要安装yarn依赖,才能yarn …

数字化转型之于国家:为三驾马车更新马达

随着国民经济和社会发展第十四个五年规划的开启,中国也进入了全面建设社会主义现代化国家的新发 展阶段,未来要在坚持“创新、协调、绿色、开放、共享”的新发展理念下,在质量效益明显提升的基础上实 现经济持续健康发展。持续的发展意味着…

2684. 矩阵中移动的最大次数

说在前面 🎈不知道大家对于算法的学习是一个怎样的心态呢?为了面试还是因为兴趣?不管是出于什么原因,算法学习需要持续保持。 题目描述 给你一个下标从 0 开始、大小为 m x n 的矩阵 grid ,矩阵由若干 正 整数组成。 …

CSS 绝对定位 position:absolute

什么是CSS绝对定位absolute定位? 绝对定位absolute定位是CSS中的一种定位方式,可以将元素精确定位到一个确定的点,这与元素在文档流上的自然位置无关。相比起其他定位方式,绝对定位很灵活性,它可以将元素脱离文档流&am…

一个新名词之CSS高度塌陷

CSS高度塌陷 解决CSS高度塌陷的方法 CSS高度塌陷 CSS高度塌陷是指在网页布局中,父元素没有正确地根据其浮动子元素的高度进行扩展,从而表现为父元素的高度未能包裹住浮动子元素的现象。 通常表现为父元素高度变为0,或者比实际应该表现的高度…

【Android】工厂测试中 局部 字体显示重叠 问题分析与解决(Android14)

继上一篇【Android】工厂模式中 字体大小/显示重叠/显示不完整 相关 问题分析与解决 的分析与解决,可以实现调整所有字符整体的宽高。 但在局部,如果只希望修改局部的某一行字符的样式,且这一行字符没有直接的资源布局控制文件,而…

使用蜂鸟地图完成楼层自定义、房间着色、热力图、添加图片覆盖物、添加dom覆盖物、定位到固定区域的中心点

项目里有用到蜂鸟地图的地方,虽然有跟她们对接,但看他们文档也挺费劲的,要自己慢慢研究好久,有些实在研究不出来让他们帮忙看代码发现一些问题,所以把我发现的需要注意的一些点发上来,希望可以帮助到部分有…

力扣Lc17--- 345.反转字符串中的元音字母(java版)-2024年3月18日

1.题目 2.知识点 注1: indexOf() 是 Java 中 String 类的方法之一,它用于查找指定字符或字符串在字符串中第一次出现的位置。如果找到了该字符或字符串,则返回它在字符串中的索引位置(从0开始),如果没有找…

读《Cheating Depth: Enhancing 3D Surface Anomaly Detection via Depth Simulation》

WCAV2024 摘要&引言 RGB骨干:某些表面异常仅在RGB中实际上仍然是看不见的,因此需要合并三维信息(确实重点在于“合并”,单纯看例子里的深度图片也看不出来异常在哪里,但是和rgb overlay之后就明显一些了&#xf…

2024年pmp的考试时间是什么时候?

2024年 PMP 考试时间已经定了 ,分别是 3 月、6月、8月、11月 ,4月就准备报6月的考试了,有想法的别错过啦~ 一、报考条件 报考条件其实挺简单的,最核心的条件还是满足以下 2 个:1、本科毕业需要满 3 年时间&#xff0c…

网络编程--高并发服务器

这里写目录标题 引入场景 多进程并发服务器二级目录二级目录二级目录 多线程并发服务器二级目录二级目录二级目录 多路IO转接服务器设计思路对比引入 select函数简介参数介绍第一个参数第234参数返回值对于第234参数的应用对于最后一个参数总结 附加操作(附加四个函…

项目试运行报告-word

一、试运行目的 软件项目试运行的主要目的是在实际应用环境中对软件系统进行全面检验,确保其满足设计要求和用户需求,同时发现和解决潜在的问题,为正式投入使用做好准备。通过试运行,我们可以: 验证软件系统的稳定性…