【机器学习】第7章 集成学习(小重点,混之前章节出题但小题)

一、概念

1.集成学习,顾名思义,不是一个玩意,而是一堆玩意混合到一块。

(1)基本思想是先 生成一定数量基学习器,再采用集成策略 将这堆基学习器的预测结果组合起来,从而形成最终结论。

(2)一般而言,基学习器可以是同质的“弱学习器”,也可以是异质的“弱学习器”。 (3)目前,同质基学习器应用最广泛,其使用最多的模型是CART决策树和神经网络。

2.生成基学习器

同质个体学习器按照个体学习器之间是否存在依赖关系又可以分为两类:

(1)存在着强依赖关系,串行生成个体学习器。

原理是利用依赖关系,对之前训练中错误标记的样本赋以较高的权重值,以提高整体的预测效果。

代表算法是Boosting算法。

(2)不存在强依赖关系,并行生成这些个体学习器。

并行的原理是利用基学习器之间的独立性,通过平均可以显著降低错误率。

代表算法是Bagging和随机森林(Random Forest)算法。

3.集成策略

根据集成学习的用途不同,结论合成的方法也各不相同。

(1)通常是由各个体学习器的输出投票产生。

通常采用绝对多数投票法或相对多数投票法。

(2)当用于回归估计时,一般由各学习器的输出通过 简单平均或加权平均产生。

4.Bagging

(1)思路是从原始样本集合中采样,得到若干个大小相同的样本集,然后在每个样本集合上分别训练一个模型,最后用投票法进行预测。

(2)采样方式:用于训练的每个模型的样本集合Dt是从D中有放回采样得到的

(3)训练得到的模型可用于分类也可用于回归:

    分类:投票法

    回归:加权平均法

5.随机森林

说白了就是建了一堆简单版的决策树,然后放一块变成森林模拟器,这个健壮性一下就上来了。

(1)抽样产生每棵决策树的训练数据集。

随机森林从原始训练数据集中产生n个训练子集(假设要随机生成n棵决策树)。

训练子集中的样本存在一定的重复,主要是为了在训练模型时,每一棵树的输入样本都不是全部的样本,使森林中的决策树不至于产生局部最优解。

(2)构建n棵决策树(基学习器)。

每棵决策树不需要剪枝处理。由于随机森林在进行结点分裂时,随机地选择m个特征参与比较,而不是像决策树将所有特征都参与特征指标的计算。这样减少了决策树之间的相关性,提升了决策树的分类精度,从而达到结点的随机性。

(3)生成随机森林。使用第(2)步n棵决策树对测试样本进行分类,随机森林将每棵子树的结果汇总,以少数服从多数的原则决定该样本的类别。

    

6. Boosting

(1)是一种可将弱学习器提升为强学习器的算法。

这种算法先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整使得先前基学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布来训练下一个基学习器。

(2)如此重复进行,直至基学习器数目达到事先指定的值T,最终将这T个基学习器进行加权结合。

(3)分好几种,如AdaBoost,GradientBoosting,LogitBoost等,其中最著名的代表是AdaBoost算法。Boosting中的个体分类器可以是不同类的分类器。

7.偏差与方差(重点)

(1)偏差bias

偏差是指预测结果与真实值之间的差异,排除噪声的影响,偏差更多的是针对某个模型输出的样本误差

偏差是模型无法准确表达数据关系导致,比如模型过于简单,非线性的数据关系采用线性模型建模,偏差较大的模型是错的模型

(2)方差variance

模型方差不是针对某一个模型输出样本进行判定,而是指多个(次)模型输出的结果之间的离散差异(注意这里写的是多个(次)模型,即 不同模型 或 同一模型不同时间 的输出结果方差较大)。

方差是由训练集的数据不够导致

一方面量 (数据量) 不够,有限的数据集过度训练导致模型复杂,另一方面质(样本质量)不行,测试集中的数据分布未在训练集中,导致每次抽样训练模型时,每次模型参数不同,导致无法准确的预测出正确结果。

(3)偏差决定中心点(期望输出与真实标记的差别),方差决定分布(使用样本数相同的不同训练集产生的方差):

(4)泛化误差可以分解为偏差(Biase)、方差(Variance)和噪声(Noise)

8.如何解决偏差、方差问题

首先,要知道偏差和方差是无法完全避免的,只能尽量减少其影响。

(1)偏差:实际上也可以称为避免欠拟合

             1.寻找更好的特征 -- 具有代表性。

             2.更多的特征 -- 增大输入向量的维度,增加模型复杂度。

(2)方差:实际上也可以称为避免过拟合

             1.增大数据集合 -- 使用更多的数据,减少数据扰动所造成的影响

             2.减少数据特征 -- 减少数据维度,减少模型复杂度

             3.正则化方法

             4.交叉验证法

二、习题

单选题

11. 集成学习的主要思想是(B)。

A、将多源数据进行融合学习  

B、将多个机器学习模型组合起来解决问题  

C、将多个数据集合集成在一起进行训练  

D、通过聚类算法使数据集分为多个簇  

12. 下列不是Bagging算法特点的是(D)。

A、各基分类器不存在强依赖关系,并行生成基分类器  

B、各基分类器权重相同,训练出来的每个模型独立同分布  

C、通过有放回采样获取每个模型的样本集合  

D、只需要较少的基分类器  

Bagging算法通常会生成多个基分类器,而不是较少的。增加基分类器的数量可以提高整体模型的泛化能力和稳定性。

13. 下列关于随机森林的说法错误的是(B)。

A、易于实现、易于并行。  

B、基本单元是决策树,将所有特征都参与特征指标的计算。  

C、通过集成学习的思想将多棵树集成的一种算法。  

D、在引入样本扰动的基础上,又引入了属性扰动。  

在随机森林中,并不是所有特征都会参与到每棵树的建立中。随机森林在每棵树的建立过程中会随机选择一部分特征进行训练,这个过程被称为特征子集采样。

14. 下列哪个集成学习器的个体学习器存在强依赖关系(A

A、Boosting  

B、Bagging  

C、EM  

D、Random Forest  

15. 下列哪个不是Boosting 的特点(D

A、基分类器彼此关联  

B、串行训练算法  

C、通过不断减小分类器的训练偏差将弱学习器提升为强学习器  

D、Boosting中的基分类器只能是不同类的分类器  

16. 模型的方差(B),说明模型在不同采样分布下,泛化能力大致相当;

模型的偏差(),说明模型对样本的预测越准,模型的拟合性越好。

A、越小    越大  

B、越小    越小  

C、越大    越小  

D、越大    越大  

17. 在集成学习两大类策略中,boosting和bagging如何影响模型的偏差(bias)和方差(variance)( C  )。

A、boosting和bagging均使得方差减小  

B、boosting和bagging均使得偏差减小  

C、boosting使得偏差减小,bagging使得方差减小  

D、boosting使得方差减小,bagging使得偏差减小  

boosting是打一个样本集不断优化的战斗对应偏差是样本偏差,bagging是玩一堆方法去养蛊对应方差针对“多”这个特点。

判断题

14. 低方差的优化结果比高方差的优化结果更集中( P

15. 模型的方差和偏差之和越大,模型性能的误差越小,泛化能力越强(Í )

不论是偏差还是方差都是越小越好

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/722327.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C# 利用XejeN框架源码,编写一个在 Winform 界面上的语法高亮的编辑器,使用 Monaco 编辑器

析锦基于Monaco技术实现的Winform语法高亮编辑器 winform中,我们有时需要高亮显示基于某种语言的语法编辑器。 目前比较强大且UI现代化的,无疑是宇宙最强IDE的兄弟:VS Code。 类似 VS Code 的体验,可以考虑使用 Monaco Editor&a…

【机器学习】第6章 支持向量机(SVM)

一、概念 1.支持向量机(support vector machine,SVM): (1)基于统计学理论的监督学习方法,但不属于生成式模型,而是判别式模型。 (2)支持向量机在各个领域内的…

【系统架构设计师】三、数据库系统(事务并发|封锁协议|数据库安全|商业智能|SQL语句)

目录 一、事务并发 1.1 事务概述 1.2 并发控制 1.3 封锁 1.3.1 X 封锁和 S 封锁 1.3.2 三级封锁协议 二、数据库安全 2.1 备份(转储)与恢复 2.2 备份分类 2.3 数据库故障 三、商业智能 3.1 数据仓库 3.2 数据仓库的结构-OLAP 3.3 数据挖掘 3.4 分布式数据库 四…

DS1302实时时钟芯片完整使用介绍(配合51单片机)

DS1302是一款由美国DALLAS Semiconductor公司(现已被Maxim Integrated公司收购)设计的高性能、低功耗的实时时钟集成电路。这款芯片因其简单易用的接口和丰富的功能,在嵌入式系统、消费电子、工业控制等多个领域得到广泛应用。 原理图 寄存器…

Vscode中的行尾序列CRLF/LF不兼容问题

最近开发的的时候,打开项目文件经常会出现爆红错误提示信息,显示如下图: 这东西太烦人了,毕竟谁都不希望在遍地都是爆红的代码里写东西,就像能解决这个问题,根据提示可以知道这是vscode中使用的prettier插件…

QT基础 - 布局管理器间隔控件

目录 一. QVBoxLayout 二. QHBoxLayout 三. QGridLayout 四. QFormLayout 五. Spacers 六.总结 一. QVBoxLayout QVBoxLayout 主要用于将控件在垂直方向上进行排列。 它具有以下特点: 可以方便地管理和组织控件,使其按照垂直顺序依次排列。能够自动…

数据治理平台报Invalid CORS request

文章目录 背景一、步骤1.修改治理conf配置文件 背景 问题描述:俩个域名(都能进入同一个平台)其中一个正常使用,另外一个无法进入 报错截图: *备注:本文主要从配置文件入手解决。 一、步骤 1.修改治理co…

无需付费,没有广告,驱动人生海外版本DriverTalent_Pro_v8.0.0.2单文件

如果你是一位电脑爱好者,你一定知道驱动程序的重要性。驱动程序是连接电脑硬件和操作系统的桥梁,它们可以让你的电脑运行更流畅,更稳定,更高效。但是,驱动程序也会随着时间的推移而过时,或者与新的系统不兼…

HTTP/3 协议学习

前一篇: HTTP/2 协议学习-CSDN博客 HTTP/3 协议介绍 HTTP/3 是互联网上用于传输超文本的协议 HTTP 的第三个主要版本。它是 HTTP/2 的后继者,旨在进一步提高网络性能和安全性。HTTP/3 与前两个版本的主要区别在于它使用了一个完全不同的底层传输协议—…

【linux】TCP交流状态变迁及一些函数调用

代码 登录 - Gitee.comhttps://gitee.com/r77683962/linux-6.9.0/commit/50bb00d844b9423c9bacf44d9b06604fab941686 https://gitee.com/r77683962/linux-6.9.0/raw/50bb00d844b9423c9bacf44d9b06604fab941686/dmesg_log/kern_tcp_with_state.log 从打印的日志,…

UE4中性能优化和检测工具

UE4中性能优化和检测工具合集 简述CPUUnreal InsightUnreal ProfilerSimpleperfAndroid StudioPerfettoXCode TimeprofilerBest Practice GPUAdreno GPUMali GPUAndroid GPU Inspector (AGI) 内存堆内存分析Android StudioLoliProfilerUE5 Memory InsightsUnity Mono 内存Memre…

QT基础 - 窗口弹窗

目录 零. 窗口简介 一. 普通窗口 二. 无边框窗口 三. 顶层窗口 四. 模态对话框 五. 非模态对话框 六. 消息对话框 七. 文件对话框 八. 颜色对话框 九. 进度对话框 十. 总结 零. 窗口简介 在 Qt中,普通窗口是指程序的整体界面,可以包含标题栏、…

低市值Pow赛道解析,探寻百倍潜力项目

随着铭文的火爆出圈,比特币减半的到来,关于Pow赛道的讨论也在变得火热,不少投资机构都将Pow赛道作为2024年分析的重点。Pow赛道又来已久,不少项目的市值都超过10亿美元,而对于大多数投资者来说,低市值高回报…

深度理解微信小程序技术架构:从前端到后台

在当今移动互联网的时代,微信小程序作为一种轻量级、便捷的应用形式,已经成为许多用户和开发者的首选。本文将深入探讨微信小程序的技术架构,从前端视角到后台支撑,为读者全面解析这一新兴应用形式的奥秘。 #### 一、微信小程序的…

SAP BC 换了logo后,其他人的logo都已经换了,但是其中有一台就是PRD 显示DEV的logo,从smw0上下载的是PRD

昨天终于发现是缓存的问题 GUI登录后 选项-本地数据-缓存 删除本地缓存文件,问题解决了

PEI是聚醚酰亚胺(Polyetherimide)在粘接使用时使用UV胶水的优势有哪些?要注意哪些事项?

PEI是聚醚酰亚胺(Polyetherimide)在粘接使用时使用UV胶水的优势有哪些?要注意哪些事项? 在使用UV胶水进行聚醚酰亚胺(Polyetherimide,PEI)粘接时,有一些优势和注意事项: …

结硬寨:联想服务器的向前之路

曾国藩曾经将自己的战略思想,总结为“结硬寨,打呆仗”。 这种稳健的策略,往往在真实的产业发展中能收获奇效。我们喜欢听颠覆性的产业创新,却往往忽视稳扎稳打,把每一个优势聚集起来形成整体优势,可能才是市…

【字符串解析】IP地址字段解析提取函数接口

在嵌入式业务逻辑中,我们有时需要从配置文件、串口或者服务端接收的消息数据中进行字符串解析,来提取需要的目标字符串字段。通常我们会调用字符串处理相关的函数,例如strstr,strchr,sscanf等,再结合指针偏…

HTML+CSS+PHP实现网页留言板功能(需要创建数据库)

话说前头&#xff0c;我这方面很菜滴。这是我网页作业的一部分。 1.body部分效果展示&#xff08;不包括footer&#xff09; 2、代码 2.1 leaving.php&#xff08;看到的网页&#xff09; <!DOCTYPE html> <html lang"en"> <head> <met…

C++中的结构体——结构体案例2

案例描述 设计一个英雄的结构体&#xff0c;包括成员姓名&#xff0c;年龄&#xff0c;性别&#xff1b;创建结构体数组&#xff0c;其中存放五名英雄 通过冒泡排序的算法&#xff0c;将数组中的英雄按照年龄升序排列&#xff0c;最终打印排序后的结果 五名英雄信息如下&…