不同类型的集成技术——Bagging、Boosting、Stacking、Voting、Blending简述

目录

一、说明

二、堆叠

2.1 堆叠的工作原理:

2.2 例子:

2.3 堆叠的优点:

三、投票(简单投票)

3.1 例子:

3.2 投票的优点:

四、装袋和投票之间的区别

五、混合

6.1 混合的主要特征:

5.2 堆叠的主要特征:


一、说明

        在机器学习领域,集成学习是用于提高模型准确性、稳健性和泛化能力的最强大技术之一。集成学习不依赖于单个预测模型,而是结合多个模型的预测来创建更准确、更可靠的最终预测。直觉上,多个模型或弱学习器可以纠正彼此的错误,从而产生更稳健的强学习器

集成学习的一些优点包括:

  • 提高准确性:通过平均或组合多个模型的预测,集成模型的表现通常优于单个模型。
  • 减少过度拟合:集成方法通过平滑噪声预测来帮助减少过度拟合。
  • 模型多样性:集成利用多种算法或同一算法的变体,可以捕获数据的不同方面。

        要了解有关bagging 和 boosting 的更多信息,请关注此博客

二、堆叠

堆叠技术工作流程

堆叠是一种更复杂的集成技术,涉及组合不同类型的模型(通常称为基础学习器)以提高性能。堆叠背后的理念是通过训练元模型(通常称为二级模型)来利用多个模型的优势,该元模型学习根据基础模型的输出进行预测。

2.1 堆叠的工作原理:

  1. 在训练数据上训练多个基础模型(例如决策树、逻辑回归、SVM)。
  2. 这些基础模型的预测被输入到元模型(通常是更复杂的模型,如神经网络或线性回归)。
  3. 元模型学习结合基础模型的预测并输出最终预测。

2.2 例子:

在分类问题中,您可能会训练三个模型:决策树、SVM 和 k-最近邻模型。然后,这些模型的输出将用作元模型(例如逻辑回归)的特征,从而做出最终的分类决策。

2.3 堆叠的优点:

  • 结合不同优势的模型来提高整体性能。
  • 通常比使用任何单一模型都能带来更好的性能。

三、投票(简单投票)

        在投票中,多个模型在同一数据集上独立训练,在分类任务中通过投票组合它们的预测,在回归任务中通过平均组合它们的预测。这是最简单的集成方法之一,可分为两种类型:硬投票软投票

  • 硬投票:在分类任务中,最终的集成预测是通过选择从基础模型的预测中获得最多投票的类别来确定的。这通常被称为“硬投票”。
  • 软投票:在回归任务中,最终预测通常是通过对基础模型的预测取平均值来获得的。这也称为“软投票”。

3.1 例子:

        您可以在数据集上训练三个模型(例如,逻辑回归、决策树和随机森林),并通过硬投票结合它们的预测。最终预测基于多数投票。

3.2 投票的优点:

  • 易于实现和解释。
  • 可以通过组合不同的模型来提高准确性。
  • 当基础模型相当强大且互补时,效果很好。

四、装袋和投票之间的区别

五、混合

        Blending 与 Stacking 非常相似。它还使用基础模型提供基础预测作为新特征,并在新特征上训练新的元模型,以给出最终预测。唯一的区别是,元模型的训练应用于单独的保留集(例如 train_data 的 10%),而不是完整和折叠的训练集。

        混合与堆叠:混合涉及训练多个基础模型,然后使用元模型组合它们的预测。混合过程相对简单,涉及保留集。

6.1 混合的主要特征:

  • 训练数据:原始数据集分为两部分:
  • 训练集:用于训练基础模型。
  • 保留集:用于从基础模型生成预测,然后用于训练元模型。
  • 元模型:元模型根据基础模型对保留集的预测进行训练。该元模型学会结合基础模型的预测来做出最终预测。

堆叠(或堆叠泛化)是一种更复杂的集成方法,其中训练多个模型,并使用元模型组合它们的预测。堆叠使用交叉验证来训练元模型,使其更强大,但也更复杂。

混合——数据在训练、保留和测试中分离

5.2 堆叠的主要特征:

  • 训练数据:将原始数据集分成k 倍进行交叉验证:
  • 每个基础模型在 k-1 折上进行训练,并对剩余的折进行预测。此过程重复 k 次,每个折都用作一次验证集。
  • 收集所有折叠的每个基础模型的预测并用于训练元模型。
  • 元模型:在所有折叠中对基础模型的预测进行训练。该元模型学习结合基础模型的预测来做出最终预测。

https://medium.com/@abhishekjainindore24/different-types-of-ensemble-techniques-bagging-boosting-stacking-voting-blending-b04355a03c93

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/930833.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ONES 功能上新|ONES Project 甘特图再度升级

ONES Project 甘特图支持展示工作项标题、进度百分比、依赖关系延迟时间等信息。 应用场景: 在使用甘特图规划项目任务、编排项目计划时,可以对甘特图区域进行配置,展示工作项的工作项标题、进度百分比以及依赖关系延迟时间等维度&#xff0c…

【目标检测】【反无人机目标检测】使用SEB-YOLOv8s实时检测未经授权的无人机

Real-Time Detection of Unauthorized Unmanned Aerial Vehicles Using SEB-YOLOv8s 使用SEB-YOLOv8s实时检测未经授权的无人机 论文链接 0.论文摘要 摘要:针对无人机的实时检测,复杂背景下无人机小目标容易漏检、难以检测的问题。为了在降低内存和计算…

Elasticsearch:使用 Elastic APM 监控 Android 应用程序

一、前言 人们通过私人和专业的移动应用程序在智能手机上处理越来越多的事情。 拥有成千上万甚至数百万的用户,确保出色的性能和可靠性是移动应用程序和相关后端服务的提供商和运营商面临的主要挑战。 了解移动应用程序的行为、崩溃的发生和类型、响应时间慢的根本…

DataSophon集成CMAK KafkaManager

本次集成基于DDP1.2.1 集成CMAK-3.0.0.6 设计的json和tar包我放网盘了. 通过网盘分享的文件:DDP集成CMAK 链接: https://pan.baidu.com/s/1BR70Ajj9FxvjBlsOX4Ivhw?pwdcpmc 提取码: cpmc CMAK github上提供了zip压缩包.将压缩包解压之后 在根目录下加入启动脚本…

Java——异常机制(上)

1 异常机制本质 (异常在Java里面是对象) (抛出异常:执行一个方法时,如果发生异常,则这个方法生成代表该异常的一个对象,停止当前执行路径,并把异常对象提交给JRE) 工作中,程序遇到的情况不可能完美。比如…

vue3 vite ts day2

虚拟dom diff 算法的了解 diff 算法 源码的了解 简单易懂的图 参考文章 学习Vue3 第五章(Vue核心虚拟Dom和 diff 算法)_学习vue3 第五章 (vue核心虚拟dom-CSDN博客 如需了解更多请去原作者下看,讲的真的很细。 ref reactive vue2 …

动态计算加载图片

学习啦 别名路径:①npm install path --save-dev②配置 // vite.config,js import { defineConfig } from vite import vue from vitejs/plugin-vueimport { viteStaticCopy } from vite-plugin-static-copy import path from path export default defineConfig({re…

Postgresql 格式转换笔记整理

1、数据类型有哪些 1.1 数值类型 DECIMAL/NUMERIC 使用方法 DECIMAL是PostgreSQL中的一种数值数据类型,用于存储固定精度和小数位数的数值。DECIMAL的精度是由用户指定的,可以存储任何位数的数值,而小数位数则由用户自行定义。DECIMAL类型的…

爬虫运行后数据如何存储?

爬虫运行后获取的数据可以存储在多种不同的存储系统中,具体选择取决于数据的规模、查询需求以及应用场景。以下是一些常见的数据存储方法: 1. 文件系统 对于小型项目或临时数据存储,可以直接将数据保存到本地文件中。常见的文件格式包括&…

吉林大学23级数据结构上机实验(第7周)

A 去火车站 寒假到了,小明准备坐火车回老家,现在他从学校出发去火车站,CC市去火车站有两种方式:轻轨和公交车。小明为了省钱,准备主要以乘坐公交为主。CC市还有一项优惠政策,持学生证可以免费乘坐一站轻轨&…

谈谈IPD在PLM的落地

关注作者 1 前言 全球化市场竞争形势下,越来越多企业不断提升自身的研发创新能力,加大产品的研发创新投入。从整个研发投入来看,2022年至2023年间,研发投入强度由1.54%提升至2.64%,其中中小民营企业增长为3.75%&#…

线程(二)——线程安全

如何理解线程安全: 多线程并发执行的时候,有时候会触发一些“bug”,虽然代码能够执行,线程也在工作,但是过程和结果都不符合我们的开发时的预期,所以我们将此类线程称之为“线程安全问题”。 例如&#xff…

思特奇政·企数智化产品服务平台正式发布,助力运营商政企数智能力跃迁

数字浪潮下,产业数字化进程加速发展,信息服务迎来更广阔的天地,同时也为运营商政企支撑系统提出了更高要求。12月4日,2024数字科技生态大会期间,思特奇正式发布政企数智化产品服务平台,融合应用大数据、AI等新质生产要素,构建集平台服务、精准营销、全周期运营支撑、智慧大脑于…

解决Windows与Ubuntu云服务器无法通过Socket(udp)通信问题

今天在写Socket通信代码的时候,使用云服务器自己与自己通信没有问题,但是当我们把客户端换为Windows系统的时候却无法发送信息到Linux当中,耗时一上午终于搞定了😒。 问题: 如上图,当我在windows的客户端…

面向金融场景的大模型 RAG 检索增强解决方案

概述 在现代信息检索领域,检索增强生成(Retrieval-Augmented Generation, RAG)模型结合了信息检索与生成式人工智能的优点,从而在特定场景下提供更为精准和相关的答案。在特定场景下,例如金融等领域,用户通…

【pyspark学习从入门到精通24】机器学习库_7

目录 聚类 在出生数据集中寻找簇 主题挖掘 回归 聚类 聚类是机器学习中另一个重要的部分:在现实世界中,我们并不总是有目标特征的奢侈条件,因此我们需要回归到无监督学习的范式,在那里我们尝试在数据中发现模式。 在出生数据…

渗透测试---burpsuite(5)web网页端抓包与APP渗透测试

声明:学习素材来自b站up【泷羽Sec】,侵删,若阅读过程中有相关方面的不足,还请指正,本文只做相关技术分享,切莫从事违法等相关行为,本人与泷羽sec团队一律不承担一切后果 视频地址:泷羽---bp&…

[LitCTF 2023]破损的图片(初级)

[LitCTF 2023]破损的图片(初级) 我们下载附件得到一个没有后缀的文件,拖去010看一看,发现本来应该是文件头的那部分不大对劲,结合后面四个点以及IHDR,大致也应该知道是啥了 修改第一行为png 89 50 4E 47 0D 0A 1A 0A 00 00 00 …

docker部署RustDesk自建服务器

客户端: Releases rustdesk/rustdesk GitHub 服务端: 项目官方地址:GitHub - rustdesk/rustdesk-server: RustDesk Server Program 1、拉取RustDesk库 docker pull rustdesk/rustdesk-server:latest 阿里云库: docker pu…

智慧银行反欺诈大数据管控平台方案(八)

智慧银行反欺诈大数据管控平台的核心理念,在于通过整合先进的大数据技术、算法模型和人工智能技术,构建一个全面、智能、动态的反欺诈管理框架,以实现对金融交易的全方位监控、欺诈行为的精准识别和高效处理。这一理念强调数据驱动决策&#…