机器学习补充学习

1、Adaboost算法

Adaboost算法是一种集成学习方法,通过结合多个弱学习器来构建一个强大的预测模型。核心思想:如果一个简单的分类器在训练数据上犯错误,那么它在测试数据上也可能犯错误。

Adaboost通过迭代地训练一系列的分类器,并为每次训练选择训练数据的子集,从而使得每个分类器在训练数据上的错误率最小化。

算法步骤

1.1 分配每个观测样本X_{i},一个初始权重W_{i}W_{i}=\frac{1}{n},其中n为样本总量数。

1.2 训练一个“弱模型”(常用决策树)

1.3 对于每个目标:

        1.3.1 如果预测错误,W_{i}上涨

        1.3.2 如果预测正确,W_{i}下降

1.4 训练一个新的“弱模型”,其中权重较大的观测样本相应分配较高的优先权

1.5 重复步骤三和四,直到得到样本被完美预测,或是训练处当前规模的决策树

优点:

1、提高准确率:通过集成多个弱分类器,Adaboost可以显著提高预测的准确率,尤其是在处理复杂和非线性问题时。

2、处理不平衡数据:Adaboost能够自动调整每个分类器的权重,以对错误率的类别给予更多的关注,这有助于提高少数类的分类性能。

3、对异常值不敏感:由于Adaboost会根据错误率来调整权重,异常值的影响会被减少。

4、模型透明度高:Adaboost可以提供每个弱分类器的权重,这使得模型易于解释和理解。

缺点:

1、过拟合风险:如果弱分类器的选择不当或者迭代次数过多,Adaboost可能会导致过拟合,尤其是在数据量较小的情况下。

2、计算成本:由于需要训练多个弱分类器,Adaboost的计算成本较高,尤其是在大模型数据集上。

3、弱学习器选择:Adaboost的效果很大程度上取决于所选的弱学习器,如果弱学习器选择不当,Adaboost可能无法达到预测的性能。

4、对噪声敏感:Adaboost可能会对噪声数据敏感,因为噪声数据可能会导致某些分类器权重过高,从而影响最终预测。

5、解释性差:尽管Adaboost提供每个弱分类器的权重,但整个集成模型的解释性仍然不如单个决策树或线性模型。

6、依赖正则化:Adaboost依赖于正则化来防止过拟合,这意味着模型可能会在测试集上表现不佳。

2、拟合度:调整R方

是一个统计量,用于衡量线性回归模型对观测数据的拟合程度,特别是在模型中包含多个自变量时,调整R方考虑了模型中自变量的数量,从而避免了模型过渡拟合的风险。

R^{2}=1-\frac{RSS/\left ( n-d-1 \right )}{TSS/\left ( n-1 \right )}

RSS:残差平方和

TSS:总平方和

n:观测值

d:特征值

R^{2}的取值范围是从0到1,R^{2}只反映了模型解释变异的能力,它并不考虑模型的复杂度。

R^{2}为0时,表示模型没有解释任何因变量的变异,即模型完全不能预测因变量的值

R^{2}为1时,表示模型完全解释了因变量的变异,即模型完美地预测了因变量的值

3、Agglomerative聚类

是一种基于距离的层次聚类算法,在这个算法中,每个数据点最初都被视为一个单独的簇,然后逐步合并这些簇,直到达到某个停止条件。合并的决策是基于簇之间的相似度(通常使用距离度量),即两个簇之间的相似度越高,他们被合并的可能性越大。

4、AIC赤池信息量准则

是一种用于评估统计模型拟合优度的指标,AIC考虑了模型拟合数据的能力和模型的复杂度,旨在找到一个在数据拟合和模型复杂度之间达到平衡的模型。

AIC的基本思想:一个好的模型应该既能够很好地拟合数据,又不会过于复杂。因此,AIC在计算似然函数值的基础上,对模型复杂度进行惩罚,即增加一个与模型参数数量成正比的项。这样,AIC的值越小,表示模型越优秀。

AIC=\frac{1}{n\hat{a}^{2}}\left ( RSS+2d\hat{a} ^{2}\right )

n:观测值

\hat{a}^{2}:样本方差

RSS:残差平方和

d:特征值

AIC的缺点:对模型复杂度的惩罚是固定的,即每个参数的惩罚都是2。这可能会导致某些模型在参数数量上略有不同,但整体结构相似时,AIC的值差异较大。为了解决这个问题,出现了贝叶斯信息量准则(BIC)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/637206.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

哪款电脑桌面日历记事本软件好用?推荐优秀的电脑日历记事本

对于众多上班族而言,每天在电脑前忙碌已成为生活常态。若想提升工作效率,简化繁琐的工作流程,选择一款出色的电脑桌面日历与记事本软件就显得至关重要。 然而,在Windows操作系统上设定提醒显得相当繁琐,而系统自带的记…

【Linux】fork和exec中的信号继承探索

fork和exec中的信号继承探索 一、结论二、代码验证2.1 代码编写2.2 代码执行 三、linux源码验证四、APUE中的验证五、其他 一、结论 fork时子进程会继承父进程的信号处理方式,包括父进程设置信号为SIG_DFL或SIG_IGN或捕获后设置自定义处理函数。exce时子进程会继承…

计算机系统的层次结构

操作系统的定义 操作系统(Operating System, OS)是指控制和管理整个计算机系统的硬件和软件资源,并合理地组织调度计算机的工作和资源的分配;以提供给用户和其他软件方便的接口和环境;它是计算机系统中最基…

【Oracle篇】rman工具实用指南:常用命令详解与实践(第二篇,总共八篇)

💫《博主介绍》:✨又是一天没白过,我是奈斯,DBA一名✨ 💫《擅长领域》:✌️擅长Oracle、MySQL、SQLserver、阿里云AnalyticDB for MySQL(分布式数据仓库)、Linux,也在扩展大数据方向的知识面✌️…

亚马逊SFP有何优势?跨境卖家又该如何申请?

一、亚马逊SFP概述 亚马逊SFP(Seller Fulfilled Prime)是亚马逊为卖家提供的一项物流计划,旨在让满足条件的卖家能够将其产品纳入Prime服务,获得Prime标识,并直接面向Prime会员市场。通过SFP,卖家可以获得亚马逊的流量倾斜&#…

【低照度图像增强系列(7)】RDDNet算法详解与代码实现(同济大学|ICME)

前言 ☀️ 在低照度场景下进行目标检测任务,常存在图像RGB特征信息少、提取特征困难、目标识别和定位精度低等问题,给检测带来一定的难度。 🌻使用图像增强模块对原始图像进行画质提升,恢复各类图像信息,再使用目标检测…

vue项目中如何使用iconfont

导读:vue项目中引入iconfont的方式 iconfont 的三种使用方法 unicode 不常用Font class 像字体一样使用,默认黑色图标,无法修改颜色Symbol 支持多色图标,更灵活,推荐 一、unicode 略 二、Font class 方式一&#…

完美解决原生小程序点击地图markers上的点获取不到对应的坐标信息

需求:地图上有多个markes点,点击每一个获取对应的数据,再根据当前的坐标信息去调用导航。 出现的问题:每次点击的时候获取不到对应的坐标信息,获取到的信息显然不是想要的 原因: 因为你的id不是number类型&…

阿里云手机adb远程连接出现adb问题unauthorized解决

执行adb shell出现下面错误 adb.exe: device unauthorized. This adb servers $ADB_VENDOR_KEYS is not set Try adb kill-server if that seems wrong. Otherwise check for a confirmation dialog on your device.解决:导入和绑定adb的密钥 重启云手机

[Redis]常见数据和内部编码

相关命令 type (key) type 命令实际返回的就是当前键的数据结构类型,它们分别是:string(字符串)、list(列 表)、hash(哈希)、set(集合)、zset(有…

[36#]私有化部署地图套装(全球版)

私有化部署地图套装(全球版),是由全球高清卫星影像与100%全球水陆覆盖高程数据组成的全球三维地图套装。 私有化部署地图套装(全球版) 我们在《难以置信,谁还会用离线地球》一文中,为大家分享…

7 Series FPGAs Integrated Block for PCI Express IP核 Advanced模式配置详解(三)

1 TL Settings Transaction Layer (TL)设置只在Advanced模式下有效。 Endpoint: Unlock and PME_Turn_Off Messages: 与端点的电源管理相关,允许发送解锁和电源管理事件关闭消息。 Root Port: Error Messages: Error Correctable(错误可纠正&#xff09…

IO游戏设计思路

1、TCP ,UDP ,KCP ,QUIC TCP 协议最常用的协议 UDP协议非常规的协议,因为需要在线广播,貌似运营商会有一些影响 KCP 基于UDP的协议,GitHub - l42111996/java-Kcp: 基于java的netty实现的可靠udp网络库(kcp算法),包含fec实现&am…

增强版 Kimi:AI 驱动的智能创作平台,实现一站式内容生成(图片、PPT、PDF)!

前言 基于扣子 Coze 零代码平台,我们从零到一轻松实现了专属 Bot 机器人的搭建。 AI 大模型(LLM)、智能体(Agent)、知识库、向量数据库、知识图谱,RAG,AGI 的不同形态愈发显现,如何…

GEO数据挖掘-PCA、差异分析

From 生物技能树 GEO数据挖掘第二节 文章目录 探针注释自主注释流程(了解)PCA图、top1000基因热图探针注释查看示例代码 top 1000 sd 热图离散基因热图,top1000表达基因,只是看一下,不用放文章里 差异分析火山图差异基因热图转换id富集分析-K…

安装mpi4py与dlio_profiler_py的总结

安装mpi4py mpi4py是一个Python库,它提供了与MPI(Message Passing Interface)兼容的接口,使得Python程序能够利用MPI实现并行计算。mpi4py 的核心是基于MPI标准的C/C实现,它能够在高性能计算环境下进行高效的并行处理…

网页版收银系统比安装板收银系统的四大优势

在当今竞争激烈的零售市场中,高效的收银系统对于连锁实体店的管理至关重要。随着科技的不断发展,网页版收银系统成为越来越多零售企业的首选。网页版收银系统以其灵活性、可定制性和便利性,成为现代零售业的利器。本文将探讨网页版收银系统相…

pycharm 关闭项目卡死

PyCharm2023.3.4 关闭一直卡在 closing projects 解决办法: 打开PyCharm, 选择 Help -> Find Action -> 输入 Registry -> 禁用ide.await.scope.completion

MYSQL 集群

1.集群目的:负载均衡 解决高并发 高可用HA 服务可用性 远程灾备 数据有效性 类型:M M-S M-S-S M-M M-M-S-S 原理:在主库把数据更改(DDL DML DCL)记录到二进制日志中。 备库I/O线程将主库上的日志复制到自己的中继日志中。 备库SQL线程读取中继日志…

51cto已购买的视频怎么下载到电脑上?

在数字学习的浪潮中,51CTO已成为众多专业人士和爱好者的知识宝库。但购买了视频课程后,如何将其下载到电脑上以便离线学习呢?这不仅是技术问题,更是时间管理和学习效率的关键。本文将为您揭示简单而高效的步骤,无论您使…