LightGBM算法详解

LightGBM算法详解

LightGBM(Light Gradient Boosting Machine)是由微软开发的高效梯度提升决策树(GBDT)实现。它以速度和效率著称,特别适用于大规模数据集和高维特征的场景。本文将详细介绍LightGBM的原理、特点、常用参数,并通过示例展示其在回归和分类任务中的应用。
在这里插入图片描述

LightGBM原理

LightGBM采用了基于直方图的决策树算法,具体原理如下:

  1. 基于直方图的分裂:LightGBM将连续特征值离散化成K个bins(桶),然后构建直方图,从而加速特征值的计算和选择。
  2. 叶子节点分裂:与大多数GBDT实现的“深度优先”分裂不同,LightGBM采用了“叶子节点分裂”的策略,每次选择分裂增益最大的叶子节点进行分裂,从而更快地找到全局最优解。
  3. 支持并行学习:通过基于特征并行和数据并行的策略,LightGBM能够在分布式环境中高效地进行训练。

LightGBM的特点

  • 速度快:得益于基于直方图的决策树算法,LightGBM在训练速度上比其他GBDT实现(如XGBoost)要快。
  • 内存效率高:通过对连续特征进行离散化处理,LightGBM大大降低了内存使用量。
  • 支持类别特征:LightGBM可以直接处理类别特征,无需额外的编码操作。
  • 高精度:得益于其独特的叶子节点分裂策略,LightGBM在很多场景下能够取得更高的精度。

LightGBM模型参数详解

以下是LightGBM常用参数及其详细说明:

参数名称描述默认值示例
num_leaves树的最大叶子节点数31num_leaves=50
learning_rate学习率,控制每棵树对最终模型的贡献0.1learning_rate=0.05
n_estimators树的棵数,提升迭代的次数100n_estimators=200
max_depth树的最大深度,避免过拟合-1max_depth=10
min_data_in_leaf叶子节点的最小样本数20min_data_in_leaf=30
feature_fraction构建每棵树时使用的特征比例1.0feature_fraction=0.8
bagging_fraction构建每棵树时使用的数据比例1.0bagging_fraction=0.8
bagging_freqBagging的频率,0表示禁用Bagging0bagging_freq=5
lambda_l1L1正则化项系数0.0lambda_l1=0.1
lambda_l2L2正则化项系数0.0lambda_l2=0.1
boosting_type提升类型,可以是gbdtdartgossrfgbdtboosting_type='dart'
objective要优化的目标函数-objective='binary'
metric评估指标-metric='auc'
early_stopping_round提前停止训练的轮数Noneearly_stopping_round=50
seed随机数种子,用于结果复现Noneseed=42
n_jobs并行训练的线程数-1n_jobs=4
verbose控制训练过程信息的输出频率1verbose=-1

LightGBM在回归问题中的应用

生成示例数据

import numpy as np
import lightgbm as lgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# 生成示例数据
X = np.random.rand(1000, 10)
y = X.sum(axis=1) + np.random.normal(0, 0.1, 1000)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

训练LightGBM回归模型

# 创建LightGBM回归模型
model = lgb.LGBMRegressor(
    num_leaves=31,
    learning_rate=0.1,
    n_estimators=100
)

# 训练模型
model.fit(X_train, y_train, eval_set=[(X_test, y_test)], early_stopping_rounds=10, verbose=False)

# 预测
y_pred = model.predict(X_test, num_iteration=model.best_iteration_)

# 评估模型
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse:.4f}')

LightGBM在分类问题中的应用

生成示例数据

from sklearn.datasets import make_classification
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# 生成示例数据
X, y = make_classification(n_samples=1000, n_features=20, n_informative=10, n_redundant=5, random_state=42)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

训练LightGBM分类模型

# 创建LightGBM分类模型
model = lgb.LGBMClassifier(
    num_leaves=31,
    learning_rate=0.1,
    n_estimators=100
)

# 训练模型
model.fit(X_train, y_train, eval_set=[(X_test, y_test)], early_stopping_rounds=10, verbose=False)

# 预测
y_pred = model.predict(X_test, num_iteration=model.best_iteration_)

# 评估模型
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.4f}')

# 混淆矩阵
conf_matrix = confusion_matrix(y_test, y_pred)
print('Confusion Matrix:')
print(conf_matrix)

# 分类报告
class_report = classification_report(y_test, y_pred)
print('Classification Report:')
print(class_report)

结语

本文详细介绍了LightGBM算法的原理和特点,并展示了其在回归和分类任务中的应用。首先介绍了LightGBM算法的基本思想,然后展示了如何在合成数据集上使用LightGBM进行回归任务,以及如何在合成分类数据集上使用LightGBM进行分类任务。希望本文能帮助你更好地理解和应用LightGBM算法。

我的其他同系列博客

支持向量机(SVM算法详解)
knn算法详解
GBDT算法详解
XGBOOST算法详解
CATBOOST算法详解
随机森林算法详解
lightGBM算法详解
对比分析:GBDT、XGBoost、CatBoost和LightGBM
机器学习参数寻优:方法、实例与分析

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/737464.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

用于世界上最先进的医疗应用的精密电阻器

EAK的高性能电阻器使医疗产品设计人员能够继续改善全球患者的生活质量。我们的电阻器专为用于医疗诊断、治疗和预防的各种产品而设计。从小型植入式和非侵入性设备到大型诊断成像设备,医疗制造商之所以选择EAK 电阻器,是因为操作环境是高电压和磁场&…

AI-算力产业链之存力

在数字经济大潮下,数据已经成为新型的生产资料。 目前数据中心有三大力量:计算的力量——算力、存储的力量——存力、运输的力量——运力,即网络的力量。 算力产业链正在火热发展的同时,存力的需求也大幅度提升。2023年上半年&…

总结 CSS 选择器的常见用法

一,什么是css 在前端网页中,css就相当于化妆术,把一个很生硬的网页页面变得排版有序起来。 CSS可以对网页中的元素位置进行像素级精准控制,实现美化页面的效果,也能做到页面的样式和结构分离。 二,css的基…

MySQL中的ibd2sdi—InnoDB表空间SDI提取实用程序

ibd2sdi 是一个用于从 InnoDB 表空间文件中提取序列化字典信息(Serialized Dictionary Information, SDI)的实用程序。这个实用程序可以用于提取存储在持久化 InnoDB 表空间文件中的 SDI 数据。 可以对以下类型的表空间文件使用 ibd2sdi: 每…

消息认证码解析

1. 什么是消息认证码 消息认证码(Message Authentication Code)是一种确认完整性并进行认证的技术,取三个单词的首字母,简称为MAC。 消息认证码的输入包括任意长度的消息和一个发送者与接收者之间共享的密钥,它可以输出固定长度的数据&#x…

C语言之详解预处理

前言: 预处理也叫预编译,是编译代码时的第一步,经过预处理后生成一个.i文件,如果不明白编译与链接作用的小伙伴可以先看看博主的上一篇博客—— ,不然知识连贯性可能会显得很差哦。 正文目录: 预定义符号#…

discuz迪恩cul!教育课程培训网站模板

Discuz x3.2模板 迪恩cul!教育课程培训 GBK,程序包中内附详细的安装教程,下载后按照教程安装即可 discuz迪恩cul!教育课程培训网站模板

qemu 安装ubuntu22.04虚拟机 -纯命令行-可ssh-带网络-编译安装 linux kernel-编译安装 kernel module

tar -xjf xxx.tar.bz2 1,预备系统盘数据 1.1 下载光盘 注意需要 liver-server $ wget https://releases.ubuntu.com/22.04.4/ubuntu-22.04.4-live-server-amd64.iso 1.2 挂载并拷贝 $ sudo mkdir /mnt/iso_ubuntu-22.04.4-live-server-amd64 $ sudo mount u…

星闪指向遥控,做家电交互的破壁人

“面壁者罗辑,我是你的破壁人。” 科幻小说《三体》中,当人类的基础科学被三体人封锁,变得停步不前,人类启动了自救的面壁计划,通过一次又一次破壁,找到战胜三体人的办法。 现实中,有一点已经成…

html--好看的手机充值单页

<!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><title>线上充值-首页</title><meta content"widthdevice-width,initial-scale1.0,maximum-scale1.0,user-scalable0" name"viewport&…

【Vue-Vben-Admin】1、初次运行和介绍

【Vue-Vben-Admin】1、初次运行和介绍 Vben-Admin 初次运行和介绍 小小的介绍规定版本文件树安装依赖运行项目 小小的介绍 一款 Vue3 Typescript4 Vite2 后台管理项目&#xff0c;功能挺多的&#xff0c;还有组件库 规定版本 此个人文档规定版本为 2.8.0&#xff0c;可能版本…

AI大模型企业应用实战(16)-langchain核心组件

1 stuff 将文档列表插入到提示词中&#xff0c;适合文档较小或少量文档的应用。 2 refine 通过循环输入文档并迭代更新答案来构建响应&#xff0c;一次只传递给LLM一个文档&#xff0c;适合LLM上下文大小不能容纳的小文档。 参考&#xff1a; https://js.langchain.com/v0.1…

QT中利用qss来创建一个圆角矩形窗口,并利用Qt::WA_TranslucentBackground属性解决留白问题

1、效果 2、实现 QWidget#centralwidget {border-radius: 30px solid default;border-image: url(:/images/bk<

【Golang - 90天从新手到大师】Day06 - 数组

系列文章合集 Golang - 90天从新手到大师 数组是golang中最常用的一种数据结构,数组就是同一类型数据的有序集合 定义一个数组 格式: var name [n]type n为数组长度,n>0 且无法修改,type为数组的元素类型如: var a [2]int上面的例子定义了一个长度为2,元素类型为int的数组…

MySQL数据库(三):读取数据库数据

上一节&#xff0c;我们介绍了数据库的基本操作&#xff0c;以及最后演示了如何使用库来连接数据库&#xff0c;在实际应用中&#xff0c;我们通常需要按照指定的条件对数据库进行操作&#xff0c;即增删改查操作&#xff0c;这是非常重要的&#xff01;这一节我们继续通过一个…

Open3D 点云FPS最远点下采样

目录 一、概述 二、代码实现 2.1实现原理 2.2完整代码 三、实现效果 3.1原始点云 3.2采样后点云 3.3数据对比 一、概述 最远点采样&#xff08;Farthest Point Sampling, FPS&#xff09;是一种有效的下采样方法&#xff0c;用于从大量点云数据中选择具有代表性的子集。…

Fine-tuning在垂直领域的最佳实践指南

对于Fine-tuning是深度学习和机器学习领域一个特别重要的概念&#xff0c;并且每个企业的实践方式也会有所不同&#xff0c;今天我们就来聊一聊Fine-tuning。 什么是Fine-tuning Fine-tuning指的是模型微调&#xff0c;通常是指在一个预训练模型的基础上&#xff0c;通过在特…

redis数据库备份,回档,迁移工具使用

相信很多服务器开发者或者运维同学都遇到过这样的场景,比如我要从阿里云的redis集群把数据迁移到另外一个账号下的或者另外一个云服务商的redis集群,或者单机,或者哨兵模式redis实例,那么这种情况下我推荐给大家一款非常好用的工具,可以无缝的从A集群/单机/哨兵/已有的数据…

安装虚拟环境

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 Flask依赖两个外部库&#xff1a;Werkzeug和Jinja2。Werkzeug是一个WSGI&#xff08;在Web应用和多种服务器之间的标准 Python 接口&#xff09;工具…

频率和时间单位换算表

1. 频率单位和计数单位的换算关系 1.1 频率换算关系 1 MHz 等于 10^6 Hz 1.2 常用计数单位及其换算关系 1000 K 1 M 1000 M 1 G 分别表示&#xff1a; K (千) 10^3 M (兆) 10^6 G (吉) 10^9 2. 时间与频率的关系 频率&#xff08;Frequency&#xff09;和周期&#xff0…