【机器学习】模型参数优化工具:Optuna使用分步指南(附XGB/LGBM调优代码)

在这里插入图片描述

常用的调参方式和工具包

常用的调参方式包括网格搜索(Grid Search)、**随机搜索(Random Search)贝叶斯优化(Bayesian Optimization)**等。

工具包方面,Scikit-learn提供了GridSearchCV和RandomizedSearchCV等用于网格搜索和随机搜索的工具。另外,有一些专门用于超参数优化的工具包,如OptunaHyperopt等。

这些方法各自有优缺点。网格搜索和随机搜索易于理解和实现,但在超参数空间较大时计算代价较高。贝叶斯优化考虑了不同参数之间的关系,可以在较少实验次数内找到较优解,但实现较为复杂。

Optuna是什么?

Optuna是一个基于贝叶斯优化的超参数优化框架。它的目标是通过智能的搜索策略,尽可能少的实验次数找到最佳超参数组合。Optuna支持各种机器学习框架,包括Scikit-learn、PyTorch和TensorFlow等。

Optuna的优势和劣势

个人使用体验:比起网格搜索和随机搜索,Optuna最明显的优势就是快。虽然最后的提升效果未必有前两种好,但是在整体效率上来看,Optuna能够大大减少调参时间。

优势:

  1. 智能搜索策略: Optuna使用TPE(Tree-structured Parzen Estimator)算法进行贝叶斯优化,能够更智能地选择下一组实验参数,从而加速超参数搜索。
  2. 轻量级: Optuna的设计简单而灵活,易于集成到现有的机器学习项目中。
  3. 可视化支持: 提供结果可视化工具,帮助用户直观地了解实验过程和结果。
  4. 并行优化: Optuna支持并行优化,能够充分利用计算资源,提高搜索效率。

劣势:

  1. 适用范围: 对于超参数空间较小或者问题较简单的情况,Optuna的优势可能不如其他方法显著。

如何使用Optuna进行调参?

使用Optuna进行调参的基本步骤如下:

  1. 定义超参数搜索空间: 使用Optuna的API定义超参数的搜索范围,例如学习率、层数等。
  2. 定义目标函数: 编写一个目标函数,用于评估给定超参数组合的模型性能。
  3. 运行Optuna优化: 使用Optuna的optimize函数运行优化过程,选择适当的搜索算法和优化目标。
  4. 获取最佳超参数: 通过Optuna提供的API获取找到的最佳超参数组合。

调参代码示例

主要分为几个步骤:

  1. 定义目标函数: 1)定义参数搜索范围 2)定义、训练和评估模型
  2. 运行Optuna优化
  3. 获取最佳超参数

1. SVM调优例子

以下是一个使用Optuna进行超参数优化的简单示例,假设我们使用Scikit-learn中的SVM进行分类:

import optuna
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC

# 载入数据
data = datasets.load_iris()
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2)

# 定义目标函数
def objective(trial):
    # 定义超参数搜索范围
    C = trial.suggest_loguniform('C', 1e-5, 1e5)
    gamma = trial.suggest_loguniform('gamma', 1e-5, 1e5)

    # 构建SVM模型
    model = SVC(C=C, gamma=gamma)
    
    # 训练和评估模型
    model.fit(X_train, y_train)
    accuracy = model.score(X_test, y_test)
    
    return accuracy

# 运行Optuna优化
study = optuna.create_study(direction='maximize')
study.optimize(objective, n_trials=100)

# 获取最佳超参数
best_params = study.best_params
print("最佳超参数:", best_params)

2.LGBM调优例子

def objective(trial):
    params = {
        'objective': 'multiclass',
        'metric': 'multi_logloss',  # Use 'multi_logloss' for evaluation
        'boosting_type': 'gbdt',
        'num_class': 3,  # Replace with the actual number of classes
        'num_leaves': trial.suggest_int('num_leaves', 2, 256),
        'learning_rate': trial.suggest_loguniform('learning_rate', 0.001, 0.1),
        'feature_fraction': trial.suggest_uniform('feature_fraction', 0.1, 1.0),
        'bagging_fraction': trial.suggest_uniform('bagging_fraction', 0.1, 1.0),
        'bagging_freq': trial.suggest_int('bagging_freq', 1, 10),
        'min_child_samples': trial.suggest_int('min_child_samples', 5, 100),
    }

    model = lgb.LGBMClassifier(**params)
    model.fit(X_train, y_train)
    y_pred = model.predict_proba(X_val)    
    loss = log_loss(y_val, y_pred)
    return loss

study = optuna.create_study(direction='minimize')
study.optimize(objective, n_trials=50,show_progress_bar=True)

# Get the best parameters
best_params = study.best_params
print(f"Best Params: {best_params}")

3.XGB调优例子

def objective(trial):
    params = {
        'objective': 'multi:softprob',  # 'multi:softprob' for multiclass classification
        'num_class': 3,  # Replace with the actual number of classes
        'booster': 'gbtree',
        'eval_metric': 'mlogloss',  # 'mlogloss' for evaluation
        'max_depth': trial.suggest_int('max_depth', 2, 10),
        'learning_rate': trial.suggest_loguniform('learning_rate', 0.001, 0.1),
        'subsample': trial.suggest_uniform('subsample', 0.1, 1.0),
        'colsample_bytree': trial.suggest_uniform('colsample_bytree', 0.1, 1.0),
        'min_child_weight': trial.suggest_int('min_child_weight', 1, 10),
    }

    model = XGBClassifier(**params)
    model.fit(X_train, y_train)
    y_pred = model.predict_proba(X_val)
    loss = log_loss(y_val, y_pred)
    return loss

study = optuna.create_study(direction='minimize')
study.optimize(objective, n_trials=50, show_progress_bar=True)

# Get the best parameters
best_params = study.best_params
print(f"Best Params: {best_params}")

通过这个示例,你可以看到Optuna的简洁和易用性。通过定义搜索空间和目标函数,Optuna会自动选择最优的超参数组合。

总结

Optuna作为一个高效的超参数优化工具,在调参过程中具有明显的优势。通过智能的搜索策略和轻量级的设计,它可以显著减少调参的时间和计算资源成本。当面对大规模超参数搜索问题时,Optuna是一个值得考虑的利器,能够帮助机器学习和数据科学领域的从业者更高效地优化模型性能。

参考链接

官网:https://optuna.org/
说明文档:https://optuna.readthedocs.io/en/stable/
中文文档:https://optuna.readthedocs.io/zh-cn/latest/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/306608.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

CodeWave智能开发平台--03--目标:应用创建--08联系人管理

摘要 本文是网易数帆CodeWave智能开发平台系列的第11篇,主要介绍了基于CodeWave平台文档的新手入门进行学习,实现一个完整的应用,本文主要完成08联系人管理 CodeWave智能开发平台的11次接触 CodeWave参考资源 网易数帆CodeWave开发者社区…

Linux第21步_取消鼠标中键的复制粘贴功能

在ubuntu18.04操作系统中,选中文本后,若按下鼠标中键,就可以执行复制粘贴,相当于 CtrlshiftC 后又按了 CtrlshiftV。在Linux系统中,基本上都是这么配置的。在windows系统中,我们习惯用Ctrl-C复制&#xff0…

intellij idea导入别人项目版本问题解决方案

当导入别人的项目太慢,原因是gradle版本不一致,这时android studio自动下载匹配的gradle版本导致长时间下载的问题。原因主要还是:这个下载地址是国外的,需要翻墙,否则会特别慢。 1.一般下载下来的项目都有这些文件夹,在导入项目…

51单片机介绍

1 单片机简介 单片机,英文Micro Controller Unit,简称MCU 内部集成了CPU、RAM、ROM、定时器、中断系统、通讯接口等一系列电脑的常用硬件功能 单片机的任务是信息采集(依靠传感器)、处理(依靠CPU)和硬件设…

uniapp 创建组件

组件:用于将某个功能的 HTML、CSS、JS 封装到一个文件中,提高代码的复用性和可维护性。 创建组件 一、在根目录中创建 components 文件夹,右键点击新建组件。 二、输入组件名称、选择默认模板、点击创建组件。 三、在组件中正常编写内容即可…

AcWing 203. 同余方程(扩展欧几里得算法)

题目链接 203. 同余方程 - AcWing题库高质量的算法题库https://www.acwing.com/problem/content/205/ 来源 《算法竞赛进阶指南》, NOIP2012提高组 题解 本题中的同余方程可以转化为ax by 1的形式,利用扩展欧几里得算法可以求得特解为,则通解为。 代…

Linux系统使用超详细(九)~用户和组管理

本篇将要梳理有关用户和用户组的学习笔记,内容主要是基本的概念理解和常用命令的使用方法 ! 目录 一、用户和用户组认识 1.1用户说明 1.1.1查看用户信息 ①id命令: ②whoami 命令 ③cat /etc/passwd 命令 ④getent passwd 命令 ⑤仅显…

Python轴承故障诊断 (十)基于VMD+CNN-Transfromer的故障分类

目录 1 变分模态分解VMD的Python示例 2 轴承故障数据的预处理 2.1 导入数据 2.2 故障VMD分解可视化 3 基于VMDCNN-Transformer的轴承故障诊断分类 3.1 定义VMD-CNN-Transformer分类网络模型 3.2 设置参数,训练模型 3.3 模型评估 代码、数据如下&#xff1a…

​如何在iOS手机上查看应用日志

引言 在开发iOS应用过程中,查看应用日志是非常重要的一项工作。通过查看日志,我们可以了解应用程序运行时的状态和错误信息,帮助我们进行调试和排查问题。本文将介绍两种方法来查看iOS手机上的应用日志,并提供相应的操作步骤。 …

vercel部署twikoo后评论收不到通知邮件问题解决方法

📌 前言:本文主要是总结一下在vercel部署twikoo后收不到评论邮件通知问题的解决方法,本人在各种查资料无果后最终去twioo的git官方项目的issue中找到某位大佬给出的原因以及解决方案,故做此记录,希望对遇到此问题的同学…

Nodejs 第三十一章(响应头和请求头)

响应头 HTTP响应头(HTTP response headers)是在HTTP响应中发送的元数据信息,用于描述响应的特性、内容和行为。它们以键值对的形式出现,每个键值对由一个标头字段(header field)和一个相应的值组成。 例如…

C++面试宝典第17题:找规律填数

题目 仔细观察下面的数字序列,找到规律,并填写空白处的数字。 (1)1, 2, 4, 7, 11, 16, __ (2)-1, 2, 7, 28, __, 126 (3)6, 10, 18, 32, 57, __ (4)19, 6, 1, 2, 11, __ (5)2, 3, 5, 7, 11, __ (6)1, 8, 9, 4, __, 1/6 (7)1, 2, 3, 7, 16, __, 321 (8)1, 2, …

【Python学习】Python学习9-字符串

目录 【Python学习】Python学习9-字符串 前言创建语法访问字符串的值字符串拼接Python 转义字符Python字符串运算符Python格式化字符串Python 三引号Unicode字符串Python 的字符串内建函数参考 文章所属专区 Python学习 前言 本章节主要说明Python的字符串类型。 创建语法 …

Spring MVC组件

1.DispatcherServlet前端控制器 用户请求到达前端控制器,它就相当于mvc模式中的c,dispatcherServlet 是整个流程控制的中心,由它调用其它组件处理用户的请求,dispatcherServlet 的存在降低了组件之间的耦合性。 2.HandlerMappin…

蓝牙物联网多个核心应用场景开发与应用细化分析

蓝牙物联网是指利用蓝牙技术将物理设备与互联网连接起来,实现设备之间的信息共享与互通。蓝牙物联网在各个领域得到了广泛应用,并且在未来有着巨大的发展潜力。本文将围绕蓝牙物联网的五大核心应用场景进行介绍,包括智能家居、智能健康、智能…

Mac M1 Parallels CentOS7.9 Install Jenkins

官网: https://www.jenkins.io/ 文中涉及的jenkins’s rpm链接: https://pan.baidu.com/s/1BSe62pGdJCtDUAimaniEMA?pwd6666 一、Install & Check Java Env Oracle官网下载Java: https://www.oracle.com/cn/ # 拷贝到Jenkins服务器 scp Downloads/jdk-8u391-linux-aarch…

再谈前端算法

楔子 – 青蛙跳台阶什么是算法算法实例 : 实现一个LRU缓存 实现 LRUCache扩展: ES6 Map Map的创建和初始化:添加键值对:获取键值对:检查Map中是否存在某个键:删除键值对:遍历Map:获取…

读算法霸权笔记13_读后总结与感想兼导读

1. 基本信息 算法霸权:数学杀伤性武器的威胁 [美] 凯西奥尼尔(Cathy 著 中信出版社,2018年9月出版 1.1. 读薄率 书籍总字数220千字,笔记总字数32359字。 读薄率32359220000≈14.71% 1.2. 读厚方向 算法的力量:人类如何共同生存&#x…

SpringBoot-开启Admin监控服务

SpringBoot-Admin是一个用于管理和监控SpringBoot应用程序的开源项目。它提供了一个易于使用的Web界面,可以实时监控应用程序的健康状况、性能指标、日志和环境配置等信息。通过Actuator模块来收集和暴露应用程序的监控信息,使用Web Socket或者Server-Se…

继承和多态的详解

文章目录 1. 继承1.1 继承的概念1.3 继承的语法1.3 父类成员访问1.3.1 子类中访问父类的成员变量1.3.2 子类中访问父类的成员方法 1.4 子类构造方法 2.super关键字2.1 super关键字的概念2.2 super和this的区别 3. 在继承中访问限定符的可见性4. 继承方式的分类5. 多态5.1 多态的…