机器学习 | 基于Scikit-learn中手写数字集的交叉验证

在本文中,我们将讨论交叉验证及其在手写数字集上的使用。此外,我们将看到使用手写数字集的代码实现。

什么是交叉验证?

手写数字集的交叉验证将允许我们选择最佳参数,避免过度拟合训练数据集。它是一个试验的尝试程序,检查的交叉验证得分的每个参数,然后经过评估,选择最佳的程序。它也适用于商业工作流。

Scikit Learn中的Digits Dataset包含UCI ML手写数字数据集的副本。它是一个非常适合初学者的分类数据集,也是学习包括CNN在内的各种机器学习算法的良好数据集。

交叉验证是一种技术,我们使用数据集的子集训练模型,然后使用互补子集进行评估。交叉验证涉及的三个步骤如下:

  • 保留部分样本数据集。
  • 使用剩余的数据集训练模型。
  • 使用数据集的保留部分测试模型。

K折交叉验证:在这种方法中,我们将数据集分成k个子集(称为折叠),然后对所有子集进行训练,但留下一个(k-1)子集来评估训练模型。在这种方法中,我们使用每次为测试目的保留的不同子集进行重复测试。

要执行K折交叉验证,我们可以使用cross_val_score方法来执行验证。下面是语法:

cross_val_score(model, X, y, cv=5)

model:它是我们想要拟合数据的估计器。
X:是训练数据。
y:是标签的数量。
cv:表示(分层)K折叠中的折叠数。

我们可以使用GridSearchCV,它在我们将要执行的参数网格上执行穷举搜索。它接受以下参数:

GridSearchCV(model, param_grid, cv=kf, scoring=‘accuracy’)

model:它是我们想要拟合数据的估计器。
param_grid:它将在提供的所有参数值组合上运行
cv:交叉验证策略。
scoring:它定义了评估交叉验证模型在测试集上的性能的策略。

对数据集执行K折交叉验证

步骤1:导入库

导入进一步步骤所需的所有必要库。这段python代码演示了如何使用scikit-learn库执行网格搜索来调整支持向量机(SVM)分类器的超参数。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import KFold
from sklearn.datasets import load_digits
from sklearn.svm import SVC

步骤2:加载数据集

手写数字集通过load_digits(return_X_y=True)函数加载到该行中,该函数还将特征矩阵分配给X,并将关联的标签分配给y。

X, y = load_digits(return_X_y=True)

步骤3:使用numpy logspace定义网格参数

param_grid = {'C':  np.logspace(-5, 5, 10)}

步骤4:在Sklearn中定义Kfold对象,并创建SVM分类器

此代码片段创建了一个KFold交叉验证对象,并使用sigmoid内核实例化了一个支持向量机(SVM)分类器。

svm = SVC(kernel="sigmoid")
kf = KFold(n_splits=5, shuffle=True, random_state=42)

步骤5:现在我们需要使用交叉验证和SVM执行GridSearchCV

# performing exhaustive search
grid_search = GridSearchCV(svm, param_grid, cv=kf, scoring='accuracy', return_train_score=True, verbose=3, n_jobs=-1)

grid_search.fit(X,y)

步骤6:绘制并打印结果

通过网格搜索找到的平均交叉验证分数、标准差和最佳超参数值绘制在此代码片段中。

scores_avg = grid_search.cv_results_['mean_test_score']
scores_std = grid_search.cv_results_['std_test_score']
param_values = grid_search.cv_results_['param_C']
# Do the plotting
plt.figure()
plt.semilogx(param_values, scores_avg)
plt.semilogx(param_values, np.array(scores_avg) + np.array(scores_std), "r--")
plt.semilogx(param_values, np.array(scores_avg) - np.array(scores_std), "g--")
locs, labels = plt.yticks()
plt.yticks(locs, list(map(lambda x: "%g" % x, locs)))
plt.ylabel("CV score")
plt.xlabel("Parameter C")
plt.ylim(0, 1.1)
plt.show()


# Print the best score and parameters
print('Best score:', grid_search.best_score_)
print('Best C:', grid_search.best_params_['C'])

输出

Best score: 0.9115242958836273
Best C: 0.2782559402207126

在这里插入图片描述
解释:我们看到分数在10-2之后增加,为我们的支持向量机分类器提供了更好的参数C。最终在100之后,我们再次看到一个下降,然后几乎是一个恒定的值。这里的CV分数越高,情况越好。

交叉验证的优点和缺点

优点

  • 它提供了模型如何在未知数据上泛化的想法。
  • 它有助于估计模型预测的准确估计。
  • 交叉验证通过对未知数据提供更可靠的模型性能估计,有助于防止过拟合。
  • 它可以用来优化模型的超参数

缺点

  • 交叉验证需要更长的训练时间,因为我们多次拆分数据。例如,如果有5个折叠,并且我们的参数组合等于10,那么总共将有50次分裂和训练。当增加另一个参数时,它呈指数增长。
  • 它需要巨大的处理能力。
  • 交叉验证中折叠次数的选择会影响偏差-方差权衡,即,太少的折叠可能导致高方差,而太多的折叠可能导致高偏差

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/518930.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Python】Tkinter模块(巨详细)

专栏文章索引:Python 有问题可私聊:QQ:3375119339 目录 一、窗口设计 1.创建窗口 2.窗口属性 3.窗口位置 4.Widget 一、窗口设计 1.创建窗口 实例-创建空白窗口: from tkinter import * # 导入tkinter模块win Tk() # 通…

算法(二分查找)

我们有三种方式可以使用二分查找 1.朴素的二分查找,这种方式可能存在局限性 2.查找左边界的二分查找 3.查找右边界的二分查找 1.二分查找 给定一个 n 个元素有序的(升序)整型数组 nums 和一个目标值 target ,写一个函数搜索 nums…

JVM调优参数介绍

堆配置 -Xms:初始堆大小 -Xms:最大堆大小 -XX:NewSizen:设置年轻代大小 -XX:NewRation:设置年轻代和年老代的比值。如:为3表示年轻代和年老代比值为1:3,年轻代占整个年轻代年老代和的1/4 -XX:SurvivorRation:年轻代中Eden区与…

英语学习笔记-元音

元音 什么是元音呢?简单来说就是,在发音时,气流非常通畅,没有阻碍,想发多大声都可以。 元音分为: 单元音双元音 总共有20个元音 如何发音 根据上图,发音可以分为两类: 黑色部分…

链式二叉树经典OJ题目(二)

目录 结构体及头文件: 1.二叉树的前序遍历 题目描述: 思路分析: 源码: 2.二叉树的翻转 题目描述: 思路分析: 源码: 3.另一颗子树 题目描述: 思路分析: 源码&…

00-JAVA基础-动态编译

动态编译 JAVA 6 引入了动态编译机制。Java 动态编译是指在运行时将Java源代码编译成可执行的字节码。这通常使用Java的内置编译器API javax.tools.JavaCompiler 来实现。 动态编译的应用场景 可以做一个浏览器编写java代码,上传服务器编译和运行的在线测评系统服…

我为什么会选择Vim来开发Go项目及Vim IDE安装配置和操作

你好,我是孔令飞,字节跳动云原生资深研发、前腾讯云原生技术专家。《企业级 Go 项目开发实战》、《从零开发企业级 Go 应用》作者,欢迎加入 孔令飞的云原生实战营,助你进阶 Go 云原生高级开发工程师。 作为一名 Golang 开发&…

我的需求分析方法论

或网上看了无数博客文章、技术视频,或购买金装版本技术书籍,看过无数原理原则、各种各样经典方法论,真正在实际开发工作中,本能去遵守和执行的又留下多少呢。 启动一个新系统时,我们可能还会去花些时间遵循这些原理原则…

前端学习之DOM编程-docmument对象、操作DOM对像内容、操作DOM对象属性方式、操作DOM对象的样式

docmument对象 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>document对象</title> </head> <body><div id"container" nameparent><ul name"parent&qu…

k8s CNI Calico 网络模式总结

目录 calico架构图 IPIP模式下的架构图 calico 核心组件 Overlay 网络模式&#xff1a; Pod IP对外暴露 不对外暴露&#xff1a; 实现对外暴露的方法&#xff1a; overlay模式下的网络MTU Iptables & ipvs overlay的主要缺点&#xff1a; Full-mesh Unoverla…

DXP学习003-PCB编辑器的环境参数及电路板参数相关设置

目录 一&#xff0c;dxp的pcb编辑器环境 1&#xff0c;创建新的PCB设计文档 2&#xff0c;PCB编辑器界面 1&#xff09;布线工具栏 2&#xff09;公用工具栏 3&#xff09;层标签栏 ​☀ 3&#xff0c;PCB设计面板 1&#xff09;打开pcb设计面板 4&#xff0c;PCB观察…

重温OKHTTP源码

本文基于OkHttp4.12.0源码分析 官方地址 概括 本篇主要是对okhttp开源库的一个详细解析&#xff0c;包含详细的请求流程分析、各大拦截器的解读等。 使用方法 同步请求&#xff1a;创建一个OKHttpClient对象&#xff0c;一个Request对象&#xff0c;然后利用它们创建一个Ca…

免费微信小程序源码分享~搭起来改一下就可以【创业】

【前言】现在很多人都想做微信小程序创业搞钱&#xff0c;但是苦于不会开发或过高的开发成本只能放弃&#xff0c;下面我收集了几套微信小程序的源码供各位有梦想的同学免费使用~ 这些小程序代码都包含了客户端和管理端&#xff0c;你搭建起来就可以开始创业搞钱了~ 下载链接&a…

PostgreSQL 文章下架 与 热更新和填充可以提升数据库性能

开头还是介绍一下群&#xff0c;如果感兴趣PolarDB ,MongoDB ,MySQL ,PostgreSQL ,Redis, Oceanbase, Sql Server等有问题&#xff0c;有需求都可以加群群内有各大数据库行业大咖&#xff0c;CTO&#xff0c;可以解决你的问题。加群请联系 liuaustin3 &#xff0c;&#xff08;…

4月4日今日预告:printf+scanf+分支循环,if语句,else悬空问题,加油,干干干这篇文章三个小时半了,从愚人节被告知今天就有课程-今日4/3,

今天中午知道要爆肝的C语言的&#xff0c;今天本来作业好多的&#xff1b; 干了&#xff0c;家人们 做一些补充&#xff1a; 一&#xff1a;printf() 参数与占位符对应关系 printf() 参数与占位符是⼀⼀对应关系&#xff0c;如果有 n 个占位符&#xff0c; printf() 的参数…

使用docker-tc对host容器进行限流

docker-tc是一个github开源项目&#xff0c;项目地址是https://github.com/lukaszlach/docker-tc。 运行docker-tc docker run -d \ --name docker-tc \ --network host \ --cap-add NET_ADMIN \ --restart always \ -v /var/run/docker.sock:/var/run/docker.sock \ -v /var…

通过vite创建项目

一、VUE3官网 Vue.js - 渐进式 JavaScript 框架 | Vue.js (vuejs.org) 二、通过Vite创建项目 1、在cmd窗口下&#xff0c;全局安装vite //使用国内镜像源 npm config set registryhttps://registry.npmmirror.com//安装最新版vite npm install -g vitelatest Vite | 下一代…

阿里云、腾讯云、华为云优惠券领取攻略

随着云计算技术的日益成熟和普及&#xff0c;越来越多的企业和个人开始选择使用云服务商来满足自己的数据存储、计算和处理需求。阿里云、腾讯云、华为云作为国内领先的云服务商&#xff0c;提供了丰富多样的云产品和服务。而为了吸引更多用户&#xff0c;它们也时常会推出各种…

4.4学习总结

一.线段树概念 一.定义: 线段树是一种二叉搜索树&#xff0c;而二叉搜索树&#xff0c;首先满足二叉树&#xff0c;即每个结点最多有两颗子树&#xff0c;并且是一颗搜索树&#xff0c;我们要知道&#xff0c;线段树的每个结点都存储了一个区间&#xff0c;也可以理解成一个线…

文件系统监视库(watchdog)

Python Watchdog库是一个用于监视文件系统变化的Python第三方库。以下是关于Watchdog库的详细介绍&#xff1a; 功能&#xff1a;Watchdog库能够监控文件和目录的创建、修改、删除和移动等操作。它通过使用底层原生API&#xff08;如Windows的ReadDirectoryChangesW、Linux 2.6…