sklearn监督学习--k近邻算法

sklearn监督学习

  • 一、分类与回归
  • 二、泛化、过拟合与欠拟合
  • 三、k近邻算法
  • 四、分析KNeighborsClassifier
  • 五、k近邻算法用于回归
    • 优点、缺点和参数

一、分类与回归

监督学习是最常用也是最成功的机器学习类型之一。监督机器学习问题主要有两种,分别叫做分类回归。分类问题的目标是预测类别标签,这些标签来自预定义的可选列表。分类问题有时可分为二分类(在两个类别之间进行区分的一种特殊情况)和多分类(在两个以上的类别之间进行区分)。
回归任务的目标是预测一个连续值。根据教育水平、年龄和居住地来预测一个人的年收入,这就是回归的一个例子。在预测收入时,预测值是一个金额,可以在给定范围内任意取值。
区分分类任务和回归任务有一个简单办法,就是问一个问题:输出是否具有某种连续性。如果在可能的结果之间具有连续性,那么它就是一个回归问题。

二、泛化、过拟合与欠拟合

在监督学习中,我们想要在训练数据上构建模型,然后能够对没见过的新数据做出准确预测。如果一个模型能够对没见过的数据做出准确预测,我们就说它能够从训练集泛化到测试集。
判断一个算法在新数据上表现好坏的唯一度量,就是在测试集上的评估。然而从直觉上看,我们认为简单的模型对新数据的泛化能力更好。构建一个对现有信息量来说过于复杂的模型,被称为过拟合。如果你在拟合模型时过分关注训练集的细节,得到了一个在训练集上表现很好、但不能泛化到新数据上的模型,那么就存在过拟合。与之相反,如果你的模型过于简单,那么你可能无法抓住数据的全部内容以及数据中的变化,你的模型甚至在训练集上的表现就很差。选择过于简单的模型被称为欠拟合
我们的模型越复杂,在训练数据上的预测结果就越好。但是,如果我们的模型过于复杂,我们开始过多关注训练集中每个单独的数据点,模型就不能很好地泛化到新数据上。二者之间存在一个最佳位置,可以得到最好的泛化性能。
另外,收集更多数据,适当构建更复杂的模型,对监督学习任务往往特别有用。

三、k近邻算法

先来看一个数据集,它是一个模拟的二分类数据集,叫做forge。它有两个特征,下面代码将绘制一个散点图,将此数据集的所有数据点可视化。图像以第一个特征为x轴,第二个特征为y轴。

import mglearn
import matplotlib.pyplot as plt
# 生成数据集
X, y = mglearn.datasets.make_forge()
# 数据集绘图
mglearn.discrete_scatter(X[:, 0], X[:, 1], y)
plt.legend(["Class 0", "Class 1"], loc=4)
plt.xlabel("First feature")
plt.ylabel("Second feature")

得到如下的图形:
在这里插入图片描述
k-NN算法可以说是最简单的机器学习算法。构建模型只需要保存训练数据集即可。想要对新数据点做出预测,算法会在训练数据集中找到最近的数据点,也就是它的“最近邻”。
k-NN算法最简单的版本只考虑一个最近邻,也就是与我们想要预测的数据点最近的训练数据点。预测结果就是这个训练数据点的已知输出。下图给出了这种分类方法在forge数据集上的应用:

mglearn.plots.plot_knn_classification(n_neighbors=1)

在这里插入图片描述
这里我们添加了3个新数据点(用五角星表示)。对于每个新数据点,我们标记了训练集中与它最近的点。单一最近邻算法的预测结果就是那个点的标签(对应五角星的颜色)。除了仅考虑最近邻,我们还可以考虑任意k个邻居,这也是k近邻算法名字的来历。在考虑多于一个邻居的情况时,我们用投票法来指定标签。也就是说,对于每个测试点,我们数一数多少个邻居属于类别0,多少个邻居属于类别1。然后将出现次数更多的类别作为预测结果。下面的例子用到了3个近邻:

mglearn.plots.plot_knn_classification(n_neighbors=3)

在这里插入图片描述
和上面一样,预测结果可以从五角星的颜色看出。可以发现,左上角新数据点的预测结果与只用一个邻居时的预测结果不同。
接下来,使用sklearn的k近邻算法。

import mglearn
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

X, y = mglearn.datasets.make_forge()
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
# 实例化类,邻居的个数设为3
clf = KNeighborsClassifier(n_neighbors=3)

现在,利用训练集对这个分类器进行拟合。对于KNeighborsClassifier来说就是保存数据集,以便在预测时计算与邻居之间的距离:

clf.fit(X_train, y_train)

调用predict方法来对测试数据进行预测。对于测试集中的每个数据点,都要计算它在训练集的最近邻,然后找出其中出现次数最多的类别:
在这里插入图片描述
为了评估模型的泛化能力好坏,我们可以对测试数据和测试标签调用score方法:
在这里插入图片描述
可以看到,我们的模型精度约为86%,也就是说,在测试数据集中,模型对其中86%的样本预测的类别都是正确的。

四、分析KNeighborsClassifier

对于二维数据集,我们还可以在xy平面上画出所有可能得测试点的预测结果。我们根据平面中每个点所属的类别对平面进行着色。这样可以查看决策边界,即算法对类别0和类别1的分界线。下面代码分别将1个、3个和9个邻居3中情况的决策边界可视化:

fig, axes = plt.subplots(1, 3, figsize=(10, 3))

for n_neighbors, ax in zip([1, 3, 9], axes):
    clf = KNeighborsClassifier(n_neighbors=n_neighbors).fit(X, y)
    mglearn.plots.plot_2d_separator(clf, X, fill=True, eps=0.5, ax=ax, alpha=.4)
    mglearn.discrete_scatter(X[:, 0],X[:, 1], y, ax=ax)
    ax.set_title(f"{n_neighbors} neighbors")
    ax.set_xlabel("feature 0")
    ax.set_ylabel("feature 1")

可视化结果如下:
在这里插入图片描述

五、k近邻算法用于回归

k近邻算法还可以用于回归。我们还是先从单一近邻开始,这次使用wave数据集。我们添加了3个测试数据点,在x轴上用绿色五角星表示。利用单一邻居的预测结果就是最近邻的目标值:

mglearn.plots.plot_knn_regression(n_neighbors=1)

如下图所示:
在这里插入图片描述
同样,也可以用多个近邻进行回归。在使用多个近邻时,预测结果为这些邻居的平均值:

mglearn.plots.plot_knn_regression(n_neighbors=3)

如下图所示:
在这里插入图片描述
用于回归的k近邻算法在sklearn的KNeighborsRegressor类中实现。其用法与KNeighborsClassifier类似:

from sklearn.neighbors import KNeighborsRegressor

X, y = mglearn.datasets.make_wave(n_samples=40)

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
# 模型实例化,并将邻居个数设为3
reg = KNeighborsRegressor(n_neighbors=3)
reg.fit(X_train, y_train)

我们还可以用score方法来评估模型,对于回归问题,这一方法返回的是R²分数。R²分数也叫作决定系数,是回归模型预测的优度度量,位于0到1之间。R²等于1对应完美预测,R²等于0对应常数模型,即总是预测训练集响应(y_train)的平均值:

在这里插入图片描述
分数是0.83,表示模型的拟合相对较好。

优点、缺点和参数

一般来说,KNeighbors分类器有2个重要参数:邻居个数与数据点之间距离的度量方法。在实践中,使用较小的邻居个数(比如3个或5个)往往可以得到比较好的结果,但你应该调节这个参数。距离度量方法默认使用欧式距离,它在许多情况下的效果都很好。
k-NN的优点之一就是模型很容易理解,通常不需要过多调节就可以得到不错的性能。在考虑使用更高级的技术之前,尝试此算法是一种很好的基准方法。构建最近邻模型的速度通常很快,但如果训练集很大(特征数很多或者样本数很大),预测速度可能会比较慢。使用该算法时,对数据进行预处理很重要。这一算法对于有很多特征(几百或更多)的数据集往往效果不好,对于大多数特征的大多数取值都为0的数据集来说,这一算法的效果尤其不好。
虽然k近邻算法很容易理解,但由于预测速度慢且不能处理具有很多特征的数据集,所以在实践中往往不会用到。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/653227.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

金蝶云星空与旺店通·企业版对接集成采购入库查询打通创建采购入库单

金蝶云星空与旺店通企业版对接集成采购入库查询打通创建采购入库单 数据源系统:金蝶云星空 金蝶K/3Cloud(金蝶云星空)是移动互联网时代的新型ERP,是基于WEB2.0与云技术的新时代企业管理服务平台。金蝶K/3Cloud围绕着“生态、人人、体验”&…

没人愿意和我们最好的工程师一起工作

几年前,有一位魔术般厉害的工程师(我们叫他“乔恩”)为我工作。他的代码写得很好,代码审查(PRs)也完成得很快。从技术角度来看,他是个出色的工程师。 我们从其他工程师那里得到了一些关于他的普…

IDEA通过tomcat运行注意事项

配置run--》edit configurations 以下的A B部分要保持一致 A和B的路径要保持一致

在线封装APP:轻松实现个性化应用发布

你是否曾经因为无法快速封装和发布自己的APP而感到困扰?传统的APP封装和发布流程繁琐,需要耗费大量时间和精力。幸运的是,现在有了在线封装APP的解决方案,帮你轻松搞定这些麻烦事。 小猪APP封装平台www.appzhu.cn 什么是在线封装…

【乐吾乐3D可视化组态编辑器】相机与视角

系统默认的相机为环绕旋转相机,它可以环绕一个中心点做上下左右的旋转,来从不同角度观察场景。当然,您也可以把一些特定角度的信息保存下来,在系统中我们把这个信息称作视角。通过交互中的切换视角动作,您就可以实现把…

​你见过哪些不过度设计的优秀APP?​

优联前端https://ufrontend.com/ 提供一站式企业前端解决方案 “每日故宫”是一款以故宫博物院丰富的藏品为基础,结合日历形式展示每日精选藏品的移动应用。通过这款应用,用户可以随时随地欣赏到故宫的珍贵藏品,感受中华五千年文化的魅力。…

基于Python和MD5算法的公寓管理系统设计与实现-计算机毕业设计源码77723

摘 要 本论文主要论述了如何使用Python开发一个公寓管理系统,本系统将严格按照软件开发流程进行各个阶段的工作,面向对象编程思想进行项目开发。在引言中,作者将论述公寓管理系统的当前背景以及系统开发的目的,后续章节将严格按照…

一文详解SpringBoot的自定义starter

目录 一、SpringBoot 二、自定义starter 三、SpringBoot的自定义starter 一、SpringBoot Spring Boot是一个开源的Java框架,由Pivotal团队(现为VMware的一部分)于2013年推出,旨在简化Spring应用程序的创建和部署过程。它基于S…

基于混合Transformer-CNN模型的多分辨率学习方法的解剖学标志检测

文章目录 Anatomical Landmark Detection Using a Multiresolution Learning Approach with a Hybrid Transformer-CNN Model摘要方法实验结果 Anatomical Landmark Detection Using a Multiresolution Learning Approach with a Hybrid Transformer-CNN Model 摘要 精确定位…

【MySQL数据库】存储过程实战——图书借阅系统

图书借阅归还 借阅不用count判断,归还不用具体字段值判断 每次借阅或者归还只能操作1本 数据准备 -- 创建数据库 create database db_test3 CHARACTER SET utf8 COLLATE utf8_general_ci; -- 使用数据库 use db_test3; -- 创建图书信息表: create tabl…

Git学习篇

目录 使用命令导入项目 使用命令导入项目 1. 使用git init 命令初始化一个新的Git仓库。 git init 是 Git 命令,用于初始化一个新的 Git 仓库。当您想要开始跟踪一个新项目的版本控制时,可以运行 git init 命令来初始化一个空的 Git 仓库。 如果出现以下…

低代码与人工智能:革新智能客服系统的高效之道

引言 在当前数字化和智能化浪潮的推动下,企业对智能客服系统的需求呈现显著增长。随着客户期望的不断提升,企业需要更加高效、智能和个性化的客户服务解决方案。传统的人工客服方式不仅成本高昂,且难以满足大规模、多样化的客户需求。而智能客…

2024年【N1叉车司机】免费试题及N1叉车司机试题及解析

题库来源:安全生产模拟考试一点通公众号小程序 N1叉车司机免费试题根据新N1叉车司机考试大纲要求,安全生产模拟考试一点通将N1叉车司机模拟考试试题进行汇编,组成一套N1叉车司机全真模拟考试试题,学员可通过N1叉车司机试题及解析…

【JavaScript】P1 JavaScript 是什么、其组成

1.1 JavaScript 是什么 JavaScript 是一种运行在浏览器的编程语言,用于实现人机交互效果。其作用包含: 监听用户行为并指导网页做出反馈。针对表单数据进行合法性验证。获取后台数据,渲染到前端界面。服务器编程,最后端的事情&a…

读后感:《SQL数据分析实战》运营SQL实用手册

学习SQL,先有用起来,有了使用价值,之后才是去了解它的原理,让使用更加顺畅。 在大部分业务场景中,通过SQL可以快速的实现数据处理与统计。《SQL数据分析实战》区别于其他工具书,它并没有介绍SQL是什么&…

机会就在眼前!2025-CISP深圳国际体育展的招展工作火热持续中...

2025-CISP中国(深圳)国际体育展的招展工作火热持续中,凭借越来越深远的影响力以及前两届的成功举办经验,展位多半已被“抢购”。但小编的同事们同时又反映出一个问题:有一批老展商和新展商已有明确的参展意向&#xff…

重生奇迹MU剑士两把单手剑

重生奇迹mu觉醒剑士在武器的选择上非常广泛,可以单手操作也可以双手,那么许多玩家觉得单手剑特别帅气,能否装备两个单手剑,感兴趣的玩家一起来看看详情介绍。 单手剑是一个单手武器,你可以选择装备一个单手剑&#xf…

数字信封:保护数据传输的现代安全机制

在数字化时代,数据安全和隐私保护变得尤为重要。随着网络攻击和数据泄露事件的日益增多,传统的加密方法已经难以满足日益增长的安全需求。数字信封(Digital Envelope)作为一种有效的数据保护技术,提供了一种安全的数据…

3W 1.5KVDC、3KVDC 隔离,宽电压输入 DC/DC 电源模块——TP03DA 系列

TP03DA系列电源模块额定输出功率为3W,外形尺寸为31.75*20.32*10.65,应用于2:1及4:1宽电压输入范围 4.5-9V、9V-18V、18V-36V、36V-72V、9V-36V和18-72VDC的输入电压环境,输出电压精度可达1%,具有输出短路保护等功能,可…

【数据结构】P1 数据结构是什么、算法怎样度量

1.1 基本概念与术语 数据: 数据是信息的载体,是所有能被计算机识别以及处理的符号。数据元素: 数据元素是数据基本单位,由若干 数据项 组成,数据项是构成数据元素最小的单位。 e . g . e.g. e.g. 数据元素如一条学生记…