机器学习算法之KNN分类算法【附python实现代码!可运行】

一、简介

在机器学习中,KNN(k-Nearest Neighbors)分类算法是一种简单且有效的监督学习算法,主要用于分类问题。KNN算法的基本思想是:在特征空间中,如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法是一种基于实例的学习,或者说是局部逼近和将所有计算推迟到分类之后进行的惰性学习。

二、算法原理

KNN算法的主要步骤如下:

  1. 计算距离:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例(邻居)。这里的“邻近”通常是通过计算距离来确定的,常用的距离度量方式包括欧氏距离、曼哈顿距离、余弦距离等。
  2. 确定类别:根据这k个邻居的类别信息,通过多数投票法等方式进行预测。也就是说,选择k个邻居中出现次数最多的类别作为预测结果。(少数服从多数)

三、优缺点

KNN算法的优点包括:

  1. 思想简单,易于理解和实现。
  2. 对异常值不敏感,因为只与少数几个最近的邻居有关。
  3. 适用于多分类问题。
  4. 由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。

然而,KNN算法也存在一些缺点

  1. 计算量大,特别是对于大规模数据集,计算每个新实例与所有训练实例的距离可能需要很长时间。
  2. 需要存储整个训练数据集,以便对新实例进行分类。因此,如果训练数据集很大,可能需要大量的存储空间。
  3. 对k值的选择敏感。k值选择过小可能导致过拟合,选择过大可能导致欠拟合。
  4. 当样本分布不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。

四、python代码实现(案例)

在python代码中,使用scikit-learn库中的鸢尾花(Iris)数据集,这是一个包含三个类别(Setosa、Versicolour、Virginica)和四个特征(花萼长度、花萼宽度、花瓣长度、花瓣宽度)的经典数据集。

import matplotlib.pyplot as plt  # 导入matplotlib库用于绘图  
import numpy as np  # 导入numpy库用于数值计算  
from sklearn import datasets  # 导入sklearn库中的datasets模块用于加载数据集  
from sklearn.model_selection import train_test_split  # 导入train_test_split函数用于划分数据集  
from sklearn.preprocessing import StandardScaler  # 导入StandardScaler类用于数据标准化  
from sklearn.neighbors import KNeighborsClassifier  # 导入KNeighborsClassifier类用于创建KNN分类器  
from sklearn.metrics import classification_report, confusion_matrix  # 导入分类报告和混淆矩阵计算函数  
  
# 加载鸢尾花数据集  
iris = datasets.load_iris()  # 加载鸢尾花数据集  
X = iris.data  # 获取特征数据  
y = iris.target  # 获取标签数据  
  
# 数据集分割为训练集和测试集  
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  # 划分数据集为80%的训练集和20%的测试集  
  
# 数据标准化  
scaler = StandardScaler()  # 创建一个StandardScaler对象  
X_train_scaled = scaler.fit_transform(X_train)  # 对训练集进行标准化处理  
X_test_scaled = scaler.transform(X_test)  # 对测试集进行标准化处理,使用训练集得到的均值和标准差  
  
# 初始化KNN分类器并训练(使用所有四个特征)  
knn = KNeighborsClassifier(n_neighbors=3)  # 创建一个KNN分类器对象,设置邻居数为3  
knn.fit(X_train_scaled, y_train)  # 使用训练集数据训练KNN分类器  
  
# 使用测试集进行预测  
y_pred = knn.predict(X_test_scaled)  # 使用训练好的KNN分类器对测试集进行预测  
  
# 打印分类报告和混淆矩阵  
print(classification_report(y_test, y_pred))  # 打印分类报告,包括精确度、召回率、F1值等  
print(confusion_matrix(y_test, y_pred))  # 打印混淆矩阵,展示各类别的分类情况  
  
# 可视化结果(只选择两个特征进行二维可视化)  
# 这里我们选择花瓣长度和花瓣宽度作为特征  
# 注意:由于数据已经标准化,所以这里的可视化主要是为了展示分类效果,而不是真实的花瓣长度和宽度  
plt.scatter(X_test_scaled[y_test == 0, 2], X_test_scaled[y_test == 0, 3], label='Setosa', alpha=0.8)  # 绘制Setosa类别的散点图  
plt.scatter(X_test_scaled[y_test == 1, 2], X_test_scaled[y_test == 1, 3], label='Versicolour', alpha=0.8)  # 绘制Versicolour类别的散点图  
plt.scatter(X_test_scaled[y_test == 2, 2], X_test_scaled[y_test == 2, 3], label='Virginica', alpha=0.8)  # 绘制Virginica类别的散点图  
  
# 添加图例和轴标签  
plt.xlabel('Petal length (scaled)')  # 这里的'Petal length'是标准化的花瓣长度  
plt.ylabel('Petal width (scaled)')  # 这里的'Petal width'是标准化的花瓣宽度  
plt.legend()  # 添加图例  
plt.show()  # 显示图像  
  
# 保存图像  
plt.savefig('knn_iris_visualization.png')  # 将图像保存为'knn_iris_visualization.png'文件

以上代码需要以下环境包,如果没有可以先行安装

pip install numpy matplotlib scikit-learn

实验结果
在这里插入图片描述
结果可视化
在这里插入图片描述

五、应用与总结

KNN算法在各个领域都有广泛的应用,包括但不限于图像识别、文本分类、推荐系统等。例如,在图像识别中,可以使用KNN算法来识别手写数字、人脸等;在文本分类中,可以使用KNN算法来对新闻、评论等进行分类。KNN分类算法是一种简单而有效的机器学习算法,它通过计算新实例与训练数据集中实例的距离来进行分类。虽然它存在一些缺点,但在许多情况下仍然是一种很好的选择。

版权声明

本博客内容仅供学习交流,转载请注明出处。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/608234.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

常见的一些RELAXED MODEL CONCEPTS

释放一致性(release consistency, RC) RC的核心观点是:使用 FENCE 围绕所有同步操作是多余的 同步获取 (acquire) 只需要一个后续的 FENCE,同步释放 (release) 只需要一个前面的 FENCE。 对于表 5.4 的临界区示例,可以省略 FENCE F11、F14…

Linux-笔记 修改开发板默认时区

1. 时区文件 使用命令date -R查看当前的默认时区,date - R命令会自动解析/etc/localtime 文件,而该文件又是指向“ /usr/share/zoneinfo/$主时区/$次时区 ”,当需要更改到指定的时区只要将/etc/localtime 文件软链接到 ”/usr/share/zoneinf…

Vue的省份联动

Vue的省份联动 一、安装依赖库 npm install element-china-area-data -Snpm install element-ui --save全局使用elemntui组件库 import ElementUI from element-ui; import element-ui/lib/theme-chalk/index.css;Vue.use(ElementUI);二 、代码如下 <template><div…

HarmonyOS开发之ArkTS使用:用户登录页面应用

目录 目录 前言 关于HarmonyOS 环境准备 新建项目 设计用户登录页面 1. 布局设计 2. 编写ArkTS代码 运行和测试 结束语 前言 随着HarmonyOS&#xff08;鸿蒙操作系统&#xff09;的不断发展&#xff0c;越来越多的开发者开始投入到这个全新的生态系统中&#xff0c;而…

BeyondCompare4 下载\安装\免费使用

1. 官网 下载 Download Beyond Compare Free Trial 2. 安装&#xff08;无脑下一步&#xff09; 3.永久免费使用 修改注册表 A、在搜索栏中输入 regedit &#xff0c;打开注册表 B、 删除项目&#xff1a;计算机 \HKEY_CURRENT_USER\Software\ScooterSoftware\Beyond Compar…

物联网实战--平台篇之(五)账户界面

目录 一、界面框架 二、首页(未登录) 三、验证码登录 四、密码登录 五、帐号注册 六、忘记密码 本项目的交流QQ群:701889554 物联网实战--入门篇https://blog.csdn.net/ypp240124016/category_12609773.html 物联网实战--驱动篇https://blog.csdn.net/ypp240124016/cat…

10. Django Auth认证系统

10. Auth认证系统 Django除了内置的Admin后台系统之外, 还内置了Auth认证系统. 整个Auth认证系统可分为三大部分: 用户信息, 用户权限和用户组, 在数据库中分别对应数据表auth_user, auth_permission和auth_group.10.1 内置User实现用户管理 用户管理是网站必备的功能之一, D…

远动通讯屏,组成和功能介绍

远动通讯屏&#xff0c;组成和功能介绍 远动通讯屏是基于电网安全建设而投入的远方监控厂站信息、远方切除电网负荷的设备&#xff1b;主经是由远动装置、通讯管理机、交换机、GPS对时装置、数字通道防雷器、模拟通道防雷器、屏柜及附件等设备组成。变电站远动通讯系统是指对广…

安装oh-my-zsh(命令行工具)

文章目录 一、安装zsh、git、wget二、安装运行脚本1、curl/wget下载2、手动下载 三、切换主题1、编辑配置文件2、切换主题 四、安装插件1、zsh-syntax-highlighting&#xff08;高亮语法错误&#xff09;2、zsh-autosuggestions&#xff08;自动补全&#xff09; 五、更多优化配…

顺序表的实现(迈入数据结构的大门)(2)

目录 顺序表的头插(SLPushFront) 此时&#xff1a;我们有两个思路&#xff08;数组移位&#xff09; 顺序表的头删(学会思维的变换)(SLPopFront) 顺序表的尾插(SLPushBack) 有尾插就有尾删 既然头与尾部的插入与删除都有&#xff0c;那必然少不了指定位置的插入删除 查找…

汽车之家,如何在“以旧换新”浪潮中大展拳脚?

北京车展刚刚落幕&#xff0c;两重利好正主导汽车市场持续升温&#xff1a;新能源渗透率首破50%&#xff0c;以及以旧换新详细政策进入落地期。 图源&#xff1a;中国政府网 在政策的有力指引下&#xff0c;汽车产业链的各个环节正经历着一场深刻的“连锁反应”。在以旧换新的…

\boldsymbol无法使用

检查是否导入了 unicode-math 宏包、 没有加粗效果 正常加粗了 2024-5-9-15点35分

(八)JSP教程——application对象

application对象是一个比较重要的对象&#xff0c;服务器在启动后就会产生这个application对象&#xff0c;所有连接到服务器的客户端application对象都是相同的&#xff0c;所有的客户端共享这个内置的application对象&#xff0c;直到服务器关闭为止。 可以使用application对…

【SpringBoot记录】自动配置原理(1):依赖管理

前言 我们都知道SpringBoot能快速创建Spring应用&#xff0c;其核心优势就在于自动配置功能&#xff0c;它通过一系列的约定和内置的配置来减少开发者手动配置的工作。下面通过最简单的案例分析SpringBoot的功能特性&#xff0c;了解自动配置原理。 SpringBoot简单案例 根据S…

Linux下的SPI通信

SPI通信 一. 1.SPI简介: SPI 是一种高速,全双工,同步串行总线。 SPI 有主从俩种模式通常由一个主设备和一个或者多个从设备组从。SPI不支持多主机。 SPI通信至少需要四根线,分别是 MISO(主设备数据输入,从设备输出),MOSI (主设数据输出从设备输入),SCLK(时钟信号),CS/SS…

leetcode尊享面试100题(549二叉树最长连续序列||,python)

题目不长&#xff0c;就是分析时间太久了。 思路使用dfs深度遍历&#xff0c;先想好这个函数返回什么&#xff0c;题目给出路径可以是子-父-子的路径&#xff0c;那么1-2-3可以&#xff0c;3-2-1也可以&#xff0c;那么考虑dfs返回两个值&#xff0c;对于当前节点node来说&…

BI赋能金融新质生产力,16家金融机构智能BI创新实践分享

2024年政府工作报告强调&#xff0c;要“大力发展科技金融、绿色金融、普惠金融、养老金融、数字金融”&#xff0c;同时“大力推进现代化产业体系建设&#xff0c;加快发展新质生产力”。对于金融行业而言&#xff0c;培育新质生产力是高质量发展的关键着力点。金融机构可以通…

vue项目启动后页面显示‘Cannot GET /’

1、npm run dev命令启动项目的时候没有报错&#xff0c;页面打开却提示 Cannot GET / 2.这个时候只需要找到config文件夹下面的index.js文件。把assetsPublicPath字符串的&#xff1a;‘./’修改成 ‘/’就行了。修改完之后记得关闭项目&#xff0c;然后重新启动。不然不会生效…

度小满——征信报告图建模

目录 背景介绍 发展趋势 技术演进 图在金融风控领域中的演进 度小满图机器学习技术体系 案例 征信报告介绍 征信报告图建模

postman接口测试中文汉化教程

想必同学们对于接口测试工具postman的使用并不陌生&#xff0c;以及最近大为流行的国产工具apifox。对于使用过的同学来说&#xff0c;两者区别以及优缺点很容易别展示出来&#xff0c;postman相比apifox来说更加轻量&#xff0c;但是apifox更加符合国人的使用习惯....中国人给…