分类算法——KNN算法(二)

什么是K-近邻算法

1KNN原理
K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法,总体来说KNN算法是相对比较容易理解的算法。

  • 定义

如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。

来源:KNN算法最早是由Cover和Hart提出的一种分类算法、

  • 距离公式
    两个样本的距离可以通讨如下公式计算,又叫欧式距离

在这里插入图片描述

距离计算有:曼哈顿距离(绝对值距离)、明可关斯基距离

2电影类型分析
在这里插入图片描述
其中 ? 号电影不知道类别,如何去预测:利用K近邻算法
在这里插入图片描述

3问题

  • 如果取的最近的电影数量不一样,会是什么结果
    • k值取得过小,容易受到异常点的影响
    • k值取得过大,样本不均衡的影响
  • 分析K-近邻算法需要做什么样的处理
    • 无量纲化的处理(标准化)

K-近邻算法API

  • sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm=‘auto’)
    • n_neighbors:int,可选(默认= 5),k_neighbors查询默认使用的邻居数
    • algorithm:{‘auto’,‘ball_tree’,‘kd_tree’,‘brute’},可选用于计算最近邻居的算法:‘ball_tree’ 将会使用 BallTree,‘kd_tree’ 将使用 KDTree。'auto’将尝试根据传递给 fit 方法的值来决定最合适的算法。

案例:鸢尾花种类预测

流程:
①获取数据
②数据集划分
③特征工程(标准化)
④KNN预估器流程
⑤模型评估

1数据集介绍
lris数据集是常用的分类实验数据集,由Fisher,1936收集整理。lris也称鸢尾花卉数据集,是一类多重变量分析的数据集。关于数据集的具体介绍:
在这里插入图片描述
2代码过程

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import kNeighborsClassifier

def knn_iris():
	#1)获取数据
	iris=load_iris()
	
	#2)划分数据集
	x_train,x_test,y_train,y_test=train_test_split(iris.data,iris.target,random_state=6)
	
	#3)特征工程:标准化
	transfer=StandardScaler()
	x_train=transfer.fit_transform(x_train)
	x_test=transfer.transform(x_test)
	
	#4)KNN算法预估器
	estimator=KNeighborsClassifierl(n_neighbors=3)
	estimator.fit(x_train, y_train)
	
	#5)模型评估
	#方法1:直接比对真实值和预测值
	y_predict=estimator.predict(x_test)
	print("y_predict:\n",y_predict)
	print("直接比对真实值和预测值:\n",y_test==y _predict)
	#方法2:计算准确率
	score=estimator.score(x_test,y_test)
	print("准确率为:\n",score)

	return None

3运行结果
在这里插入图片描述

4结果分析

  • k值取多大?有什么影响?
    • k值取很小:容易受到异常点的影响
    • k值取很大:受到样本均衡的问题
  • 性能问题?
    • 距离计算上面,时间复杂度高

K-近邻总结

  • 优点:
    • 简单,易于理解,易于实现,无需训练
  • 缺点:
    • 懒惰算法,对测试样本分类时的计算量大,内存开销大
    • 必须指定K值,K值选择不当则分类精度不能保证
  • 使用场景:小数据场景,几千~几万样本,具体场景具体业务去测试

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/538761.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

搭建Python王国:初心者的武装指南

Python环境搭建与配置 进入编程世界的大门,选择了Python作为你的剑,那么接下来,你需要的是一把磨好的利剑——一个配置妥当的Python开发环境。本文将指引你完成这个必要的准备过程,从安装Python到选择合适的IDE,再到理…

性能升级,INDEMIND机器人AI Kit助力产业再蜕变

随着机器人进入到越来越多的生产生活场景中,作业任务和环境变得更加复杂,机器人需要更精准、更稳定、更智能、更灵敏的自主导航能力。 自主导航技术作为机器人技术的核心,虽然经过了多年发展,取得了长足进步,但在实践…

Linux/Tenten

Tenten Enumeration Nmap 扫描发现对外开放了22和80端口,使用nmap详细扫描这两个端口 ┌──(kali㉿kali)-[~/vegetable/HTB/Tenten] └─$ nmap -sC -sV -p 22,80 -oA nmap 10.10.10.10 Starting Nmap 7.93 ( https://nmap.org ) at 2023-12-25 00:52 EST Nmap …

epic免费游戏在哪里领 epic免费游戏怎么领取 图文教程一看就会

Epic Games是一家位于美国北卡罗来纳州卡里的视频游戏和软件开发商,由Tim Sweeney于1991年创立。该公司最著名的作品包括《堡垒之夜》和虚幻引擎,后者是一种广泛用于游戏开发的商用游戏引擎。Epic Games在2020年和2024年分别与索尼和迪士尼达成财务合作及…

SpringBoot生成二维码并扫码

文章目录 一、引入依赖二、配置1.yml配置2.配置文件实体二维码生成工具类 三、接口测试测试1、生成二维码手机扫码测试 结束 ★★★★★ 一、引入依赖 ZXing 是一个开源的条形码和二维码图像处理库&#xff0c;它提供了生成、解码和识别各种格式的条形码和二维码的功能。 <…

【word2pdf】Springboot word转pdf(自学使用)

文章目录 概要整体介绍具体实现官网pom文件增加依赖 遇到的问题本地运行OK&#xff0c;发布到Linux报错还是本地OK&#xff0c;但是Linux能运行的&#xff0c;但是中文乱码 小结 概要 Springboot word 转 pdf 整体介绍 搜了一下&#xff0c;发现了能实现功能的方法有四种 U…

ruoyi-nbcio-plus基于vue3的flowable的自定义业务显示历史信息组件的升级修改

更多ruoyi-nbcio功能请看演示系统 gitee源代码地址 前后端代码&#xff1a; https://gitee.com/nbacheng/ruoyi-nbcio 演示地址&#xff1a;RuoYi-Nbcio后台管理系统 http://122.227.135.243:9666/ 更多nbcio-boot功能请看演示系统 gitee源代码地址 后端代码&#xff1a…

多 线 程

1&#xff0e;什么是多线程? 有了多线程&#xff0c;我们就可以让程序同时做多件事情 2.多线程的作用? 提高效率 3&#xff0e;多线程的应用场景? 只要你想让多个事情同时运行就需要用到多线程 比如:软件中的耗时操作、所有的聊天软件、所有的服务器 1.进程和线程【理解】 …

mybiats-puls-插入测试以及雪花算法

一&#xff0c;测试 /* * 插入测试 * */ Test public void test01() {User user new User();/** 自动帮我们生成id* */user.setName("kuku");user.setAge(3);user.setEmail("2983394967qq.com");final int insert mapper.insert(user);System.out.print…

OceanMind海睿思入选《2024 中国MarTech行业生态图》

「Morketing研究院」正式发布《2024 中国MarTech行业生态图》&#xff0c;中新赛克海睿思作为国内数据治理优秀厂商&#xff0c;成功入选「数据与分析」板块「数据管理平台」子类&#xff0c;占据Martech领域关键节点。 ◎《2024中国MarTech行业生态图》 关于MarTech生态图 《…

【Django开发】前后端分离美多商城项目第7篇:登录,使用登录的流程【附代码文档】

美多商城项目4.0文档完整教程&#xff08;附代码资料&#xff09;主要内容讲述&#xff1a;美多商城&#xff0c;项目准备1.B2B--企业对企业,2.C2C--个人对个人,3.B2C--企业对个人,4.C2B--个人对企业,5.O2O--线上到线下,6.F2C--工厂到个人。项目准备&#xff0c;配置1. 修改set…

记录一次Java中使用P12证书访问https,nginx返回403的问题

目录 1、先使用浏览器导入证书访问&#xff0c;测试证书和密钥是否正确2、编写初始java代码3、结果响应 403 Forbidden4、解决方案 1、先使用浏览器导入证书访问&#xff0c;测试证书和密钥是否正确 成功返回&#xff0c;说明p12证书和密钥是没问题的。 2、编写初始java代码 …

智慧公厕是公共厕所信息化向高端发展的必然

现代社会的发展离不开科技的加持&#xff0c;公共厕所作为城市基础设施之一&#xff0c;也在不断引入智慧化的概念&#xff0c;实现信息化、智慧化和数字化的使用和管理。智慧公厕通过物联网、大数据、云计算、网络通信和自动化控制技术的应用&#xff0c;成为了高级的社会公共…

【vue】watchEffect 自动侦听器

watchEffect&#xff1a;自动监听值的变化 获取旧值时&#xff0c;不是很方便&#xff0c;建议用watch <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevic…

哪些被Asterisk 21版本暴砍的功能有多少是你常用的?我指的是chan_alsa

目录 江湖再无NoCDRapp_macro也不见了常用的还有哪些&#xff1f; Asterisk 21.0版本的发布&#xff0c;主打一个剪刀手。 正如社区官方傲慢、粗鲁&毫不遮掩的说法&#xff1a; Asterisk 21 saw fewer new additions than previous versions. Many of the changes are actu…

element table 使用了表格固定height高度和表格属性fixed属性出现了高度错乱bug

问题描述&#xff1a;因为使用了表格固定height高度所以 使用表格属性fixed属性出现了高度错乱bug知识点&#xff1a;使用element table 里提供的doLayout 方法 代码 // template <el-table ref"test" ></el-table>//js// 查询数据getList(obj{}) {get…

电焰灶十大品牌:华火电燃灶怎么样?

随着科技的发展和人们生活品质的提升&#xff0c;传统燃气灶具已无法满足现代家庭对于高效、环保、安全的需求。在这一背景下&#xff0c;电焰灶作为一种新型的厨房设备逐渐崭露头角。在众多电焰灶品牌中&#xff0c;华火电燃灶凭借其卓越的性能和创新的技术&#xff0c;成功跻…

【MATLAB第104期】基于MATLAB的xgboost的敏感性分析/特征值排序计算(针对多输入单输出回归预测模型)

【MATLAB第104期】基于MATLAB的xgboost的敏感性分析/特征值排序计算&#xff08;针对多输入单输出回归预测模型&#xff09; 因matlab的xgboost训练模型不含敏感性分析算法&#xff0c;本文通过使用single算法&#xff0c;即单特征因素对输出影响进行分析&#xff0c;得出不同…

NAPI 类对象导出及其生命周期管理(下)

4. 样例工程源码剖析 工程的模板是Native C,模型是Stage。源码剖析主要围绕以下几个文件 4.1. NAPI导出对象和生命周期管理具体实现 4.1.1. 定义NapiTest类及方法 Napi.h文件内容如下&#xff1a; #ifndef __NAPI_TEST_H__ #define __NAPI_TEST_H__#include "napi/nat…

集群监控原理

3.1.2.集群监控原理 Sentinel基于心跳机制监测服务状态&#xff0c;每隔1秒向集群的每个实例发送ping命令&#xff1a; •主观下线&#xff1a;如果某sentinel节点发现某实例未在规定时间响应&#xff0c;则认为该实例主观下线。 •客观下线&#xff1a;若超过指定数量&…