【机器学习】k近邻(k-nearest neighbor )算法

文章目录

  • 0. 前言
  • 1. 算法原理
    • 1.1 距离度量
    • 1.2 参数k的选择
  • 2. 优缺点及适用场景
  • 3. 改进和扩展
  • 4. 案例
  • 5. 总结

0. 前言

k近邻(k-nearest neighbors,KNN)算法是一种基本的监督学习算法,用于分类和回归问题。k值的选择、距离度量及分类决策规则是k近邻法的三个基本要素。

1. 算法原理

给定一个训练数据集,KNN算法通过计算待分类样本与训练数据集中各个样本的距离,选取距离最近的k个样本,然后根据这k个样本的类别进行投票(分类问题)或者求平均值(回归问题),以确定待分类样本的类别或者值。

注:分类问题中常使用多数表决作为决策规则,回归问题中常使用平均或加权平均作为决策规则

1.1 距离度量

距离度量在机器学习和数据挖掘领域中是一项基础且至关重要的工作。它用于衡量数据集中样本之间的相似性或差异性。在KNN算法中,距离度量被用来衡量待分类样本与训练数据集中各个样本之间的距离,以便确定最近的邻居。KNN算法常用的距离度量方法包括欧氏距离和曼哈顿距离。

  • 欧氏距离(Euclidean Distance)
    欧氏距离是最常见的距离度量方法之一,也是我们通常所理解的“直线距离”。对于两个样本向量 p = ( p 1 , p 2 , . . . , p n ) \mathbf{p}=(p_1, p_2, ...,p_n) p=(p1,p2,...,pn) q = ( q 1 , q 2 , . . . , q n ) \mathbf{q}=(q_1, q_2, ...,q_n) q=(q1,q2,...,qn),它们之间的欧氏距离可以表示为:
    d ( p , q ) = ∑ i = 1 n ( p i − q i ) 2 d(\mathbf{p}, \mathbf{q}) = \sqrt{\sum_{i=1}^{n}(p_i - q_i)^2} d(p,q)=i=1n(piqi)2
  • 曼哈顿距离(Manhattan Distance)
    曼哈顿距离又称为城市街区距离,它是两个点在标准坐标系上的绝对轴距总和。两个样本向量之间的曼哈顿距离可以表示为: d ( p , q ) = ∑ i = 1 n ∣ p i − q i ∣ d(\mathbf{p}, \mathbf{q}) = \sum_{i=1}^{n}|p_i - q_i| d(p,q)=i=1npiqi

1.2 参数k的选择

选择适当的 k 值对 K 近邻算法的性能至关重要。选择 k 值时,需要权衡模型的复杂度和泛化能力,通常通过交叉验证等方法来确定。

下面是一些常见的选择 k 值的方法:

  • 经验法:选择一个较小的 k 值,例如 3 或 5。这种方法适用于较小的数据集和较简单的问题
  • 奇数选择:为了避免平局情况的发生,通常选择奇数的 k 值,这样在进行投票时可以避免平票的情况
  • 交叉验证:通过交叉验证来选择最优的 k 值。可以采用 k 折交叉验证,将训练数据集划分为 k 个子集,每次将其中一个子集作为验证集,其余子集作为训练集,重复 k 次计算模型的性能指标(如准确率、F1 分数等),然后选取性能最好的 k 值
  • 网格搜索:结合交叉验证,使用网格搜索方法在指定范围内搜索最优的 k 值。通过在给定的 k 值范围内进行搜索,并评估每个 k 值的性能,最终选择性能最好的 k 值。
  • 调整邻域大小:对于特定问题,可能需要调整邻域的大小,即样本点在特征空间中的密度。可以通过逐步增加或减少 k 值来探索模型的性能变化。

在实践中,选择 k 值时需要考虑数据集的大小、类别分布、特征的数量和类型等因素。较大的 k 值会使模型更加平滑,减少噪声的影响,但可能导致模型欠拟合;而较小的 k 值可能会使模型更加复杂,容易受到局部极值点的影响,但也更容易受到噪声的干扰。因此,选择合适的 k 值需要在模型的泛化能力和准确性之间进行权衡。

2. 优缺点及适用场景

优点:

  • 实现简单,易于理解
  • 适用于多分类和回归问题
  • 对于特征维度较高的数据也能够有效地进行分类

缺点:

  • 需要保存全部的训练数据,当训练数据集较大时,内存消耗较大
  • 对于每个待分类样本,都需要计算与所有训练样本的距离,当训练数据集较大时,计算复杂度较高
  • 对于样本不平衡的数据,可能会导致预测偏倚

适用场景:

  • 适用于样本数量较少、类别较少、特征维度较低的情况
  • 可以用于初步了解数据分布、进行数据探索性分析等

3. 改进和扩展

  • 加权KNN:通过给距离较近的样本赋予更高的权重,改善模型性能。
  • KD树、球树等数据结构:用于加速KNN算法的搜索过程,降低计算复杂度。
  • 距离加权KNN、半径最近邻等改进算法。

4. 案例

以《动手学机器学习》中高斯数据集的分类为例(官方项目地址),高斯数据集包含一些平面上的点,分别由两个独立的二维高斯分布随机生成。

首先,导入数据集并分析数据结构

在这里插入图片描述

可以看到,数据一共有200个样本,每个样本包含x,y坐标和对应的类别。然后对数据进行可视化:

在这里插入图片描述

将整个数据集作为训练集,将平面上其他点作为测试集。由于平面上的点是连续的,因此采用均匀网格采样获取离散点作为测试样本:

在这里插入图片描述

通过np.meshgrid函数生成了409*390个网格点,xx和yy分别为横坐标和纵坐标,将两者reshape和拼接后得到的grid_data作为测试集。使用sklearn中的KNN对测试集进行分类:

在这里插入图片描述
在这里插入图片描述
从分类结果中可以看到,随着K的增大,分类边界逐渐平滑,但同时错分概率也逐渐变大。

5. 总结

总的来说,KNN算法是一种简单而有效的分类和回归方法,尤其适用于小型数据集和低维特征空间。然而,在大规模数据集和高维特征空间下,KNN算法的计算复杂度和内存消耗可能会成为问题,因此在实际应用中需要谨慎选择。

TODO

  • kd树提高k近邻算法效率的原理

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/473790.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

(2024,YOSO,自协同学习,扩散 GAN,单步生成)您只需采样一次:通过自协同扩散 GAN 驯服一步文本到图像合成

You Only Sample Once: Taming One-Step Text-To-Image Synthesis by Self-Cooperative Diffusion GANs 公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群) 目录 0. 摘要 2. 相关工作 3. 背景…

Vue3 中应该使用 Ref 还是 Reactive?

一、引言 在Vue 3中,构建响应式数据结构是构建用户界面和交互体验的核心部分。而在创建这些响应式数据时,我们有两个主要工具:reactive和ref。选择使用哪一个,实际上取决于你的数据结构和访问需求。 reactive主要用于处理复杂的数…

麒麟 V10 一键安装 Oracle 19C 19.22 单机版

Oracle 一键安装脚本,演示 麒麟 V10 一键安装 Oracle 19C 19.22 单机版过程(全程无需人工干预):(脚本包括 ORALCE PSU/OJVM 等补丁自动安装) ⭐️ 脚本下载地址:Shell脚本安装Oracle数据库 脚…

使用paho.mqtt.client实现MQTT Client连接EMQX Broker

目录 概述 1 认识paho.mqtt.client 2 实现MQTT Client 2.1 功能介绍 2.2 paho.mqtt.client库函数介绍 2.3 MQTT Client实现 2.3.1 创建项目 2.3.2 编写MQTT Client代码 2.3.3 Log工具源码 2.4 功能测试代码实现 2.4.1 功能介绍 2.4.2 代码实现 3 测试 3.1 EMQX上创…

学点儿Java_Day6_面向对象:类、封装、构造方法

1 类 1.1 定义 类:对现实世界中事物的抽象。Student 对象:现实世界中具体的个体。张三、李四 这些具体的学生 面向对象的特征:抽象、封装、继承、多态 OOP: Object Oriented Programming 类和对象的总结: 1、现实世界都是由很多…

语音识别教程:Whisper

语音识别教程:Whisper 一、前言 最近看国外教学视频的需求,有些不是很适应,找了找AI字幕效果也不是很好,遂打算基于Whisper和GPT做一个AI字幕给自己。 二、具体步骤 1、安装FFmpeg Windows: 进入 https://github.com/BtbN/FF…

python爬虫学习第二天----类型转换

🎈🎈作者主页: 喔的嘛呀🎈🎈 🎈🎈所属专栏:python爬虫学习🎈🎈 ✨✨谢谢大家捧场,祝屏幕前的小伙伴们每天都有好运相伴左右,一定要天天…

C语言 指针练习

一、 a、b是两个浮点型变量&#xff0c;给a、b赋值&#xff0c;建立两个指针分别指向a的地址和b的地址&#xff0c;输出两个指针的值。 #include<stdio.h> int main() {float a,b,*p1,*p2;a10.2;b2.3;p1&a;p2&b;printf("a%f,b%f\n",a,b);printf("…

墨菲安全在软件供应链安全领域阶段性总结及思考

向外看&#xff1a;墨菲安全在软件供应链安全领域的一些洞察、思考、行动 洞察 现状&挑战&#xff1a; 过去开发安全体系是无法解决软件供应链安全问题的&#xff1b;一些过去专注开发安全领域的厂商正在错误的引导行业用开发安全思维解决软件供应链安全问题&#xff0c;治…

ResNet目标检测算法实现交通灯分类

红绿灯识别方案&#xff1a;https://zhuanlan.zhihu.com/p/674791906 目录 一、制作数据集二、ResNet算法三、pytorch转onnx文件四、onnx推理测试五、onnx转mnn 一、制作数据集 1、数据集划分 将红绿灯数据集大文件夹中不同类别的小文件夹中的图片按照9&#xff1a;1进行划分…

【Flutter】文件选择器(file_picker)的用法

Flutter 没有提供内置的文件选择器&#xff0c;但社区内有人贡献了一个比较完整的解决方案——file_picker。 file_picker 的 API 简洁易用&#xff0c;支持全平台&#xff08;Android / iOS / Mac / Linux / Windows&#xff09;&#xff0c;是我开发桌面应用时的首选。 这边…

MySql实战--一条SQL查询语句是如何执行的?

平时我们使用数据库&#xff0c;看到的通常都是一个整体。比如&#xff0c;你有个最简单的表&#xff0c;表里只有一个ID字段&#xff0c;在执行下面这个查询语句时&#xff1a; select * from T where ID10&#xff1b; 我们看到的只是输入一条语句&#xff0c;返回一个结果…

Chain of Note-CoN增强检索增强型语言模型的鲁棒性

Enhancing Robustness in Retrieval-Augmented Language Models 检索增强型语言模型&#xff08;RALMs&#xff09;在大型语言模型的能力上取得了重大进步&#xff0c;特别是在利用外部知识源减少事实性幻觉方面。然而&#xff0c;检索到的信息的可靠性并不总是有保证的。检索…

阿里云99元服务器40G ESSD Entry系统盘够用吗?

阿里云99元服务器40G ESSD Entry云盘够用吗&#xff1f;够用&#xff0c;操作系统占15GB左右&#xff0c;还有25G富余。如果是40G ESSD Entry系统盘不够用&#xff0c;还可以为云服务器另外挂载数据盘&#xff0c;所以不用担心40G系统盘不够用。可以在阿里云CLUB中心查看 aliyu…

基于SpringBoot实现WebSocket实时通讯的服务端和客户端

实现功能 服务端注册的客户端的列表&#xff1b;服务端向客户端发送广播消息&#xff1b;服务端向指定客户端发送消息&#xff1b;服务端向多个客户端发送消息&#xff1b;客户端给服务端发送消息&#xff1b; 效果&#xff1a; 环境 jdk&#xff1a;1.8 SpringBoot&#x…

some/ip CAN CANFD

关于SOME/IP的理解 在CAN总线的车载网络中&#xff0c;通信过程是面向信号的 当ECU的信号的值发生了改变&#xff0c;或者发送周期到了&#xff0c;就会发送消息&#xff0c;而不考虑接收者是否需要&#xff0c;这样就会造成总线上出现不必要的信息&#xff0c;占用了带宽 …

get_local_ip.bat:快速获取IPv4地址

批处理脚本&#xff0c;用于在Windows命令提示符下获取本地计算机的IPv4地址。 echo off ipconfig | findstr IPv4 pause - echo off&#xff1a;这会关闭命令提示符窗口中的命令回显&#xff0c;使得在运行脚本时不会显示每条命令的执行结果。 - ipconfig&#xff1a;这是一…

流畅的 Python 第二版(GPT 重译)(十三)

第二十四章&#xff1a;类元编程 每个人都知道调试比一开始编写程序要困难两倍。所以如果你在编写时尽可能聪明&#xff0c;那么你将如何调试呢&#xff1f; Brian W. Kernighan 和 P. J. Plauger&#xff0c;《编程风格的要素》 类元编程是在运行时创建或自定义类的艺术。在 P…

元素定位之xpath和css

元素定位 xpath绝对路径相对路径案例xpath策略&#xff08;路径&#xff09;案例xpath策略&#xff08;层级、扩展&#xff09;属性层级与属性层级与属性拓展层级与属性综合 csscss选择器&#xff08;id、类、标签、属性&#xff09;id选择器类选择器标签选择器属性选择器案例-…

按面积筛选填充二值图中的孔洞-python源码

目录 &#x1f64b;&#x1f64b;需求 &#x1f345;&#x1f345;解决方案 &#x1f64b;&#x1f64b;需求 前提条件是二值图中0是背景&#xff0c;255是前景。 二值化后的影像中有很多小孔洞&#xff0c;现在需要按孔洞面积进行筛选&#xff0c;填充面积小于阈值的孔洞&…