【监督学习】K 邻近算法步骤及matlab实现

K 邻近算法

    • (三)K 邻近算法
      • 1.算法步骤
      • 2. MATLAB 实现
      • 参考资料

(三)K 邻近算法

K 近邻算法(KNN,K-Nearest Neighbors)是一种简单且直观的监督学习方法,可用于分类和回归任务。它的工作原理是基于距离度量来找到与待预测样本最接近的K个训练样本,并根据这些“邻居”的信息来进行预测。KNN 的特点:

  • 非参数化方法:KNN 不假设数据服从任何特定的概率分布形式,因此适用于多种不同类型的数据集;
  • 懒惰学习:KNN 在训练阶段不做太多工作,只是简单地存储训练样本;所有的计算都在预测时进行;
  • 易于理解和实现:算法逻辑直接,容易上手。
    K 近邻算法根据不同的 K 的分类情况

1.算法步骤

开始
数据准备: 加载数据集
划分训练集和测试集如: 80%训练, 20%测试
是否需要数据标准化?
数据标准化
计算距离: 测试样本与所有训练样本的距离
选择距离度量如: 欧氏距离, 曼哈顿距离
计算并存储所有距离
排序与选择: 按距离升序排序, 选择前K个最近邻
投票决策: 统计前K个样本的类别标签, 多数表决
输出结果: 返回预测类别
结束
  1. 数据准备

    • 目标:确保数据格式正确,划分为训练集和测试集;
    • 关键步骤
      • 标准化:若特征量纲差异大,需标准化(如 Z-score)以避免距离计算偏差;
      • 划分数据集:通常按比例(如 8:2)随机分割,避免过拟合。
  2. 计算距离

    • 目标:量化测试样本与训练样本的相似性。
    • 常用距离公式
      • 欧氏距离(默认): d = ∑ i = 1 n ( x i − y i ) 2 d=\sqrt{\sum_{i=1}^{n}(x_i-y_i)^2} d=i=1n(xiyi)2
      • 曼哈顿距离 d = ∑ i = 1 n ∣ x i − y i ∣ d=\sum_{i=1}^{n}\lvert x_i-y_i \lvert d=i=1nxiyi
    • 实现:对每个测试样本,计算与所有训练样本的距离。
  3. 排序与选择

    • 目标:找到距离最近的 K 个样本;
    • 操作
      • 对距离数组升序排序;
      • 提取前 K 个样本的索引和标签。
  4. 投票决策

    • 目标:根据 K 个最近邻的标签确定预测类别;
    • 规则:多数表决(出现平票时可随机选择或加权投票)。
  5. 输出结果

    • 返回测试样本的预测标签。

2. MATLAB 实现

某电商平台希望根据客户的 历史行为数据 将其分为 高价值中价值低价值 三类,以便差异化运营。数据特征包括:

  • 最近购买天数(Recency)
  • 过去一年购买次数(Frequency)
  • 过去一年消费总额(Monetary)
  • 平均浏览时长(分钟)

目标变量:客户价值标签( 0=低价值1=中价值2=高价值
K 邻近算法分类客户价值

%% K 邻近算法根据历史行为数据判断客户价值
clc; clear; close all;

%% 1. 生成模拟电商数据(修正标签逻辑)
rng(42); 
num_customers = 1000;

% 生成特征数据(三类客户)
Recency = [abs(randn(300,1)*30 + 10);       % 高价值客户(标签2)
           abs(randn(400,1)*60 + 50);      % 中价值客户(标签1)
           abs(randn(300,1)*100 + 80)];    % 低价值客户(标签0)
Frequency = [abs(randn(300,1)*3 + 12);
             abs(randn(400,1)*5 + 8);
             abs(randn(300,1)*7 + 3)];
Monetary = [abs(randn(300,1)*0.3 + 2.5);
            abs(randn(400,1)*0.5 + 1.5);
            abs(randn(300,1)*0.8 + 0.5)];
BrowsingTime = [abs(randn(300,1)*5 + 20);
                abs(randn(400,1)*8 + 15);
                abs(randn(300,1)*10 + 5)];

% 合并特征并添加标签(三分类)
X = [Recency, Frequency, Monetary, BrowsingTime];
y = [2*ones(300,1);    % 高价值(标签2)
      ones(400,1);     % 中价值(标签1)
      zeros(300,1)];   % 低价值(标签0)

% 打乱数据顺序
shuffle_idx = randperm(num_customers);
X = X(shuffle_idx, :);
y = y(shuffle_idx);

%% 2. 数据标准化(强制标准化)
X_scaled = zscore(X); 

%% 3. 划分训练集与测试集(80%训练,20%测试)
train_ratio = 0.8;
train_size = floor(train_ratio * num_customers);
X_train = X_scaled(1:train_size, :);
y_train = y(1:train_size);
X_test = X_scaled(train_size+1:end, :);
y_test = y(train_size+1:end);

%% 4. 手动实现KNN算法
K = 15; % 近邻数
distance_metric = 'euclidean'; % 距离度量
y_pred = zeros(size(y_test));

for i = 1:size(X_test,1)
    % 计算距离(与所有训练样本)
    if strcmp(distance_metric, 'euclidean')
        distances = sqrt(sum((X_train - X_test(i,:)).^2, 2));
    elseif strcmp(distance_metric, 'manhattan')
        distances = sum(abs(X_train - X_test(i,:)), 2);
    end
    
    % 按距离排序并选择前K个
    [~, sorted_idx] = sort(distances);
    k_nearest_indices = sorted_idx(1:K);
    
    % 投票决策(多数表决)
    k_labels = y_train(k_nearest_indices);
    [unique_labels, ~, label_counts] = unique(k_labels);
    [max_count, max_idx] = max(histcounts(label_counts, length(unique_labels)));
    y_pred(i) = unique_labels(max_idx);
end

%% 5. 模型评估
% 计算准确率
accuracy = sum(y_pred == y_test) / numel(y_test);
fprintf('模型准确率: %.2f%%\n', accuracy * 100);

% 绘制混淆矩阵
classes = unique(y);
conf_mat = zeros(length(classes));
for i = 1:length(classes)
    for j = 1:length(classes)
        conf_mat(i,j) = sum(y_test == classes(i) & y_pred == classes(j));
    end
end

% 可视化混淆矩阵
figure;
imagesc(conf_mat);
colormap(jet);
colorbar;
xticks(1:length(classes));
yticks(1:length(classes));
xticklabels({'低价值','中价值','高价值'});
yticklabels({'低价值','中价值','高价值'});
xlabel('预测类别');
ylabel('真实类别');
title(['KNN分类混淆矩阵(K=',num2str(K),',模型准确率:',num2str(accuracy * 100),'%)']);

% 添加数值标签
for i = 1:length(classes)
    for j = 1:length(classes)
        text(j, i, num2str(conf_mat(i,j)),...
            'HorizontalAlignment', 'center',...
            'Color', 'white');
    end
end

参考资料

[1][5分钟学算法] #01 k近邻法_哔哩哔哩_bilibili
[2]【小萌五分钟】机器学习 | K近邻算法 KNN_哔哩哔哩_bilibili
[3]KNN简介_哔哩哔哩_bilibili

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/979122.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

音视频-WAV格式

1. WAV格式说明: 2. 格式说明: chunkId:通常是 “RIFF” 四个字节,用于标识文件类型。(wav文件格式表示)chunkSize:表示整个文件除了chunkId和chunkSize这 8 个字节外的其余部分的大小。Forma…

学习threejs,使用ShaderMaterial自定义着色器材质

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:threejs gis工程师 文章目录 一、🍀前言1.1 ☘️THREE.ShaderMaterial1.1.1…

Selenium自动化测试框架快速搭建

🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 一、介绍 Selenium目前主流的web自动化测试框架;支持多种编程语言Java、pythan、go、js等;selenium 提供一系列的api 供我们使用&#xf…

【文献阅读】A Survey on Hardware Accelerators for Large Language Models

大语言模型硬件加速器综述 大语言模型(LLMs)已成为自然语言处理任务的强大工具,凭借其理解和生成类似人类文本的能力,彻底改变了该领域。随着对更复杂大语言模型的需求持续增长,迫切需要应对与其规模和复杂性相关的计…

机器幻觉产生的原因

机器幻觉是指模型生成的不符合现实的内容,比如图像生成中的错误或者不合理的输出。 线性函数在神经网络中的作用通常是传递梯度,但如果每一层都是线性的,整个网络就相当于一个单层的线性模型,无法学习复杂的模式。所以如果只有线性…

python-leetcode-颜色分类

75. 颜色分类 - 力扣&#xff08;LeetCode&#xff09; class Solution:def sortColors(self, nums: List[int]) -> None:"""Do not return anything, modify nums in-place instead."""low, mid, high 0, 0, len(nums) - 1while mid < h…

如何使用LLDB 在VSCode调试C++代码

LLDB VSCode调试 第一步.拷贝lldb-server到android系统 adb push ${NDK_PATH}/toolchains/llvm/prebuilt/darwin-x86_64/lib64/clang/9.0.9/lib/linux/arm/lldb-server /data/local/tmp/lldb-server第二步.进入到安卓设备&#xff0c;打开lldb-server adb shell cd /data/lc…

2025中建二测笔试考什么?北森题库考点复习|附精华备考面试攻略

大家好&#xff0c;我是职小豚&#xff0c;将为大家详细解析2025年中建二测的笔试内容&#xff0c;并提供备考面试的全方位攻略。 希望这份指南能帮助大家在求职路上更加顺利&#xff01; 一、中国建筑集团公司介绍 中国建筑集团有限公司&#xff08;简称“中建集团”&#…

GD32F450 使用

GB32F450使用 1. 相关知识2. 烧写程序3. SPI3.1 spi基础3.2 spi代码 4. 串口4.1 串口引脚4.2 串口通信代码 问题记录1. 修改晶振频率 注意&#xff1a;GD32F450 总共有三种封装形式&#xff0c;本文所述的相关代码和知识&#xff0c;均为 GD32F450IX 系列。 1. 相关知识 参数配…

Spring Boot 测试:单元、集成与契约测试全解析

一、Spring Boot 分层测试策略 Spring Boot 应用采用经典的分层架构&#xff0c;不同层级的功能模块对应不同的测试策略&#xff0c;以确保代码质量和系统稳定性。 Spring Boot 分层架构&#xff1a; Spring Boot分层架构 A[客户端] -->|HTTP 请求| B[Controller 层] …

(十 三)趣学设计模式 之 模版方法模式!

目录 一、 啥是模板方法模式&#xff1f;二、 为什么要用模板方法模式&#xff1f;三、 模板方法模式的实现方式四、 模板方法模式的优缺点五、 模板方法模式的应用场景六、 总结 &#x1f31f;我的其他文章也讲解的比较有趣&#x1f601;&#xff0c;如果喜欢博主的讲解方式&a…

汽车刹车系统设计

摘 要 本次设计内容为汽车刹车系统&#xff0c;其可靠性与驾驶人的生命息息相关&#xff0c;是汽车所有组成部分中最重要的一环。刹车系统是在车辆行驶过程中出现紧急情况时首先保护车辆与驾驶人员安全的反应系统&#xff0c;工作原理是依靠制动装置工作时产生的大量摩擦力来抵…

卷积神经网络梯度下降方向与参数更新方向的一致性论述

梯度下降是一种常用的优化算法&#xff0c;用于最小化损失函数&#xff0c;在机器学习和深度学习领域有着广泛的应用。分别对梯度下降、梯度方向以及参数更新采用负梯度方向的原因进行论述。 1.梯度下降 它的基本思想是通过迭代的方式来更新模型的参数&#xff0c;使得损失函数…

Starrocks入门(二)

1、背景&#xff1a;考虑到Starrocks入门这篇文章&#xff0c;安装的是3.0.1版本的SR&#xff0c;参考&#xff1a;Starrocks入门-CSDN博客 但是官网的文档&#xff0c;没有对应3.0.x版本的资料&#xff0c;却有3.2或者3.3或者3.4或者3.1或者2.5版本的资料&#xff0c;不要用较…

可以免费无限次下载PPT的网站

前言 最近发现了一个超实用的网站&#xff0c;想分享给大家。 在学习和工作的过程中&#xff0c;想必做PPT是一件让大家都很头疼的一件事。 想下载一些PPT模板减少做PPT的工作量&#xff0c;但网上大多精美的PPT都是需要付费才能下载使用。 即使免费也有次数限制&#xff0…

[Java基础] JVM常量池介绍(BeanUtils.copyProperties(source, target)中的属性值引用的是同一个对象吗)

文章目录 1. JVM内存模型2. 常量池中有什么类型&#xff1f;3. 常量池中真正存储的内容是什么4. 判断一个字符串(引用)是否在常量池中5. BeanUtils.copyProperties(source, target)中的属性值引用的是同一个对象吗&#xff1f;6. 获取堆内存使用情况、非堆内存使用情况 1. JVM内…

DeepSeek模型昇腾部署优秀实践

2024年12月26日&#xff0c;DeepSeek-V3横空出世&#xff0c;以其卓越性能备受瞩目。该模型发布即支持昇腾&#xff0c;用户可在昇腾硬件和MindIE推理引擎上实现高效推理&#xff0c;但在实际操作中&#xff0c;部署流程与常见问题困扰着不少开发者。本文将为你详细阐述昇腾 De…

python编写liunx服务器登陆自动巡检脚本

前言&#xff1a; 用户需要一份用Python编写的Linux系统巡检脚本&#xff0c;检查内存、磁盘、CPU使用率&#xff0c;还有网络连通性。 首先&#xff0c;我得确定用户的使用场景。可能用户是系统管理员&#xff0c;需要定期监控服务器状态&#xff0c;确保系统正常运行。 或者…

鸿蒙 ArkUI 实现敲木鱼小游戏

敲木鱼是一款具有禅意的趣味小游戏&#xff0c;本文将通过鸿蒙 ArkUI 框架的实现代码&#xff0c;逐步解析其核心技术点&#xff0c;包括动画驱动、状态管理、音效震动反馈等。 一、架构设计与工程搭建 1.1 项目结构解析 完整项目包含以下核心模块&#xff1a; ├── entry…

ShenNiusModularity项目源码学习(14:ShenNius.Infrastructure项目分析)

ShenNius.Infrastructure项目用于定义ShenNius.Admin.Mvc项目和ShenNius.Admin.API项目共用的特性类、数据操作接口实现类、上下文类、通讯类&#xff0c;主要文件的用途如下&#xff1a;   Attributes文件夹保存特性类或过滤器类定义&#xff0c;主要包括&#xff1a;   …