2. KNN分类算法与鸢尾花分类任务

鸢尾花分类任务

  • 1. 鸢尾花分类步骤
    • 1.1 分析问题,搞定输入和输出
    • 1.2 每个类别各采集50朵花
    • 1.3 选择一种算法,完成输入到输出的映射
    • 1.4 第四步:部署,集成
  • 2. KNN算法原理
    • 2.1 基本概念
    • 2.2 核心理念
    • 2.3 训练
    • 2.4 推理流程
  • 3. 使用 sklearn 完成分类任务
    • 3.1 代码实现
    • 3.2 输出结果
  • 4. 距离度量
      • 计算内积
      • 计算模
      • 计算余弦相似度

上一篇博客:1.人工智能核心概念

1. 鸢尾花分类步骤

1.1 分析问题,搞定输入和输出

  • 输入:花;
  • 输出:类别
  • 如何数字化一个实体(entity)?
    • 用这个实体的特征/属性来刻画这个实体!!!
    • 四个属性:花瓣长,花瓣宽,花萼长,花萼宽
  • 输出:从零开始编号:0, 1, 2 …(zero index),鸢尾花一共3类
  • 一个样本:花瓣长,花瓣宽,花萼长,花萼宽,类别编号

1.2 每个类别各采集50朵花

  • 花瓣长1,花瓣宽1,花萼长1,花萼宽1,类别编号1
  • 花瓣长2,花瓣宽2,花萼长2,花萼宽2,类别编号2
  • 花瓣长3,花瓣宽3,花萼长3,花萼宽3,类别编号3
  • 花瓣长150,花瓣宽150,花萼长150,花萼宽150,类别编号150

1.3 选择一种算法,完成输入到输出的映射

  • 分类算法
    • KNN:K紧邻算法
    • GNB:高斯贝叶斯
    • DT:决策树算法
    • SVM:支持向量机
    • RF:随机森林算法
    • 集成学习算法

1.4 第四步:部署,集成

2. KNN算法原理

2.1 基本概念

  • KNN: K-Nearest Neighbors K个最近的邻居,所以也叫 K-近邻 算法

2.2 核心理念

  • 近朱者赤,近墨者黑
  • 跟什么样的人在一起,你就会变成什么样的人!!!

2.3 训练

  • 惰性计算算法
  • 规则 + 数据,不是严格意义上的人工智能算法

2.4 推理流程

  • 给定一朵花,如何判定它是第几类?
  • 第一步:找出这朵花 K 个最近的邻居(最好的兄弟,闺蜜)
    • 相似度的度量
      几何视角: 1. 欧式空间,距离计算,2. 勾股定理
      • 向量视角:1. 余弦相似度
  • 第二步:K个邻居进行投票,选出类别出现次数最多的类

3. 使用 sklearn 完成分类任务

3.1 代码实现

  • knn_demo
from sklearn.datasets import load_iris
# 加载数据
X,y = load_iris(return_X_y=True)
print(X.shape,y.shape)
# 数据集切分
from sklearn.model_selection import train_test_split
# 参数:shuffle=True:打乱数据集,random_state=0 指定随机种子,方便复现结果
X_train,X_test,y_train,y_test =  train_test_split(X,y,test_size=0.2,shuffle=True,random_state=0)

# 引入一个模型
from sklearn.neighbors import KNeighborsClassifier  
# 1.构建模型
knn=KNeighborsClassifier(n_neighbors=3)
# 2.训练模型
knn.fit(X_train,y_train)
# 3.预测
y_pred=knn.predict(X_test)
print(y_pred)
print(y_test)
print(y_pred==y_test)
# 4.评估模型
acc = (y_pred==y_test).mean()
print(acc)


# 决策树
from sklearn.tree import DecisionTreeClassifier
# 构建模型
dtc = DecisionTreeClassifier()
# 训练模型
dtc.fit(X_train,y_train)
# 预测
y_pred = dtc.predict(X_test)
# 评估模型
acc = (y_pred==y_test).mean()
print(acc)

# 支持向量机
from sklearn.svm import SVC
svc = SVC()
svc.fit(X_train,y_train)
y_pred = svc.predict(X_test)    
acc = (y_pred==y_test).mean()
print(acc)


# 以下是自己手动写一个KNN的过程
import joblib
joblib.dump(value=knn, filename="knn.aura")

class MyKNeighborsClassifier(object):
    """
        自定义KNN分类器算法
    """
    def __init__(self, n_neighbors=5):
        """
            初始化方法:
                - 输入:
                    - 超参 Hyper-Parameter(人为置顶的,不是系统学习的)
                - 输出:
                    - 没有输出
        """
        # 超参设置
        self.n_neighbors = n_neighbors
        
    
    def fit(self, X, y):
        """
            训练过程
             - 输入:
                 - X:训练集的特征(矩阵)
                 - y:训练集的标签(向量)
            - 输出:
                - 无输出
        """
        import numpy as np
        
        # 类型转换
        X = np.array(X)
        y = np.array(y)
        
        # 形状校验
        if X.ndim != 2 or y.ndim != 1 or X.shape[0] != y.shape[0]:
            raise ValueError("入参有误")
        
        # 把训练集挂载到模型上
        self.X = X
        self.y = y
    
    def predict(self, X):
        """
            预测过程:
                - 输入:
                    - X:待预测的样本的特征(批量)
                - 输出:
                    - y:预测的类别
        """
        import numpy as np
        from collections import Counter
        
        # 类型转换
        X = np.array(X)
        
        # 形状校验
        if X.ndim != 2 or X.shape[1] != self.X.shape[1]:
            raise ValueError("入参有误")
        
        # 推理过程
        results = []
        for x in X:
            distances = np.sqrt(((self.X - x) ** 2).sum(axis=-1))
            idxes = np.argsort(distances)[:self.n_neighbors]
            labels = self.y[idxes]
            label = Counter(labels).most_common(1)[0][0]
            results.append(label)
        return np.array(results)

# 1, 构建模型
my_knn = MyKNeighborsClassifier()

# 2,训练
my_knn.fit(X=X_train, y=y_train)

# 3, 预测
y_pred = my_knn.predict(X=X_test)

print(y_pred)
print(y_test)

acc = (y_pred == y_test).mean()
print(acc)
  • 模型部署
import joblib
knn = joblib.load(filename="knn.aura")

# 预测  数据都是批量预测的,所以要写成二维结构,就算是一个数据,也要假装是多个
import numpy as np
X = np.array([[6.3,3.3,6.,2.5]])
print(X.shape)
result = knn.predict(X=X)
print(result)

3.2 输出结果

在这里插入图片描述

4. 距离度量

计算内积

计算模

计算余弦相似度

import numpy as np
a = np.array([2, 5])
b = np.array([1, 8])
d = np.sqrt(((a - b) ** 2).sum())
d

3.1622776601683795

# 手动计算 a 和 b 的内积
(a * b).sum()

42

# 计算内积更优雅的方式
a @ b

42

# 这样也能计算内积
np.dot(a, b)

42

# 同样是计算内积
a.dot(b)

42

# 手动计算 a 的模
np.sqrt((a ** 2).sum())

5.385164807134504

# 计算 a 的模更优雅的方式,使用 numpy 效率更高
np.linalg.norm(a)

5.385164807134504

# 余弦相似度
cosine_similarity = a @ b / np.linalg.norm(a) / np.linalg.norm(b)
cosine_similarity

0.9673722233802454

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/802123.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Word参考文献交叉引用

前言 Word自带交叉引用功能,可在正文位置引用文档内自动编号的段落,同时创建超链接,适用于参考文献的引用。使用此方法对参考文献进行引用后,当参考文献的编号发生变化时,只需要更新域即可与正文中的引用相对应。下文…

vue3+TS从0到1手撸后台管理系统

1.路由配置 1.1路由组件的雏形 src\views\home\index.vue(以home组件为例) 1.2路由配置 1.2.1路由index文件 src\router\index.ts //通过vue-router插件实现模板路由配置 import { createRouter, createWebHashHistory } from vue-router import …

【15】Android基础知识之Window(一)

概述 这篇文章纠结了很久,在想需要怎么写?因为window有关的篇幅,如果需要讲起来那可太多了。从层级,或是从关联,总之不是很好开口。这次也下定决心,决定从浅入深的讲讲window这个东西。 Window Window是…

鸿蒙特色物联网实训室

一、 引言 在当今这个万物皆可连网的时代,物联网(IoT)正以前所未有的速度改变着我们的生活和工作方式。它如同一座桥梁,将实体世界与虚拟空间紧密相连,让数据成为驱动决策和创新的关键力量。随着物联网技术的不断成熟…

Qt Creator的好用的功能

(1)ctrlf: 在当前文档进行查询操作 (2)f3: 找到后,按f3,查找下一个 (3)shiftf3: 查找上一个 右键菜单: (4)f4:在…

solidity实战练习3——荷兰拍卖

//SPDX-License-Identifier:MIT pragma solidity ^0.8.24; interface IERC721{function transFrom(address _from,address _to,uint nftid) external ; }contract DutchAuction { address payable immutable seller;//卖方uint immutable startTime;//拍卖开始时间uint immut…

钡铼Modbus TCP耦合器BL200实现现场设备与SCADA无缝对接

前言 深圳钡铼技术推出的Modbus TCP耦合器为SCADA系统与现场设备之间的连接提供了强大而灵活的解决方案,它不仅简化了设备接入的过程,还提升了数据传输的效率和可靠性,是工业自动化项目中不可或缺的关键设备。本文将从Modbus TC、SCADA的简要…

基于Ubuntu2204搭建openstack-Y版-手动搭建

openstack手搭Y版 基础环境配置离线环境时间同步(双节点)安装openstack客户端数据库服务消息队列服务缓存服务 keystone服务部署glance服务部署placement服务部署nova服务部署controllercompute neutron服务部署controller节点配置neutron.conf文件配置m…

leetcode-349.两个数组的交集

题源 349.两个数组的交集 题目描述 给定两个数组 nums1 和 nums2 ,返回 它们的 交集 。输出结果中的每个元素一定是 唯一 的。我们可以 不考虑输出结果的顺序 。 示例 1: 输入:nums1 [1,2,2,1], nums2 [2,2] 输出:[2] 示例…

权威认可 | 海云安开发者安全助手系统通过信通院支撑产品功能认证并荣获信通院2024年数据安全体系建设优秀案例

近日,2024全球数字经济大会——数字安全生态建设专题论坛(以下简称“论坛”)在京成功举办。由全球数字经济大会组委会主办,中国信息通信研究院及公安部第三研究所共同承办,论坛邀请多位专家和企业共同参与。 会上颁发…

android预置apk

在framework开发中,有一些需求是需要预装应用的,有些是预置应用源码,有些是预置apk。今天我们就分享下怎样预置apk 一般系统有自定义的目录,比如我的项目中根目录下有一个文件夹vendor,这里没都是自定义的一些功能。预…

Redis系列命令更新--Redis列表命令

Redis列表 1、Redis Blpop命令: (1)说明:Redis Blpop命令移出并获取列表的第一个元素;如果列表没有元素会阻塞列表直到等到超时或发现可弹出元素为止 (2)语法:redis 127.0.0.1:63…

leetcode-三数之和

视频:https://www.bilibili.com/video/BV1bP411c7oJ/?spm_id_from333.788&vd_sourcedd84879fcf1be72f360461b01ecab0d6 从两数之和开始,排序后的两数之和,利用好升序的性质,可以将时间复杂度从on2降到on; class Solution …

「AI得贤招聘官」通过首批“AI产业创新场景应用案例”评估

近日,上海近屿智能科技有限公司的「AI得贤招聘官」,经过工业和信息化部工业文化发展中心数字科技中心的严格评估,荣获首批“AI产业创新场景应用案例”。 据官方介绍,为积极推进通用人工智能产业高质量发展,围绕人工智能…

自适应简约大气科技数码产品公司网站源码系统 模版一键搭建 可自定义带源代码包以及搭建部署教程

系统概述 在当今这个数字化、信息化的时代,科技数码产品行业正处于高速发展的黄金时期。为了在这个竞争激烈的市场中脱颖而出,科技数码产品公司不仅需要拥有卓越的产品和技术,还需要一个能够完美展现其品牌形象和产品特色的网站。为此&#…

【数据结构】算法复杂度

算法复杂度 数据结构算法复杂度 大o渐进表示法空间复杂度 数据结构 数据结构:是计算机存储和组织数据的方式。 比如打开一个网页,我们看到的文字就是数据,这些数据需要用一个结构来把他管理起来,我们称之为:数据结构 …

2024-07-12升级问题:Android SDK升级导致 Canvas.FULL_COLOR_LAYER_SAVE_FLAG 等标志位无法使用

Canvas.FULL_COLOR_LAYER_SAVE_FLAG 是一个标志位,用于在 Android 的 Canvas 类中保存画布的颜色层。当使用 saveLayer() 方法时,可以传递这个标志位来指示保存整个颜色层。这样,在恢复画布状态时,颜色层也会被恢复。 工程从Andr…

EasyAnimate-v3版本支持I2V及超长视频生成

阿里云人工智能平台(PAI)自研开源的视频生成项目EasyAnimate正式发布v3版本: 支持 图片(可配合文字) 生成视频 支持 上传两张图片作为起止画面 生成视频 最大支持720p(960*960分辨率) 144帧视…

使用 Python 爬虫实现自动获取天气信息并语音播报

简介 在本文中,我将介绍如何使用 Python 编写一个简单的爬虫程序,该程序可以自动获取某个城市的天气信息,并使用语音库将这些信息播报出来。我们将使用 pyttsx3 库进行语音播报,以及 requests 和 lxml 库来获取和解析网页数据。 …

Unity不用脚本实现点击按钮让另外一个物体隐藏

1.首先在场景中创建一个按钮和一个其他随便什么东西 2.点击按钮中的这个加号 3.然后将刚刚你创建的物体拖到这里来 4.然后依次点击下面这些给按钮绑定事件 5.运行游戏并点击按钮,就会发现拖进来的物体消失了 总结:如果按钮的功能单一,可以使用…