机器学习1一knn算法

1.基础知识点介绍

曼哈顿距离一般是比欧式距离长的除非在一维空间

拐弯的就是曼哈顿距离

Knn查看前5行数据head(),info看空非空

查看特征对应的类型

Head()默认前5行,head(3)就是前3行数据

Unique()可以查看分类后的结果

csv的数据应该是逗号分隔,但也不确定,要去查看数据不要只看拓展名要点进去看一下

这个删掉没有把原数据删掉

如果把原数据删掉加上inplace=true

#练习1 导入数据分析三剑客
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
#导入KNN算法
#sklearn机器学习库,KNeighborsClassifier :KNN分类器
from sklearn.neighbors import KNeighborsClassifier

### 1. k-近邻算法原理
#简单地说,K-近邻算法采用测量不同特征值之间的距离方法进行分类(K-Nearest Neighbor,KNN)
##### 工作原理 **欧几里得距离(Euclidean Distance)**欧氏距离是最常见的距离度量,衡量的是多维空间中各个点之间的绝对距离。
knn优缺点

#- 优点:精度高、对异常值不敏感。
#- 缺点:时间复杂度高、空间复杂度高。
#### 2. 在scikit-learn库中使用k-近邻算法
#- 分类问题:from sklearn.neighbors import KNeighborsClassifier

#- 回归问题:from sklearn.neighbors import KNeighborsRegressor
#导入电影数据
movie=pd.read_excel('../data/movies.xlsx',sheet_name=1)
movie
#中文不可以训练,电影名称从业务的角度也不能拿来训练
data=movie[['武大镜头','接吻镜头']].copy()
data #必须是二维数据
# target (label) 标签,标记,目标结果
target=movie.分类情况
target
data.shape,target.shape
# 使用KNN算法

# 1. 创建KNN对象
# n_neighbors=5 : K=5,会找最近的5个近邻
# p=2:默认值,表示使用欧式距离,p=1表示曼哈顿距离
knn=KNeighborsClassifier(n_neighbors=5,p=2)
knn
# 2. 训练 : 训练历史数据
#  数据: 
#     训练数据: 用来训练
#     测试数据:或验证数据,用来测试或验证模型的好坏

# X :必须是二维数据
# y :结果,一般是一维
knn.fit(X=data,y=target)
data
# 3. 预测新数据
# 提供测试数据
X_test=np.arry([[50, 1], [1, 20], [30, 1], [2, 10], [20, 10]])
X_test=pd.DataFrame(X_test,columns=data.columns)
y_test=np.array(['动作片', '爱情片', '动作片', '爱情片', '动作片'])
# 预测:predict
y_pred=knn.predict(X_test)
y_pred
# 4. 计算得分: 准确率
knn.score(X_test,y_test)
总结:# 数据
#     data, target : 一般表示全部数据

#  训练数据
#   X_train : 训练集中的数据
#   y_train :训练集中的数据对应的结果
#  
# 预测数据
#   X_test : 测试集中的数据
#   y_test : 测试集中的数据对应的真实结果
#   y_pred : 测试集中的数据对应的预测结果

#from sklearn.datasets:提供现成的数据集,主要用来学习和测试

#导入数据
import pandas as pd 
import numpy as np 
from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier 
iris=load_iris()
iris
data=iris['data']
target=iris['target']
target_names=iris['target_names']
feature_names=iris['feature_names']
data.shape,target.shape
target
target_names
feature_names
pd.DataFrame(data,columns=feature_names)
#拆分数据集
from sklearn.model_selection import train_test_split

# test_size 有2种写法:
#   1. int整数,那么就表示使用这么多的数据作为测试数据
#   2. float小数,0-1之间,测试数据占所有数据的比重, 比如:0.2 = 150*20% = 20

# 训练数据: X_train, y_train
# 测试数据: X_test, y_test
x_train,x_test,y_train,y_test=train_test_split(data,target,test_size=0.2)
display(x_train.shape,x_test.shape)
#使用knn算法knn = KNeighborsClassifier()
#1.创建knn
knn=KNeighborsClassifier()
#2.训练
knn.fit(x_train,y_train)
#3.预测
y_pred=knn.predict(x_test)
y_pred
#得分
knn.score(x_test,y_test)
#4. 拆分数据集:训练数据和预测数据
#    - train_test_split
import numpy as np
import pandas as pd
#import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier
x_train,x_test,y_train,y_test=train_test_split(data,target,test_size=0.2)
x_train.shape,x_test.shape
#使用knn算法
knn=KNeighborsClassifier()
knn.fit(x_train,y_train)
#预测
knn = KNeighborsClassifier()
knn.fit(x_train,y_train)
#预测
knn.predict(x_test)
#得分
knn.score(x_test,y_test)
#6. 保存训练模型  
#    - import joblib
#    - 保存模型: joblib.dump(knn, 'knn.plk')
#   - 导入模型: joblib.load('knn.plk')
import joblib
joblib.dump(knn,'knn.plk')
#导入模型
new_knn=joblib.load('knn.plk')
new_knn
#预测
new_knn.predict(x_test)

#### 3、癌症预测
#- 读取cancer.csv文件
#- 删除列: 'ID'
#- Diagnosis 是target
#- 使用train_test_split
#- 使用KNN训练,并预测
#- 交叉表查看结果pd.crosstab( )
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
cancer=pd.read_table('../data/cancer.csv')
cancer.shape
cancer.head()
cancer.drop(columns='ID',inplace=True)
cancer.head(3)
data=cancer.iloc[:,1:].copy()
target.unique()
x_train,x_test,y_train,y_test=train_test_split(data,target,test_size=0.2)
#knn
knn=KNeighborsClassifier()
knn.fit(x_train,y_train)
#预测
y_pred=knn.predict(x_test)
y_pred
#得分
knn.score(x_test,y_test)
pd.crosstab(
    index=y_pred, #预测结果
    columns=y_test,
    rownames=['预测'],
    colnames=['真实'],
    margins=True
)

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/377479.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MongoDB部署策略

内 容 简 介 本文介绍了MongoDB数据库的优点的数据存储模式的安装部署过程。 利用MongoDB在存储海量数据上的优势,部署存储空间大数据。 欢迎批评指正补充 由于编者水平有限,所搜集资料也很有限,制定的规范肯定有考虑不周全、甚至完全错误…

JavaEE作业-实验三

目录 1 实验内容 2 实验要求 3 思路 4 核心代码 5 实验结果 1 实验内容 简单的线上图书交易系统的web层 2 实验要求 ①采用SpringMVC框架,采用REST风格 ②要求具有如下功能:商品分类、订单、购物车、库存 ③独立完成,编写实验报告 …

Linux---线程

线程概念 在一个程序里的一个执行路线就叫做线程(thread)。更准确的定义是:线程是“一个进程内部的控制序列” 一切进程至少都有一个执行线程 线程在进程内部运行,本质是在进程地址空间内运行 在Linux系统中,在CPU眼中…

java学习06---方法

一 方法 方法(method)是程序中最小的执行单元 注意: 方法必须先创建才可以使用,该过程成为方法定义 方法创建后并不是直接可以运行的,需要手动使用后,才执行,该过程成为方法调用 二 方法的…

(注解配置AOP)学习Spring的第十七天

基于注解配置的AOP 来看注解式开发 : 先把目标与通知放到Spring里管理 : Service("userService") public class UserServiceImpl implements UserService {Overridepublic void show1() {System.out.println("show1......");}Overridepublic void show2…

SpringBoot + Tess4J 实现本地与远程图片的文字识别

1 前言 1.1 概要 在本文中,我们将探讨如何在Spring Boot应用程序里集成Tess4J来实现OCR(光学字符识别),以识别出本地和远程图片中的文字。 我们将从添加依赖说起,然后创建服务类以实现OCR,最后展示如何处…

Java项目使用jasypt加密和解密配置文件中关键信息

一、使用背景 项目中application.yml 配置文件中,如数据库、redis、加密算法的私钥等各种配置的username,password的值都是明文的,其实存在一定的安全隐患,如果被人拿到这些配置文件,将直接对系统安全构成极大威胁&…

多维时序 | Matlab实现RF-Adaboost随机森林结合Adaboost多变量时间序列预测

多维时序 | Matlab实现RF-Adaboost随机森林结合Adaboost多变量时间序列预测 目录 多维时序 | Matlab实现RF-Adaboost随机森林结合Adaboost多变量时间序列预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.Matlab实现RF-Adaboost随机森林结合Adaboost多变量时间序列预…

【PyQt】06-.ui文件转.py文件

文章目录 前言方法一、基本脚本查看自己的uic安装目录 方法二、添加到扩展工具里面(失败了)方法二的成功步骤总结 前言 方法一、基本脚本 将Qt Designer(一种图形用户界面设计工具)生成的.ui文件转换为Python代码的脚本。 pytho…

TI毫米波雷达开发——High Accuracy Demo 串口数据接收及TLV协议解析 matlab 源码

TI毫米波雷达开发——串口数据接收及TLV协议解析 matlab 源码 前置基础源代码功能说明功能演示视频文件结构01.bin / 02.binParseData.mread_file_and_plot_object_location.mread_serial_port_and_plot_object_location.m函数解析configureSport(comportSnum)readUartCallback…

不到1s生成mesh! 高效文生3D框架AToM

论文题目: AToM: Amortized Text-to-Mesh using 2D Diffusion 论文链接: https://arxiv.org/abs/2402.00867 项目主页: AToM: Amortized Text-to-Mesh using 2D Diffusion 随着AIGC的爆火,生成式人工智能在3D领域也实现了非常显著…

计算机网络概念、组成、功能和分类

文章目录 概要1.怎么学习计算机网络2.概念3.功能、组成4.工作方式、功能组成5.分类 概要 概念、组成、功能和分类 1.怎么学习计算机网络 2.概念 通信设备:比如路由器、路由器 线路:将系统和通信设备两者联系的介质之类的 计算机网络是互连的、自治的的计…

CTFshow web(php命令执行 37-40)

?ceval($_GET[shy]);&shypassthru(cat flag.php); #逃逸过滤 ?cinclude%09$_GET[shy]?>&shyphp://filter/readconvert.base64-encode/resourceflag.php #文件包含 ?cinclude%0a$_GET[cmd]?>&cmdphp://filter/readconvert.base64-encode/…

spring boot和spring cloud项目中配置文件application和bootstrap加载顺序

在前面的文章基础上 https://blog.csdn.net/zlpzlpzyd/article/details/136060312 日志配置 logback-spring.xml <?xml version"1.0" encoding"UTF-8"?> <configuration scan"true" scanPeriod"10000000 seconds" debug…

Leetcode 213 打家劫舍 II

题意理解&#xff1a; 你是一个专业的小偷&#xff0c;计划偷窃沿街的房屋&#xff0c;每间房内都藏有一定的现金。这个地方所有的房屋都 围成一圈 &#xff0c;这意味着第一个房屋和最后一个房屋是紧挨着的。同时&#xff0c;相邻的房屋装有相互连通的防盗系统&#xff0c;如果…

mysql 对于null字段排序处理

最近遇到一个需求 &#xff0c;需要对一个报表的多个字段进行多字段复杂条件排序 排序字段为NULL时 Mysql对于排序字段为NULL时&#xff0c;有自身默认的排序规则&#xff0c;默认是认为null 值 是无穷小 ELECT id,script_id,last_modified,live_count,next_show FROM virtua…

python-自动化篇-办公-一键将word中的表格提取到excel文件中

文章目录 代码 工作中&#xff0c;经常需要将Word文档中的表格粘贴到Excel文件中&#xff0c;以便汇总及分析。一个一个复制粘贴&#xff0c;非常不方便&#xff0c;还是Python自动化操作&#xff0c;省心省力。要求如下图所示&#xff0c;即将word中的所有表格&#xff0c;转存…

红队打靶练习:PHOTOGRAPHER: 1

目录 信息收集 1、arp 2、nmap 3、nikto 目录扫描 1、gobuster 2、dirsearch WEB 信息收集 enum4linux smbclient 8000端口 CMS利用 信息收集 文件上传漏洞利用 提权 信息收集 get user.txt get flag 信息收集 1、arp ┌──(root㉿ru)-[~/kali] └─# a…

【开源】JAVA+Vue.js实现开放实验室管理系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、研究内容2.1 实验室类型模块2.2 实验室模块2.3 实验管理模块2.4 实验设备模块2.5 实验订单模块 三、系统设计3.1 用例设计3.2 数据库设计 四、系统展示五、样例代码5.1 查询实验室设备5.2 实验放号5.3 实验预定 六、免责说明 一、摘…

【快速上手QT】02-学会查看QT自带的手册QT助手

QT助手 为什么大家都说QT简单&#xff0c;第一点就是确实简单&#xff08;bushi&#xff09;。 我个人觉得最关键的点就是人家QT官方就给你准备好了文档&#xff0c;甚至还有专门的IDE——QtCreator&#xff0c;在QTCreator里面还有很多示例代码&#xff0c;只要你会C的语法以…