机器学习实践

1.波士顿房价预测

        波士顿房屋的数据于1978年开始统计,共506个数据点,涵盖了波士顿不同郊区房屋的14种特征信息。

        在这里,选取房屋价格(MEDV)、每个房屋的房间数量(RM)两个变量进行回归,其中房屋价格为目标变量,每个房屋的房间数量为特征变量。将数据导入进来,并进行初步分析。

1.1 数据集解析

数据集共506行,每行14列

前13列用来描述房屋的各种信息 ,最后一列为该类房屋价格中位数

1.2 流程

准备数据→配置网络→训练网络→模型评估→模型预测 

训练网络:

1.  网络正向传播计算网络输出和损失函数。

2.  根据损失函数进行反向误差传播,将网络误差从输出层依次向前传递, 并更新网络中的参数。

3.  重复1~2步骤,直至网络训练误差达到规定的程度或训练轮次达到设定值。

1.3 代码

🍄准备数据集

🍥导入数据并查看

# 导入数据并做相关转换
import matplotlib.pyplot as plt  #导入matplotlib库
import numpy as np      #导入numpy库
import pandas as pd     #导入pandas库
from sklearn.datasets import load_boston  #从sklearn数据集库导入boston数据

boston=load_boston()    #将读取的房价数据存储在boston变量中
print(boston.keys())    #打印boston包含元素
print(boston.feature_names)   #打印boston变量名

在波士顿房屋价格数据集中,data即为特征变量,target为目标变量,选取data中的RM、target中的MEDV变量进行单变量线性回归。

【其中房屋价格为目标变量,每个房屋的房间数量为特征变量。】

🍥简单查看一下数据

# data特征变量的前五行数据
bos = pd.DataFrame(boston.data)    #将data转换为DataFrame格式以方便展示
print(bos.head())   #一共五行数据,该代码是输出每行数据
print(bos)   #输出全部数据,共有505行每一行有13列
print (bos[5].head())   #data的第6列数据为RM 这个代码是输出每一行的下标为5的数据

# 把target打印出来
bos_target = pd.DataFrame(boston.target)    #将target转换为DataFrame格式以方便展示  前5组的target
print(bos_target)
print(bos_target.head())  #head函数是取前5个

🍥绘制房屋价格(MEDV)、每个房屋的房间数量(RM)的散点图。

# 绘制房屋价格(MEDV)、每个房屋的房间数量(RM)的散点图
X = bos.iloc[:,5:6]  #选取data中的RM变量
print(X.head())  #每一组数据的第6列数据,也就是每组数据的RM值
y = bos_target       #设定target为y
print(y.head())  #每一组数据的target值

plt.scatter(X, y)    #绘制散点图
plt.xlabel(u'RM')    #x轴标签
plt.ylabel(u'MEDV')  #y轴标签
plt.title(u'The relation of RM and PRICE') #标题
plt.show()

通过散点图可以看出,房屋价格(MEDV)、每个房屋的房间数量(RM)存在着一定的线性变化趋势,即每个房屋的房间数量越多,房屋价格越高。

下面就可以用单变量线性回归算法进一步进行拟合与预测。

🍄数据集划分

数据集的划分可以采用Scikit-learn库中的model-selection程序包来实现。

# 数据集划分
from sklearn.model_selection import train_test_split  #导入数据划分包 
# 把X、y转化为数组形式,以便于计算
X = np.array(X)
y = np.array(y) 
# 以25%的数据构建测试样本,剩余作为训练样本
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.25)
X_train.shape,X_test.shape,y_train.shape,y_test.shape

🍄模型训练

from sklearn.linear_model import LinearRegression  #使用LinearRegression库
lr=LinearRegression()   #设定回归算法
lr.fit(X_train,y_train) #使用训练数据进行参数求解
print ('求解截距项为:',lr.intercept_)  #打印截距的值
print ('求解系数为:',lr.coef_)         #打印权重向量的值

输出的是LinearRegreesion()中的相关参数的设置。

fit_intercept:表示是否对训练数据进行中心化,若为false,则表示输入的数据已经进行了中心化处理,下面的过程里将不需要在进行中心化处理。

normalize:默认为False,表示是否对数据进行标准化处理。

copy_X:默认为True,表示是否对X复制。如果选择False,则直接对原数据进行覆盖,即经过中心化、标准化后,是否把新数据覆盖到原数据上。

n_jobs:默认为1,表示计算时设置的任务个数。如果选择-1,则代表使用所有的CPU。

🍄模型预测 

基于对参数的求解结果,对测试集进行预测。

🍄模型评估 

对拟合与预测结果进行效果评价,以判断求解结果是否良好。

#y_test与y_hat的可视化
plt.figure(figsize=(5,4))  #设置图片尺寸
t = np.arange(len(X_test))  #创建t变量
plt.plot(t, y_test, 'r', linewidth=2, label='y_test') #绘制y_test曲线
plt.plot(t, y_hat, 'g', linewidth=2, label='y_hat')   #绘制y_hat曲线
plt.legend() #设置图例
plt.xlabel('test data')
plt.ylabel('price')
plt.show()
plt.plot(t, y_test, 'r', linewidth=2, label='y_test') #绘制y_test曲线
解析参数:
x轴的值、y轴的值、折线宽度、线的名称

 

🍥散点图 

plt.figure(figsize=(10,6))   #绘制图片尺寸
plt.plot(y_test,y_hat,'o')   #绘制散点
plt.plot([-10,60],[-10,60], color="red", linestyle="--", linewidth=1.5) 
#这条线为什么是[-10,60],[-10,60],衡量的是预测值和真实值,我们期望它是1:1的
plt.axis([-10,60,-20,70])
plt.xlabel('ground truth')   #设置X轴坐标轴标签
plt.ylabel('predicted')      #设置y轴坐标轴标签
plt.grid()  #绘制网格线

 这段代码的解释如下

🍥损失函数 

from sklearn import metrics
from sklearn.metrics import r2_score
# 拟合优度R2的输出方法一
print ("r2:",lr.score(X_test, y_test))  #基于Linear-Regression()的回归算法得分函数,来对预测集的拟合优度进行评价
# 拟合优度R2的输出方法二
print ("r2_score:",r2_score(y_test, y_hat)) #使用metrics的r2_score来对预测集的拟合优度进行评价
# 用scikit-learn计算MAE
print ("MAE:", metrics.mean_absolute_error(y_test, y_hat)) #计算平均绝对误差
# 用scikit-learn计算MSE
print ("MSE:", metrics.mean_squared_error(y_test, y_hat))  #计算均方误差
# # 用scikit-learn计算RMSE
print ("RMSE:", np.sqrt(metrics.mean_squared_error(y_test, y_hat))) #计算均方根误差

 


补充知识点:

列表切片 左闭右开,详细可参考 python-list、tuple_python list tuple-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/295168.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

视频剪辑方法:一键批量转码,视频转GIF教程详解

在数字媒体时代,视频剪辑已经成为一项必备技能。无论是专业人士还是普通用户,都要对视频进行剪辑、转码和制作。但是视频剪辑并不简单,要掌握一定的技巧和知识。下面一起来看云炫AI智剪简单易学的视频剪辑方法:一键批量转码和视频…

Nginx 开启目录浏览功能

目录 1.没开启前的页面效果 2.开启目录浏览 1.没开启前的页面效果 这是我的一个网站页面,没配置目录浏览功能前的效果 2.开启目录浏览 来到 server 配置文件下 /etc/nginx/conf.d, 然后编辑配置文件,保存之后查看语法是否正确 autoindex on; # 开启目…

Javaweb之Mybatis的基础操作之新增和更新操作的详细解析

1.4 新增 功能:新增员工信息 1.4.1 基本新增 员工表结构: SQL语句: insert into emp(username, name, gender, image, job, entrydate, dept_id, create_time, update_time) values (songyuanqiao,宋远桥,1,1.jpg,2,2012-10-09,2,2022-10-…

【C#】网址不进行UrlEncode编码会存在一些问题

欢迎来到《小5讲堂》,大家好,我是全栈小5。 这是2024年第3篇文章,此篇文章是C#知识点实践序列文章,博主能力有限,理解水平有限,若有不对之处望指正! 目录 前言数据丢失效果请求端代码接口端代码…

Profinet转Modbus网关助你畅享智能工业

Modbus转Profinet网关(XD-MDPN100/200)具有广泛的应用价值。无论是汽车制造、机械加工还是能源管理,都可以通过使用该网关,实现设备之间的高效通信。其次,Modbus转Profinet网关(XD-MDPN100/200)…

大数据平台数据治理与建设方案:PPT全文90页,附下载

关键词:数据治理,大数据,数据治理平台,数据治理顶层设计,大数据治理,数据治理建设 一、数据治理建设需求分析 1、业务需求和目标:首先,明确业务需求和目标是非常重要的。数据治理项…

坐标经纬度的基本运算(2个坐标经纬度的距离、中心点坐标经纬度范围内的坐标计算)

现在的应用大都居于LBS服务,用户地理位置的获取(经纬度坐标、所属行政区域),提供服务场所的地理位置也有行政区域信息和坐标信息。 用户与服务场所的联系,就近服务原则的设计,服务场所相对于用户的排序。 …

2023春季李宏毅机器学习笔记 06 :Diffusion Model 原理剖析

资料 课程主页:https://speech.ee.ntu.edu.tw/~hylee/ml/2023-spring.phpGithub:https://github.com/Fafa-DL/Lhy_Machine_LearningB站课程:https://space.bilibili.com/253734135/channel/collectiondetail?sid2014800 一、想法概念 Q1&…

软件测试|教你如何使用UPDATE修改数据

简介 在SQL(Structured Query Language)中,UPDATE语句用于修改数据库表中的数据。通过UPDATE语句,我们可以更新表中的特定记录或多条记录,从而实现数据的修改和更新。本文将详细介绍SQL UPDATE语句的语法、用法以及一…

033 - STM32学习笔记 - TIM定时器(一) - 高级定时器

033 - STM32学习笔记 - TIM定时器(一) - 高级定时器 上节内容学习了基本定时器,其功能比较简单,配置和使用也比较容易,今天在基本定时器的基础上学习一下高级控制定时器的内容。 在F429上一共有两个高级控制定时器和1…

Node.js 读取文件教程:一步步教你如何操作

在面向服务器端 JavaScript 环境 Node.js 的开发中,处理文件读取至关重要,它是实现文件内容访问、分析和操作的关键步骤。这一功能对开发网络服务、日志审查系统、数据加工程序等多种软件非常有用。有了 Node.js 强大的文件处理能力,您可以毫…

Mybatis缓存实现方式

文章目录 装饰器模式Cache 接口及核心实现Cache 接口装饰器1. BlockingCache2. FifoCache3. LruCache4. SoftCache5. WeakCache 小结 缓存是优化数据库性能的常用手段之一,我们在实践中经常使用的是 Memcached、Redis 等外部缓存组件,很多持久化框架提供…

Eclipse先关的一些配置

启动配置设置 配置项详细说明: -Xms:初始堆内存大小,设定程序启动时占用内存大小,默认物理内存1/64 -Xms -XX:InitialHeapSiz-Xmx:最大堆内存,设定程序运行期间最大可占用的内存大小。如果程序运行需要…

【计算机病毒传播模型】报告:区块链在车联网中的应用

区块链在车联网中的应用 写在最前面题目 - 26 车联网安全汇报演讲稿-删减2后,最终版(1469字版本)汇报演讲稿-删减1后(2555字版本)汇报演讲稿-删减前(3677字版本)1 概述1.1 车联网1.2 区块链1.3 …

PCIe 6.0生态业内进展分析总结-2

3.PCIe 6.0协议分析仪 (1)Keysight Keysight是德科技在2023年6月份对外宣布,第一款支持PCIe 6.0协议验证调试工具。 Keysight PCIe 6.0架构解决方案具备以下特点: 分析PCIe 6.0技术设计的数据链路/事务层 支持所有PCIe技术速率——从2.5 GT/s至64 GT/…

前端 -- 基础 路径 -- 相对路径 详解

目录 导语引入 : 相对路径 : 相对路径 包含哪些 : 同一级路径 : 下一级路径 : 上一级路径 : 导语引入 : # 大家都清楚,在我们日常所见到的网页里,要涉及好多…

如何通过Python将各种数据写入到Excel工作表

在数据处理和报告生成等工作中,Excel表格是一种常见且广泛使用的工具。然而,手动将大量数据输入到Excel表格中既费时又容易出错。为了提高效率并减少错误,使用Python编程语言来自动化数据写入Excel表格是一个明智的选择。Python作为一种简单易…

rancher 手册

官方 https://www.rancher.com/https://github.com/rancher/rancherhttps://docs.rke2.io/ rancher 安装要求kubernetesl yaml deploy rancher serverHelm Deploy Online Rancher DemoHelm & Kubernetes Offline Deploy Rancher v2.7.5 Demohelm upgrade rancher server…

Mysql的四大引擎,账号管理,数据库的建立

数据库存储引擎查看 Support字段说明 default的为默认引擎 YES表示可以使用 NO表示不能使用 命令 SHOW ENGINES 四大引擎 MEMORY 使用场景:由于易失性,可以用于存储在分析中产生的中间表 特点 所有的数据都保存在内存中,一旦服务器重启&…

MySQL5.7 InnoDB 内存结构

官网地址:MySQL :: MySQL 5.7 Reference Manual :: 14.5 InnoDB In-Memory Structures 欢迎关注留言,我是收集整理小能手,工具翻译,仅供参考,笔芯笔芯. MySQL 5.7 参考手册 / ... / 缓冲池 14.5.1 缓冲池 缓冲池是…