头歌-机器学习 第13次实验 特征工程——共享单车之租赁需求预估

第1关:数据探索与可视化

任务描述

本关任务:编写python代码,完成一天中不同时间段的平均租赁数量的可视化功能。

相关知识

为了完成本关任务,你需要掌握:

  • 读取数据
  • 数据探索与可视化
读取数据

数据保存在./step1/bike_train.csv中,共享单车的训练集数据总共有8709个训练样本,训练样本中有12个特征(其中count为标签)。特征说明如下:

  • datetime:时间。年月日小时格式
  • season:季节。1:春天;2:夏天;3:秋天;4:冬天
  • holiday:是否节假日。0:否;1:是
  • workingday:是否工作日。0:否;1:是
  • weather:天气。1:晴天;2:阴天;3:小雨或小雪;4:恶劣天气
  • temp:实际温度
  • atemp:体感温度
  • humidity:湿度
  • windspeed:风速
  • casual:未注册用户租车数量
  • registered:注册用户租车数量
  • count:总租车数量

想要读取数据很简单,使用pandas即可,代码如下:

 
  1. import pandas as pd
  2. train_df = pd.read_csv('./step1/bike_train.csv')
  3. # 打印数据中的前5行
  4. print(train_df.head(5))

输出如下图所示:

数据探索与可视化

一般拿到数据之后都需要做数据探索(EDA),因为我们需要看看数据到底长什么样子,有什么特性是可以挖掘出来的。假设我们需要看看数据的大概分布是什么样的。可以用pandas提供的describe()函数。输出如下:

此时我们能看到count的标准差很大,我们可以将count的数据分布可视化出来,代码如下:

 
  1. import matplotlib.pyplot as plt
  2. plt.figure(figsize=(10,10))
  3. # 画count的直方图
  4. plt.hist(train_df['count'],bins=20)
  5. plt.title('count histgram')
  6. plt.xlabel('count')

可视化结果如下:

从可视化结果可以看出,count的整体的分布倾斜比较严重,需要处理一下,不然可能过拟合会有点严重。此时我们可以考虑将count的数值在3个标准差之外的样本给扔掉,减少训练集中的噪声,并对countlog变换。代码如下:

 
  1. import matplotlib.pyplot as plt
  2. import numpy as np
  3. import seaborn as sns
  4. # 筛选3个标准差以内的数据
  5. train_df=train_df[np.abs(train_df['count']-train_df['count'].mean())<=3*train_df['count'].std()]
  6. # log变换
  7. y=train_df['count'].values
  8. y_log=np.log(y)
  9. # 可视化
  10. sns.distplot(y_log)
  11. plt.title('distribution of count after log')

处理后可视化结果如下:

可以从可视化结果看出,转换过后,count的分布倾斜没有那么严重了,差异也变小了。

接下来我们看看其他的一些特征对于共享单车租赁量的影响。

首先来看看季节对于租赁量的影响,代码如下:

 
  1. day_df=train_df.groupby('date').agg({'season':'mean',
  2. 'casual':'sum', 'registered':'sum',
  3. 'count':'sum','temp':'mean',
  4. 'atemp':'mean','workingday':'mean','holiday':'mean'})
  5. season_day_mean=day_df.groupby(['season'],as_index=True).agg({'casual':'mean', 'registered':'mean','count':'mean'})
  6. temp_df = day_df.groupby(['season'], as_index=True).agg({'temp':'mean', 'atemp':'mean'})
  7. season_day_mean.plot(figsize=(15,9),xticks=range(1,4))
  8. plt.title('count in different season')

可视化结果如下:

从可视化结果可以看出,临时用户和注册用户用车数量变化趋势大体一致,且两年间都在秋季左右达到了比较高的用车辆,说明美国人也都比较喜欢在这段时间外出游玩。这是符合常理的。

接下来看看天气对租赁数量的影响,代码如下:

 
  1. weather_group=train_df.groupby(['weather'])
  2. weather_count=weather_group[['count','registered','casual']].count()
  3. weather_mean=weather_group[['count','registered','casual']].mean()
  4. # 不同天气的每小时平均租赁数量
  5. weather_mean.plot.bar(stacked=True,title='count per hour in different weather')

可视化结果如下:

讲道理,天气比较好的时侯,骑共享单车的人才比较多。但上图中像4(恶劣天气)这种天气的租赁数量也比较高,这是不是有点反常呢?我们可以从数据集中找出对应的数据看看,代码如下:

 
  1. print(train_df.loc[train_df.weather==4])

数据结果如下:

数据的时间是下午6点,刚好是下班的高峰期,所以能够理解为什么这条数据对应的租赁量均值那么高了,这也是符合常理的。

那么一天中不同时间段对于租赁数量有什么样的影响呢?这个就留给你做练习吧。

编程要求

根据提示,在右侧编辑器Begin-End处补充代码,将./step1/bike_train.csv中的数据按照hour这个特征分组,然后求每一组的count的平均值。并使用matplotlib.pyplot绘制折线图,并保存到./step1/result/plot.png

测试说明

平台会对你生成的折线图与正确答案进行比对,因此请按照以下要求可视化:

  • 折线图的figsize(10, 10)
  • 折线图的标题为average count per hour

测试输入: 预期输出:你的答案与正确答案一致

import pandas as pd
import matplotlib
matplotlib.use('Agg')
import matplotlib.pyplot as plt

#********* Begin *********#
import pandas as pd

import matplotlib.pyplot as plt

train_df = pd.read_csv('./step1/bike_train.csv')

train_df['hour'] = train_df.datetime.apply(lambda x:x.split()[1].split(':')[0]).astype('int')

group_hour=train_df.groupby(train_df.hour)

hour_mean=group_hour[['count','registered','casual']].mean()

fig=plt.figure(figsize=(10,10))

plt.plot(hour_mean['count'])

plt.title('average count per hour')

plt.savefig('./step1/result/plot.png')

#********* End *********#

第2关:特征工程

任务描述

本关任务:编写python代码,完成时间细化的功能。

相关知识

为了完成本关任务,你需要掌握:

  • 相关性分析
  • 特征选择
相关性分析

在选择特征之前,我们可以看看各个特征相关性的强弱。代码如下:

 
  1. # 计算特征对的相关性
  2. corr_df=train_df.corr()
  3. corr_df1=abs(corr_df)
  4. # 画热力图
  5. fig=plt.gcf()
  6. fig.set_size_inches(30,12)
  7. sns.heatmap(data=corr_df1,square=True,annot=True,cbar=True)

相关性热力图如下(其中颜色越亮,代表线性相关性越高):

选择特征

在使用相关性这一指标来选择特征时,通常选择相关性较低,也就是颜色较暗的特征。因为如果选择相关性较高的,比如tempatemp。从图可以看出这两个特征的相关性很高,也就是说在训练模型的时候,这两个特征所对应的权重是成比例的。既然成比例,那么之选其中一个就行了。

根据热力图我们暂且可以选择时段(hour)、温度(temp)、湿度(humidity)、季节(season)、天气(weather)、风速(windspeed)、是否工作日(workingday)、是否假日(holiday 、注册用户租赁数量(registered)作为特征。

编程要求

现在可能觉得datetime这个字段有必要再细化挖掘一下,比如细化成年份、月份、日期、星期几等。

根据提示,在右侧编辑器Begin-End处补充代码,实现transform_data函数。该函数需要你将train_df中的datetime字段进行细化,细化成year(年份)、month(月份)、date(日期)、weekdat(星期几)、hour(小时)。并返回细化后的DataFrame

例如,原始数据如下:

细化后数据如下:

测试说明

平台会对你返回的DataFrame与答案进行比对,您只需实现transform_data即可。

测试输入: 预期输出:你的答案与正确答案一致。

import pandas as pd
import numpy as np
from datetime import datetime

def transform_data(train_df):
    '''
    将train_df中的datetime划分成year、month、date、weekday、hour
    :param train_df:从bike_train.csv中读取的DataFrame
    :return:无
    '''

    #********* Begin *********#
    train_df['date'] = train_df.datetime.apply(lambda x:x.split()[0])
    train_df['hour'] = train_df.datetime.apply(lambda x:x.split()[1].split(':')[0]).astype('int')
    train_df['year'] = train_df.datetime.apply(lambda x:x.split()[0].split('-')[0]).astype('int')
    train_df['month'] = train_df.datetime.apply(lambda x: x.split()[0].split('-')[1]).astype('int')
    train_df['weekday'] = train_df.date.apply(lambda x: datetime.strptime(x, '%Y-%m-%d').isoweekday())
    return train_df

    #********* End **********#

第3关:租赁需求预估

任务描述

本关任务:编写python代码,实现租赁需求预估。

相关知识

为了完成本关任务,你需要掌握:

  • 独热编码
  • sklearn机器学习算法的使用
  • 生成预测结果
独热编码

一般来说,代表类型型的特征我们需要对其进行独热编码。像数据中季节这种类别型的特征,应该使用独热编码。因为如果使用原始的1、2、3、4的话,机器学习算法可能会认为4这个季节更重要。为了防止这种偏见,我们就需要对其进行独热编码。

独热编码其实很简单,就是将待编码的特征的所有可能的取值列出来,然后再在对应的位置上填1,其他位置填0。可以看成是二进制的一种变形。

比如有4个样本的season分别为2、2、2、1。如下图所示:

那么将其独热编码后,如下图所示(第1行到第3行的season=2,所以编码后,每行的season_2这一列为1,其他列为0。而第4行的season=1,所以编码后,season_1这一列为1,其他列为0):

代码如下:

 
  1. import pandas as pd
  2. # 将train_df中的season这一列进行独热编码
  3. dummies_season = pd.get_dummies(train_df['season'], prefix='season')
  4. # 打印
  5. print(dummies_season)
sklearn机器学习算法的使用

sklearn中提供了非常多的机器学习算法的接口,例如逻辑回归、弹性网络、随机森林等等。而且使用起来非常简单,只需要fitpredict二连即可。而本关是对共享单车的租赁需求量做预测,所以这是一个回归问题。在这里给出sklearn解决回归问题的示例代码:

 
  1. from sklearn.linear_model import Ridge
  2. # 实例化Ridge回归对象
  3. ridge = Ridge(alpha=1.0)
  4. # 使用训练集的数据和标签训练
  5. ridge.fit(train_df, train_label)
  6. # 对测试集数据进行预测
  7. pred_result = ridge.predict(test_df)
生成预测结果

想要将预测结果保存到文件中,可以使用pandas来实现,示例代码如下:

 
  1. import pandas as pd
  2. # 构建DataFrame,pred_result为机器学习算法的预测结果
  3. result = pd.DataFrame({'count':pred_result})
  4. # 将DataFrame保存成result.csv,并且保存时不保留index
  5. result.to_csv('./result.csv', index=False)
编程要求

根据提示,在右侧编辑器补充代码。代码主要任务如下:

  • 读取./step3/bike_train.csv中的数据作为训练集,读取./step3/bike_test.csv中的数据作为测试集
  • 将数据处理成你想要的样子
  • 使用sklearn对训练集数据进行训练,并对测试集进行预测
  • 将预测结果保存至./step3/result.csv
测试说明

平台会计算你保存的./step3/result.csvr2 score。若r2 score高于0.95视为过关。

测试输入: 预期输出:你的预测结果的r2 score高于0.95

PS:./step3/result.csv中需要两列。一列为datetime,另一列为count。其中datetime./step3/bike_test.csv中的datetimecount为你的预测结果。如:

#********* Begin *********#  
import pandas as pd  
import numpy as np  
from datetime import datetime  
from sklearn.linear_model import Ridge
train_df = pd.read_csv('./step3/bike_train.csv')
# 舍弃掉异常count  
train_df=train_df[np.abs(train_df['count']-train_df['count'].mean())<=3*train_df['count'].std()]
# 训练集的时间数据处理
train_df['date']=train_df.datetime.apply(lambda x:x.split()[0])  
train_df['hour']=train_df.datetime.apply(lambda x:x.split()[1].split(':')[0]).astype('int')  
train_df['year']=train_df.datetime.apply(lambda x:x.split()[0].split('-')[0]).astype('int')  
train_df['month']=train_df.datetime.apply(lambda x:x.split()[0].split('-')[1]).astype('int')  
train_df['weekday']=train_df.date.apply( lambda x : datetime.strptime(x,'%Y-%m-%d').isoweekday())
# 独热编码  
train_df_back=train_df  
dummies_month = pd.get_dummies(train_df['month'], prefix='month')  
dummies_year = pd.get_dummies(train_df['year'], prefix='year')  
dummies_season = pd.get_dummies(train_df['season'], prefix='season')  
dummies_weather = pd.get_dummies(train_df['weather'], prefix='weather')
train_df_back = pd.concat([train_df, dummies_month,dummies_year, dummies_season,dummies_weather], axis = 1)
train_label = train_df_back['count']  
train_df_back = train_df_back.drop(['datetime', 'season', 'weather', 'atemp', 'date', 'month', 'count'], axis=1)
test_df = pd.read_csv('./step3/bike_test.csv')
# 测试集的时间数据处理  
test_df['date']=test_df.datetime.apply(lambda x:x.split()[0])  
test_df['hour']=test_df.datetime.apply(lambda x:x.split()[1].split(':')[0]).astype('int')  
test_df['year']=test_df.datetime.apply(lambda x:x.split()[0].split('-')[0]).astype('int')  
test_df['month']=test_df.datetime.apply(lambda x:x.split()[0].split('-')[1]).astype('int')  
test_df['weekday']=test_df.date.apply( lambda x : datetime.strptime(x,'%Y-%m-%d').isoweekday())
# 独热编码
test_df_back=test_df  
dummies_month = pd.get_dummies(test_df['month'], prefix='month')  
dummies_year = pd.get_dummies(test_df['year'], prefix='year')  
dummies_season = pd.get_dummies(test_df['season'], prefix='season')  
dummies_weather = pd.get_dummies(test_df['weather'], prefix='weather')
test_df_back = pd.concat([test_df, dummies_month,dummies_year, dummies_season,dummies_weather], axis = 1)  
test_df_back = test_df_back.drop(['datetime', 'season', 'weather', 'atemp', 'date', 'month'], axis=1)
clf = Ridge(alpha=1.0)
# 训练  
clf.fit(train_df_back, train_label)  
# 预测  
count = clf.predict(test_df_back)
# 保存结果  
result = pd.DataFrame({'datetime':test_df['datetime'], 'count':count})  
result.to_csv('./step3/result.csv', index=False)  
#********* End *********#  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/534381.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何使用Android手机通过JuiceSSH远程访问本地Linux服务器

文章目录 1. Linux安装cpolar2. 创建公网SSH连接地址3. JuiceSSH公网远程连接4. 固定连接SSH公网地址5. SSH固定地址连接测试 处于内网的虚拟机如何被外网访问呢?如何手机就能访问虚拟机呢? cpolarJuiceSSH 实现手机端远程连接Linux虚拟机(内网穿透,手机端连接Linux虚拟机) …

SSL中的CA证书

目录 一、CA概述 二、数据加密 三、身份认证 一、CA概述 SSL如何保证网络通信的安全和数据的完整性呢&#xff1f;就是采用了两种手段&#xff1a;身份认证和数据加密。身份认证就需要用到CA证书。 CA是证书的签发机构&#xff0c;它是公钥基础设施&#xff08;Public Key In…

Python --- Python + Vs code的安装与使用(windows平台)

Python Vs code的安装与使用 今天是我第一次开始尝试用Python&#xff0c;然后我想借此机会记录一下整个安装过程和上手过程。之前一直都是用的matlab&#xff0c;这个东西不仅大而且收费&#xff0c;但不可否认的是。matlab的很多东西都做的比较好&#xff0c;但我一直用的都…

经典文章:卷积神经网络的运作原理

https://brohrer.mcknote.com/zh-Hans/how_machine_learning_works/how_convolutional_neural_networks_work.html 参考资料 https://aitechtogether.com/article/38900.html https://www.ruanyifeng.com/blog/2017/07/neural-network.html http://neuralnetworksanddeeplea…

企业工商信息查询API接口有哪些

当今社会我们几乎每天都在和一些企业打交道&#xff0c;有时候需要确认下这家企业经营范围&#xff0c;注册地址等信息&#xff0c;那怎么办呢&#xff0c;这个时候就需要一些企业工商信息查询的API接口了。 有的时候你可以只知道这家公司的大概企业名称&#xff0c;比如数脉&…

springboot-开源项目-追踪法-简单有效,从F12到SQL数据库表

使用的技术栈&#xff1a;springbootmybatis&#xff0c;edge浏览器 插件&#xff1a;MybatisX 第一步&#xff1a; 按F12,选择网络 第二步&#xff1a; 进入IDEA编辑器&#xff0c;键盘按两次shift键&#xff0c;点击第一个&#xff0c;快速定位到该操作 3&#xff1a; 我…

锐化空间滤波器(提高清晰度的另一种方式)

书上一阶微分的定义可以理解&#xff0c;毕竟这里不死数学上的曲线的概念&#xff0c;而是像素点上的曲线。所以&#xff0c;不同于数学的严格单调递增曲线的导数是大于等于零&#xff0c;这里的严格单调递增曲线&#xff0c;只能是大于零。 至于二阶微分的定义&#xff0c;就…

子线程中创建 handler导致okhttp请求失败,从 ScheduledExecutorService 挖的坑开始

子线程创建方法1&#xff1a; ScheduledExecutorService schedulePool Executors.newScheduledThreadPool(2);schedulePool.schedule(new Runnable() {Overridepublic void run() {dorequest();}}, 2, TimeUnit.SECONDS); 子线程创建方法2&#xff1a; new Thread(new Runnab…

功能测试_验证新浪邮箱登录的正确性

案例&#xff1a;验证验证新浪邮箱登录的正确性 功能测试_等价类设计用例&#xff1a; 步骤&#xff1a; 1:明确需求&#xff1a;邮箱能否登录 2:划分等价类&#xff1a;有效等价类、有效取值、无效等价类、无效取值 3&#xff1a;提取数据编写用例&#xff1a;用例编号、…

带大家做一个,易上手的家常蒜蓉油麦菜

准备油麦菜 将最顶上 一点 和 根都去掉 然后 切成小段 时间足够 就用盐水用心清洗两遍 洗去表面的泥沙和虫卵 准备多一些蒜 切成碎末 起锅烧油 下蒜末 炒出蒜香味 然后 下入油麦菜翻炒 油麦菜会出水 等水烧的差不多 看油麦菜明显缩小后 下入小半勺盐 一点点白砂糖 翻炒均…

ssm041绿色农产品推广应用网站+vue

绿色农产品推广应用网站 摘 要 21世纪的今天&#xff0c;随着社会的不断发展与进步&#xff0c;人们对于信息科学化的认识&#xff0c;已由低层次向高层次发展&#xff0c;由原来的感性认识向理性认识提高&#xff0c;管理工作的重要性已逐渐被人们所认识&#xff0c;科学化的…

第十四篇【传奇开心果系列】Python自动化办公库技术点案例示例:深度解读Python自动化处理图像

传奇开心果博文系列 系列博文目录Python自动化办公库技术点案例示例系列 博文目录前言一、Python自动化图像处理的优点介绍二、Python常用图像处理库和功能介绍三、强大且易于上手示例代码四、丰富的算法资源示例代码五、批量处理图片示例代码六、支持多种图像格式示例代码七、…

Mysql底层原理六:InnoDB 数据页结构

1.行格式 1.1 Compact行格式 1.1.1 示意图 1.1.2 准备一下 1&#xff09;建表 mysql> CREATE TABLE record_format_demo (-> c1 VARCHAR(10),-> c2 VARCHAR(10) NOT NULL,-> c3 CHAR(10),-> c4 VARCHAR(10)-> ) CHARSETascii ROW_FORMATCOM…

基于Yolov5的检测系统实战

文章目录 一、数据集 二、网络结构 三、完整文件目录介绍 四、测试分析 一、数据集 1、数据格式&#xff1a;图像数据&#xff08;JPG格式&#xff09;&#xff0c;采用labelme标注后的图像&#xff08;XML格式&#xff09;&#xff0c;训练需要的TXT格式 2、数据来源&…

【Python数据分析】让工作自动化起来,无所不能的Python

这里写目录标题 前言一、Python是办公自动化的重要工具二、Python是提升职场竞争力的利器三、Python是企业数字化的重要平台四、Python是AI发展的重要通道之一编辑推荐内容简介作者简介前言读者对象如何阅读本书目录 前言 随着我国企业数字化和信息化的深入&#xff0c;企业对…

[CSS]布局

盒子就是把网站分割成一小块一小块的吧&#xff0c;然后方便移动或者管理 布局属性 所谓的布局就是依靠css布局让html元素&#xff0c;可以按照UI设计师提供的设计稿进行HTML网页的内容排版并实现页面的布局效果。 布局的学习关键就是&#xff1a;1. 布局方式&#xff0c;2. …

SpringBoot+Vue,轻松实现网页版人脸登录与精准识别

目录 1、技术介绍 2、技术原理 2.1、人脸检测 ①参考模板法 ②人脸规则法 2.2、人脸跟踪 2.3、人脸比对 ①特征向量法 ②面纹模板法 识别过程 案例 一、springboot后端项目 1&#xff0c;拉取项目后&#xff0c;导入相关依赖jar包 2&#xff0c;执行sql文件夹下面…

Qt 中的项目文件解析和命名规范

&#x1f40c;博主主页&#xff1a;&#x1f40c;​倔强的大蜗牛&#x1f40c;​ &#x1f4da;专栏分类&#xff1a;QT❤️感谢大家点赞&#x1f44d;收藏⭐评论✍️ 目录 一、Qt项目文件解析 1、.pro 文件解析 2、widget.h 文件解析 3、main.cpp 文件解析 4、widget.cpp…

yuyv v4l2的数据转换成RGB

使用方法&#xff1a; 3840*2160是.yuv数据的分辨率 data.raw为yuv格式的raw数据 cv&#xff1a;显示 out.png 不显示&#xff0c;存储的文件名 python3 yuv_2_rgb.py data.raw cv 3840 2160或python3 yuv_2_rgb.py data.raw out.png 3840 2160 源码 yuv_2_rgb.py&#xff1…

antv X6离线文档部署 解决workspace configuration error问题

1.从github拉取源代码 x6开源库 下载至本地。 2.进入文件目录下 使用pnpm install 安装依赖 其中我遇到了两个问题 缺少python环境报错&#xff1a;解决如下&#xff1a; 安装python环境&#xff0c;将python加入系统环境变量path中 打开npm配置文件 编辑该文件加入python…