基于XGBoost和数据预处理的电动汽车车型预测

在这里插入图片描述

基于XGBoost和数据预处理的电动汽车车型预测

文章目录

  • 基于XGBoost和数据预处理的电动汽车车型预测
  • 1、前言
  • 2、导入数据
  • 3、各县电动汽车采用情况条形图
  • 4、电动车类型饼图
  • 5、前5最欢迎的电动车制造商
  • 6、XGBoost模型
    • 6.1 字符串列的标识
    • 6.2 删除不相关的列
    • 6.3 编码分类变量
    • 6.4 电动车类型热编码
    • 6.5 将数据划分训练集和测试集
    • 6.6 为训练集和测试集创建DMatrix
    • 6.7 XGBoot模型
    • 6.8 预测和计算准确值

作者:i阿极

作者简介:数据分析领域优质创作者、多项比赛获奖者:博主个人首页

😊😊😊如果觉得文章不错或能帮助到你学习,可以点赞👍收藏📁评论📒+关注哦!👍👍👍

📜📜📜如果有小伙伴需要数据集和学习交流,文章下方有交流学习区!一起学习进步!💪


大家好,我i阿极。喜欢本专栏的小伙伴,请多多支持

专栏案例:机器学习案例
机器学习(一):线性回归之最小二乘法
机器学习(二):线性回归之梯度下降法
机器学习(三):基于线性回归对波士顿房价预测
机器学习(四):基于KNN算法对鸢尾花类别进行分类预测
机器学习(五):基于KNN模型对高炉发电量进行回归预测分析
机器学习(六):基于高斯贝叶斯对面部皮肤进行预测分析
机器学习(七):基于多项式贝叶斯对蘑菇毒性分类预测分析
机器学习(八):基于PCA对人脸识别数据降维并建立KNN模型检验
机器学习(十四):基于逻辑回归对超市销售活动预测分析
机器学习(十五):基于神经网络对用户评论情感分析预测
机器学习(十六):线性回归分析女性身高与体重之间的关系
机器学习(十七):基于支持向量机(SVM)进行人脸识别预测
机器学习(十八):基于逻辑回归对优惠券使用情况预测分析
机器学习(十九):基于逻辑回归对某银行客户违约预测分析
机器学习(二十):LightGBM算法原理(附案例实战)
机器学习(二十一):基于朴素贝叶斯对花瓣花萼的宽度和长度分类预测
机器学习(二十二):基于逻辑回归(Logistic Regression)对股票客户流失预测分析


1、前言

这组代码片段对通过华盛顿州许可部注册的纯电动汽车(BEV)和插电式混合动力汽车(PHEV)的数据集进行了各种分析。这些代码产生了一些见解,如按城市划分的电动续航里程统计数据、CAFV资格计数、电动汽车制造商的受欢迎程度、续航里程统计(最大、最小、平均)、电动汽车类型分布、按车型年份划分的采用趋势以及按县划分的采用情况。结果保存在CSV文件中,并通过条形图、折线图和饼图进行可视化。这些分析为华盛顿州的电动汽车前景和采用模式提供了宝贵的见解。

2、导入数据

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

data = pd.read_csv("./us_car_data.csv")

3、各县电动汽车采用情况条形图

count_by_county = data["County"].value_counts()
plt.figure(figsize=(10, 6))
count_by_county.plot(kind='bar', color=colors)
plt.xlabel("County")
plt.ylabel("Count")
plt.title("Electric Vehicle Adoption by County")
plt.show()

此代码创建了一个条形图,显示每个县采用电动汽车的情况。每个小节代表一个县,小节的高度代表该县的电动汽车数量。x轴标记为“县”,y轴标记为为“计数”,图表标题为“各县电动汽车采用情况”。
运行结果如下:
在这里插入图片描述

4、电动车类型饼图

vehicle_types = data["Electric Vehicle Type"].value_counts()
plt.figure(figsize=(8, 8))
vehicle_types.plot(kind='pie', autopct='%1.1f%%')
plt.title("Distribution of Electric Vehicle Types")
plt.show()

此代码创建一个饼图,显示不同类型电动汽车的分布情况。饼图的每一部分都代表一种特定的车辆类型,每种类型的百分比如图所示。图表的标题是“电动汽车类型的分布”。
运行结果如下:
在这里插入图片描述

5、前5最欢迎的电动车制造商

popular_makes = data["Make"].value_counts().head(5)
plt.figure(figsize=(10, 6))
popular_makes.plot(kind='bar', color=colors)
plt.xlabel("Make")
plt.ylabel("Count")
plt.title("Popular Electric Vehicle Manufacturers")
plt.show()
#结果:
#TESLA        61650
#NISSAN       13138
#CHEVROLET    11417
#FORD          6876
#BMW           5881

此代码创建一个条形图,显示受欢迎制造商的电动汽车数量。显示图表时,x轴标记为“Make”表示制造商,y轴标记为为“Count”表示车辆数量。图表的标题是“受欢迎的电动汽车制造商”
运行结果如下:
在这里插入图片描述

6、XGBoost模型

使用XGBoost和数据预处理的电动汽车类型预测此代码使用XGBooster算法基于给定特征执行电动汽车类型的预测。该代码包括数据预处理步骤,如识别字符串列、删除不相关列、编码分类变量和一次热编码。然后,它将数据拆分为训练集和测试集,为XGBoost创建DMatrix对象,定义XGBoost模型参数,训练模型,并对测试数据进行预测。最后,它计算了模型预测的准确性。

6.1 字符串列的标识

from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
import xgboost as xgb
from sklearn.metrics import accuracy_score

string_columns = data.select_dtypes(include=['object']).columns
print("Colonnes contenant des chaînes de caractères :")
for column in string_columns:
    print(column)

运行结果如下:
在这里插入图片描述

6.2 删除不相关的列

columns_to_drop = ['County', 'Electric Utility']
data = data.drop(columns_to_drop, axis=1)

6.3 编码分类变量

label_encoder = LabelEncoder()
categorical_columns = ['City', 'State', 'Make', 'Model', 'Electric Vehicle Type']
for column in categorical_columns:
    data[column] = label_encoder.fit_transform(data[column])

6.4 电动车类型热编码

one_hot_encoded = pd.get_dummies(data['Electric Vehicle Type'], prefix='EVType')
data = pd.concat([data, one_hot_encoded], axis=1)
print(data.head())

6.5 将数据划分训练集和测试集

features = ['Model Year', 'Make', 'Model']
target = 'Electric Vehicle Type'
train_data, test_data, train_target, test_target = train_test_split(data[features], data[target], test_size=0.2, random_state=42)

6.6 为训练集和测试集创建DMatrix

此代码使用xgb为训练和测试数据创建DMatrix对象。XGBoost库中的DMatrix函数。它使用训练数据(train_data)及其相应的目标(train_target)来创建dtrain。类似地,它使用测试数据(test_data)及其目标(test_target)创建dtest。DMatrix是XGBoost用于高效训练和预测的数据结构。

dtrain = xgb.DMatrix(train_data, label=train_target)
dtest = xgb.DMatrix(test_data, label=test_target)

6.7 XGBoot模型

params = {
    'objective': 'multi:softmax',
    'num_class': len(data[target].unique()), 
    'eta': 0.1,
    'max_depth': 6,
    'min_child_weight': 1,
    'gamma': 0.1,
    'subsample': 0.8,
    'colsample_bytree': 0.8,
    'eval_metric': 'merror'
}
model = xgb.train(params, dtrain, num_boost_round=100)

6.8 预测和计算准确值

predictions = model.predict(dtest)
predictions = [int(round(pred)) for pred in predictions]
accuracy = accuracy_score(test_target, predictions)
print("Exactitude : {:.2f}%".format(accuracy * 100))

运行结果如下:

Exactitude : 99.00%

ps:这是部分代码

📢文章下方有交流学习区!一起学习进步!💪💪💪
📢首发CSDN博客,创作不易,如果觉得文章不错,可以点赞👍收藏📁评论📒
📢你的支持和鼓励是我创作的动力❗❗❗

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/491995.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

大数据分析案例-基于决策树算法构建大学毕业生薪资预测模型

🤵‍♂️ 个人主页:艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞&#x1f4…

渐变色x轴换行柱状图

// 系统上云率const optionBar {title: {text: 系统上云率,left: left,textStyle: {color: "#fff",fontSize: 14,fontWeight: 650,align: "center",},},color: [#32C5FF, #00F766, #EECB5F],grid: {top: 40,bottom: 0,},legend: { // 控制图例组件show: …

C语言中其他运算符介绍

除了算术运算符和位运算符外,C语言还提供了一些其他类型的运算符,包括逗号运算符、条件运算符、sizeof运算符、指针运算符等。这些运算符在C语言中具有特定的功能和用途,对于编写复杂的程序和实现各种算法非常有用。本文将深入介绍C语言中的这…

是德科技keysight DSOX3104A示波器

181/2461/8938产品概述: Keysight(原Agilent) InfiniiVision DSOX3104A 的价位较低,能够在满足您苛刻预算要求的情况下提供卓越性能,以及可选功能。是德(原安捷伦)突破性技术可以在相同的预算条件下提供更多更出色的示波器功能 Keysight(原A…

Spring Boot 整合分布式搜索引擎 Elastic Search 实现 自动补全功能

文章目录 ⛄引言一、分词器⛅拼音分词器⚡自定义分词器 二、自动补全查询三、自动补全⌚业务需求⏰实现酒店搜索自动补全 四、效果图⛵小结 ⛄引言 本文参考黑马 分布式Elastic search Elasticsearch是一款非常强大的开源搜索引擎,具备非常多强大功能,…

zabbix监控vmware esxi

一、zabbix服务端配置 修改zabbix_server.conf配置文件 vim /etc/zabbix/zabbix_server.conf #######zabbix_server.conf底部第二行开始添加下面配置######## StartVMwareCollectors5 #StartVMwareCollectors - 预先启动Vmware collector收集器实例的数量。此值取决于要监控的…

深入了解 Postman 请求头的使用方法

当你在使用 Postman 发送请求时,请求头(Headers)是你可以包含在 HTTP 请求中的重要部分之一。请求头包含了关于请求的元数据信息,这些信息对于服务器来处理请求是非常重要的。下面是一份详细的图文介绍,说明了如何在 P…

算法(6)KMP+trie

KMP: 最浅显易懂的 KMP 算法讲解_哔哩哔哩_bilibili 该视频使用python书写代码,不会python的小伙伴也可以看看了解kmp的大致思路。 问题描述: kmp:字符串匹配算法,用来找一个长字符串中出现了几次小字符串&#xf…

ubuntu中使用docker对配置文件进行挂载

目录 1.什么是挂载? 2.挂载的好处 3.挂载的方法 4.运行 5.查看 1.什么是挂载? 挂载通常指的是使操作系统能够访问到文件系统的过程。当一个文件系统被挂载到一个目录(称为挂载点)后,从该目录及其子目录下就可以访…

游戏本续航@控制中心的省电模式效果如何

文章目录 节能模式长续航模式👺相关工具 节能模式长续航模式👺 蓝天模具Control Center中的模式 根据我的试验,以及软件的提示,可以发现 Power Saving是最省电的,儿Quiet模式并不省电,它会启用独立显卡,只不过风扇的转速不像娱乐模式和性能模式那么积极而…

MySQL中使用distinct单、多字段去重方法

目录 一、distinct 1.1 只对一个字段查重 1.2多个字段去重 1.3针对null处理 1.4与distinctrow同义 二、聚合函数中使用distinct 三、CONCAT_WS函数 多个字段拼接去重是指将多个字段的值按照一定的规则进行拼接,并去除重复的拼接结果。这样可以生成唯一标识符…

抖店找达人带货,能赚钱吗?了解达人的这些特征!出单其实很简单

哈喽~我是电商月月 把抖音小店做起来的人都说,抖音小店前期出单最好的方式只有达人带货 那为什么还有那么多新手朋友确实找达人带货了,仍是不赚钱,不出单呢? 原因只有两点: 要么是你的品不好,要么就是你…

YOLOv7 | 注意力机制 | 添加ECA注意力机制

目录 原理简介 代码实现 yaml文件实现(tips:可以添加不同的位置) 检查是否添加执行成功 完整代码分享 论文创新必备(可帮忙做实验) 启动命令 ECA是通道注意力机制的一种实现形式,是基于SE的扩展。…

基于工业以太网的电能计量管理系统的应用

摘要:针对目前工业电能模式的研究现状,本文阐述了在现代以太网基础上的电能管理系统的设计。 该系统实现了电能的远程实时监控与管理,并且该系统支持多种终端设备的远程访问,建立了一个实时的人机界面管理平台,实现对电…

Web CSS笔记2

目录 1、背景 ①、背景图片(image) ②、背景平铺(repeat) ③、背景位置(position) ④、背景附着(attachment) ⑤、背景透明(CSS3) ⑥、背景图片缩放大小(size): ⑦、背景简写 2、标签显…

全国1000米分辨率逐年植被覆盖度(FVC)数据集

本数据集包括2000年至今,全国逐年植被覆盖度数据,FVC范围值为0-1,数据为浮点型,GeoTIFF格式。GeoTIFF文件均可用ArcGIS软件和GDAL读取和打开。 植被覆盖度是指植被(包括叶、茎、枝)在地面的垂直投影面…

【CXL协议-事务层之CXL.cache (3)】

3.2 CXL.cache 3.2.1 概述 CXL.cache 协议将设备和主机之间的交互定义为许多请求,每个请求至少有一个关联的响应消息,有时还有数据传输。 该接口由每个方向的三个通道组成: 请求、响应和数据。 这些通道根据其方向命名,D2H&…

Llama模型下载

最近llama模型下载的方式又又变了,所以今天简单更新一篇文章,关于下载的,首先上官网,不管在哪里下载你都要去官网登记一下信息:https://llama.meta.com/llama2 然后会出现下面的信息登记网页: 我这里因为待…

【unity】认识unity Hub的主要功能

这里我们主要讲解unity Hub中的【项目】和【安装】功能,其他对应的功能栏相信大家根据文字就可以知道相应的作用。 首先是介绍【项目】功能,在这里我们可以创建本地项目和云端项目,作为初学者我们创建本地项目皆可,当然如果你是多…

fs.1.10 ON CENTOS7 docker镜像制作

概述 freeswitch是一款简单好用的VOIP开源软交换平台。 centos7 docker上编译安装fs1.10版本的流程记录。 环境 docker engine:Version 24.0.6 centos docker:7 freeswitch:v1.10.7 手动模式 centos准备 docker hub拉取centos镜像。…