R语言数据分析案例45-全国汽车销售数据分析(可视化与回归分析)

一、研究背景

随着经济的发展和人们生活水平的提高,汽车已经成为人们日常生活中不可或缺的交通工具之一。汽车市场的规模不断扩大,同时竞争也日益激烈。对于汽车制造商和经销商来说,深入了解汽车销售数据背后的规律和影响因素,对于制定合理的生产计划、营销策略以及提高市场竞争力具有至关重要的意义。

本研究聚焦于起亚品牌的某款紧凑型 SUV 的销售数据。在当前汽车市场中,SUV 车型由于其空间大、通过性好等特点,深受消费者的喜爱。而紧凑型 SUV 市场作为 SUV 市场的一个重要细分领域,吸引了众多汽车品牌的参与。各品牌在这个细分市场中通过价格战、产品升级、营销创新等手段争夺市场份额。起亚作为知名的汽车品牌,其紧凑型 SUV 的销售情况不仅反映了自身的产品竞争力和营销策略的有效性,也在一定程度上反映了整个紧凑型 SUV 市场的动态。

二、研究意义

(一)对汽车企业的意义

1.优化生产与库存管理

通过对销售数据的分析,企业可以准确地把握市场需求的变化趋势。例如,根据不同时间段的销量波动,合理安排生产计划,避免库存积压或缺货现象的发生。对于销量较高的时间段,可以提前增加产量,确保市场供应;而对于销量较低的时期,则可以适当减少生产,降低库存成本。

2.制定精准营销策略

了解不同品牌之间的销量差异以及销量随时间的变化趋势,有助于企业制定有针对性的营销策略。例如,如果发现某一品牌在特定时间段内销量显著增加是由于特定的促销活动导致的,企业可以借鉴这种促销方式,在其他时间段或其他车型上进行推广。同时,分析不同城市的总销量情况,可以帮助企业在重点市场加大营销投入,在潜力市场挖掘新的销售增长点等

(二)对消费者的意义

1.提供购车参考

本研究揭示的汽车销售数据规律和影响因素,可以为消费者提供购车参考。例如,消费者可以了解到不同品牌、不同时间段的价格波动和销量情况,选择在价格优惠、促销活动丰富的时机购买心仪的车型。同时,消费者也可以通过分析不同城市的销售情况,了解到本地市场的价格水平和产品供应情况,做出更明智的购车决策。

2.促进市场健康发展

深入的汽车销售数据分析有助于规范汽车市场秩序。当企业能够根据市场需求合理定价和生产时,能够减少不正当竞争行为,如恶意价格战等,从而为消费者创造一个更加公平、健康的购车环境。

三、实证分析

代码和数据

代码报告和数据集

首先导入数据分析的基础的包,随后读取数据展示数据前五行:

library(ggplot2)
library(dplyr)
library(readr)
library(tidyr)
library(caret)
library(cluster)
library(factoextra)

随后读取数据展示数据前五行

# 读取数据集并指定编码
data <- read_csv("全国汽车销售数据.csv", locale = locale(encoding = "GBK"))
head(data,5)

图中展示了汽车销售数据的部分内容,通过head(data, 5)查看了前 5 行数据,这些数据包含 13 个变量。数据中的车系均为 “I8a84ca201...”,厂商是 “韩系 东风...”,车类为 “SUV”,品牌是 “起亚”,车型为 “智跑”,级别是 “紧凑”,时间都为 “17 2019...”,销量数据各不相同。

接下来查看数据特征的类型情况:

上图展示了汽车销售数据的部分内容。从车系和厂商列可以看出,所有数据都来自 “韩系 东风悦达起亚” 这一厂商,说明数据集中在这一品牌的车型上。车类、品牌和车型列显示所有车辆都是 “SUV” 类型,品牌为 “起亚”,车型为 “智跑”,进一步表明数据是针对该款车型的。。。。。。

接下来查看数据描述性统计分析的情况:

summary(data)

 在车系、厂商、车类、品牌、车型和级别列,由于所有数据都相同(如都是 “韩系 东风悦达起亚”“SUV”“起亚”“智跑”“紧凑”),所以只显示了数据类型和长度等信息。价格列的统计信息显示,最小值是 4.00,第一四分位数是 10.00,中位数是 14.00,均值是 18.04,第三四分位数是 22.00,最大值是 61.00,说明价格有一定的波动范围。

接下来对数据集进行可视化分析,首先查看销量分布情况:

ggplot(data, aes(x = 销量)) +
  geom_histogram(bins = 30, fill = "blue", color = "black") +
  geom_density(color = "red", size = 1) +
  ggtitle("销量分布") +
  xlab("销量") +
  ylab("频数") +
  theme(
    plot.title = element_text(hjust = 0.5),
    axis.title.x = element_text(hjust = 0.5),
    axis.title.y = element_text(hjust = 0.5)
  )

从图中可以看到,大部分数据集中在销量较低的区域。具体而言,在 0 - 5000 的销量区间内,柱子的高度非常突出,这意味着在这个区间内的销量频次占据了绝大部分。。。。

接下来查看不同品牌的销量分布情况:

ggplot(data, aes(x = 品牌, y = 销量)) +
  geom_boxplot(fill = "lightblue", color = "black") +
  ggtitle("不同品牌的销量分布") +
  xlab("品牌") +
  ylab("销量") +
  theme(
    axis.text.x = element_text(angle = 90, hjust = 1),
    plot.title = element_text(hjust = 0.5),
    axis.title.x = element_text(hjust = 0.5),
    axis.title.y = element_text(hjust = 0.5)
  )

 接下来探究一下销量随时间的变化趋势:

图中显示,销量在这几年间波动较大。最引人注目的是 2017 年出现了一个极高的销量峰值,几乎达到了 20000。。。。。

接下来查看销售规模与销量的关系

ggplot(data, aes(x = `销售规模(亿)`, y = 销量)) +
  geom_point(color = "green") +
  ggtitle("销售规模与销量的关系") +
  xlab("销售规模(亿)") +
  ylab("销量") +
  theme(
    plot.title = element_text(hjust = 0.5),
    axis.title.x = element_text(hjust = 0.5),
    axis.title.y = element_text(hjust = 0.5)
  )

 接下来查看不同城市的总销量情况:

接下来对数据集进行模型建立分析:

# 创建线性回归模型
lm_model <- lm(销量 ~ 价格 + `销售规模(亿)`, data = data)

# 模型评估
summary(lm_model)

# 预测和计算均方误差和R2值
pred_lm <- predict(lm_model, newdata = data)
mse_lm <- mean((data$销量 - pred_lm)^2)
r2_lm <- summary(lm_model)$r.squared

 模型公式为销量与价格和销售规模(亿)的关系。残差统计显示其最小值为 -146481,最大值为 47149,四分位数分别为 -2777、-603 和 1328。系数方面,截距为 11200.668,价格系数为 -394.176,表明价格与销量负相关,销售规模系数为 355.189,显示其与销量正相关,且这些系数的 p 值都极小,具有高度显著性。

gbm_model <- gbm(销量 ~ 价格 + `销售规模(亿)`, data = data, distribution = "gaussian", n.trees = 100, interaction.depth = 3, shrinkage = 0.01, cv.folds = 5)
# 模型评估
summary(gbm_model)

# 预测和计算均方误差和R2值
pred_gbm <- predict(gbm_model, newdata = data, n.trees = gbm.perf(gbm_model, method = "cv"))
mse_gbm <- mean((data$销量 - pred_gbm)^2)
r2_gbm <- 1 - (sum((data$销量 - pred_gbm)^2) / sum((data$销量 - mean(data$销量))^2))

梯度提升机回归模型(梯度提升机回归 - MSE: 32099261 , R2: 0.5863429) 

支持向量机模型:

svm_model <- svm(销量 ~ 价格 + `销售规模(亿)`, data = data, kernel = "radial")

# 模型评估
summary(svm_model)

# 预测和计算均方误差和R2值
pred_svm <- predict(svm_model, newdata = data)
mse_svm <- mean((data$销量 - pred_svm)^2)
r2_svm <- 1 - (sum((data$销量 - pred_svm)^2) / sum((data$销量 - mean(data$销量))^2))

cat("支持向量机回归 - MSE:", mse_svm, ", R2:", r2_svm, "\n")

 

四、研究结论

本研究聚焦起亚一款紧凑型 SUV,车系与厂商信息单一,数据源于特定渠道。价格在 4.00 至 61.00 间波动且有统一标价情况,销量与销售规模波动剧烈,地域集中于江苏盐城,利于局部分析却难现整体市场全貌,易遗漏他地销售特性与趋势。线性回归模型能解约 65.5% 销量方差,价格负相关、销售规模正相关于销量,有统计显著性,但 MSE 显示预测有偏,模型有优化空间。梯度提升机:MSE 为 32099261,R² 是 0.5863429,销售规模影响远超价格,迭代中误差渐降但后期趋缓,优化遇阻。支持向量机:表现卓越,MSE 仅 6213528,R² 达 0.9199274,拟合佳,可为销量相关决策提供有力支撑。

从未来来看,数据收集方面,拓地域、增时间跨度,纳更多车型与市场因素,建更全数据库。模型优化上,融合模型优势或用新算法提精度与稳定性。销量提升时,依品牌与城市差异制精细策略,结合线上线下精准触客,关注市场与对手,调产品定位与销售方针,抢滩市场,促销量与份额双升。

创造不易,希望各位看官多多点赞留言!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/918391.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【算法】【优选算法】前缀和(下)

目录 一、560.和为K的⼦数组1.1 前缀和1.2 暴力枚举 二、974.和可被K整除的⼦数组2.1 前缀和2.2 暴力枚举 三、525.连续数组3.1 前缀和3.2 暴力枚举 四、1314.矩阵区域和4.1 前缀和4.2 暴力枚举 一、560.和为K的⼦数组 题目链接&#xff1a;560.和为K的⼦数组 题目描述&#x…

论文 | Learning to Transfer Prompts for Text Generation

1. 总结与提问 论文摘要总结&#xff1a; 论文提出了一种创新的PTG&#xff08;Prompt Transfer Generation&#xff09;方法&#xff0c;旨在通过迁移提示的方式解决传统预训练语言模型&#xff08;PLM&#xff09;在数据稀缺情况下微调的问题。通过将一组已在源任务中训练好…

TON商城与Telegram App:生态融合与去中心化未来的精彩碰撞

随着区块链技术的快速发展&#xff0c;去中心化应用&#xff08;DApp&#xff09;逐渐成为了数字生态的重要组成部分。而Telegram作为全球领先的即时通讯应用&#xff0c;不仅仅满足于传统的社交功能&#xff0c;更在区块链领域大胆探索&#xff0c;推出了基于其去中心化网络的…

自动驾驶系列—探索自动驾驶数据管理的核心技术与平台

&#x1f31f;&#x1f31f; 欢迎来到我的技术小筑&#xff0c;一个专为技术探索者打造的交流空间。在这里&#xff0c;我们不仅分享代码的智慧&#xff0c;还探讨技术的深度与广度。无论您是资深开发者还是技术新手&#xff0c;这里都有一片属于您的天空。让我们在知识的海洋中…

【技术解析】Dolphinscheduler实现MapReduce任务的高效管理

MapReduce是一种编程模型&#xff0c;用于处理和生成大数据集&#xff0c;主要用于大规模数据集&#xff08;TB级数据规模&#xff09;的并行运算。本文详细介绍了Dolphinscheduler在MapReduce任务中的应用&#xff0c;包括GenericOptionsParser与args的区别、hadoop jar命令参…

数据结构哈希表-(开放地址法+二次探测法解决哈希冲突)(创建+删除+插入)+(C语言代码)

#include<stdio.h> #include<stdlib.h> #include<stdbool.h> #define M 20 #define NULLDEL -1 #define DELDEY -2typedef struct {int key;int count; }HashTable;//创建和插入 void Insert(HashTable ha[], int m, int p, int key) {int i, HO, HI;HO key…

【android USB 串口通信助手】stm32 源码demo 单片机与手机通信 Android studio 20241118

android 【OTG线】 接 下位机STM32【USB】 通过百度网盘分享的文件&#xff1a;USBToSerialPort.apk 链接&#xff1a;https://pan.baidu.com/s/122McdmBDUxEtYiEKFunFUg?pwd8888 提取码&#xff1a;8888 android 【OTG线】 接 【USB转TTL】 接 【串口(下位机 SMT32等)】 需…

大数据技术Kafka详解 ① | 消息队列(Messages Queue)

目录 1、消息队列的介绍 2、消息队列的应用场景 2.1、应用耦合 2.2、异步处理 2.3、限流削峰 2.4、消息驱动的系统 3、消息队列的两种模式 3.1、点对点模式 3.2、发布/订阅模式 4、常用的消息队列介绍 4.1、RabbitMQ 4.2、ActiveMQ 4.3、RocketMQ 4.4、Kafka 4.…

一家餐饮企业,「闯入」AI阵地

作者| 皮爷 出品|产业家 “我们需要用AI来帮助我们门店破除内卷的状态。”一位连锁餐饮品牌告诉产业家&#xff0c;“这也是我们想尽快把AI用起来的原因&#xff0c;看看能不能带来一些帮助。” 这种情况正发生在一众餐饮企业中。 与这种情况对应的一个背景是&#xff0c…

MySQL的编程语言

一、MySQL基础 使用系统的全局变量@@VERSION查看当前使用的MySQL的版本信息,SQL语句如下: select @@version; 将局部变量varl声明为char的类型,长度值为10,并为其赋值为“程菲” begin declare var1 char(10); set @var1="程菲"; end 通过局部变量查看d_eams数…

【青牛科技】电动工具直流调速专用集成电路GS069,具有电源电压范围宽、功耗小、抗干扰能力强等特性

GS069是芯谷科技推出的一款CMOS工艺、电动工具直流调速专用集成电路。具有电源电压范围宽、功耗小、抗干扰能力强等特点&#xff0c;广泛应用于各种电动工具。 产品基本参数 产品应用 1、应用图&#xff1a; 2、测试参数&#xff1a;&#xff08;VCC9V&#xff0c;RL2K&#…

PyTorch 中使用自动求导计算梯度

使用 PyTorch 进行自动求导和梯度计算 在 PyTorch 中&#xff0c;张量的 requires_grad 属性决定了是否需要计算该张量的梯度。设置为 True 的张量会在计算过程中记录操作&#xff0c;以便在调用 .backward() 方法时自动计算梯度。通过构建计算图&#xff0c;PyTorch 能够有效…

安装pytest失败ModuleNotFoundError: No module named ‘distutils‘

下载一下即可解决 pip install setuptools 下载完成后&#xff0c;再进行下载 pip install pytest

数据结构树和二叉树知识点和递归序列

二叉树知识点 一.树的概念1.1关于树的名词解释 二.二叉树的概念1. 二叉树性质&#xff1a; 三.满二叉树与完全二叉树递归前序遍历递归中序遍历递归后续遍历 一.树的概念 树是一种非线性数据结构&#xff0c;它是由n个或大于n个的结点来组成具有层次关系的一个集合&#xff08;…

【汇编语言】数据处理的两个基本问题(二) —— 解密汇编语言:数据长度与寻址方式的综合应用

文章目录 前言1. 指令要处理的数据有多长&#xff1f;1.1 通过寄存器指明数据的尺寸1.1.1 字操作1.1.2 字节操作 1.2 用操作符X ptr指明内存单元的长度1.2.1 访问字单元1.2.2 访问字节单元1.2.3 为什么要用操作符X ptr指明 1.3 其他方法 2. 寻址方式的综合应用2.1 问题背景&…

【ArcGIS微课1000例】0130:图层组详解与使用

文章目录 一、图层组概述二、创建图层组三、在图层组中管理图层四、对话框中图层组的列表一、图层组概述 图层组包含其他图层。图层组有助于对地图中相关类型的图层进行组织,并且可用于定义高级绘制选项。例如,假设在地图上有两个图层分别用于表示铁路和高速公路。您可将这些…

Cyberchef配合Wireshark提取并解析TCP/FTP流量数据包中的文件

前一篇文章中讲述了如何使用cyberchef提取HTTP/TLS数据包中的文件,详见《Cyberchef配合Wireshark提取并解析HTTP/TLS流量数据包中的文件》,链接这里,本文讲述下如何使用cyberchef提取FTP/TCP数据包中的文件。 FTP 是最为常见的文件传输协议,和HTTP协议不同的是FTP协议传输…

SpringBoot多环境配置的实现

前言 开发过程中必然使用到的多环境案例&#xff0c;通过简单的案例分析多环境配置的实现过程。 一、案例 1.1主配置文件 spring:profiles:active: prod server:port: 80801.2多环境配置文件 开发环境 blog:domain: http://localhost:8080测试环境 blog:domain: https:/…

本草纲目数字化:Spring Boot在中药实验管理中的应用

1系统概述 1.1 研究背景 随着计算机技术的发展以及计算机网络的逐渐普及&#xff0c;互联网成为人们查找信息的重要场所&#xff0c;二十一世纪是信息的时代&#xff0c;所以信息的管理显得特别重要。因此&#xff0c;使用计算机来管理中药实验管理系统的相关信息成为必然。开发…

linux文件与重定向

目录 一、共识原理 二、回顾C语言文件函数 1.fopen 2.fwrite 3.fclose 三、文件系统调用 1.open 2.write 3.访问文件的本质 4.stdin&&stdout&&stderror 5.文件的引用计数 四、重定向 1.文件描述符的分配规则 2. 输出重定向 3.重定向系统调用 4.…