前言
继续上一片数据预处理进行续写,利用预处理之后的数据进行数据分析并且解决问题一相关的问题。问题一主要目的是让研究各种因素对于需求量的影响,然后找到确定影响需求量的主要因素并且进行数据分析和主要特征抽取。
对于问题提出的八个小问,可以以具体几个问题进行分析,后续都可以采用一样的分析流程
1.不同变量之间的线性相关性分析
根据上图可以得到销售总价与需求量有0.85的相关,线上销售与所在地区0.64的相关,销售产品类型与销售量有0.1相关线下与所在地区-0.64相关。
整体上需求量主要和产品价格,产品销售总价,是否工作日,产品大类等存在显著的线性相关关系
1.产品价格对需求的影响
根据上面的相关性分析已经可以得到产品需求与产品价格存在显著的线性负相关关系,也就是价格越高,需求越低,下面利用双变量分析法来进一步分析
利用线性回归模型来研究产品需求随着价格的变化趋势。
根据上面的相关性分析已经可以得到产品需求与产品价格存在显著的线性负相关关系,也就是价格越高,需求越低,线性回归以及双变量分析结果都可以很好的描述这种负相关关系
2.产品所在区域对于需求的影响
利用单因素方差分析法来定量研究不同区域对于需求量是存在显著性差异的,这种差异可以从总量和均值两个方面来阐述。
后面的几个分析小问题都可以采用上面的一些可视化+定量分析的模式来阐述各种影响因素对于需求量的影响,从而可以确定出主要的影响变量进行分析。文章待续。。。,后续进行预测模型的训练和对比分析
3.源码分享
附上2023年泰迪杯数据挖掘挑战赛B题全部源码(包括预测模型的训练)连接如下:
2023年泰迪杯b题全部源码