一、数据详情
该数据集是常见的销售数据集,数据展示的是美国1997后的商品销售数据。包含四个字段,分别是用户id,购买时间,销售量,与销售金额。
二、数据读取与数据清洗
导入必要的包
\s+代表的许多空格作为分割,names重新增添了字段名,header=None,第一行不成为字段名 ,数据是这个样子的。
以上代码分别展现字段的详细信息,检查是否有缺失值,和重复值,以及删除完全重复的行 购买时间字段并非时间格式,因此要改成时间格式,为了下面分析的方便,取出月份单独作为一个字段。得出的结果如下:
三、数据分析
(1)销售流量分析
得出用户的每月购买商品的总数量,并画出折线图
得出用户的每月购买商品的总金额,画出直方图
得出每月的消费人数
得出每个用户的最早和最晚购买时间
这是一个分组聚合的问题,前两个按月份分组,分别对购买商品的数量和购买商品的金额求和即可。
第三个对月份分组,对用户id求计数,但因为是消费人数,不是消费次数,(同一个用户可能存在多次购买行为),因此要去重,计数唯一的用户id
第四个对用户id分组,求月份的最大值和最小值即可。
第一问得到每月销售量总和的数据框:
绘图展示:
第二问与第一问类似
第三问代码与结果:
第四问代码与结果:
直接看代码吧,我上传了资源。