基于Python实现大型家用电器和电子产品在线商店购买数据分析【500010098】

导入模块

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

获取数据

df= pd.read_csv( r"./data/kz.csv",sep=',')

数据描述

该数据包含2020年4月至2020年11月从大型家用电器和电子产品在线商店购买的数据。

数据说明

  • event_time:行为类别
  • event_type:行为类别
  • product_id :产品编号
  • category_id :产品的类别ID
  • category_code:产品的类别分类法(代码名称)
  • brand:品牌名称
  • price:产品价格
  • user_id:用户ID

数据信息

df.shape

image.png

df.info()

image.png

df.head()

image.png

数据处理

# 对比每一列数据大小,判断有无缺失值
df.isnull().any()

image.png

# 因为数据较大,删除掉缺失数据
df=df.dropna()
# 判断有无重复值
df.duplicated()
# 删除重复值
df=df.drop_duplicates()

image.png

df.shape

image.png

df.describe()

image.png
产品平均价格为250元,中位数为150元,为左偏型数据分布

# 修改时间列数据类型 预计时间:5~6分钟
df['event_time']=df['event_time'].apply(pd.to_datetime) 
df['month'] = df.event_time.values.astype('datetime64[M]')

df.info()

image.png

数据处理

进行用户消费趋势分析(按月)

df_month=df.groupby(['month'])
每月的消费总金额

image.png
由上图可知:

  1. 消费金额在4到8月总体呈上升形态
  2. 8月单月消费总额最高,超过2500万元
  3. 自8月以后消费出现明显下滑趋势
每月的消费人数

image.png
用户数量变化趋势同消费总额变化趋势较为一致
image.png
上下两图对比可知,在4到8月两图总体呈上升变化,均在8月份达到最高值,而后开始显现下滑趋势。
特别关注点在7月份,两图中,7月皆为拐点位置。图一中7月后增势更加明显,图二中7月后消费人数增长减缓。两者结合可知,7月用户购买单价有所提高。

进行品牌消费情况分析

各品牌产品消费总金额

image.png
销售前20名品牌中,三星和苹果表现尤为强势,远超其他品牌

各品牌用户数量

image.png
在用户数量上,三星一枝独秀,遥遥领先于其他品牌。接近为苹果用户数的三倍,而两者销售额约6%,可见苹果人均用户消费远大于三星用户人均消费。 另外上述两幅图数据变化趋势,明显也满足二八原则。

用户个体消费分析

用户消费金额、消费次数的描述性统计
df_=df.copy()
df_.index=df_['event_time']

df_user=df_["2020-04":"2020-11"].groupby('user_id')
df_user.sum().describe()

image.png

df_user.count().describe()

image.png
用户平均消费1117元,50%用户消费447元,差距较大。说明大部分用户消费较低,小部分用户发生了高消费。

用户消费次数、消费金额散点图

image.png

用户消费金额分布图

image.png
从直方图可知,用户消费金额,绝大多数呈现集中趋势

用户消费次数分布图

image.png
使用切比雪夫定理过滤掉异常值,计算95%的数据分布情况

用户累计消费金额占比

image.png
根据用户分组计数后的描述性统计结果,共有89195位客户.结合上图,可知: 50%客户仅贡献了约10%的消费金额;8万名累计消费总额占比仍未超过一半,累计占比约为45%。

用户消费行为

用户第一次消费

image.png
用户第一次购买集中在4月份,之后4月末出现剧烈波动,骤然下滑。
7至9月,新客每天稳步增长;10月,11月两月新客较少;整体新客数量呈现下滑趋势。

用户最后一次消费

image.png
用户最后一次购买集中在7月中旬至9月中旬,4月至7月客户流失较少。

新老客消费占比
user_life=df_user.event_time.agg(['min','max'])
user_life.head()

image.png

(user_life['min']==user_life['max']).value_counts()

image.png
有一半用户,只消费了一次。

用户分层(RFM)
rfm=df_["2020-04":"2020-11"].pivot_table(index='user_id'
                         ,values=['price','event_type','event_time']
                         ,aggfunc={'price':'sum','event_type':'count','event_time':'max'}
                                        )
rfm.head()

image.png

rfm['R']=-(rfm.event_time-rfm.event_time.max())/np.timedelta64(1,'D')
rfm.head()

image.png

rfm.rename(columns={'event_type':'F','price':'M'},inplace=True)
rfm['label'] = rfm[['R','F','M']].apply(lambda x:x-x.mean()).apply(rfm_func,axis=1)
rfm

image.png

rfm.groupby('label').agg(['sum','mean','count'])

image.png
上表可见

  1. 重要客户平均购买频次低于一般客户,但重要客户平均消费远超为一般客户人均消费;
  2. 重要客户总数为一半客户1/3,但重要客户消费金额约为一般客户的10倍;
  3. 重要客户平均购买频次低于一般客户;
  4. 在最近一次购买时期上,重要客户同一般客户没有明显区别;

image.png

rfm.head()

image.png

用户生命周期(第一次和最后一次)
用户周期描述
((user_life['max']-user_life['min'])/np.timedelta64(1,'D')).describe()

image.png

用户周期分布

image.png
用户周期分布,平均生命周期为22天 绝大多数用户生命周期为0天,说明新客流失严重。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/160990.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

[最新榜单] 智能手机数据恢复的 10 款最佳应用

当手机上的数据消失时,这让您感到非常难过。 由于事故而突然丢失重要的聊天记忆、照片和其他您想保留的东西的悲伤。 如果它没有被淹没,您可以使用数据恢复应用程序修复它。 在本文中,我们将解释一些有用的数据恢复应用程序。 数据恢复应用…

「Verilog学习笔记」数据选择器实现逻辑电路

专栏前言 本专栏的内容主要是记录本人学习Verilog过程中的一些知识点,刷题网站用的是牛客网 分析 将变量A、B接入4选1数据选择器选择输入端S0 S1。将变量C分配在数据输入端。从表中可以看出输出L与变量C的关系。 当AB00时选通D0而此时L0,所以数据端D0接0…

PyTorch 实战之水果分类

当我们试图提高神经网络的准确性时,经常会遇到过拟合训练数据的情况。当我们运行测试数据的模型时,这会导致一个糟糕的预测。因此,我采取了一个数据集,并应用这些技术,不仅提高准确性,而且还处理过拟合的问…

AI技术:分享8个非常实用的AI绘画网站

目录 1、Midjourney 2、Stable Diffusion Omline 3、Microsoft Designer 4、Craiyon 5、NightCafe Studio 6、Wombo 7、Dalle-2 8、Avatar AI 1、Midjourney 特点:业内标杆,效果最强大 Midjourney是基于diffusion的AI图画艺术生成器。生成图片不…

OpenAI GPT-4 Turbo发布:开创AI新时代

🎥 屿小夏 : 个人主页 🔥个人专栏 : IT杂谈 🌄 莫道桑榆晚,为霞尚满天! 文章目录 📑前言一. GPT-4 Turbo的突破1.1上下文长度和控制手段的加强:1.2多模态支持&#xff1a…

vb.net U盘或移动硬盘 插入 自动(静默)复制指定格式文件

U盘或移动硬盘 插入 自动复制指定格式文件至系统盘符 开发语言:vb.net 重要申明:该程序只是防止本人不在电脑旁时,别人偷偷copy你的电脑文件,让他偷鸡成了也要蚀把米。严禁从事黑客或违反道德等不良行为,故而不发布程…

通信原理板块——奇偶监督码、方阵码、恒比码、正反码

微信公众号上线,搜索公众号小灰灰的FPGA,关注可获取相关源码,定期更新有关FPGA的项目以及开源项目源码,包括但不限于各类检测芯片驱动、低速接口驱动、高速接口驱动、数据信号处理、图像处理以及AXI总线等 1、奇偶监督码(parity check) 奇偶…

微信小程序开发---实现文件上传和下载

在开发小程序的过程中,我们难免会遇到使用小程序对后端发送文件;或者接收后端的文件,本文章将手把手带你简单高效实现微信小程序的文件上传下载功能 前期准备 由于目前小程序保护用户个人隐私力度加大 ,因此我们要想实现文件上传…

uniapp优化h5项目-摇树优化,gzip压缩和删除console.log

1.摇树优化 勾选摇树优化,打包删除死代码 2.gzip压缩和删除console.log 安装插件webpack和compression-webpack-plugin webpack插件 npm install webpack4.46.0 --save-devcompression-webpack-plugin插件 npm install compression-webpack-plugin6.1.1 --save-devconst Com…

为什么C++标准库中atomic shared_ptr不是lockfree实现?

为什么C标准库中atomic shared_ptr不是lockfree实现? 把 shared_ptr 做成 lock_free,应该是没有技术上的可行性。shared_ptr 比一个指针要大不少:最近很多小伙伴找我,说想要一些C的资料,然后我根据自己从业十年经验&am…

CVE-2021-42287CVE-2021-42278 域内提权

倘见玉皇先跪奏:他生永不落红尘 本文首发于先知社区,原创作者即是本人 前言 网络安全技术学习,承认⾃⼰的弱点不是丑事。只有对原理了然于⼼,才能突破更多的限制。拥有快速学习能力的白帽子,是不能有短板的&#xf…

四、hdfs文件系统基础操作-保姆级教程

1、启动Hadoop集群 想要使用hdfs文件系统,就先要启动Hadoop集群。 启动集群: start-dfs.sh 关闭集群: stop-dfs.sh 2、文件系统构成 (1)基础介绍 其实hdfs作为分布式存储的文件系统,其构成和Linux文件系统构成差不多一…

monaco-editor 简单使用

一. 文件调用示例 1. 安装package包 官方文档 "monaco-editor": "^0.28.1", "monaco-editor-webpack-plugin": "^4.2.0", Copy 请注意安装包的版本号 monaco-editor-webpack-pluginmonaco-editor7.*.*> 0.31.06.*.*0.30.*5.*.*…

STM32/N32G455国民科技芯片驱动DS1302时钟---笔记

这次来分享一下DS1302时钟IC,之前听说过这个IC,但是一直没搞过,用了半天时间就明白了原理和驱动,说明还是很简单的。 注:首先来区分一下DS1302和RTC时钟有什么不同,为什么不直接用RTC呢? RTC不…

基于社会群体算法优化概率神经网络PNN的分类预测 - 附代码

基于社会群体算法优化概率神经网络PNN的分类预测 - 附代码 文章目录 基于社会群体算法优化概率神经网络PNN的分类预测 - 附代码1.PNN网络概述2.变压器故障诊街系统相关背景2.1 模型建立 3.基于社会群体优化的PNN网络5.测试结果6.参考文献7.Matlab代码 摘要:针对PNN神…

秋招算法高频算法笔试题

自己在秋招过程中遇到的算法笔试题,包含中大厂,都附解析! 汽水瓶 如果汽水瓶数目为1或者0,那么一瓶都喝不到 如果汽水瓶数目为2或者3,那么只能喝到一瓶 如果为2,喝到一瓶后手里一个瓶子都没有了&#xff…

【数据结构】树与二叉树(十九):树的存储结构——左儿子右兄弟链接结构(树、森林与二叉树的转化)

文章目录 5.1 树的基本概念5.1.1 树的定义5.1.2 森林的定义5.1.3 树的术语 5.2 二叉树5.3 树5.3.1 树的存储结构1. 理论基础2. 典型实例3. Father链接结构4. 儿子链表链接结构5. 左儿子右兄弟链接结构a. 定义树节点b. 创建树节点c. 使用左儿子右兄弟链接结构将树转化为二叉树d.…

NET8 BlazorAuto渲染模式

.NET8发布后,Blazor支持四种渲染方式 静态渲染,这种页面只可显示,不提供交互,可用于网页内容展示使用Blazor Server托管的通过Server交互方式使用WebAssembly托管的在浏览器端交互方式使用Auto自动交互方式,最初使用 …

嵌入式系统中相关的高质量开源项目

关于GitHub,可能很多人误以为这是互联网人的专属,其实并不是,那上面嵌入式相关的开源项目是有很多的。现分享一些高星开源项目(像RT-Thread、AWTK等大家都熟知的就不介绍了):Avem 项目链接: ht…

【广州华锐互动VRAR】VR元宇宙技术在气象卫星知识科普中的应用

随着科技的不断发展,虚拟现实(VR)和元宇宙等技术正逐渐走进我们的生活。这些技术为我们提供了一个全新的互动平台,使我们能够以更加直观和生动的方式了解和学习各种知识。在气象天文领域,VR元宇宙技术的应用也日益显现…