淘宝婴儿用品购买情况分析报告

一.分析背景和目的

随着购物网站的发展,人们的网络购物行为占比也快速增加。为了能够获取更多的用户,提升商家的销售量,需要从产品和用户不同的角度进行分析,进而得到有价值的信息,指导商家进行获客和营销。本文就以淘宝天猫上婴儿用品购买数据为例,通过对产品和用户进行分析,得出结论并提出可实施的建议

数据集内容为淘宝天猫上用户2012年7月至2015年2月购买婴儿用品的购买记录

数据包含两个表,每个表的列名及含义如下:

二.分析思路

(一)根据数据集里包含的数据,提出以下问题进行分析:

1.产品角度

1)成交总数量的波动情况如何

  • 单次购买量波动情况
  • 购买次数波动情况

2)热销产品,销量最少的产品是哪些

2.用户角度

1)男女婴儿对不同商品类别的需求有无差异

2)不同年龄婴儿对不同商品类别的需求有无差异

下面的图展示了具体的分析思路及要用到的分析方法。之后在分析过程中会再详细展示如何用这些分析方法进行分析的

(二)数据清洗

1.将所有数据复制到新的表格里,在新的表格里进行数据清洗

2.

  • 冻结首行,将列标题的英文字段转换成汉字字段
  • 检查是否有重复值:首先对表一用户ID和购买行为编号两列进行重复值突出显示,筛选出用户ID重复项,在此基础上筛选购买行为编号重复项,发现购买行为编号无重复值,故表1无重复值,无需删除。对表二用户ID列进行重复值突出显示,发现没有重复值,无需删除
  • 隐藏不需要分析的列:隐藏掉购买行为编号,商品属性两列

3.查找缺失值

通过对各未隐藏列单元格计数,发现每列单元格数目相同,无缺失值,不做处理

4.一致化处理

  • 通过数据分列功能将购买时间和生日日期戳转换为ymd日期格式
  • 性别列,将1,2表达方式换为男女,通过IF函数实现,返回结果错误的,将其删掉

5.将两个表内容合在一起,通过vlookup函数实现。通过整合两个表发现,表一中的用户只有少部分有登记婴儿性别和出生日期。所以之后在分析问题时,如果有涉及到婴儿信息字段的,将只对登记了婴儿信息的用户购买行为进行分析

算出购买行为发生时婴儿的年龄(考虑到婴儿年龄跨度较小,并且考虑到不同年龄对商品需求差异可能会较大,故将婴儿的年龄及月份都计算列示出来,以便于后面的分析)

先通过dateif(出生时间,购买时间,“M”)计算购买时的月份,发现有的结果显示为负值,说明用户在婴儿未出生时就开始购买商品。之后将年龄用int和mod函数进行处理,得出岁数和未满一年的月份

6.处理异常值

  • 以月龄为单位,计算的四分位数结果如下

可以看出极端异常值为120,表中超过120的有4条信息:129/130/141/339,将其作为异常值删掉

  • 对所有商品的单次购买数量求四分位数,得出结果如下:

可以看出单次购买数量的最小值,四分位数都是1,最大值是10000,如果根据极端异常值来判断异常值,则单次购买数量大于1的都将作为异常值被删掉,这又显然不符合实际情况,因为确实存在用户单次购买数量大于1的情况

三.分析内容

(一)产品角度

1.成交总量

图1:所有商品总销售量随时间变化情况

图2:所有商品每年销售量按月分布情况

从上面两个图可以看出,每月的销售量同比都在增加,说明平台的销售量每年都在增长的。每年中的11月份销量达到最大,每年的5月也是一个高峰期。每年的2月销量是一年中最低的(因为2015年2月份只有1~5号的数据,所以2015年2月的销量很低)

接下来分析11月和5月销量增大以及2月份销量下滑的原因

先使用多维度拆解分析方法,对总销售量这个指标进行拆解,按照指标构成进行拆解。总销售量=\sum用户单次购买量,这里面其实有两个变量,用户单次购买数量和购买次数

再用假设检验分析方法,来逐个验证是哪个指标影响了总销售量

先假设是用户单次购买数量造成了销售量的波动,即用户在11月和5月单次购买数量增长很多。在2月单次购买数量下降很多,求出每个月用户单次购买数量的平均值,得出:
图3:用户每月单次平均购买量

可以看出婴儿的平均购买量为2.54,整体看来波动并不是很大,所以总销售量的波动原因不是用户的单次购买数量波动造成的

接下来假设总销量的变动是购买次数引起的,将所有用户购买次数按月分布,得到:

图4:用户购买次数按月分布情况

可以看出,购买次数在11月有较大增长,2月达到每年的最低,购买次数与总销售量的波动是一致的,可以判断出销售量的波动是由购买次数的波动造成的。所以在分析销量波动原因的时候可以分析购买次数的波动原因

下面分析11月份购买次数增加的原因

将2012~2014每年11月份的购买次数用折线图绘制出来,得到:

图5:用户2012~2014年11月份购买次数

可以看出,每年的11月11日的购买次数激增,当天的购买次数都远超当年日平均购买次数,并且每年的增长幅度逐渐增大。这是因为淘宝天猫在做双十一促销活动,所以这一天的购买次数特别高,并且随着双十一购物节深入人心以及经济的增长,每年的购买力度涨幅也逐年增大

同样将2013~2014年5月份每天的购买次数展示出来,得到下图:

图6:2013~2014年5月份每天购买次数分布情况

 

 可以看出,2013和2014年5月的购买次数基本都在每年日平均购买次数上面,这说明5月份的购买次数之和将在全年购买次数分布中是一个小高峰

两条5月的购买次数每天的走势基本是一致的,三次增长的时间和原因如下:

下面分析每年2月份购买次数下降的原因

将2013~2015年每年的1~2月份每天的购买次数展示出来,得到

图7:2013~2015每年1~2月份每天的购买次数分布情况

可以看出,2013和2014年1~2月的购买次数基本都在全年日平均购买次数下面,这两个月的购买次数总和在全年分布中将是一个谷底

再看购买次数最低的时间和原因

2015年春节是在2月19日,原数据中只有到2月5日的数据,可以看出2015年的购买次数还未出现较大下滑。如果数据完整,可以合理预计2月19日的购买次数也是最低点

对购买次数指标再进行拆解,购买次数中包含了新用户购买次数和老用户购买次数,那么购买次数的变化主要是新用户带来的,还是老用户带来的

因为数据有限,我们假设在已有的购买记录中,第一次出现的用户ID都为新用户,第二次及之后出现的用户为老用户,将新老用户购买次数按月展示出来,得到:

图8:新老用户购买次数按月分布情况

可以看出,老用户购买次数极少。因为活跃用户数=新用户购买人数+老用户购买人数(极少),所以活跃用户数约等于新用户购买人数了。老用户购买次数极少也就说明了复购用户数极少,这个要结合更多的信息去判断原因,比如是不是这几种商品类别都是耐用品,不需要多次购买。如果是易耗品的话,复购用户这么少,就需要商家提高产品粘性

总成交量的变化不是由用户单次购买量引起的,因为用户平均单次购买量比较平稳。那么对于不同的商品类别,用户单次购买量是否同样比较平稳呢?将每种商品类别的季度婴儿平均购买量展示出来,得到:

图9:每种商品类别婴儿平均购买量(按季度)

 具体到某一类别的商品,季度平均购买量有着不同的增减趋势

下图能比较清晰地展示以上分析过程

2.热销产品,销量最少的产品

图10:各商品类别销售量

可以看出,商品类别28的销量最多,此商品类别可能是易耗品,也可能是婴儿必需品,商品类别122650008销量最少,此类别商品可能是耐用品,也可能是非必需品,需要结合更多信息进行分析。另外也需要看销量最低的商品是否有质量问题,或者产品不符合用户需求,据此进行改善

(二)用户角度

1.男女婴儿购买商品差异情况

图11:男女婴儿购买商品总数量情况

图12:男女婴儿不同商品类别购买数量分布情况

从上面两个图可以看出,女婴儿对商品的总购买量是大于男婴儿的,整体比男婴儿购买量多出66%。在商品类别喜好上,女婴儿购买50008168和50014815最多,男婴儿购买28和50008168最多。其中50014815类别的商品女婴儿的需求量远大于男婴儿,这个商品类别可能是以女婴儿为目标用户

2.不同年龄段婴儿购买商品差异情况

图13:不同年龄段婴儿商品购买数量差异

可以看出,0~3岁婴儿购买数量最多,-1~5岁,每个年龄婴儿对不同类别商品的购买量展示出来,得到:

图14:-1~5岁各年龄婴儿对不同商品类别的购买量分布情况

可以看出,这几种商品类别,基本都是在0~1岁婴儿中销售量最多。0岁婴儿购买50014815商品类别最多。

四.结论与建议

从以上的分析中,可以得出以下结论及建议:

1.总成交量的变化是由新用户的购买次数变化引起的,购买次数的变化对大型节日比较敏感,而对周末的休息日不敏感。复购用户极少,如果是耐用品,复购用户数少是可以理解的。如果是易耗品,商家应寻找原因并改进

2.商品类别38的平均需求量呈上升趋势,商家应根据新用户数和平均需求量的增长情况预计未来的总需求量,以备足库存。商品类别50014815的平均需求量在下降,商家应分析下降原因进行改善或停售

3.热销商品类别是28,商家应继续保持宣传促销。销量最低的商品类别是122650008,商家应分析原因进行改善或停售

4.女婴儿的商品需求量整体要比男婴儿多出66%,并且男女在各个商品类别上的需求也有差异。商家应根据商品类别男女婴儿需求差异,进行差别化的营销策略

5.0~3岁婴儿的商品购买量最多,不同商品类别在不同年龄段的销售量也不一样,商家应采取适龄儿童营销策略

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/118387.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

NOIP2023模拟12联测33 D. 滈葕

NOIP2023模拟12联测33 D. 滈葕 文章目录 NOIP2023模拟12联测33 D. 滈葕题目大意思路code 题目大意 思路 放一段题解的材料 ABO 血型系统是血型系统的一种,把血液分为 A,B,AB,O 四种血型。血液由红细胞和血清等组成,红细胞表面 有凝集原,血清…

R语言环境下使用curl库做的爬虫代码示例

curl库是一个用于传输数据的工具和库,它支持多种协议,包括HTTP、FTP、SMTP等。在爬虫中,curl库可以用来获取网页内容,从而实现爬取网页的功能。通过设置curl的选项,可以实现对网页的请求、响应、重定向等操作。在使用c…

学习笔记三十三:准入控制

ResourceQuota准入控制器 ResourceQuota准入控制器限制cpu、内存、pod、deployment数量限制存储空间大小 LimitRanger准入控制器在limit名称空间创建pod,不指定资源,看看是否会被limitrange规则自动附加其资源限制创建pod,指定cpu请求是100m&…

django安装数据库

使用pip安装django pip3 install django注意我使用的是python3所以用pip3安装,如需安装指定版本 django ..* 检测是否安装成功,不报错,则安装成功 # python3 # import django下边这是报错的 django迁移数据库 再mysql中简历数据库 CREATE DATABA…

【系统集成项目管理工程师】——3.管理

主要掌握输入,输出内容先看他的过程域本身,过程域是什么输出就是什么 上一个过程域的输出是下一个过程域的输入 十大管理1432都有计划过程组,通常规划为首,控制为尾 规划阶段的万能输出是各子计划,即项目管理计划的…

加法运算、 || 、 赋值运算

一、加法运算 在这里插入图片描述 二、&& || 三、赋值运算 四、js类型就八种: 五、css权重、 六:布局,尽量使用块盒。 七、小数精度存储的问题:存的不精确,算的肯定也是有问题的。 八、找单身狗算法题…

20.7 OpenSSL 套接字SSL加密传输

OpenSSL 中的 SSL 加密是通过 SSL/TLS 协议来实现的。SSL/TLS 是一种安全通信协议,可以保障通信双方之间的通信安全性和数据完整性。在 SSL/TLS 协议中,加密算法是其中最核心的组成部分之一,SSL可以使用各类加密算法进行密钥协商,…

预处理、编译、汇编、链接

1.预处理 宏替换去注释引入头文件 #之后的语句都是预处理语句&#xff0c; #include<iostream> 将该文件的内容拷贝到现有文件中&#xff0c; 2.编译 3.汇编 4.链接 gcc 基于C/C的编译器 补充说明 gcc命令 使用GNU推出的基于C/C的编译器&#xff0c;是开放源代…

接口自动化测试分层设计与实践总结01

本文以笔者当前使用的自动化测试项目为例&#xff0c;浅谈分层设计的思路&#xff0c;不涉及到具体的代码细节和某个框架的实现原理&#xff0c;重点关注在分层前后的使用对比&#xff0c;可能会以一些伪代码为例来说明举例。 接口测试三要素&#xff1a; 参数构造 发起请求&…

5个高质量图片处理软件,抠图、特效不求人!

作为一个设计师或摄影家或者平面设计工作人员&#xff0c;又或者是普通人&#xff0c;只要你有图片处理的需求&#xff0c;就不可避免的会需要一个好用高效的图片处理网站&#xff0c;会抠素材&#xff0c;找图片&#xff0c;删除图片内容等等&#xff0c;都需要花费大量的时间…

软件开发必备神器!一文读懂10款热门看板工具推荐!

看板&#xff08;Kanban&#xff09;是一种流行的框架&#xff0c;用于实施敏捷和DevOps软件开发。它要求实时沟通每个人的能力&#xff0c;并全面透明地展示正在进行的工作。工作项目在看板上以可视化方式表示&#xff0c;使项目经理和所有团队成员可以随时查看每个工作的状态…

下载安装各种版本的Vscode以及解决VScode官网下载慢的问题

下载指定版本 在Vscode官网 Vscode官网更新子页 这里的左侧栏点击其中一个会跳转到某个版本&#xff0c;或者在官网子页 https://code.visualstudio.com/updates的后面跟上需要的版本号即可完成目标版本下载页面的跳转 选择Linux里的ARM包不会自动下载而是跳转到另一个页面 …

HTTP 协议详解-上(Fiddler 抓包演示)

文章目录 HTTP 协议HTTP 协议的工作过程HTTP 请求 (Request)认识URL关于 URL encode认识 "方法" (method)GET 方法POST 方法其他方法请求 "报头" (header)请求 "正文" (body) HTTP 响应详解状态码响应 "报头" (header) HTTP 协议 HTT…

MySQL第五讲·关于外键和连接, 如何做到关联查询?

你好&#xff0c;我是安然无虞。 文章目录 外键和连接&#xff1a;如何做关联查询&#xff1f;如何创建外键&#xff1f;连接关联查询中的误区 外键和连接&#xff1a;如何做关联查询&#xff1f; 在实际的数据库应用开发过程中&#xff0c;我们经常需要把2个或2个以上的表进…

在CentOS上安装SQL Server,并通过cpolar内网穿透实现数据库的公网访问

文章目录 前言1. 安装sql server2. 局域网测试连接3. 安装cpolar内网穿透4. 将sqlserver映射到公网5. 公网远程连接6.固定连接公网地址7.使用固定公网地址连接 前言 简单几步实现在Linux centos环境下安装部署sql server数据库&#xff0c;并结合cpolar内网穿透工具&#xff0…

【Redis】hash数据类型-常用命令

文章目录 前置知识常用命令HSETHGETHEXISTSHDELHKEYSHVALSHGETALLHMGET关于HMSETHLENHSETNXHINCRBYHINCRBYFLOAT 命令小结 前置知识 redis自身就是键值对结构了&#xff0c;哈希类型是指值本⾝⼜是⼀个键值对结构&#xff0c;形如key"key"&#xff0c;value{{field1…

学习笔记二十八:K8S控制器Daemonset入门到企业实战应用

DaemonSet控制器&#xff1a;概念、原理解读 DaemonSet概述DaemonSet工作原理&#xff1a;如何管理PodDaemonset典型的应用场景DaemonSet 与 Deployment 的区别DaemonSet资源清单文件编写技巧 DaemonSet使用案例&#xff1a;部署日志收集组件fluentdDaemonset管理pod&#xff1…

牛客网刷题-(11)

&#x1f308;个人主页: Aileen_0v0&#x1f525;系列专栏:PYTHON学习系列专栏&#x1f4ab;"没有罗马,那就自己创造罗马~" 目录 (1)输出1-100的所有奇数 (2)计算输入6个数字中正数的个数 (3)递增序列 (4)PUM (1)输出1-100的所有奇数 #输出1-100的所有奇数 x…

OSPF 高级特性3

目录 一、OSPF安全特性 二、加快收敛 三、缺省路由 四、路由控制 五、显示OSPF的错误统计信息 附录E&#xff08;了解&#xff09; 六、OSPF防环 七、OSPF选路原则 八、OSPF综合实验 一、OSPF安全特性 1、OSPF报文验证&#xff1a; 区域验证模式&#xff1a;在区域下配…

过去60年145项全球开源系统杰出成果颁布,百度飞桨登榜!

近日&#xff0c;BenchCouncil&#xff08;国际测试委员会&#xff09;颁布首个开源系统杰出成果榜&#xff08;1960s-2021&#xff09;&#xff0c;评选了开源方面具有巨大影响并对软硬件发展产生重大推动作用的顶级成果。百度飞桨深度学习框架PaddlePaddle成功上榜。 BenchC…