利用Python群组分析方法剖析客户行为

大家好,如今的企业有能力收集大量的数据,这些数据可以帮助企业制定更好的策略并了解其客户的行为。Cohort分析可以在其中发挥作用,Cohort分析是一种了解客户行为或用户互动的强大工具,并为企业提供有价值的见解,本文中将介绍如何使用Python进行Cohort分析。

Cohort分析

Cohort分析是一种经常在市场营销、客户忠诚度、用户体验和产品开发等领域使用的数据分析技术。通过这种分析方法,我们可以详细了解特定时期内人群或群体的行为。Cohort用于识别具有相似特征或经历的人群或群体。

例如,对于电子商务业务,可以使用Cohort分析来监测不同的群体,比如客户群体、来自特定地区的群体或偏好特定产品类别的群体。通过这种分析,我们可以研究特定群体在一段时间内的行为和倾向。

应用Cohort分析

本文有一个由12个表组成的关系数据库,将在Python通过MS SQL从这个表中提取所需的特征。在进行必要的预处理操作后,本文将使数据适合进行分析。

本文需要两个特征,分别是客户ID和订单日期。本文的目标是查看能够保留多少客户,并在其首次到达日期后的每个月基础上保留多长时间。

本文想要的特征包含在一个单独的表中,因此在查询过程中,不需要从其他表中提取属性。然而,为了举例说明,假设本文将在两个表上工作,接下来使用MS SQL中的JOIN获取本文想要的特征。

SELECT * FROM ORDERS

图片

SELECT * FROM USERS

图片

SELECT U.ID, O.DATE_ FROM USERS U JOIN ORDERS O ON U.ID= O.ID

图片

本文通过JOIN从USERS和ORDERS表中调用具有相同ID值的属性,为了在Python中进行分析,本文将访问该数据库,在其中运行我们的查询,并将数据作为数据帧在我们的操作中使用。

首先导入本文所需要的库:

import pandas as pd
import sqlalchemy as sa
import urllib
from datetime import datetime

在第二步中,本文使用urllib.parse.quote_plus函数来保护连接字符串免受环境因素的影响,并将连接信息写入这个将用于连接SQL Server数据库的字符串中。

params = urllib.parse.quote_plus("DRIVER={SQL Server};"
 "SERVER=DESKTOP-F3H252;"
 "DATABASE=E-COMMERCE;")

注:如果不知道服务器名称,可以通过查询"SELECT @@SERVERNAME"来找到它。

接下来,本文使用"SQLAlchemy (sa)"库创建与SQL Server数据库的连接,使用"sa.create_engine"函数,我们可以利用连接字符串和其他连接设置创建一个链接引擎。"odbc_connect"参数用于ODBC连接,并包含之前转换的连接字符串。

engine = sa.create_engine("mssql+pyodbc:///?odbc_connect={}".format(params))

在下一步中将创建一个SQL查询,使用查询"SELECT U.ID, O.DATE_ FROM USERS U JOIN ORDERS O ON U.ID= O.ID"来获取我们想要的特征。

qry ="SELECT U.ID, O.DATE_ FROM USERS U JOIN ORDERS O ON U.ID= O.ID"

我们通过"engine"对象建立数据库连接,并在"with"代码块中使用该连接,我们使用"con.execute(qry)"运行SQL查询并获取结果集(rs),最后将结果集转换为Pandas DataFrame。

with engine.connect() as con:
    rs = con.execute(qry)
    df = pd.DataFrame(rs)

图片

我们知道没有缺失数据,但在这一点上检查并消除它。

df.isnull().sum()
ID 0

DATE_ 0

dtype: int64

由于我们将按月进行工作,所以小时数对我们来说并不重要,所以我们首先要删除小时数,然后再删除天数。首先,我们将日期列(DATE_)转换为日期时间格式,然后只获取日期。

df['DATE_'] = pd.to_datetime(df['DATE_'])
df['DATE_'] = df['DATE_'].dt.date

图片

本文的下一步行动是删除天数,接下来为此定义一个lambda函数,希望保留年份和月份的值。datetime(x.year, x.month, 1)将使用年份和月份信息创建一个新的日期对象,其中包含该月的第一天。

get_year_month = lambda x: datetime(x.year, x.month, 1)

接下来使用这个函数创建一个新的变量,并将新数据存储在'DATE_MONTH'列中。

df['DATE_MONTH'] = df['DATE_'].apply(get_year_month)

将根据客户ID对要执行的流程进行分组,并通过创建'COHORT_MONTH'变量在这一列中保留每个客户的首次到达日期。

user_first_date = df.groupby('ID')['DATE_MONTH']
df['COHORT_MONTH'] = user_first_date.transform('min')

图片

当我们查看所获得的值时,如果对第一个订单日期和其他订单日期进行评估,就可以很容易地找到差异,可以通过创建一个新的'COHORT_INDEX'变量,将差异保留在这一列中。

years_diff = df['DATE_MONTH'].dt.year - df['COHORT_MONTH'].dt.year
months_diff = df['DATE_MONTH'].dt.month -df['COHORT_MONTH'].dt.month
df['COHORT_INDEX'] = years_diff * 12 + months_diff + 1

接下来计算每个首次到达日期的活跃客户的月度数量,通过分组创建名为cohort_data的数据帧,其中包含了每个月首次到达的唯一客户数量。

grouping_count = df.groupby(['COHORT_MONTH', 'COHORT_INDEX'])
cohort_data = grouping_count['ID'].apply(pd.Series.nunique)
cohort_data = cohort_data.reset_index()
cohort_data.head()

图片

进而将cohort_data数据帧整理到数据透视表中,并创建一个名为cohort_user_counts的新数据帧,该数据帧将包含每个群体的月活跃客户数量,计算每个客户的活跃百分比,通过将每个月群体中的客户数除以初始客户数来实现此目的。

cohort_sizes = cohort_user_counts.iloc[:,0]
retention = cohort_user_counts.divide(cohort_sizes, axis=0)
retention.index = retention.index.strftime('%m-%Y')

图片

最后在热图上可视化retention数据帧:

sns.set(style = 'white')
plt.figure(figsize = (15, 6))
plt.title('Cohort: Retention rate by month')
sns.heatmap(
            retention
            ,cmap = plt.cm.Reds
            ,annot = True
            ,fmt = '.0%'
            )
plt.xlabel("Ongoing months"
plt.ylabel("First arrival date")
plt.show()

图片

如上所述,图表中的百分比表达的是活跃率,从中可以推断出的内容回答了可以保留客户多长时间的问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/142269.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

竞赛选题 深度学习的动物识别

文章目录 0 前言1 背景2 算法原理2.1 动物识别方法概况2.2 常用的网络模型2.2.1 B-CNN2.2.2 SSD 3 SSD动物目标检测流程4 实现效果5 部分相关代码5.1 数据预处理5.2 构建卷积神经网络5.3 tensorflow计算图可视化5.4 网络模型训练5.5 对猫狗图像进行2分类 6 最后 0 前言 &#…

Python--集合----无序,去重,空集合只能用set()方法

集合(set)是一个无序的不重复元素序列。 特点:天生去重 无序 集合定义:在Python中,我们可以使用一对花括号 {} 或者 set()方法 来定义集合, 但是如果你 定义的集合是一个 空集合&#xf…

C++阶段复习‘‘‘‘总结?【4w字。。。】

文章目录 前言类和对象C类定义和对象定义类成员函数C 类访问修饰符公有(public)成员私有(private)成员受保护(protected)成员 继承中的特点类的构造函数和析构函数 友元函数内联函数this指针指向类的指针类…

什么是会话固定以及如何在 Node.js 中防止它

什么是会话固定以及如何在 Node.js 中防止它 在深入讨论之前,我们需要了解会话是什么以及会话身份验证如何工作。 什么是会话? 正如我们所知,HTTP 请求是无状态的,这意味着当我们发送登录请求时,并且我们有有效的用…

Linux系统编程——标准c库对文件操作

Linux、标准c库对文件操作的区别 1.来源 从来源的角度看,两者能很好的区分开,这也是两者最显而易见的区别: open是UNIX系统调用函数 (包括LINUX等) ,返回的是文件描述符 (File Descriptor),它是文件在文件描述符表里的索引。.f…

腾讯云5年云服务器还有吗?腾讯云5年时长服务器入口在哪?

如果你是一名企业家或者是一个热衷于数字化转型的创业者,那么腾讯云最近推出的一项优惠活动绝对不会让你无动于衷。现在,腾讯云正在大力推广一项5年特价云服务器活动,只需要花费3879元,你就可以享受到腾讯云提供的优质服务。 腾讯…

RK3568平台开发系列讲解(Linux系统篇)Linux内核定时器详解

🚀返回专栏总目录 文章目录 一、系统节拍率二、内核定时器简介三、内核定时器API四、延时函数沉淀、分享、成长,让自己和他人都能有所收获!😄 📢 Linux 内核中有大量的函数需要时间管理,比如周期性的调度程序、延时程序、对于我们驱动编写者来说最常用的定时器。硬件定…

Direct3D拾取

假设在屏幕上单击,击中的位置为点s=(x,y)。由图可以看出,用户选中了茶壶。但是仅给出点s,应用程序还无法立即判断出茶壶是否被选中。所以针对这类问题,我们需要采用一项称为“拾 取(Picking)”的技术。 茶壶和屏幕点s之间的一种联系是茶壶被投影到了一个包含了s的区域中。…

【QT系列教程】之一安装配置

文章目录 一、qt简介二、qt下载2.1、官网地址:https://www.qt.io/2.2、下载2.3、https://download.qt.io/official_releases/online_installers/ 三、qt安装3.1、登录账号,没有账号自己注册3.2、我是个人安装,如果是公司填写公司名字3.3、欢迎…

文件批量重命名001开始,怎么操作?

如何让文件批量重命名001开始?对于那些需要批量重命名文件的用户来说,这项任务可能涉及到整理照片、音乐文件或者调整电子文档的命名,而这些工作都可能会相当繁琐。有时候,我们希望以数字顺序名称从"001"开始批量修改文…

hadoop 虚拟机配置大数据环境 hadoop(二)

1. 安装epel-release 注:Extra Packages for Enterprise Linux 是为“红帽系”的操作系统提供额外的软件包,适用于RHEL、CentOS 和Scientific Liux。相当于是一个软件仓库,大多数rpm 包在官方repository 中是找不到的) 命令: yum install -y epel-relea…

LCD1602设计(2)-指令宏定义完整版

本文为博主 日月同辉,与我共生,csdn原创首发。希望看完后能对你有所帮助,不足之处请指正!一起交流学习,共同进步! > 发布人:日月同辉,与我共生_单片机-CSDN博客 > 欢迎你为独创博主日月同…

swagger精度丢失,postman调用正常,dameng数据库,long类型字段

问题出现 我们目前在迁移环境,然后往另带一个公司提供的框架里面迁移,然后就出现了很多问题,一个问题是我们返回的某个列表数据,在使用postman 的时候调用正常,但是当前端在制作页面的时候出现问题,并且sw…

8年经验之谈 —— 记一次接口压力测试与性能调优!

经验总结 1. 如果总的CPU占用率偏高,且基本都被业务线程占用时,CPU占用率过高的原因跟JVM参数大小没有直接关系,而跟具体的业务逻辑有关。 2. 当设置JVM堆内存偏小时,GC频繁会导致业务线程停顿增多,TPS下降&#xff…

P6入门:项目初始化5-项目支出计划Spending Plan

前言 使用项目详细信息查看和编辑有关所选项目的详细信息,在项目创建完成后,初始化项目是一项非常重要的工作,涉及需要设置的内容包括项目名,ID,责任人,日历,预算,资金,分类码等等&…

JAVA弑神大阵之装饰者大阵

架构说明 构成简述: 总接口: 装饰者跟被装饰者都要来实现他(或者理解成父接口),作用:对被装饰者做转换 被装饰者: 此处实现总接口。什么都不需要动,他只是被增强的功能&#xff0…

Python 框架学习 Django篇 (十) Redis 缓存

开发服务器系统的时候,程序的性能是至关重要的。经过我们前面框架的学习,得知一个请求的处理基本分为接受http请求、数据库处理、返回json数据,而这3个部分中就属链接数据库请求的响应速度最慢,因为数据库操作涉及到数据库服务处理…

算法笔记-贪心1

算法笔记-贪心 什么是贪心算法分配饼干例题理解二分割字符串最优装箱整数配对最大组合整数分配区间问题买股票的最佳时机区间选点 问题什么是贪心算法 分配饼干例题 //贪心算法 //保证局部最优,从而使最后得到的结果是全局最优的 #include<iostream> #include<a…

微前端时代:打造高效、灵活的前端开发体系

❝ 本篇文章全文约 1.5 万字&#xff0c;目的是系统化地介绍微前端及其核心技术&#xff0c;并介绍了什么是微前端以及为什么我们需要它。我们还讨论了在众多微前端框架中如何选择适合自己系统的框架&#xff0c;并分享了一些业界使用微前端的实践案例。最后&#xff0c;我们提…

LeetCode(11)H 指数【数组/字符串】【中等】

目录 1.题目2.答案3.提交结果截图 链接&#xff1a; 274. H 指数 1.题目 给你一个整数数组 citations &#xff0c;其中 citations[i] 表示研究者的第 i 篇论文被引用的次数。计算并返回该研究者的 h 指数。 根据维基百科上 h 指数的定义&#xff1a;h 代表“高引用次数” &a…