数据挖掘案例-航空公司客户价值分析

在这里插入图片描述

文章目录

    • 1. 案例背景
    • 2. 分析方法与过程
      • 2.1 分析流程步骤
      • 2.2 分析过程
        • 1. 数据探索分析
        • 2. 描述性统计分析
        • 3. 分布分析
          • 1.客户基本信息分布分析
          • 2. 客户乘机信息分布分析
          • 3. 客户积分信息分布分析
        • 4. 相关性分析
    • 3. 数据预处理
        • 3.1 数据清洗
        • 3.2 属性约束
        • 3. 3 数据转换
    • 4. 模型构建
      • 4. 1 客户聚类
      • 4. 2 客户价值分析
      • 4.3 模型应用
    • 5. 总结思考

1. 案例背景

信息时代的来临使得企业营销焦点从产品中心转变为客户中心,客户关系管理成为企业的核心问题。客户关系管理的关键问题是客户分类,通过客户分类,区分无价值客户、高价值客户,企业针对不同价值的客户制定优化的个性化服务方案,采取不同营销策略,将有限营销资源集中于高价值客户,实现企业利润最大化目标。准确的客户分类结果是企业优化营销资源分配的重要依据,客户分类越来越成为客户关系管理中亟待解决的关键问题之一。

面对激烈的市场竞争,各个航空公司都推出了更优惠的营销方式来吸引更多的客户,国内某航空公司面临着常旅客流失、竞争力下降和航空资源未充分利用等经营危机。通过建立合理的客户价值评估模型,对客户进行分群,分析比较不同客户群的客户价值,并制定相应的营销策略,对不同的客户群提供个性化的客户服务是必须的和有效的。结合该航空公司已积累的大量的会员档案信息和其乘坐航班记录,实现以下目标。

•借助航空公司客户数据,对客户进行分类。

•对不同的客户类别进行特征分析,比较不同类客户的客户价值。

•对不同价值的客户类别提供个性化服务,制定相应的营销策略。

2. 分析方法与过程

2.1 分析流程步骤

1.抽取航空公司2012年4月1日至2014年3月31日的数据。

2.对抽取的数据进行数据探索分析与预处理,包括数据缺失值与异常值的探索分析,数据清洗,特征构建,标准化等操作。

3.基于RFM模型,使用K-Means算法进行客户分群。

4.针对模型结果得到不同价值的客户,采用不同的营销手段,提供定制化的服务。

总体流程:

image-20240527133117778

2.2 分析过程

1. 数据探索分析

初始数据:

image-20240527133258451

从航空公司系统内的客户基本信息、乘机信息以及积分信息等详细数据中,根据末次飞行日期(LAST_FLIGHT_DATE),以2014年3月31日为结束时间,选取宽度为两年的时间段作为分析观测窗口,抽取观测窗口2012年4月1日至2014年3月31日内有乘机记录的所有客户的详细数据形成历史数据,总共62988条记录。航空公司数据属性如下表所示。

在这里插入图片描述

在这里插入图片描述

2. 描述性统计分析
  • 通过对原始数据观察发现数据中存在票价为空值的记录,同时存在票价最小值为0、折扣率最小值为0但总飞行公里数大于0的记录。票价为空值的数据可能是客户不存在乘机记录造成。其它的数据可能是客户乘坐0折机票或者积分兑换造成。

  • 每列属性观测值中空值个数、最大值、最小值,如下表所示。

属性名称空值记录数最大值最小值
SUM_YR_15512395600
SUM_YR_21382341880
SEG_KM_SUM0580717368
avg_discount01.50

实现代码:

image-20240527134534979

3. 分布分析

分别从客户基本信息、乘机信息、积分信息3个角度进行数据探索,寻找客户的分布规律。

1.客户基本信息分布分析

选取客户基本信息中入会时间、性别、会员卡级别和年龄字段进行探索分析,探索客户的基本信息分布状况,得到各年份会员入会人数直方图、会员性别比例饼图、会员各级别人数条形图、会员年龄分布箱型图。

  1. 会员入会年份分析

image-20240527134607377

实现代码:

image-20240527134630037

  1. 会员性别分析

image-20240527134653031

实现代码:
image-20240527134212047

  1. 会员级别分析

image-20240527134259212

代码实现:

image-20240527134233279

2. 客户乘机信息分布分析

选取最后一次乘机至结束的时长、客户乘机信息中的飞行次数、总飞行公里数进行探索分析

  1. 会员年纪分布

image-20240527134928555

实现代码:

image-20240527135011480

  1. 客户飞行数据分析

选取最后一次乘机至结束的时长、客户乘机信息中飞行次数、总飞行公里数进行探索分析,探索客户的乘机信息分布状况。

客户最后一次乘机至结束的时长、客户乘机信息中飞行次数、总飞行公里数的箱线图

image-20240527135147106

image-20240527135155991

实现代码:

image-20240527135239333

3. 客户积分信息分布分析

选取积分兑换次数、总累计积分进行探索分析,探索客户的积分信息分布状况

客户积分兑换次数直方图和总累计积分分布箱线图。

image-20240527135350931

image-20240527135510561

代码实现:
image-20240527135424365

4. 相关性分析

客户信息的属性间存在相关性,选取入会时间、会员卡级别、客户年龄、飞行次数、总飞行公里数、最近一次乘机至结束时长、积分兑换次数、总累计积分属性,通过相关系数矩阵与热力图分析各属性间的相关性。

相关性矩阵:

image-20240527140039970

热力图:

image-20240527140239086

实现代码:

image-20240527140254754

3. 数据预处理

数据预处理方法:

image-20240527140343588

3.1 数据清洗

通过对数据观察发现原始数据中存在票价为空值,票价最小值为0、折扣率最小值为0、总飞行公里数大于0的记录。票价为空值的数据可能是客户不存在乘机记录造成。其他的数据可能是客户乘坐0折机票或者积分兑换造成。由于原始数据量大,这类数据所占比例较小,对于问题影响不大,因此对其进行丢弃处理。同时,数据探索时发现部分年龄大于100记录,也进行丢弃处理,具体处理方法如下。

(1) 丢弃票价为空的记录。

(2) 保留票价不为0的,或者平均折扣率不为0且总飞行公里数大于0的记录。

(3) 丢弃年龄大于100的记录。

使用pandas对满足清洗条件的数据进行丢弃,处理方法为满足清洗条件的一行数据全部丢弃。

代码实现:

image-20240527140514001

3.2 属性约束

通过航空公司客户数据识别不同价值的客户,识别客户价值应用最广泛的模型是RFM模型。

  1. RFM 模型介绍
  • R(Recency)指的是最近一次消费时间与截止时间的间隔。通常情况下,最近一次消费时间与截止时间的间隔越短,对即时提供的商品或是服务也最有可能感兴趣。

  • F(Frequency)指顾客在某段时间内所消费的次数。可以说消费频率越高的顾客,也是满意度越高的顾客,其忠诚度也就越高,顾客价值也就越大。

  • M(Monetary)指顾客在某段时间内所消费的金额。消费金额越大的顾客,他们的消费能力自然也就越大,这就是所谓“20%的顾客贡献了80%的销售额”的二八法则。

  1. RFM 模型解读

RFM模型包括3个特征,无法用平面坐标系来展示,所以这里使用三维坐标系进行展示,如图 所示,x轴表示R特征(Recency),y轴表示F特(Frequency),z轴表示M指标(Monetary)。每个轴一般会用5级表示程度,1为最小,5为最大

image-20240527140703253

  1. 航空公司客户价值分析的 LRFMC 模型

在RFM模型中,消费金额表示在一段时间内,客户购买该企业产品金额的总和。由于航空票价受到运输距离,舱位等级等多种因素影响,同样消费金额的不同旅客对航空公司的价值是不同的,比如一位购买长航线,低等级舱位票的旅客与一位购买短航线,高等级舱位票的旅客相比,后者对于航空公司而言价值可能更高。因此这个特征并不适合用于航空公司的客户价值分析。

客户关系长度L,消费时间间隔R,消费频率F,飞行里程M和折扣系数的平均值C五个特征作为航空公司识别客户价值特征,如下表所示,记为LRFMC模型。

模型LRFMC
航空公司LRFMC模型会员入会时间距观测窗口结束的月数客户最近一次乘坐公司飞机距观测窗口结束的月数客户在观测窗口内乘坐公司飞机的次数客户在观测窗口内累计的飞行里程客户在观测窗口内乘坐舱位所对应的折扣系数的平均值

原始数据中属性太多,根据航空公司客户价值LRFMC模型,选择与LRFMC指标相关的六个属性:FFP_DATE、LOAD_TIME、FLIGHT_COUNT、AVG_DISCOUNT、SEG_KM_SUM、LAST_TO_END。删除与其不相关、弱相关或冗余的属性,属性选择后的数据集如下表。

FFP_DATELOAD_TIMELAST_ TO_ENDFLIGHT_ COUNTSEG_ KM_SUMavg_discount
2006/11/22014/3/3112105807170.961639
2007/2/192014/3/3171402936781.252314
2007/2/12014/3/31111352837121.254676
2008/8/222014/3/3197232813361.090870
2009/4/102014/3/3151523099280.970658
3. 3 数据转换

数据变换是将数据转换成“适当的”格式,以适应挖掘任务及算法的需要。

主要采用的数据变换方式:

  • 属性构造
  • 数据标准化

1.会员入会时间距观测窗口结束的月数L=会员入会时长

image-20240527141421098

2.客户最近一次乘坐公司飞机距观测窗口结束的月数R=最后一次乘机时间至观察窗口末端时长(单位:月)

image-20240527141438784

3.客户在观测窗口内乘坐公司飞机的次数F=观测窗口的飞行次数(单位:次)

image-20240527141444550

4.客户在观测时间内在公司累计的飞行里程M=观测窗口总飞行公里数(单位:公里)

image-20240527141459553

5.客户在观测时间内乘坐舱位所对应的折扣系数的平均值C=平均折扣率(单位:无)

image-20240527141503534

在完成五个指标的数据提取后,对每个指标数据分布情况进行分析,其数据的取值范围如表所示。

属性名称LRFMC
最小值12.230.0323680.14
最大值114.6324.372135807171.5

从表中数据可以发现,五个指标的取值范围数据差异较大,为了消除数量级数据带来的影响,需要对数据进行标准化处理。

标准差标准化处理后,形成ZL、ZR、ZF、ZM、ZC五个属性的数据。

ZLZRZFZMZC
1.43571897-0.9449551614.0341287526.761369961.29555058
1.30716214-0.91190189.0732856713.12697012.86819902
1.32839171-0.889866238.7189397412.653583452.88097321
0.65848092-0.416101510.7815908212.540723061.99472974
0.38603481-0.922919599.9237159113.898847781.3443455

实现代码:

image-20240527141913395

4. 模型构建

客户价值分析模型构建主要由两个部分构成,第一个部分根据航空公司客户五个指标的数据,对客户作聚类分群。第二部分结合业务对每个客户群进行特征分析,分析其客户价值,并对每个客户群进行排名。

4. 1 客户聚类

采用K-Means聚类算法对客户数据进行客户分群,聚成五类(需要结合业务的理解与分析来确定客户的类别数量)。

使用scikit-learn库下的聚类子库(sklearn.cluster)可以实现K-Means聚类算法。使用标准化后的数据进行聚类,

image-20240527142533199

image-20240527142606278

4. 2 客户价值分析

针对聚类结果进行特征分析,绘制客户分群雷达图。

image-20240527142710247

image-20240527142747704

定义5个等级的客户类别:重要保持客户,重要发展客户,重要挽留客户,一般客户,低价值客户。每种客户类别的特征如图所示。

image-20240527142849986

4.3 模型应用

根据对各个客户群进行特征分析,采取下面的一些营销手段和策略,为航空公司的价值客户群管理提供参考。

1.会员的升级与保级:航空公司可以在对会员升级或保级进行评价的时间点之前,对那些接近但尚未达到要求的较高消费客户进行适当提醒甚至采取一些促销活动,刺激他们通过消费达到相应标准。这样既可以获得收益,同时也提高了客户的满意度,增加了公司的精英会员。

2.首次兑换:采取的措施是从数据库中提取出接近但尚未达到首次兑换标准的会员,对他们进行提醒或促销,使他们通过消费达到标准。一旦实现了首次兑换,客户在本公司进行再次消费兑换就比在其他公司进行兑换要容易许多,在一定程度上等于提高了转移的成本。

3.交叉销售:通过发行联名卡等与非航空类企业的合作,使客户在其他企业的消费过程中获得本公司的积分,增强与公司的联系,提高他们的忠诚度。

5. 总结思考

由于在航空客户关系管理中客户流失的问题未被重视,故对航空公司造成了巨大的损害。客户流失对利润增长造成的负面影响非常大,仅次于公司规模、市场占有率、单位成本等因素的影响。客户与航空公司之间的关系越长久,给公司带来的利润就会越高。所以流失一个客户,比获得一个新客户对公司的损失更大。因为要获得新客户,需要在销售、市场、广告和人员工资上花费很多的费用,并且大多数新客户产生的利润还不如那些流失的老客户多。

因此,在国内航空市场竞争日益激烈的背景下,航空公司在客户流失方面应该引起足够的重视。如何改善流失问题,继而提高客户满意度、忠诚度是航空公司维护自身市场并面对激烈竞争的一件大事,客户流失分析将成为帮助航空公司开展持续改进活动的指南。

客户流失分析可以针对目前老客户进行分类预测。针对航空公司客户信息数据,可以进行老客户以及客户类型的定义(其中将飞行次数大于6次的客户定义为老客户,已流失客户定义为:第二年飞行次数与第一年飞行次数比例小于50%的客户;准流失客户定义为:第二年飞行次数与第一年飞行次数比例在区间[50%,90%)内的客户;未流失客户定义为:第二年飞行次数与第一年飞行次数比例大于90%的客户)。同时需要选取客户信息中的关键属性如:会员卡级别、客户类型(流失、准流失、未流失)、平均乘机时间间隔、平均折扣率、积分兑换次数、非乘机积分总和、单位里程票价、单位里程积分等。随机选取数据的80%作为分类的训练样本,剩余的20%作为测试样本。构建客户的流失模型,运用模型预测未来客户的类别归属(未流失、准流失,或已流失)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/649312.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【面经】单片机

1、单片机IO口工作方式 输入 模拟输入(GPIO_Mode_AIN):关闭施密特触发器,将电压信号传送到片上外设模块,通常用于连接模拟信号源。浮空输入(GPIO_Mode_IN_FLOATING):在浮空输入状态…

回收站清空的文件怎么恢复?8个方法公开(2024更新版)

“我太粗心了,刚想恢复部分回收站中误删的重要文件,一不小心把回收站清空了,现在还有什么方法可以恢复它们吗?” 在数字时代,电脑已经成为我们日常生活和工作中不可或缺的工具。然而,随着我们对电脑的依赖加…

etcd 和 MongoDB 的混沌(故障注入)测试方法

最近在对一些自建的数据库 driver/client 基础库的健壮性做混沌(故障)测试, 去验证了解业务的故障处理机制和恢复时长. 主要涉及到了 MongoDB 和 etcd 这两个基础组件. 本文会介绍下相关的测试方法. MongoDB 中的故障测试 MongoDB 是比较世界上热门的文…

【算法】排序——加更

补充1个排序:希尔排序 思路:首先定义一个gap,从第0个数开始,每隔一个gap取出一个数,将取出来的数进行比较,方法类似插入排序。第二轮从第二个数开始,每隔一个gap取出一个数再进行插入排序。四轮就可以取完…

新手一次过软考高级(系统规划与管理师)秘笈,请收藏!

2024上软考已经圆满结束,距离下半年的考试也只剩下半年不到的时间。需要备考下半年软考高级的小伙伴们可以抓紧开始准备了,毕竟高级科目的难度可是不低的。 今天给大家整理了——系统规划与管理师的备考资料 ,都是核心重点,有PDF&…

微博v14.5.1,集成猪手模块2.3.0-276,移除广告和各类推广提示

软件介绍 微博 v14.5.1,内置猪手模块直装版是一款专业优化的微消客户端,该软件融合了咸猪手模块,并提供了用户友好的自定义选项。这些选项包括广告移除、停止推荐内容、消除各类提示消息等功能,旨在提升用户的个性化使用体验。 …

最详细Linux提权总结(建议收藏)

1、内核漏洞脏牛提权 查看内核版本信息 uname -a 具体提权 1、信息收集配合kali提权 uname -a #查看内核版本信息 内核版本为3.2.78,那我们可以搜索该版本漏洞 searchsploit linux 3.2.78 找到几个可以使用的脏牛提权脚本,这里我使用的是40839.c脚…

Facebook广告如何开户以及投放费用?

Facebook作为全球最大的社交媒体平台之一,成为了企业与个人推广品牌、产品或服务的重要渠道。其精准的广告定向功能和庞大的用户基数,为广告主提供了无限的商机。云衔科技为企业提供专业的Facebook上开户和运营服务,助力您高效获客。 一、Fa…

【Spring Cloud】Feign整合服务容错中间件Sentinel

文章目录 引入sentinel依赖配置文件为被容错的接口指定容错类创建容错类修改controller演示扩展为被容错的接口更改容错类创建回退工厂类演示 总结 上一篇文章中我们已经对服务容错中间件 Sentinel 持久化的两种模式进行了全面解析,本文我们将对Feign和Sentinel进行…

学术图表的基本配色方法

不论是商业图表还是专业图表,图表的配色都极其关键。图表配色主要有彩色和黑白两种配色方案。刘万祥老师曾提出: “在我看来,普通图表与专业图表的差别,很大程度就体现在颜色运用上。” 对于科学图表,大部分国内的期…

lua 计算第几周

需求 计算当前赛季的开始和结束日期,2024年1月1日周一是第1周的开始,每两周是一个赛季。 lua代码 没有处理时区问题 local const 24 * 60 * 60 --一整天的时间戳 local server_time 1716595200--todo:修改服务器时间 local date os.date("*t…

利用阅读APP3.0目录展示要查看的内容02

要实现前面提到的功能并不困难,只要导入如下规则即可: 打开APP导入对应规则: 导入后的目录规则界面: 导入后的替换规则界面: 规则文件详细内容: 1. 目录规则: 2. 替换规则 除了直接导入上述文件,也可以自己添加规则。总之,就是利用…

蓝桥杯第十四届国赛B组刷题笔记

A-0子2023: 题目: 小蓝在黑板上连续写下从 11 到 20232023 之间所有的整数,得到了一个数字序列: 𝑆12345678910111213...20222023S12345678910111213...20222023。 小蓝想知道 𝑆S 中有多少种子序列恰好等…

夏日将至,给手机装个“液冷”降温可行吗?

夏天出门在外,手机总是更容易发热,尤其是顶着大太阳用手机的时候,更是考验手机的散热能力。如果你也是一个对手机体验有追求的人,比较在意手机的温度,那么可以考虑入手一个微泵液冷手机壳。 【什么是微泵液冷壳&#…

《浪姐》也搞live直播,真成综艺流量密码了?

继《歌手》之后,芒果的另一档综艺《浪姐》也将开启直播。 《乘风2024》官博宣布进行突击加场直播赛,姐姐们将面临全开麦live直播,摇人投票排在前十的姐姐获得live直播抢先权。 这是看《歌手2024》直播赛制火了,也想蹭个热度搞直…

JavaScript 新特性:新增声明命令与解构赋值的强大功能

个人主页:学习前端的小z 个人专栏:JavaScript 精粹 本专栏旨在分享记录每日学习的前端知识和学习笔记的归纳总结,欢迎大家在评论区交流讨论! ES5、ES6介绍 文章目录 💯声明命令 let、const🍟1 let声明符&a…

豆包模型最新数据评测!性能究竟如何?

豆包模型最新数据评测!性能究竟如何? 前言 就在5月27日,字节跳动旗下的豆包大模型在火山引擎原动力大会上正式发布,本次大会中豆包的模型能力也引发行业关注。 介绍豆包 豆包是一个多功能 AI 助手,为你的生活、学习、工…

什么是独特摆动交易策略?fpmarkets1分钟讲清楚

摆动交易策略想必各位投资者都已经接触过了,但是什么是独特摆动交易策略?各位投资者知道吗?其实很简单,这是一种基于斐波纳契工具的独特摆动交易策略。下面fpmarkets1分钟讲清楚,趋势总会经历调整,而这些调…

生产者发送源码

具体流程 Producer先从本地尝试获取路由信息本地无缓存的路由信息时,从注册中心中获取路由信息,并缓存到本地获取到的路由信息包含了Topic下的所有Queue,Producer就可以采取负载均衡策略把消息发送到某个队列里Producer发送消息到Broker成功…

GpuMall智算云:fofr/cog-face-to-many/cog-face-to-many

通过该镜像创建实例后,点击更多-创建自定义端口 GpuMall智算云 | 省钱、好用、弹性。租GPU就上GpuMall,面向AI开发者的GPU云平台 输入8188,因为该镜像中的cog-face-tomany监听8188端口,所以必须要填写为8188端口,然后点击确定#au…