数据挖掘实战:基于KMeans算法对超市客户进行聚类分群(文末送书)

 

🤵‍♂️ 个人主页:@艾派森的个人主页

✍🏻作者简介:Python学习者
🐋 希望大家多多支持,我们一起进步!😄
如果文章对你有帮助的话,
欢迎评论 💬点赞👍🏻 收藏 📂加关注+


目录

一、研究背景

二、算法原理

三、实验步骤

3.1加载数据集

3.2数据预处理

3.3确定聚类参数k

3.4 kmeans聚类

3.5聚类结果

 四、总结

完整代码

文末推荐

文末福利


一、研究背景

        超市作为零售业的主要形式之一,在现代都市生活中扮演着重要角色。随着社会经济的发展和消费者需求的变化,超市经营者越来越意识到了客户细分的重要性。不同的客户群体有着不同的购物习惯、消费行为和偏好,了解并满足不同客户群体的需求,可以帮助超市提供更加个性化的服务和商品推荐,从而提升客户的满意度和忠诚度,促进超市的经营发展。

        为了实现客户细分,研究者和业界常常采用聚类分析的方法。KMeans算法作为一种常见的聚类算法,具有计算效率高、易于理解和实现的优点,被广泛应用于客户细分领域。

        因此,本实验旨在使用KMeans算法对超市客户进行聚类分群,从而识别出不同的客户群体,并分析这些群体的特征和行为习惯。通过这种客户细分的方式,超市经营者可以更好地了解其客户群体,优化产品陈列和推广策略,提供更加个性化的购物体验,增加客户的购买频率和客单价,从而实现超市业务的增长和盈利能力的提升。

二、算法原理

        k-means算法是一种简单的迭代型聚类算法,采用距离作为相似性指标,从而发现给定数据集中的K个类,且每个类的中心是根据类中所有值的均值得到,每个类用聚类中心来描述。对于给定的一个包含n个d维数据点的数据集X以及要分得的类别K,选取欧式距离作为相似度指标,聚类目标是使得各类的聚类平方和最小,即最小化。

  结合最小二乘法和拉格朗日原理,聚类中心为对应类别中各数据点的平均值,同时为了使得算法收敛,在迭代过程中,应使最终的聚类中心尽可能的不变。

K-means是一个反复迭代的过程,算法分为四个步骤:

1)选取数据空间中的K个对象作为初始中心,每个对象代表一个聚类中心;

2)对于样本中的数据对象,根据它们与这些聚类中心的欧氏距离,按距离最近的准则将它们分到距离它们最近的聚类中心(最相似)所对应的类;

3)更新聚类中心:将每个类别中所有对象所对应的均值作为该类别的聚类中心,计算目标函数的值;

4)判断聚类中心和目标函数的值是否发生改变,若不变,则输出结果,若改变,则返回2)。

三、实验步骤

3.1加载数据集

首先导入本次实验用到的第三方库和数据集

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(font='SimHei')
import warnings
warnings.filterwarnings('ignore')

# 读取数据
data = pd.read_csv('Mall_Customers.csv')
data.head()

使用shape属性查看数据大小

使用info函数查看数据基本信息

3.2数据预处理

这里我们需要将性别变量进行编码转化

3.3确定聚类参数k

方法1:肘部法则

        肘部法则(Elbow Method)是一种常用于确定KMeans聚类算法中参数K的方法。该方法通过绘制不同K值对应的聚类误差(通常是SSE,Sum of Squared Errors)的折线图,来寻找一个“肘点”,该点对应的K值即为较为合适的聚类数。

以下是使用肘部法则确定K的步骤:

  1. 选择一定范围的K值:首先,确定一个K值的范围,一般从较小的K开始,例如1到10或者更大的范围,具体根据问题的复杂程度而定。

  2. 计算聚类误差(SSE):对于每一个K值,使用KMeans算法进行聚类,并计算每个数据点到其所属簇中心的距离之和的平方,即SSE。SSE是衡量聚类效果的指标,表示样本点与其所属簇中心的紧密程度。

  3. 绘制肘部法则图:将不同K值对应的SSE绘制成折线图(K-SSE曲线图)。横坐标为K值,纵坐标为对应的SSE值。

  4. 寻找“肘点”:观察K-SSE曲线图,通常会出现一个明显的拐点,即曲线从下降阶段转为平缓下降或持平阶段的位置。这个拐点所对应的K值,即为肘部法则确定的较为合适的聚类数。

        请注意,肘部法则并不是一个绝对准确的方法,有时候K-SSE曲线可能没有明显的肘点,或者存在多个肘点。在实际应用中,我们可以结合领域知识和业务需求,综合考虑选择最合适的K值。另外,还可以尝试其他聚类评估指标(如轮廓系数、DBI等)来辅助确定最佳的K值。

from sklearn.cluster import KMeans
new_df = data.drop('CustomerID',axis=1)
# 肘部法则
loss = []
for i in range(2,10):
    model = KMeans(n_clusters=i).fit(new_df)
    loss.append(model.inertia_)
    
plt.plot(range(2,10),loss)
plt.xlabel('k')
plt.ylabel('loss')
plt.show()

 

方法2:轮廓系数

        轮廓系数(Silhouette Coefficient)是一种用于评估聚类质量的指标,可以帮助确定KMeans聚类算法中最佳的聚类数K。它结合了聚类的紧密度(簇内样本距离平均值)和分离度(不同簇之间样本距离平均值),从而提供一个综合的聚类效果评估。

轮廓系数的计算过程如下:

  1. 对于每个数据点,首先计算它与同簇其他数据点的平均距离,称为a(簇内紧密度)。

  2. 然后,对于每个数据点,计算它与其他簇中所有数据点的平均距离,找到其中最近的一个平均距离,称为b(簇间分离度)。

  3. 计算每个数据点的轮廓系数:s = (b - a) / max(a, b)

  4. 对于整个数据集,计算所有数据点的轮廓系数的平均值,作为整个聚类的轮廓系数。

轮廓系数的取值范围在-1到1之间:

  • 如果轮廓系数接近于1,则表示簇内样本紧密度高,簇间分离度较好,聚类效果较好。
  • 如果轮廓系数接近于-1,则表示簇内样本紧密度较低,簇间分离度不好,聚类效果较差。
  • 如果轮廓系数接近于0,则表示簇内外样本的距离相差不大,聚类效果一般。

        通常来说,较高的轮廓系数意味着更好的聚类效果。在使用轮廓系数确定K值时,我们可以尝试不同的K值,计算对应的轮廓系数,选择轮廓系数最大的K值作为最佳的聚类数。但是,需要注意的是,轮廓系数也有一定的局限性,特别是在数据分布不均匀或者聚类间有重叠的情况下,可能不适用于评估聚类效果。因此,综合考虑多种评估指标和领域知识,能够更全面地确定最佳的聚类数。

# 轮廓系数
from sklearn.metrics import silhouette_score
score = []
for i in range(2,10):
    model = KMeans(n_clusters=i).fit(new_df)
    score.append(silhouette_score(new_df, model.labels_, metric='euclidean'))
    
plt.plot(range(2,10),score)
plt.xlabel('k')
plt.ylabel('silhouette_score')
plt.show()

通过两种方法的结合,我们观察出最佳的聚类个数应该为k=6。

3.4 kmeans聚类

from sklearn.metrics import silhouette_score
kmeans = KMeans(n_jobs = -1, n_clusters = 6, init='k-means++')
kmeans.fit(new_df)
print(silhouette_score(new_df, kmeans.labels_, metric='euclidean'))
0.45206493204632353

将聚类结果进行可视化展示

clusters = kmeans.fit_predict(data.iloc[:,1:])
new_df["label"] = clusters
fig = plt.figure(figsize=(21,10))
ax = fig.add_subplot(111, projection='3d')
ax.scatter(new_df.Age[new_df.label == 0], new_df["Annual Income (k$)"][new_df.label == 0], new_df["Spending Score (1-100)"][new_df.label == 0], c='blue', s=60)
ax.scatter(new_df.Age[new_df.label == 1], new_df["Annual Income (k$)"][new_df.label == 1], new_df["Spending Score (1-100)"][new_df.label == 1], c='red', s=60)
ax.scatter(new_df.Age[new_df.label == 2], new_df["Annual Income (k$)"][new_df.label == 2], new_df["Spending Score (1-100)"][new_df.label == 2], c='green', s=60)
ax.scatter(new_df.Age[new_df.label == 3], new_df["Annual Income (k$)"][new_df.label == 3], new_df["Spending Score (1-100)"][new_df.label == 3], c='orange', s=60)
ax.scatter(new_df.Age[new_df.label == 4], new_df["Annual Income (k$)"][new_df.label == 4], new_df["Spending Score (1-100)"][new_df.label == 4], c='black', s=60)
ax.scatter(new_df.Age[new_df.label == 5], new_df["Annual Income (k$)"][new_df.label == 5], new_df["Spending Score (1-100)"][new_df.label == 5], c='purple', s=60)
ax.view_init(30, 185)
plt.show()

3.5聚类结果

查看各聚类类别的个数

data['label'] = clusters
print(data['label'].value_counts())
data.head()

 分析各类别的变量差异

avg_df = data.groupby(['label'], as_index=False).mean()
plt.figure(figsize=(10,8))
plt.subplot(2,2,1)
sns.barplot(x='label',y='Age',data=avg_df)
plt.subplot(2,2,2)
sns.barplot(x='label',y='Gender',data=avg_df)
plt.subplot(2,2,3)
sns.barplot(x='label',y='Spending Score (1-100)',data=avg_df)
plt.subplot(2,2,4)
sns.barplot(x='label',y='Annual Income (k$)',data=avg_df)
plt.show()

通过图表我们可得出以下结论: 

各细分市场的主要特点

簇类0:  

低收入,低消费能力。  

平均年龄在40岁左右,性别以女性为主。  

簇类1:

中等收入,中等消费能力。

平均年龄在55岁左右,性别以女性为主。

簇类2:

低收入,高消费能力。

平均年龄在25岁左右,性别以女性为主。

簇类3:

高收入,高消费能力。

平均年龄在30岁左右,性别以女性为主。

簇类4:

中等收入,中等消费能力。

平均年龄在30岁左右,性别以女性为主。

簇类5:

高收入,低消费能力。

平均年龄在40岁左右,性别以男性为主。

 四、总结

        本实验基于KMeans算法对超市客户进行了聚类分群。通过对客户购物数据进行聚类,我们成功将客户分为不同的群体。每个群体代表了具有相似购物行为和偏好的客户群体。通过实验结果,我们发现了客户群体之间的明显差异和共性。不同群体的客户在购买频率、购物金额和购买种类等方面有所区别。这为超市提供了重要的市场细分信息,帮助超市经营者更好地了解不同客户群体的需求和喜好,制定有针对性的营销策略和商品推荐,提高客户满意度和忠诚度。此外,实验还揭示了超市客户的购物行为规律,为超市优化商品陈列和促销策略提供了指导。通过针对不同客户群体推出个性化的促销活动,超市可以更有效地吸引客户,提升销售额和利润。

完整代码

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(font='SimHei')
import warnings
warnings.filterwarnings('ignore')

# 读取数据
data = pd.read_csv('Mall_Customers.csv')
data.head()
data.shape
data.info()
data['Gender'].replace(to_replace={'Female':0,'Male':1},inplace=True)
data.head()
from sklearn.cluster import KMeans
new_df = data.drop('CustomerID',axis=1)
# 肘部法则
loss = []
for i in range(2,10):
    model = KMeans(n_clusters=i).fit(new_df)
    loss.append(model.inertia_)
    
plt.plot(range(2,10),loss)
plt.xlabel('k')
plt.ylabel('loss')
plt.show()
# 轮廓分数
from sklearn.metrics import silhouette_score
score = []
for i in range(2,10):
    model = KMeans(n_clusters=i).fit(new_df)
    score.append(silhouette_score(new_df, model.labels_, metric='euclidean'))
    
plt.plot(range(2,10),score)
plt.xlabel('k')
plt.ylabel('silhouette_score')
plt.show()
from sklearn.metrics import silhouette_score
kmeans = KMeans(n_jobs = -1, n_clusters = 6, init='k-means++')
kmeans.fit(new_df)
print(silhouette_score(new_df, kmeans.labels_, metric='euclidean'))
clusters = kmeans.fit_predict(data.iloc[:,1:])
new_df["label"] = clusters
fig = plt.figure(figsize=(21,10))
ax = fig.add_subplot(111, projection='3d')
ax.scatter(new_df.Age[new_df.label == 0], new_df["Annual Income (k$)"][new_df.label == 0], new_df["Spending Score (1-100)"][new_df.label == 0], c='blue', s=60)
ax.scatter(new_df.Age[new_df.label == 1], new_df["Annual Income (k$)"][new_df.label == 1], new_df["Spending Score (1-100)"][new_df.label == 1], c='red', s=60)
ax.scatter(new_df.Age[new_df.label == 2], new_df["Annual Income (k$)"][new_df.label == 2], new_df["Spending Score (1-100)"][new_df.label == 2], c='green', s=60)
ax.scatter(new_df.Age[new_df.label == 3], new_df["Annual Income (k$)"][new_df.label == 3], new_df["Spending Score (1-100)"][new_df.label == 3], c='orange', s=60)
ax.scatter(new_df.Age[new_df.label == 4], new_df["Annual Income (k$)"][new_df.label == 4], new_df["Spending Score (1-100)"][new_df.label == 4], c='black', s=60)
ax.scatter(new_df.Age[new_df.label == 5], new_df["Annual Income (k$)"][new_df.label == 5], new_df["Spending Score (1-100)"][new_df.label == 5], c='purple', s=60)
ax.view_init(30, 185)
plt.show()
data['label'] = clusters
print(data['label'].value_counts())
data.head()
avg_df = data.groupby(['label'], as_index=False).mean()
avg_df
plt.figure(figsize=(10,8))
plt.subplot(2,2,1)
sns.barplot(x='label',y='Age',data=avg_df)
plt.subplot(2,2,2)
sns.barplot(x='label',y='Gender',data=avg_df)
plt.subplot(2,2,3)
sns.barplot(x='label',y='Spending Score (1-100)',data=avg_df)
plt.subplot(2,2,4)
sns.barplot(x='label',y='Annual Income (k$)',data=avg_df)
plt.show()

文末推荐

《硅基物语-我是灵魂画手》

内容简介:

        一本将 AI 绘画讲透的探秘指南,通过丰富的实践案例操作,通俗易懂地讲述 AI 绘画的生成步骤,生动展现了 AI 绘画的魔法魅力。从历史到未来,跨越百年时空;从理论到实践,讲述案例操作;从技术到哲学,穿越多个维度;从语言到绘画,落地实战演练。AI 绘画的诞生,引发了奇点降临,点亮了 AGI(通用人工智能),并涉及 Prompt、风格、技术细节、多模态交互、AIGC 等一系列详细讲解。让您轻松掌握生图技巧,创造出独特的艺术作品,书写属于自己的艺术时代。

编辑推荐:

        用ChatGPT Midjourney画出人类的灵魂与梦想,用Stable Diffusion D-ID画出青春绚丽的渴望。激活每个人隐藏的绘画天赋,让任何人都能成为绘画大师。

文末福利

《硅基物语-我是灵魂画手》免费包邮送出3本!

  •  抽奖方式:评论区随机抽取3位小伙伴免费送出!
  • 参与方式:关注博主、点赞、收藏、评论区评论“人生苦短,拒绝内卷!”(切记要点赞+收藏,否则抽奖无效,每个人最多评论三次!
  • 活动截止时间:2023-08-04 20:00:00
  •  当当购买链接:http://product.dangdang.com/29601870.html

 名单公布时间:2023-08-04 21:00:00  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/54659.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

1.2 eureka注册中心,完成服务注册

目录 环境搭建 搭建eureka服务 导入eureka服务端依赖 编写启动类,添加EnableEurekaServer注解 编写eureka配置文件 启动服务,访问eureka Euraka服务注册 创建了两个子模块 在模块里导入rureka客户端依赖 编写eureka配置文件 添加Services 环境搭建 创建父…

【算法提高:动态规划】1.3 背包模型 TODO

文章目录 例题列表423. 采药(01背包)1024. 装箱问题(大小和价值相等的01背包)1022. 宠物小精灵之收服(二维费用的背包问题)补充:相关题目——8. 二维费用的背包问题 278. 数字组合(0…

【雕爷学编程】MicroPython动手做(02)——尝试搭建K210开发板的IDE环境

知识点:简单了解K210芯片 2018年9月6日,嘉楠科技推出自主设计研发的全球首款基于RISC-V的量产商用边缘智能计算芯片勘智K210。该芯片依托于完全自主研发的AI神经网络加速器KPU,具备自主IP、视听兼具与可编程能力三大特点,能够充分适配多个业务场景的需求。作为嘉楠科…

快速搭建Vue项目

1.安装node环境 下载地址为:https://nodejs.org/en/ 注意node版本问题,有很多情况下是node版本问题导致的错误。 2.安装淘宝镜像cnpm 为了提高我们的效率,可以使用淘宝的镜像:http://npm.taobao.org/ npm install cnpm -g --r…

PostgreSQL Patroni_exporter 监控 patroni高可用工具

Patroni是Cybertec公司基于python语言开发的,可用于使用流复制来创建,管理,维护和监视高可用性PostgreSQL集群设置的工具。 目前,PatroniEtcd 是最为推荐的PostgreSQL数据库高可用方案之一。 PostgreSQL有postgres_exporter监控采…

华为OD机试真题 JavaScript 实现【小朋友排队】【2023 B卷 100分】,附详细解题思路

目录 一、题目描述二、输入描述三、输出描述四、解题思路五、JavaScript算法源码六、效果展示1、输入2、输出 华为OD机试 2023B卷题库疯狂收录中,刷题点这里 刷的越多,抽中的概率越大,每一题都有详细的答题思路、详细的代码注释、样例测试&am…

uC-OS2 V2.93 STM32L476 移植:环境搭建篇

前言 uC-OS2 是比较经典的 RTOS,如今软件授权已经改为 Apache License Version 2.0,意味着可以免费商用了 当前 uC-OS2 的最新版本是: V2.93,打算研究一下 RTOS 的设计思想,所以想在已有的开发板:NUCLEO-L…

WAVE SUMMIT 定档8月16日,或将曝百度飞桨、文心大模型最新进展

🤵‍♂️ 个人主页:艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞&#x1f4…

【LeetCode 75】第十七题(1493)删掉一个元素以后全为1的最长子数组

目录 题目: 示例: 分析: 代码运行结果: 题目: 示例: 分析: 给一个数组,求删除一个元素以后能得到的连续的最长的全是1的子数组。 我们可以先单独统计出连续为1的子数组分别长度…

Vue3--->组合式API与Pinia

目录 使用create-vue搭建 1、使用create-vue创建项目 2、项目目录和关键文件 组合式API 1、组合式API - setup选项 2、组合式API - reactive和ref函数 3、组合式API - computed 4、组合式API - watch 1、基础使用 - 侦听单个数据 2、基础使用 - 侦听多个数据 3、immediate&…

【单片机】温控系统参数辨识及单片机PID控制

温控系统参数辨识及单片机PID控制 1. 温控系统组成2. matlab辨识系统参数2.1 采集阶跃响应信号导入matlab系统辨识模块 PID控制 1. 温控系统组成 半导体制冷片正向通电制冷,反向通电制热。系统采用半导体制冷片(帕尔贴)作为执行单元&#xf…

WilliamNing - 电脑办公环境 - 以及个人工作/开发习惯 - Windows/Mac

主要是记录个人的办公环境习惯,方便到新的环境,快速搭建自己熟悉的环境,从而提高工作效率 1. Windows 深圳客友 腾讯外包 家里电脑 TBD 2. Mac SeekAsia[深圳就业网络] Kumu[成都脑海科技] 2.1 桌面软件列表 后调整 -- 加了一些软件 同时…

组件化、跨平台…未来前端框架将如何演进?

前端框架在过去几年间取得了显著的进步和演进。前端框架也将继续不断地演化,以满足日益复杂的业务需求和用户体验要求。从全球web发展角度看,框架竞争已经从第一阶段的前端框架之争(比如Vue、React、Angular等),过渡到…

BUG分析以及BUG定位

一般来说bug大多数存在于3个模块: 1、前台界面,包括界面的显示,兼容性,数据提交的判断,页面的跳转等等,这些bug基本都是一眼可见的,不太需要定位,当然也不排除一些特殊情况&#xf…

随笔03 考研笔记整理

图源:文心一言 上半年的考研类博文整理,因为真的花费了很多时间才写好,所以设置为仅关注我的伙伴可以查看~🥝🥝 第1版:整理博文~🧩🧩 第2版:博文链接提前,方…

Vector - CAPL - 诊断模块函数(设置和获取)

目录 CanTpGetRxIdentifier CanTpGetTxIdentifier CanTpSetRxIdentifier CanTpSetTxIdentifier 代码示例 CanTpGetPadding & CanTpSetPadding 代码示例 CanTpGetAcceptOtherMode & CanTpSetAcceptOtherMode 代码示例 对于使用OSEK.dll文件调用发送诊断数据和接…

【element-plus】 table表格每行圆角解决方案 element也通用

系列文章目录 【Vue3ViteTselement-plus】使用tsx实现左侧栏菜单无限层级封装 前言 我们在使用element-plus或element 的table时是否有时UI给到的UI效果是如下面这样的,但是我们翻遍了组件库的文档 调整了很多次样式 发现在 左右侧栏固定的时候 普通的方法是完全…

基于小程序+spring boot流浪动物救助系统-计算机毕设 附源码12783

小程序spring boot流浪动物救助系统 摘 要 随着我国经济迅速发展,人们对手机的需求越来越大,各种手机软件也都在被广泛应用,但是对于手机进行数据信息管理,对于手机的各种软件也是备受用户的喜爱,流浪动物救助系统被用…

音视频技术开发周刊 | 304

每周一期,纵览音视频技术领域的干货。 新闻投稿:contributelivevideostack.com。 更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了 Meta 终于发布了大家期待已久的免费可商用版本 Llama 2。 6000份问卷透露出AI…

Diffusion扩散模型学习3——Stable Diffusion结构解析-以图像生成图像(图生图,img2img)为例

Diffusion扩散模型学习3——Stable Diffusion结构解析-以图像生成图像(图生图,img2img)为例 学习前言源码下载地址网络构建一、什么是Stable Diffusion(SD)二、Stable Diffusion的组成三、img2img生成流程1、输入图片编…