1.项目背景
随着健康意识的提升和健身文化的普及,人们对科学健身和个性化训练的需求日益增长,健身房会员的锻炼模式和健康管理需求呈现出新的特点,本项目使用基于真实健身模式生成的973位会员数据进行深入分析,探索不同会员群体的训练特征和健康风险,了解影响会员训练效果的关键因素,这不仅有助于理解会员的锻炼习惯,还可以为健身房优化服务体系、制定更科学的训练计划提供数据支持,同时,通过建立健康风险预测模型,可以更好地识别潜在的健康隐患,为提供安全、高效的个性化训练指导奠定基础。
2.数据说明
字段 | 说明 |
---|---|
Index | 每条记录的唯一标识号 |
Age | 会员年龄 |
Gender | 会员性别(男性或女性) |
Weight (kg) | 会员体重(单位:公斤) |
Height (m) | 会员身高(单位:米) |
Max_BPM | 运动时最大心率 |
Avg_BPM | 运动时平均心率 |
Resting_BPM | 静息心率 |
Session_Duration (hours) | 每次锻炼持续时间(单位:小时) |
Calories_Burned | 每次锻炼消耗的卡路里 |
Workout_Type | 锻炼类型(包括:瑜伽、HIIT、有氧、力量训练) |
Fat_Percentage | 体脂率(百分比) |
Water_Intake (liters) | 饮水量(单位:升) |
Workout_Frequency (days/week) | 每周锻炼频率(单位:天/周) |
Experience_Level | 训练经验水平(1 至 3级) |
BMI | 身体质量指数 |
3.Python库导入及数据读取
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from scipy.stats import spearmanr,f_oneway
from imblearn.over_sampling import RandomOverSampler
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import classification_report,mean_squared_error, r2_score,mean_absolute_error
data = pd.read_csv("/home/mw/input/11011446/gym_members_data.csv")
4.数据预览
查看重复值:0
数据不存在缺失值、重复值,虽然体重、BMI、卡路里消耗存在少量异常值,但是也是符合一些大体重、运动时间较长的用户,故不处理这些值。
5.用户画像分析
-
基础人口统计特征:
-
样本量为973人,年龄18-59岁,平均38.7岁,标准差12.2岁
-
性别分布中男性511人占多数,表明男性更倾向于健身房锻炼
-
体重范围从40kg到129.9kg,平均73.85kg,标准差21.21kg反映出体重差异较大
-
身高范围在1.5m到2.0m之间,平均1.72m,标准差较小(0.13m)显示身高分布集中
-
-
运动表现指标:
-
最大心率160-199,平均179.88,说明运动强度普遍较大
-
平均心率120-169,均值143.77,显示整体运动强度适中
-
静息心率50-74,均值62.22,处于健康范围
-
训练时长从0.5小时到2小时不等,平均1.26小时,符合科学锻炼建议
-
卡路里消耗差异很大,从303到1783卡路里,平均905.42卡路里
-
-
健康与习惯指标:
-
体脂率从10%到35%不等,平均24.98%,标准差6.26%反映出较大差异
-
饮水量1.5-3.7升,平均2.63升,表明会员普遍注意补充水分
-
每周锻炼2-5次,平均3.32次,标准差0.91显示锻炼频率较稳定
-
BMI分布广泛(12.32-49.84),平均24.91,标准差6.66,暗示会员体型差异大
-
-
训练水平:
-
经验等级1-3级,平均1.81级,标准差0.74表明以初中级为主
-
四种训练类型中Strength最受欢迎(258人),反映力量训练的主导地位
-
6.聚类分析
6.1数据预处理
对数值型变量就行标准化,对分类变量进行独热编码。
6.2确定聚类数
1.肘部法则(左图 - 射部法则图):这个图显示了随着聚类数量的增加,聚类内误差平方和的变化。需要寻找图中的"肘部",即曲线开始平缓的点。在这个图中,肘部似乎出现在 4 处,虽然在7处也出现拐点,但是还需要结合轮廓系数图来看,以及防止过拟合的情况。
2.轮廓系数图(右图 - 轮廓系数图):这个图显示了不同聚类数下的轮廓系数。通常选择轮廓系数最高的点。从图中可以看出,虽然2个聚类的轮廓系数最高,但这可能过于笼统,无法捕捉数据的复杂性,可以考虑 3 和 4。
综上所述,选择 4 作为聚类数,原因:它是第一个稳定的拐点,较少的聚类数更有利于实际应用和解释。
6.3K-Means聚类
计算特征的重要性:每个特征在所有簇中心的方差:
Feature Variance
6 Session_Duration (hours) 0.549108
11 Experience_Level 0.534215
7 Calories_Burned 0.408172
8 Fat_Percentage 0.373498
10 Workout_Frequency (days/week) 0.157031
9 Water_Intake (liters) 0.134431
1 Weight (kg) 0.133325
13 Gender_Female 0.101813
14 Gender_Male 0.101813
12 BMI 0.071242
2 Height (m) 0.063547
4 Avg_BPM 0.004179
15 Workout_Type_Cardio 0.001353
17 Workout_Type_Strength 0.000990
5 Resting_BPM 0.000933
18 Workout_Type_Yoga 0.000677
16 Workout_Type_HIIT 0.000622
3 Max_BPM 0.000477
0 Age 0.000357
会员分群的关键影响因素
-
每次锻炼持续时间 - 是区分会员类型的最重要指标
-
训练经验水平(1-3级) - 对会员分群有很强的区分度
-
锻炼消耗卡路里 - 反映训练强度和效果
-
体脂率(百分比) - 是重要的身体状况指标
-
每周锻炼频率和饮水量 - 中等重要性
-
体重和性别 - 具有一定影响力
-
其他指标(身体质量指数、身高、心率指标、锻炼类型和年龄等)影响相对较小
6.4四类用户画像分析
Cluster 0
特征: 初级会员群体,性别分布均衡,每次锻炼持续时间最短,锻炼消耗卡路里最少,每周锻炼频率最低,体脂率较高,体重和身高适中,训练经验水平为初级。
营销建议: 以锻炼时长和训练经验为切入点,提供新手友好的基础课程包,设计渐进式训练计划,通过团课提高参与积极性,重点推广减脂课程和基础体能训练。
Cluster 1
特征: 高级会员群体,性别分布均衡,每次锻炼持续时间最长,锻炼消耗卡路里最高,每周锻炼频率最高,体脂率最低,训练经验水平为高级。
营销建议: 围绕锻炼时长和训练经验设计专业课程,推出高强度训练课程,组织专业训练营和赛事活动,提供精准的营养指导方案,设置专属会员特权。
Cluster 2
特征: 以女性为主的中级会员群体,体重较轻,运动时平均心率最高,每次锻炼持续时间和频率适中,体脂率最高。
营销建议: 结合锻炼时长和体脂率特点,开发女性专属训练课程,加强力量训练指导,提供体脂管理咨询,打造女性健身社群,设置训练效果追踪系统。
Cluster 3
特征: 全男性会员群体,体重较大,身体质量指数最高,每次锻炼持续时间和频率适中,饮水量较高。
营销建议: 基于锻炼时长和卡路里消耗特点,定制男性专属力量训练方案,制定体重管理计划,优化训练强度分配,推出男性专属课程包,强化心肺功能训练指导。
7.会员训练水平进阶特征分析
Level 1
特征: 训练经验为初级水平,性别分布均衡,每次锻炼持续时间最短,锻炼消耗卡路里最少,每周锻炼频率最低(2-3天),体脂率较高,主要进行有氧运动和力量训练,BMI值处于正常范围。
营销建议: 针对初学者特点,提供基础动作指导课程,设计循序渐进的训练计划,通过团课形式培养运动习惯,重点关注训练动作规范和基础体能提升。
Level 2
特征: 训练经验为中级水平,性别分布均衡,锻炼持续时间适中,卡路里消耗中等,每周锻炼频率稳定(3-4天),体脂率略高,以力量训练为主,各类训练形式分布均衡,运动时心率水平较高。
营销建议: 基于中级训练水平,开设进阶动作技术课程,组织小团体训练营,提供训练计划指导,帮助突破训练瓶颈,强化训练技术提升。
Level 3
特征: 训练经验为高级水平,性别分布均衡,锻炼持续时间最长,卡路里消耗最高,每周训练频率最高(4-5天),体脂率明显较低,偏好瑜伽和高强度间歇训练,训练指标稳定,饮水量充足。
营销建议: 针对丰富训练经验,提供高阶训练技术指导,开展专业工作坊和训练营,分享先进训练理念和方法,制定科学的训练周期计划,注重训练质量的提升。
8.健康风险评估
8.1建立指标
健身人群通常有较高的肌肉质量,而肌肉的重量远大于脂肪,由于BMI无法区分肌肉和脂肪的比例,肌肉发达的人可能会被误认为是超重或肥胖,即使他们的体脂率实际上非常低,所以这里的评估指标只选择:体脂、理论最大心率、心率储备。
这是体脂率对照表:
理论最大心率是基于年龄推算出的最大心跳次数,表示一个人在极限运动状态下,心脏每分钟能够跳动的最大次数。这个值通常用于判断运动时心脏的安全负荷。
理论最大心率的经典计算公式是:
理论最大心率年龄
这个公式是基于大量人体生理数据得出的经验公式,适用于一般健康人群。
健康风险划分依据:
理论最大心率帮助我们确定运动过程中的心率区间,避免过度运动。不同强度的运动对应的心率区间如下:
-
低强度运动:最大心率的50% - 60%
-
中等强度运动:最大心率的60% - 70%
-
高强度运动:最大心率的70% - 85%
如果运动时的实际心率超过理论最大心率的85%,就可能存在健康风险(例如心脏负担过大)。
心率储备是指最大心率与静息心率之间的差值。这个指标可以帮助评估运动强度,尤其是有氧运动时。它能够反映出个体心脏在运动中的适应能力和耐受性。
心率储备的计算公式如下:
心率储备最大心率静息心率
然后,心率储备使用率(即运动强度)通常用以下公式来计算:
心率储备使用率运动中的心率静息心率心率储备
这个公式可以计算出个体在运动过程中的心率占据了最大心率和静息心率之间差值的多少比例。
健康风险划分依据:
-
低强度运动:使用心率储备的50%以下
-
中等强度运动:使用心率储备的50% - 70%
-
高强度运动:使用心率储备的70% - 85%
当心率储备使用率大于85%,可能表明运动强度过高,增加了对心脏的负担。
现在已经获得了3个风险评估指标的结果,这里可以考虑将这些风险指标汇总起来。
8.2斯皮尔曼相关性分析
-
随着年龄增加,风险也在增加。
-
身高、体重增加,也会增加风险,可能是因为身高和体重之间存在比较明显的线性关系,同理BMI也是一样的,受身高和体重的影响。
-
运动时的心率也和风险有一定程度的正相关。
-
每次锻炼时长与风险成弱负相关,随着运动时长增加,总风险计数可能略有减少。
-
饮水量与总风险计数呈现一定的正相关关系,这可能是因为高体重人群需要更多的水分摄入,因此间接影响风险。
-
每周锻炼频率与风险计数呈弱负相关,这意味着随着每周运动次数的增加,总风险计数有轻微下降趋势。
-
训练经验水平与风险计数呈弱负相关,说明训练经验越丰富的会员,越能够减少风险。
8.3ANOVA
总风险计数与性别有关,与训练的类型无关,并且绘图发现,男性风险数更高,而女性相对低一些。
8.4建立预测风险模型
预测效果还是不错的,尤其平衡样本后,在预测高风险数时,效果比较好,这样可以尽早知道会员是否存在风险,及时预警。
9.结论
基于对973位健身房会员数据的全面分析,本项目得出以下主要结论:
1. 会员群体聚类分析揭示了四种典型用户画像:
-
初级会员群体:性别分布均衡,每次锻炼持续时间最短(平均1.26小时),锻炼消耗卡路里最少,每周锻炼频率最低,体脂率较高
-
高级会员群体:性别分布均衡,每次锻炼持续时间最长,消耗卡路里最高,每周锻炼频率最高,体脂率最低
-
女性中级会员群体:以女性为主,体重较轻,运动时平均心率最高,训练时长和频率适中,体脂率最高
-
男性会员群体:全部为男性,体重较大,BMI最高,训练时长和频率适中,饮水量较高
2. 训练经验水平分析显示显著的进阶特征:
-
初级(Level 1):训练时间短,卡路里消耗少,以有氧和力量训练为主
-
中级(Level 2):训练强度适中,各类训练形式分布均衡
-
高级(Level 3):训练时间长,卡路里消耗高,偏好瑜伽和HIIT训练
3. 健康风险评估发现三个主要问题:
-
体脂风险:25.7%的会员体脂率异常,其中15.6%属于"偏胖",10.1%属于"过胖"。尽管近半数(49.7%)会员保持标准体脂水平,但仍有24.6%的会员处于"过瘦"状态,表明体重管理两极化现象明显
-
心率风险:高达95%的会员在训练时出现最大心率超过理论安全阈值的情况,反映出大多数会员可能存在运动强度过大的问题
-
运动强度风险:15%的会员在训练时心率储备使用率过高,虽然85%会员的运动强度处于合理范围,但仍需关注高强度训练人群的安全问题
4. 风险预测模型取得良好效果:
-
使用随机森林模型对会员风险等级进行预测,总体准确率达到82%
-
模型在预测高风险群体时表现突出,有助于及时发现潜在健康隐患
-
性别是影响风险的重要因素,而训练类型对风险影响不显著
5. 本研究的实践建议:
-
健身房应加强会员体重管理指导,针对"过瘦"和"过胖"两类人群制定专门的训练和营养方案
-
建议配置心率监测设备,实时追踪会员运动强度,预防过度训练
-
对高强度训练爱好者提供专业指导,确保训练效果的同时保障运动安全
-
根据会员性别特征,定制个性化的训练计划和风险防控措施
-
强化教练团队的健康风险识别能力,提升应急响应水平
需要说明的是,本研究使用的是基于真实健身模式生成的模拟数据集,经过询问Kaggle作者,得到其回复,数据来源包括公开的健身研究、行业报告和相关调查。虽然具体数值可能与实际情况有所差异,但研究方法和分析框架可以应用于真实数据分析,为健身房运营和会员服务提供参考。
Image Name