数据分析每周挑战——心衰患者特征数据集

这是一篇关于医学数据的数据分析,但是这个数据集数据不是很多。

背景描述

本数据集包含了多个与心力衰竭相关的特征,用于分析和预测患者心力衰竭发作的风险。数据集涵盖了从40岁到95岁不等年龄的患者群体,提供了广泛的生理和生活方式指标,以帮助研究人员和医疗专业人员更好地理解心衰的潜在风险因素。

每条患者记录包含以下关键信息:

  1. 年龄(Age):记录患者的年龄,心脏病的风险随年龄增长而增加。
  2. 贫血(Anaemia):贫血可能影响心脏功能,记录患者是否患有贫血。
  3. 高血压(High blood pressure):高血压是心脏病的主要风险因素之一。
  4. 肌酸激酶(Creatinine phosphokinase, CPK):血液中的CPK水平可以反映心肌损伤。
  5. 糖尿病(Diabetes):糖尿病与心脏病风险增加有关。
  6. 射血分数(Ejection fraction):心脏每次收缩时泵出的血液百分比,是心脏功能的重要指标。
  7. 性别(Sex):性别可能影响心脏病的风险和表现形式。
  8. 血小板(Platelets):血小板水平可能与血液凝固和心脏病风险相关。
  9. 血清肌酐(Serum creatinine):血液中的肌酐水平可以反映肾脏功能,与心脏病风险有关。
  10. 血清钠(Serum sodium):钠水平的异常可能与心脏疾病相关。
  11. 吸烟(Smoking):吸烟是心脏病的一个重要可预防风险因素。
  12. 时间(Time):记录患者的随访期,用于观察长期健康变化。
  13. 死亡事件(death event):记录患者在随访期间是否发生了死亡事件,作为研究的主要结果指标。

数据说明

字段解释测量单位区间
Age患者的年龄年(Years)[40,…, 95]
Anaemia是否贫血(红细胞或血红蛋白减少)布尔值(Boolean)0, 1
High blood pressure患者是否患有高血压布尔值(Boolean)0, 1
Creatinine phosphokinase, CPK血液中的 CPK (肌酸激酶)水平微克/升(mcg/L)[23,…, 7861]
Diabetes患者是否患有糖尿病布尔值(Boolean)0, 1
Ejection fraction每次心脏收缩时离开心脏的血液百分比百分比(Percentage)[14,…, 80]
Sex性别,女性0或男性1二进制(Binary)0, 1
Platelets血液中的血小板数量千血小板/毫升(kiloplatelets/mL)[25.01,…, 850.00]
Serum creatinine血液中的肌酐水平毫克/分升(mg/dL)[0.50,…, 9.40]
Serum sodium血液中的钠水平毫摩尔/升(mEq/L)[114,…, 148]
Smoking患者是否吸烟布尔值(Boolean)0, 1
Time随访期天(Days)[4,…,285]
DEATH_EVENT患者在随访期间是否死亡布尔值(Boolean)0, 1
!pip install lifelines -i https://pypi.tuna.tsinghua.edu.cn/simple/
!pip install imblearn -i https://pypi.tuna.tsinghua.edu.cn/simple/

 这是我们这次用到的一些第三方库,大家如果没有安装,可以在jupyter notebook中直接下载。

一:导入第三方库

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from lifelines import KaplanMeierFitter,CoxPHFitter
import scipy.stats as stats
from sklearn.model_selection import train_test_split
from imblearn.over_sampling import RandomOverSampler
from sklearn.metrics import classification_report,confusion_matrix,roc_curve,auc
from sklearn.ensemble import RandomForestClassifier
from pylab import mpl

plt.rcParams['font.family'] = ['sans-serif']
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

 二:读取数据

data = pd.read_csv("D:/每周挑战/heart_failure_clinical_records_dataset.csv")
data.head()

三:对数据进行预处理

data = data.rename(columns={'age':'年龄','anaemia':'是否贫血','creatinine_phosphokinase':'血液中的CPK水平','diabetes':'患者是否患有糖尿病',
                          'ejection_fraction':'每次心脏收缩时离开心脏的血液百分比','high_blood_pressure':'患者是否患有高血压','platelets':'血液中的血小板数量','serum_creatinine':'血液中的肌酐水平',
                          'serum_sodium':'血液中的钠水平','sex':'性别(0为男)','smoking':'是否吸烟','time':'随访期(day)','DEATH_EVENT':'是否死亡'})
data.head()
# 将标签修改为中文更好看

 上面这一段可以不写,如果你喜欢英语可以不加,如果你喜欢汉字,那你可以更改一下。

data.info()  # 从这里可以观察出应该是没有缺失值
data.isnull().sum()  # 没有缺失值
data_ = data.copy()        # 方便我们后期对数据进行建模

区分连续数据和分类数据。 

for i in data.columns:
    if set(data[i].unique()) == {0,1}:
        print(i)
print('-'*50)
for i in data.columns:
    if set(data[i].unique()) != {0,1}:
        print(i)   

 四:数据分析绘图

classify = ['anaemia','high_blood_pressure','diabetes','sex','smoking','DEATH_EVENT']  #  DEATH_EVENT 这个是研究的主要结果指标
numerical = ['age','creatinine_phosphokinase','ejection_fraction','platelets','serum_creatinine','serum_sodium','time']

plt.figure(figsize=((16,20)))
for i,col in enumerate(numerical):
    plt.subplot(4,2,i+1)
    sns.boxplot(y = data[col])
    plt.title(f'{col}的箱线图', fontsize=14)
    plt.ylabel('数值', fontsize=12)
    plt.grid(axis='y', linestyle='--', alpha=0.7)
    
plt.tight_layout()
plt.show()

 从箱型图来看,有些数据有部分异常值,但是,由于缺乏医学知识,所以这里我们不能对异常值进行处理。

colors = ['#63FF9D', '#C191FF']
plt.figure(figsize=(10,12))
for i,col in enumerate(classify):
    statistics = data[col].value_counts().reset_index()
    plt.subplot(3,2,i+1)
    sns.barplot(x=statistics['index'],y=statistics[col],palette=colors)
    plt.title(f'{col}的条形图', fontsize=14)
    
plt.tight_layout()
plt.show()

接下里,我们看时间对于生存率的影响,这里我们就用到了前面安装的KaplanMeierFitter。

kmf = KaplanMeierFitter()
kmf.fit(durations=data['time'],event_observed=data['DEATH_EVENT'])

plt.figure(figsize=(10,8))
kmf.plot_survival_function()
plt.title('Kaplan-Meier 生存曲线', fontsize=14)
plt.xlabel('时间(天)', fontsize=12)
plt.ylabel('生存概率', fontsize=12)

plt.show()

随着时间的推移,生存概率逐渐下降。 在随访结束时,生存概率大约为60%。 接下来,我们对特征相关性进行分析。 

corr = data.corr(method="spearman")

plt.figure(figsize=(10,8))
sns.heatmap(corr,annot=True,cmap='coolwarm',fmt='.2g')
plt.title("斯皮尔曼相关性矩阵")
plt.show()

显著相关性:

年龄、射血分数、血清肌酐 血清钠 和 随访期 与死亡事件之间的相关性较强。 射血分数和血清肌酐与死亡事件的相关性尤为显著,这表明这些变量对死亡事件的预测可能具有重要意义。 弱相关性或无相关性:

贫血、高血压 与死亡事件有轻微相关性,但不显著。

肌酸激酶、糖尿病、血小板、性别 和 吸烟 与死亡事件几乎没有相关性。

def t_test(fea):
    group1 = data[data['DEATH_EVENT'] == 0][fea]
    group2 = data[data['DEATH_EVENT'] == 1][fea]
    t,p = stats.ttest_ind(group1,group2)
    return t,p

# 对数值变量进行t检验
t_test_results = {feature: t_test(feature) for feature in numerical}

t_test_df = pd.DataFrame.from_dict(t_test_results,orient='index',columns=['T-Statistic','P-Value'])
t_test_df
T-StatisticP-Value
age-4.5219838.862975e-06
creatinine_phosphokinase-1.0831712.796112e-01
ejection_fraction4.8056282.452897e-06
platelets0.8478683.971942e-01
serum_creatinine-5.3064582.190198e-07
serum_sodium3.4300636.889112e-04
time10.6855639.122223e-23

 

t检验是一种统计方法,用于比较两组数据是否存在显著差异。该方法基于以下步骤和原理:

建立假设:首先建立零假设(H0),通常表示两个比较群体间没有差异,以及备择假设(H1),即存在差异。

计算t值:计算得到一个t值,这个值反映了样本均值与假定总体均值之间的差距大小。

确定P值:通过t分布理论,计算出在零假设为真的条件下,观察到当前t值或更极端情况的概率,即P值。

做出结论:如果P值小于事先设定的显著性水平(通常为0.05),则拒绝零假设,认为样本来自的两个总体之间存在显著差异;否则,不拒绝零假设。

对于连续数据的特征我们采用t检验进行分析,而对于离散数据,我们采用卡方检验进行分析

# 卡方检验
def chi_square_test(fea1, fea2):
    contingency_table = pd.crosstab(data[fea1], data[fea2])
    chi2, p, dof, expected = stats.chi2_contingency(contingency_table)
    return chi2, p

chi_square_results = {}
chi_square_results = {feature: chi_square_test(feature, 'DEATH_EVENT') for feature in classify}

chi_square_df = pd.DataFrame.from_dict(chi_square_results,orient='index',columns=['Chi-Square','P-Value'])
chi_square_df
Chi-SquareP-Value
anaemia1.0421753.073161e-01
high_blood_pressure1.5434612.141034e-01
diabetes0.0000001.000000e+00
sex0.0000001.000000e+00
smoking0.0073319.317653e-01
DEATH_EVENT294.4301065.386429e-66

所有分类变量(贫血、糖尿病、高血压、性别、吸烟)的p值均大于0.05,表明它们与死亡事件无显著相关性。

最后我们对数据进行建模,这里我们使用随机森林,由于数据量较少,因此我们采用随机采样的方法进行过采样。

x = data.drop('DEATH_EVENT',axis=1)
y = data['DEATH_EVENT']
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.3,random_state=15) #37分
# 实例化随机过采样器
oversampler = RandomOverSampler()

# 在训练集上进行随机过采样
x_train, y_train = oversampler.fit_resample(x_train, y_train)


rf_clf = RandomForestClassifier(random_state=15)
rf_clf.fit(x_train, y_train)


y_pred_rf = rf_clf.predict(x_test)
class_report_rf = classification_report(y_test, y_pred_rf)
print(class_report_rf)
          precision    recall  f1-score   support

           0       0.84      0.85      0.84        60
           1       0.69      0.67      0.68        30

    accuracy                           0.79        90
   macro avg       0.76      0.76      0.76        90
weighted avg       0.79      0.79      0.79        90
cm = confusion_matrix(y_test,y_pred_rf)

plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='g', cmap='Blues', 
            xticklabels=['预测值 0', '预测值 1'], 
            yticklabels=['真实值 0', '真实值 1'])
plt.title('混淆矩阵')
plt.show()

feature_importance = rf_clf.feature_importances_
feature = x.columns

sort_importance = feature_importance.argsort()
plt.figure(figsize=(10,8))
plt.barh(range(len(sort_importance)), feature_importance[sort_importance],color='#B5FFCD')
plt.yticks(range(len(sort_importance)), [feature[i] for i in sort_importance])
plt.xlabel('特征重要性')
plt.title('特征重要性分析')

plt.show()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/675170.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Linux终端探险】:从入门到熟练,玩转基础命令的秘密(二)

文章目录 🚀Linux基础命令(二)🌈1. 寻找目录/文件命令⭐2. 创建文件命令👊3. 网络接口查询命令❤️4. 打包命令💥5. 解压命令 上期回顾: 🔥🔥🔥【Linux终端探…

CMakeFile.txt通过sysroot方式后生成makefile报错

报错信息如下: -- The C compiler identification is unknown -- The CXX compiler identification is unknown -- Check for working C compiler: /home/xj/asm/host/bin/aarch64-buildroot-linux-gnu-gcc -- Check for working C compiler: /home/xj/asm/host/bi…

英伟达GeForce发布《星球大战:亡命之徒》宣传片,8月30日开售

易采游戏网6月3日消息:英伟达GeForce近日发布了一款激动人心的宣传片,展示了备受期待的游戏大作《星球大战:亡命之徒》。该宣传片不仅展现了游戏的华丽画面和引人入胜的故事情节,还重点介绍了支持NVIDIA DLSS 3.5、光线追踪和Refl…

工业级物联网边缘网关解决方案-天拓四方

随着工业4.0时代的到来,越来越多的企业开始寻求智能化升级,以提高生产效率、降低运营成本并增强市场竞争力。然而,在实际的转型升级过程中,许多企业面临着数据孤岛、设备兼容性差、网络安全风险高等问题,这些问题严重制…

mybatis+vue2前后端分离

目录 后端样例目录结构: ​编辑pom.xml文件 连接数据库信息(mysql): config.properties 全部配置文件:mybatis-config.xml 包装sqlSessionFactory(减少代码耦合) 实体类food: 编写mapper.…

SpringCloud网关-gateway

一 什么是网关?为什么选择 Gateway? 网关功能如下: 身份认证和权限校验服务路由、负载均衡请求限流 在 Spring Cloud 中网关的实现包含两种: Gateway(推荐):是基于 Spring5 中提供的 WebFlux &#xff…

仿真文件下载审核 有效保障HPC环境下的数据安全性

仿真文件在科学、工程和技术领域中具有重要性,所以确保仿真文件的安全性是非常重要的,特别是当这些文件包含敏感信息或涉及到关键的业务操作时。在获取仿真文件时,仿真文件下载审核这个流程也比较重要的。 审核仿真文件下载,你需要…

SAP 日期函数

1.计算两个时间的时间差:cl_abap_tstmp>subtract DATA: tstmp1 TYPE timestampl, tstmp2 TYPE timestampl, diff TYPE tzntstmpl. " P代表秒 " 获取两个时间戳 tstmp1 20230911183000. tstmp2 20230911153000. diff cl_abap_tstmp&g…

第 53 期:MySQL 创建了用户却无法登陆

社区王牌专栏《一问一实验:AI 版》全新改版归来,得到了新老读者们的关注。其中不乏对 ChatDBA 感兴趣的读者前来咨询,表达了想试用体验 ChatDBA 的意愿,对此我们表示感谢 🤟。 目前,ChatDBA 还在最后的准备…

HBuilderX打包uni-app项目成安卓app

目录 1、下载Android 离线SDK 2、Android Studio导入工程 3、生成签名 3.1、进入到jdk bin目录下,输入cmd执行命令keytool -genkey -alias wxsalias -keyalg RSA -keysize 2048 -validity 36500 -keystore wxs.keystore 生成签名 3.2、查看签名密钥keytool -lis…

APP 备案步骤

一、打开阿里云备案系统平台:aliyunbaike.com/go/beian 二、开始备案 三、填写APP名称并进行信息校验 四、填写主办者基础信息和主办者负责人信息 五、填写互联网信息,android打包的APK包可直接上传识别信息,ios需要手动填写信息 公钥和证书SHA-1指纹如…

图片去手写软件有哪些?这三款值得一试!

图片去手写软件有哪些?在当今数字化时代,图片处理与编辑已成为我们日常生活中不可或缺的一部分。特别是在处理手写笔记、涂鸦或草图时,图片去手写软件发挥着至关重要的作用。它们能够帮助我们轻松去除图片中的手写内容,使图片更加…

企业百度百科如何修改

百度百科是一个可以让我们快速的了解一个企业情况的地方,同时也让我们的企业展示了什么,还有哪些是可以做的。 注册与登录 首先,你需要注册一个百度账号,并通过邮箱或手机进行验证。登录后,可以开始创建或编辑百度百科…

Ubuntu系统升级k8s节点的node节点遇到的问题

从1.23版本升级到1.28版本 node节点的是Ubuntu系统20.04的版本 Q1 node节点版本1.23升级1.28失败 解决办法: # 改为阿里云镜像 vim /etc/apt/sources.list.d/kubernetes.list# 新增 deb https://mirrors.aliyun.com/kubernetes/apt/ kubernetes-xenial main# 执…

62. UE5 RPG 近战攻击获取敌人并造成伤害

在上一篇,我们实现了通过AI行为树控制战士敌人靠近攻击目标触发近战攻击技能,并在蒙太奇动画中触发事件激活攻击的那一刻的伤害判断,在攻击时,我们绘制了一个测试球体,用于伤害范围。 在之前实现的火球术中&#xff0c…

韩国GreenChip电容式触摸芯片-打造智能触控新时代

在如今科技迅猛发展的时代;智能触控技术已经成为现代生活中不可或缺的一部分;作为一家领先的触控芯片制造商,韩国GreenChip推出的电容式触摸芯片正以其卓越的性能和创新的设计,引领着智能触控的新时代。 韩国GreenChip电容式触摸…

嘴尚绝卤味:口感独特,让你一尝难忘的美食新体验!

在美食的世界里,卤味以其独特的口味和制作工艺,一直受到广大食客的喜爱。而在众多的卤味品牌中,嘴尚绝卤味凭借其口感独特、品质卓越的特点,脱颖而出,成为众多美食爱好者的首选。 嘴尚绝卤味,顾名思义&…

ARM公司发展历程

Arm从1990年成立前开始,历经漫长岁月树立各项公司里程碑及产品成就,一步步成为全球最普及的运算平台。 添加图片注释,不超过 140 字(可选) Acorn 时期 1978年,Chris Curry和Hermann Hauser共同创立了Acorn…

QT 音乐播放器【一】 显示音频级别指示器

文章目录 效果图概述代码总结 效果图 概述 QMediaPlayer就不介绍了,就提供了一个用于播放音频和视频的媒体播放器 QAudioProbe 它提供了一个探针,用于监控音频流。当音频流被捕获或播放时,QAudioProbe 可以接收到音频数据。这个类在需要访问…