Python数据分析-糖尿病数据集数据分析

一、研究背景介绍

糖尿病是美国最普遍的慢性病之一,每年影响数百万美国人,并对经济造成重大的经济负担。糖尿病是一种严重的慢性疾病,其中个体失去有效调节血液中葡萄糖水平的能力,并可能导致生活质量和预期寿命下降。。。。糖尿病也给经济带来了巨大的负担,诊断出的糖尿病成本约为88亿美元,未诊断的糖尿病和糖尿病前期的总成本每年接近1亿美元。本案例分析针对糖尿病数据集进行探索和分析:

二、实证分析

首先,导入需要的基础包:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
plt.rcParams['font.sans-serif'] = ['KaiTi']  #中文
plt.rcParams['axes.unicode_minus'] = False   #负号
import seaborn as sns

读取数据文件,展示数据前15行

数据和代码

df=pd.read_csv('diabetes_data.csv')
df.head(15)

 

查看数据类型和形状

df.shape

###发现数据量为七万多行,17个特征,各项特征介绍如下:

###各项特征名称

年龄:13级年龄组(_AGEG5YR见密码本)

1 = 18-24 / 2 = 25-29 / 3 = 30-34 / 4 = 35-39 / 5 = 40-44 / 6 = 45-49 / 7 = 50-54 / 8 = 55-59 / 9 = 60-64 / 10 = 65-69 / 11 = 70-74 / 12 = 75-79 / 13 = 80 岁或以上

Sex:患者性别(1:男;0:女)

HighChol:0 = 无高胆固醇 1 = 高胆固醇

CholCheck:0 = 5 年内未进行胆固醇检查 1 = 5 年内进行了胆固醇检查

BMI:身体质量指数

吸烟者:您一生中至少吸过 100 支香烟吗? [注:5 包 = 100 支香烟] 0 = 否 1 = 是

心脏病或发作:冠心病 (CHD) 或心肌梗塞 (MI) 0 = 否 1 = 是

PhysActivity:过去 30 天的身体活动 - 不包括工作 0 = 否 1 = 是

水果:每天吃水果 1 次或更多次 0 = 否 1 = 是

蔬菜:每天吃蔬菜 1 次或更多次 0 = 否 1 = 是

HvyAlcoholConsump:(成年男性每周 >=14 杯,成年女性每周 >=7 杯)0 = 否 1 = 是

GenHlth:总体而言,您的健康状况是: 等级 1-5 1 = 极好 2 = 非常好 3 = 好 4 = 一般 5 = 差

MentHlth:心理健康状况不佳的天数 1-30 天

PhysHlth:过去 30 天的身体疾病或受伤天数 1-30

DiffWalk:你走路或爬楼梯有严重困难吗? 0 = 否 1 = 是

中风:您曾经中风。 0 = 否,1 = 是

HighBP:0 = 不高,BP 1 = 高 BP

糖尿病:0 = 无糖尿病,1 = 糖尿病

进行基本的统计性描述分析

从上面结果可以看出,从描述中,我们观察到BMI,PhysHlth,MentHlth的标准差高于1,

最大值和最小值之间的差异相对较高,因此我们将使用max-min归一化来规范化它们。接下来查看缺失值

 

import missingno as msno
msno.matrix(df)

对特征分别进行可视化一下   比如各个特征的占比情况等等

import seaborn as sb
for i in df.columns:
    fig, ax = plt.subplots(1,1, figsize=(15, 6))
    sb.countplot(y = df[i],data=df, order=df[i].value_counts().index)
    plt.ylabel(i)
    plt.yticks(fontsize=13)
    plt.show()

 

# 接下来使用groupby函数对响应变量可视化

grouped['BMI'].plot(kind='bar')
plt.title('Average BMI by Gender')
plt.xlabel('Gender')
plt.ylabel('Average BMI')
plt.show()

接下来使用热力图看一下特征之间的相关系数

plt.figure(figsize=(15,10))
sb.heatmap(df.corr(), annot=True)
plt.show()

从上面热力图可以看出,最大相关性在0.38左右

再画出具体特征的分布

分别画出响应变量糖尿病与其他特征的关系

fig, ax = plt.subplots(5, 4, figsize=(15,15))
k = 0
for i in range(5):
    for j in range(4):
        if k >= len(df.keys()):
            continue
        col = data.keys()[k]
        if col=='BMI' or col=='MentHlth' or col=='PhysHlth':
            sb.kdeplot(data=df, x=col, hue='Diabetes', ax=ax[i,j])
        else:
            sb.histplot(data=df, x=col, hue='Diabetes', ax=ax[i,j])
        k += 1
plt.tight_layout()
plt.show()

 

我们将尝试使用一些不同的模型来对两个目标类之间的数据进行分类。最后,我们将选择更好的模型。

我们希望在两个目标类别中都尽可能获得更好的结果。

在这个健康问题中,减少真正糖尿病患者的数量非常重要,但被归类为健康。

# 接下来进行标准化
df1 = df
cols = ['BMI', 'PhysHlth']
for i in cols:
    df1[i] = (df1[i] - df1[i].min()) / (df1[i].max() - df1[i].min())
####划分训练集和验证集
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
print('Non normalized dataset')
x_train, x_test, y_train, y_test= train_test_split(x,y,test_size=0.25,random_state=101)
print('Training: ', x_train.shape[0])
print('Test: ', x_test.shape[0])
st_x= StandardScaler()  
x_train= st_x.fit_transform(x_train)    
x_test= st_x.transform(x_test)

print('Normalized dataset')
x_train1, x_test1, y_train1, y_test1 = train_test_split(x1,y1,test_size=0.25,random_state=101)
print('Training: ', x_train1.shape[0])
print('Test: ', x_test1.shape[0])

KNN模型预测

knn.fit(x_train1, y_train1)


y_pred = knn.predict(x_test1)
exec1.append(time.time() - st)
cm = confusion_matrix(y_test1, y_pred)
print(cm)
print('\n')
print(classification_report(y_test1,y_pred))
print(accuracy_score(y_test1, y_pred))
accuracy1.append(accuracy_score(y_test1, y_pred))

使用其他模型试一下

 

 

从以上结果可以看出,自适应提升Adaboost模型的效果还可以,达到了0.7486.其次是极端梯度提升,KNN以及最后的决策树。

三、小结 

在这个项目中,我运用了机器学习的模型来预测一个人是否患有糖尿病,使用的模型包括自适应提升(AdaBoost)、K最近邻(KNN)和决策树(Decision Tree)等。通过对不同算法的比较和分析,最终发现自适应提升最优的算法来进行预测,并根据预测结果来制定相应的医疗干预措施,以帮助预防和治疗糖尿病。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/746751.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何借助物联网实现土壤监测与保护

如何借助物联网实现土壤监测与保护 高标准农田信息化是指利用现代信息技术,如物联网、大数据、云计算等,对农田进行数字化、智能化的管理,以提高农田的生产效率和可持续发展能力。其中,土壤监测与保护是农田信息化的重要内容之一…

解决SD卡被写保护问题

存储卡在使用过程中,有时会遇到写保护问题,导致无法写入或删除数据。这可能会对用户的正常使用造成困扰。MK米客方德将为您介绍几种常见的解决方法,帮助用户解除存储卡的写保护。 一、检查物理写保护开关 许多存储卡,如SD卡&…

JavaScript的学习之dom的查询(一)

一、获得元素 通过document对象调用&#xff1a; getElementById()&#xff1a;通过id属性获取一个元素节点对象getElementsByTagName()&#xff1a;通过标签名获取一组元素节点对象getElementsByName()&#xff1a;通过name属性来获取一组元素节点对象 核心学习代码 <scrip…

【UE5.3】笔记3-静态网格体,BSP

静态网格体组件 主要有两个属性 一个是静态网格体&#xff1a;对应的也就是模型&#xff0c;比如fbx&#xff0c;maya&#xff0c;obj等格式 一个是材质&#xff1a;由各种贴图、渲染设置等&#xff0c;比如unity里的shader BSP画刷&#xff1a; 打开放置Actor选项卡&#…

QT中子工程的创建,以及如何在含有库的子工程项目中引用主项目中的qt资源

1、背景 在qt中创建多项目类型,如下: CustomDll表示其中的一个动态库子项目; CustomLib表示其中的一个静态库子项目; MyWidget表示主项目窗口(main函数所在项目); 2、qrc资源的共享 如何在CustomDll和CustomLib等子项目中也同样使用 MyWidget项目中的qrc资源呢??? 直…

MySQL 7种Join的定义图解示范结果(所有join类型)

文章目录 MySQL 7种Join的定义&图解&示范&结果&#xff08;所有join类型&#xff09;基本知识笛卡尔积 建表&填充数据1-Join不带条件account筛选 1-Inner Join 内连接不带条件account相同where筛选玩点特殊的 2-Left Join 左连接不带条件account筛选 3-Right J…

神经网络学习8-反向传播

back propagation 拿到前面传回来的L对z的偏导&#xff0c;再分别算损失值对x和w的偏导 反向传播 前馈过程求局部梯度 反向传播 这里的loss&#xff08;wxb-y)^2,第一个关于b的偏导为2(wxb-y),第二个关于w的为2w(wxb-y)

业绩尚可但股价不振,浙商银行陆建强闯“3元大关”

&#xff08;题图&#xff09; 文&#xff5c;新熔财经 作者&#xff5c;宏一 本来做着钱生钱的“美梦”&#xff0c;现在倒好&#xff0c;本金都不一定拿得回来。 因为不想把“鸡蛋都放在一个笼子里”&#xff0c;所以前几年在理财的时候一部分放在银行定存&#xff0c;一…

Sum of Single Effects Linear Regression (susieR):多个因果变异位点的鉴定

使用susieR鉴定多个因果变异位点只需要两个输入文件&#xff0c;一个输入文件是包含Zscore值的SNP位点&#xff08;zscore.txt&#xff09;&#xff0c;另一个文件是LD matrix&#xff08;LD.matrix.ld&#xff09;。 zscore.txt 文件如下所示&#xff1a; LD.matrix.ld 文件…

Vue DevTools

介绍 什么是 Vue DevTools&#xff1f; Vue DevTools 是一款旨在增强 Vue 开发者体验的工具&#xff0c;它是一款功能强大且用途广泛的工具&#xff0c;可以在使用 Vue 应用程序时显着提高您的生产力和调试能力。它的实时编辑、时间旅行调试和全面检查功能使其成为任何Vue.js开…

程序员如何用ChatGPT解决常见编程问题:实例解析

引言 在现代编程的世界中&#xff0c;技术进步日新月异&#xff0c;程序员们面临着各种各样的挑战和问题。解决这些问题的过程中&#xff0c;找到合适的工具至关重要。ChatGPT作为一种先进的人工智能语言模型&#xff0c;能够帮助程序员迅速、高效地解决常见的编程问题。本文将…

基于SpringBoot的学生综合测评系统

你好呀&#xff0c;我是计算机学姐码农小野&#xff01;如果有相关需求&#xff0c;可以私信联系我。 开发语言&#xff1a;Java 数据库&#xff1a;MySQL 技术&#xff1a;SpringBoot框架 工具&#xff1a;MyEclipse、Tomcat 系统展示 首页 系统首页&#xff0c;提供综合…

【ajax07基础】回调函数地狱

一&#xff1a;什么是回调函数地狱 在一个回调函数中嵌套另一个回调函数&#xff08;甚至一直嵌套下去&#xff09;&#xff0c;形成回调函数地狱 回调函数地狱存在问题&#xff1a; 可读性差异常捕获严重耦合性严重 // 1. 获取默认第一个省份的名字axios({url: http://hmaj…

LabVIEW电动汽车核心部件检测系统

LabVIEW开发的电动汽车核心部件检测系统&#xff0c;通过硬件接入板和数据采集卡实现信号采集和分析。系统具备智能诊断、模块化设计和用户友好的特点&#xff0c;能够快速、精确地定位故障&#xff0c;提高电动汽车的维护效率和可靠性&#xff0c;支持新能源汽车市场的快速发展…

【Streamlit学习笔记】Streamlit-ECharts箱型图添加均值和最值label

Streamlit-ECharts Streamlit-ECharts是一个Streamlit组件&#xff0c;用于在Python应用程序中展示ECharts图表。ECharts是一个由百度开发的JavaScript数据可视化库Apache ECharts 安装模块库 pip install streamlitpip install streamlit-echarts绘制箱型图展示 在基础箱型…

深入探讨C++的高级反射机制(2):写个能用的反射库

在现代软件开发中&#xff0c;反射是一种强大的特性&#xff0c;它可以支持程序在运行时查询和调用对象的属性和方法。 但是在C中&#xff0c;没有内置的反射机制。我们可以通过一些巧妙的技术模拟反射的部分功能。 上一篇文章写了个简单的反射功能&#xff0c;这回完善一下&a…

最新版Git安装指南使用指南

首先&#xff0c;访问Git的官方网站https://git-scm.com下载适用于您操作系统的安装包。您也可以选择使用阿里云镜像来加速下载过程。 也可以用国内地址下载https://pan.quark.cn/s/0293d76e58bchttps://pan.quark.cn/s/0293d76e58bc安装过程 在这里插入图片描述 2、点击“…

前端 CSS 经典:backface-visibility 属性

前言&#xff1a;backface-visibility 属性可以使反转 180deg 的元素隐藏&#xff0c;使用这个属性实现卡片翻转效果 效果 代码实现 <!DOCTYPE html> <html lang"en"><head><meta charset"utf-8" /><meta http-equiv"X-…

重庆交通大学24计算机考研数据速览,专硕第二年招生,复试线321分!

重庆交通大学&#xff08;Chongqing Jiaotong University&#xff0c;CQJTU&#xff09;&#xff0c;是由重庆市人民政府和中华人民共和国交通运输部共建的一所交通特色、以工为主的多科性大学&#xff0c;入选“中西部高校基础能力建设工程”、“卓越工程师教育培养计划”、国…

用jsp实现删除数据库表中的一行

话不多说&#xff0c;直接上图 一.思路 运用<a>标签将数据送到目标页面&#xff0c;实现对一行的删除。 语法&#xff1a; 1:form表单提交到的目标页面 2&#xff1a;输入主码的input的id 3:获取主码的值 <a href"1&#xff1f;2<%3%>">删除</a…