数据分析-23--糖尿病预测(线性回归模型)(包含数据代码)

文章目录

    • 0. 数据代码下载
    • 1. 项目介绍
    • 2. 数据处理
      • 1. 导入数据
      • 2. 处理数据
    • 3. 建立模型
    • 4. 考察单个特征

0. 数据代码下载

关注公众号:『AI学习星球
回复:糖尿病预测 即可获取数据下载。
算法学习4对1辅导论文辅导核心期刊可以通过公众号或➕v:codebiubiubiu滴滴我
在这里插入图片描述


1. 项目介绍

本次实验的主要内容是使用回归分析和聚类分析来预测某人患糖尿病的可能性和身体的糖尿病指数。

本次数据分析实战,对糖尿病数据集进行回归分析。

sklearn.datasets 包提供了一些小的数据集,可用于机器学习入门,见下图。

导入toy数据的方法介绍任务数据规模
load_boston()加载和返回一个boston房屋价格的数据集回归506*13
load_iris([return_X_y])加载和返回一个鸢尾花数据集分类150*4
load_diabetes()加载和返回一个糖尿病数据集回归442*10
load_digits([n_class])加载和返回一个手写字数据集分类1797*64
load_linnerud()加载和返回一个健身数据集多分类20

2. 数据处理

1. 导入数据

导入数据分析常用包

# 导数据分析常用包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

导包获取糖尿病数据集

from sklearn.datasets import load_diabetes  
data_diabetes = load_diabetes()    
print(data_diabetes) 

我们先看一下数据是什么样:
diabetes 是一个关于糖尿病的数据集, 该数据集包括442个病人的生理数据及一年以后的病情发展情况。

在这里插入图片描述
从结果可以看到,这个数据集是个字典形式,三个key值,分别是['data' , 'feature_names' , 'target']

为了方便后续处理数据,现在将这个字典形式的数据集进行拆分。

data =  data_diabetes['data']
target = data_diabetes['target']
feature_names = data_diabetes['feature_names']

现在三个数据都是numpy的一维数据形式,将她们组合成dataframe,可以更直观地观察数据

df =  pd.DataFrame(data,columns = feature_names)
df.head()  # 查看前几行数据

在这里插入图片描述

2. 处理数据

查看数据集的基本信息

df.info() 

在这里插入图片描述
数据集共442条信息,特征值总共10项, 如下:

  • age:年龄
  • sex:性别
  • bmi = body mass index:身体质量指数,是衡量是否肥胖和标准体重的重要指标,理想BMI(18.5~23.9) = 体重(单位Kg) ÷ 身高的平方 (单位m)
  • bp = blood pressure :血压
  • s1,s2,s3,s4,s4,s6 (六种血清的化验数据)

3. 建立模型

  1. 抽取训练集合测试集
from sklearn.model_selection import train_test_split
train_X,test_X,train_Y,test_Y =  train_test_split(data,target,train_size =0.8)
  1. 建立模型
from sklearn.linear_model import LinearRegression
model = LinearRegression()
  1. 训练数据
model.fit(train_X,train_Y)
LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)
  1. 评估模型
model.score(train_X,train_Y)

输出结果 : 0.51298922173144801

  • 模型评估结果只有0.5左右,不是很高,说明变量之间的因果关系不是很强。
  • 一般这种情况下,我们会考察 单个特征值 与 结果标签 之间的相关关系。

4. 考察单个特征

考察单个特征值与结果之间的关系,以图表形式展示

  1. 取出特征值
df.columns

Index([‘age’, ‘sex’, ‘bmi’, ‘bp’, ‘s1’, ‘s2’, ‘s3’, ‘s4’, ‘s5’, ‘s6’], dtype=‘object’)

  1. 循环对每个特征值进行建模训练,作图
# 建立画板,作图5行2列的图
plt.figure(figsize=(2*6,5*5))
for i,col in enumerate(df.columns):  #enumerate 枚举
    train_X = df.loc[:,col].values.reshape(-1,1)    
# 每一次循环,都取出datafram中的一列数据,是一维Series数据格式,但是线性回归模型要求传入的是一个二维数据,因此利用reshape修改其形状
    train_Y = target
    linear_model = LinearRegression()    # 构建模型
    linear_model.fit(train_X,train_Y)    #训练模型
    score = linear_model.score(train_X,train_Y)   # 评估模型
#  以训练数据为X轴,标记为Y 轴,画出散点图,直观地看每个特征和标记直接的关系
    axes = plt.subplot(5,2,i+1)
    plt.scatter(train_X,train_Y)
# 画出每一个特征训练模型得到的拟合直线 y= kx + b
    k =  linear_model.coef_     # 回归系数
    b =  linear_model.intercept_   # 截距
    x = np.linspace(train_X.min(),train_X.max(),100)
    y = k * x + b
# 作图
    plt.plot(x,y,c='red')
    axes.set_title(col + ':' + str(score))
plt.show()

在这里插入图片描述

总结
从以上分析可知,单独看所有特征的训练结果,并不没有得到有效信息,我们拆分各个特征与指标的关系,可以看出:

  • bmi与糖尿病的相关性非常高,bp也有一定的关系,但是是否是直接关系,还是间接关系,有待深入考察。
  • 其他血清指标多少都和糖尿病有些关系,有的相关性强,有的相关性弱。

关注公众号:『AI学习星球
回复:糖尿病预测 即可获取数据下载。
算法学习4对1辅导论文辅导核心期刊可以通过公众号或➕v:codebiubiubiu滴滴我
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/275354.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

软件测试/测试开发丨Python学习笔记之基本数据类型与操作

一、变量 1、变量的定义: a. 在python中,变量是一种存储数据的载体。计算机中的变量是实际存在的数据或者说是存储器中存储数据的一块内存空间; b.变量的值可以被读取和修改。 2、命名规则: a.变量名由字母(广义的Unic…

Appium+python自动化(一)- 环境搭建—上(超详解)

简介 今天是高考各地由于降水,特别糟糕,各位考生高考加油,全国人民端午节快乐。最近整理了一下自动化的东西,先前整理的python接口自动化已经接近尾声。即将要开启新的征程和篇章(Appium&python)。那么…

Python五子棋程序实现详解

Python五子棋程序实现详解 引言功能实现显示棋盘点击落子判断胜负游戏结束判断交替落子 运行结果完整代码总结 引言 五子棋是一种广泛传播的策略棋类游戏,两人对弈,通过在棋盘上落子,以先形成连续的相同颜色的五子棋为胜利条件。本文将介绍如…

JavaScript基础知识点总结:从零开始学习JavaScript(四)

学习目标: 掌握函数的基本使用,让代码具备复用能力 理解封装的意义,能够具备封装函数的能力 学习内容: 函数 综合案例 学习时间: 周一至周五晚上 7 点—晚上9点周六上午 9 点-上午 11 点周日下午 3 点-下午 6 点 学…

【零成本实现接口自动化测试】Java+TestNG 测试Restful service

接口自动化测试 – JavaTestNG 测试 Restful Web Service 关键词:基于Rest的Web服务,接口自动化测试,数据驱动测试,测试Restful Web Service, 数据分离,JavaMavenTestNG 本文主要介绍如何用Java针对Restf…

金蝶云星空反写规则表结构同步另一个数据库

文章目录 金蝶云星空反写规则表结构同步另一个数据库在BOS找到《反写规则》的表反写规则相关表创建反写规则,或者已经创建好的反写规则定位反写规则数据导出表数据执行脚本BOS导入数据库直接执行 金蝶云星空反写规则表结构同步另一个数据库 在BOS找到《反写规则》的…

k8s 网络

还没有部署网络。 k8s的网络类型: k8s中的通信模式: 1,pod内部之间容器和容器之间的通信。 在同一个pod中的容器共享资源和网络,使用同一个网络命名空间。可以直接通信的。 2,同一个node节点之内不同pod之间的通信。…

香橙派5plus从ssd启动Ubuntu

官方接口图 我实际会用到的就几个接口,背面的话就一个M.2固态的位置: 其中WIFI模块的接口应该也可以插2230的固态,不过是pcie2.0的速度,背面的接口则是pcie3.0*4的速度,差距还是挺大的。 开始安装系统 准备工作 一张…

开源轻量级分布式文件系统FastDFS本地部署并实现远程访问服务器

文章目录 前言1. 本地搭建FastDFS文件系统1.1 环境安装1.2 安装libfastcommon1.3 安装FastDFS1.4 配置Tracker1.5 配置Storage1.6 测试上传下载1.7 与Nginx整合1.8 安装Nginx1.9 配置Nginx 2. 局域网测试访问FastDFS3. 安装cpolar内网穿透4. 配置公网访问地址5. 固定公网地址5.…

算法学习系列(十三):Trie树

目录 引言一、Trie概念二、Trie树模板三、例题 引言 这个Trie还是比较有用的,主要的功能就是高效的存储和查找字符串的数据结构。 一、Trie概念 假设这个Trie只存储小写字母的话: 这个大概就是这么个概念,就是头结点是0号,然后…

使用腾讯云轻量应用服务器基于SRS搭建个人直播间

使用腾讯云轻量应用服务器基于SRS音视频服务器应用模板镜像即可一键搭建个人直播间,SRS Stack让你一键拥有自己的视频云解决方案,可以在云上或私有化部署,支持丰富的音视频协议,提供鉴权、私人直播间、多平台转播、录制、虚拟直播…

js中变量的使用

文章目录 一、变量二、声明三、赋值四、更新变量五、声明多个变量(不推荐)六、变量的本质七、关键字八、变量名命名规则 一、变量 理解变量是计算机存储数据的“容器”,掌握变量的声明方式 白话:变量就是一个装东西的盒子。通俗:变量是计算机…

【MySQL学习笔记007】约束

1、概述 (1)概念:约束是作用于表中字段上的规则,用于限制存储在表中的数据。 (2)目的:保证数据库中数据的正确、有效性和完整性。 (3)分类 约束 描述 关键字 …

ZStack Cube超融合一体机助力电子支付企业升级改造

电子支付服务企业实壹信息通过ZStack Cube超融合一体机为业务生产环境构建新一代云基础设施,结合V2V迁移模块实现ZStack社区版云平台应用迁移到全新的云基础设施ZStack Cube 超融合一体机上,同时共享分布式存储和外接FC-SAN存储。此外,运维人…

Android 8.1 设置USB传输文件模式(MTP)

项目需求,需要在电脑端adb发送通知手机端接收指令,将USB的仅充电模式更改成传输文件(MTP)模式,便捷用户在我的电脑里操作内存文件,下面是我们的常见的修改方式 1、android12以下、android21以上是这种方式…

Elasticsearch:在不停机的情况下优化 Elasticsearch Reindex

实现零停机、高效率和成功迁移更新的指南。更多阅读:Elasticsearch:如何轻松安全地对实时 Elasticsearch 索引 reindex 你的数据。 在使用 Elasticsearch 的时候,总会有需要修改索引映射的时候,遇到这种情况,我们只能做…

go语言,ent库与gorm库,插入一条null值的time数据

情景介绍 使用go语言,我需要保存xxxTime的字段至数据库中,这个字段可能为空,也可能是一段时间。我采取的是统一先赋值为空,若有需要,则再进行插入(需要根据另一个字段判断是否插入) 在我的数据…

PTS 3.0:可观测加持的下一代性能测试服务

作者:肖长军(穹谷) 大家好,我是来自阿里云云原生应用平台的肖长军,花名穹谷,我此次分享的主题是《可观测加持的下一代性能测试服务》。提到性能测试大家并不陌生,性能测试已成为评估系统能力、…

使用rsync构建镜像网站

实验环境 某公司在深圳、北京两地各放置了一台网站服务器,分别应对南北大区内不断增长的客户访问需求,两台服务器的网站文档必须保持一致,如图12.3所示,同步链路已通过VPN专用线路实现。 需求描述 > 服务器 A(北京…

SpringBoot多线程与任务调度总结

一、前言 多线程与任务调度是java开发中必须掌握的技能,在springBoot的开发中,多线程和任务调度变得越来越简单。实现方式可以通过实现ApplicationRunner接口,重新run的方法实现多线程。任务调度则可以使用Scheduled注解 二、使用示例 Slf…