Python基于逻辑回归分类模型、决策树分类模型、随机森林分类模型和XGBoost分类模型实现乳腺癌分类预测项目实战

说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。

1.项目背景

在当今医疗健康领域,乳腺癌作为威胁女性健康的主要恶性肿瘤之一,其早期诊断与精准治疗对于提高患者生存率至关重要。随着医学信息学与人工智能技术的飞速发展,利用大数据分析、机器学习以及深度学习等先进手段构建乳腺癌分类预测模型,已成为研究热点和临床实践的重要方向。

近年来,全球乳腺癌发病率持续上升,成为全球范围内女性癌症发病率最高的疾病之一。尽管乳腺癌在早期发现时治疗效果较为理想,但传统的诊断方法如钼靶摄影、超声检查及组织活检等存在一定的局限性,如误诊率、漏诊率问题以及对患者造成的身体与心理负担。因此,开发高效、准确且便捷的乳腺癌分类预测模型,不仅能够提高诊断效率,还能促进个性化医疗方案的制定,为患者带来更为及时有效的干预措施。

研究意义:

提升早期诊断率:通过分析乳腺影像学、生物标志物、遗传学及临床数据,构建的预测模型能够有效识别乳腺癌早期迹象,为患者争取宝贵的治疗时间。

个性化医疗策略:结合患者的个体差异,预测模型能辅助医生定制化治疗方案,实现精准医疗。

资源优化配置:高效预测模型可减少不必要的检查和治疗,优化医疗资源分配,减轻公共卫生系统的负担。

促进科研进展:模型的开发与验证过程能够深化对乳腺癌生物学机制的理解,推动相关基础研究与技术创新。

基于以上背景,本研究拟采用先进的机器学习算法,结合丰富的乳腺癌临床数据集,构建一个高度准确且具有临床实用价值的乳腺癌分类预测模型。最终目标是为乳腺癌的早期筛查与精准管理提供科学依据,进而改善患者预后,提升公众健康水平。 

本项目通过逻辑回归分类模型、决策树分类模型、随机森林分类模型和XGBoost分类模型实现乳腺癌分类预测。     

2.数据获取

本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下:

编号 

变量名称

描述

1

mean radius

平均半径:肿瘤区域的平均边界距离中心的距离

2

mean texture

平均纹理:肿瘤区域灰度变化的程度

3

mean perimeter

平均周长:肿瘤区域的边界长度

4

mean area

平均面积:肿瘤区域所占的总面积

5

mean smoothness

平均平滑度:轮廓的光滑程度

6

mean compactness

平均紧密度:形状接近球形的程度

7

mean concavity

平均凹度:轮廓凹进去的程度

8

mean concave points

平均凹点数:轮廓凹陷部分的尖点数量

9

mean symmetry

平均对称性:肿瘤区域相对于中心的对称程度

10

mean fractal dimension

平均分形维数:描述肿瘤边缘复杂性的度量

11

radius error

半径误差:半径测量的不确定性

12

texture error

纹理误差:纹理测量的不确定性

13

perimeter error

周长误差:周长测量的不确定性

14

area error

面积误差:面积测量的不确定性

15

smoothness error

平滑度误差:平滑度测量的不确定性

16

compactness error

紧密度误差:紧密度测量的不确定性

17

concavity error

凹度误差:凹度测量的不确定性

18

concave points error

凹点数误差:凹点数测量的不确定性

19

symmetry error

对称性误差:对称性测量的不确定性

20

fractal dimension error

分形维数误差:分形维数测量的不确定性

21

worst radius

最差半径:最不理想的半径测量值

22

worst texture

最差纹理:最不理想的纹理测量值

23

worst perimeter

最差周长:最不理想的周长测量值

24

worst area

最差面积:最不理想的面积测量值

25

worst smoothness

最差平滑度:最不理想的平滑度测量值

26

worst compactness

最差紧密度:最不理想的紧密度测量值

27

worst concavity

最差凹度:最不理想的凹度测量值

28

worst concave points

最差凹点数:最不理想的凹点数测量值

29

worst symmetry

最差对称性:最不理想的对称性测量值

30

worst fractal dimension

最差分形维数:最不理想的分形维数测量值

31

label

1良性,0恶性

数据详情如下(部分展示):

3.数据预处理

3.1 用Pandas工具查看数据

使用Pandas工具的head()方法查看前五行数据: 

关键代码:

3.2数据缺失查看

使用Pandas工具的info()方法查看数据信息:

从上图可以看到,总共有31个变量,数据中无缺失值,共569条数据。

关键代码: 

3.3数据描述性统计

通过Pandas工具的describe()方法来查看数据的平均值、标准差、最小值、分位数、最大值。

关键代码如下:  

4.探索性数据分析

4.1 label变量柱状图

用Matplotlib工具的plot()方法绘制柱状图:

4.2 label=1样本mean radius变量分布直方图

用Matplotlib工具的hist()方法绘制直方图:

4.3 相关性分析

从上图中可以看到,数值越大相关性越强,正值是正相关、负值是负相关。

5.特征工程

5.1 建立特征数据和标签数据

关键代码如下:

5.2 数据均衡化

通过上图可以看到,数据均衡化后,标签两种样本的数量一致。

5.3 数据集拆分

通过train_test_split()方法按照80%训练集、20%测试集进行划分,关键代码如下:

6.构建分类模型 

主要使用逻辑回归分类算法、决策树分类算法、随机森林分类算法和XGBoost分类算法,用于目标分类。  

6.1 构建模型 

编号

模型名称

参数

1

逻辑回归分类模型

默认参数值

2

决策树分类模型

默认参数值

3

random_state=123

4

随机森林分类模型

默认参数值

5

random_state=42

6

XGBoost分类模型

默认参数值

7

random_state=42

7.模型评估

7.1评估指标及结果 

评估指标主要包括准确率、查准率、查全率、F1分值等等。

模型名称

指标名称

指标值

测试集

逻辑回归分类模型 

准确率

0.9720

查准率

 0.9452

查全率

 1.0

F1分值

 0.9718

决策树分类模型

准确率

0.9441

查准率

0.9296

查全率

0.9565

F1分值

0.9429

随机森林分类模型

准确率

 0.9650

查准率

0.9706

查全率

0.9565

F1分值

0.9635

XGBoost分类模型

准确率

 0.9650

查准率

0.9706

查全率

 0.9565

F1分值

0.9635

从上表可以看出,4个模型的F1分值都在0.9以上,说明这模型效果较好,其中逻辑回归模型F1最高为0.9718。     

7.2 分类报告

逻辑回归分类模型:

从上图可以看出,分类为0的F1分值为0.97;分类为1的F1分值为0.97。

  

决策树分类模型:

从上图可以看出,分类为0的F1分值为0.95;分类为1的F1分值为0.94。

随机森林分类模型:

从上图可以看出,分类为0的F1分值为0.97;分类为1的F1分值为0.96。

XGBoost分类模型:

从上图可以看出,分类为0的F1分值为0.97;分类为1的F1分值为0.96。

7.3 混淆矩阵

逻辑回归分类模型:

从上图可以看出,实际为0预测不为0的 有4个样本;实际为1预测不为1的 有0个样本。  

决策树分类模型:

从上图可以看出,实际为0预测不为0的 有5个样本;实际为1预测不为1的 有3个样本。  

随机森林分类模型:

从上图可以看出,实际为0预测不为0的 有2个样本;实际为1预测不为1的 有3个样本。

XGBoost分类模型:

从上图可以看出,实际为0预测不为0的 有2个样本;实际为1预测不为1的 有3个样本。

7.4 ROC曲线

逻辑回归分类模型:

从上图可以看出,逻辑回归分类模型的AUC值为1.0。

决策树分类模型:

从上图可以看出,决策树分类模型的AUC值为0.94。

随机森林分类模型:

从上图可以看出,随机森林分类模型的AUC值为0.99。

XGBoost分类模型:

从上图可以看出,XGBoost分类模型的AUC值为1.0。

8.结论与展望

综上所述,本文采用了逻辑回归、决策树、随机森林和XGBoost算法来构建分类模型,最终证明了4种模型效果良好,其中逻辑回归模型效果最优。此模型可用于日常产品的预测。 

# 本次机器学习项目实战所需的资料,项目资源如下:
 
# 项目说明:
 
# 获取方式一:
 
# 项目实战合集导航:
 
https://docs.qq.com/sheet/DTVd0Y2NNQUlWcmd6?tab=BB08J2
 
# 获取方式二:
 
链接:https://pan.baidu.com/s/1vzkHRkRNmilTAg0TrlxgBw 
提取码:z9v4

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/752673.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

OpenHarmony开发实战:HDF驱动开发流程

概述 HDF(Hardware Driver Foundation)驱动框架,为驱动开发者提供驱动框架能力,包括驱动加载、驱动服务管理、驱动消息机制和配置管理。并以组件化驱动模型作为核心设计思路,让驱动开发和部署更加规范,旨在…

Redis-Bitmap位图及其常用命令详解

1.Redis概述 2.Bitmap Bitmap 是 Redis 中的一种数据结构,用于表示位图(bit array)。 它通常用于处理大规模数据集中每个元素的状态,比如用户的在线/离线状态(每个用户对应一个位,表示在线(1&a…

[数据结构】——七种常见排序

文章目录 前言 一.冒泡排序二.选择排序三.插入排序四.希尔排序五.堆排序六.快速排序hoare挖坑法前后指针快排递归实现:快排非递归实现: 七、归并排序归并递归实现:归并非递归实现: 八、各个排序的对比图 前言 排序:所谓…

Mac中的xshell、xftp

ROYAL TSX 插件式支持远程连接linux、支持命令行、支持ftp、支持远程windows桌面。 免费版就足够使用了。(支持维护一个Connections文件夹) 需要在本地创建一个文件夹,用以保存链接信息 使用方法

Bytebase 2.20.0 - 支持为工单事件配置飞书个人通知

🚀 新功能 支持 Databricks。支持 SQL Server 的 TLS/SSL 连接。支持为工单事件配置飞书个人通知。支持限制用户注册的邮箱域名。 🔔 重大变更 将分类分级同步设置从数据库配置移至工作空间的全局配置。 SQL 编辑器只读模式下只允许执行 Redis 的只读…

抖音外卖服务商申请全域外卖系统源码部署,如何保证竞争力?

随着本地生活市场规模的逐渐扩大,多家互联网公司在加大投入力度的同时,也在不断调整其市场竞争策略,作为国内头部社交平台的抖音也不例外。就在近日,抖音发布了关于新增《【到家外卖】内容服务商开放准入公告》的意见征集通知&…

OSI七层模型TCP/IP四层面试高频考点

OSI七层模型&TCP/IP四层&面试高频考点 1 OSI七层模型 1. 物理层:透明地传输比特流 在物理媒介上传输原始比特流,定义了连接主机的硬件设备和传输媒介的规范。它确保比特流能够在网络中准确地传输,例如通过以太网、光纤和无线电波等媒…

SCI二区复现|体育场观众优化算法(SSO)原理及实现

目录 1.背景2.算法原理2.1算法思想2.2算法过程 3.结果展示4.参考文献5.代码获取 1.背景 2024年,M Nemati受到体育场观众的行为对比赛中球员行为的影响启发,提出了体育场观众优化算法(Stadium Spectators Optimizer, SSO)。 2.算法…

2023年第十四届蓝桥杯JavaB组省赛真题及全部解析(下)

承接上文:2023年第十四届蓝桥杯JavaB组省赛真题及全部解析(下)。 目录 七、试题 G:买二赠一 八、试题 H:合并石子 九、试题 I:最大开支 十、试题 J:魔法阵 题目来自:蓝桥杯官网…

Docker 安装最新版本 Jenkins

目录 1、下载、启动容器、更新到最新版本 2、查看初始密码两种方式: 3、默认安装的部分未汉化,删除默认的汉化插件。重启容器,重新安装汉化插件 4、安装 Publish over SSH、docker-build-step 、Docker Commons 插件 5、配置服务器连接信…

【LLM 论文】Self-Refine:使用 feedback 迭代修正 LLM 的 output

论文:Self-Refine: Iterative Refinement with Self-Feedback ⭐⭐⭐⭐ CMU, NeurIPS 2023, arXiv:2303.17651 Code: https://selfrefine.info/ 论文速读 本文提出了 Self-Refine 的 prompt 策略,可以在无需额外训练的情况下,在下游任务上产…

D13009-ASEMI电源开关三极管D13009

编辑:ll D13009-ASEMI电源开关三极管D13009 型号:D13009 品牌:ASEMI 批号:2024 沟道:NPN 电流:4A 电压:400V 安装方式:直插式封装 特性:NPN晶体管、三极管、12A…

分享10个AI搞钱副业,门槛低,普通人也能学的会!易上手!

前言 本期给大家分享的是利用AI 做副业的一些方法,大家可以挑选适合自己的赛道去搞钱 现在是人工智能时代,利用好AI 工具,可以降低普通人做副业的门槛,同时也能提高工作效率, 因此AI 赚钱的副业还是挺多的&#xff0…

【软考论文】项目背景及论文模版

目录 一、项目核心功能二、论文模板一、项目核心功能 二、论文模板 论文字数说明 总字数 2500 = 500 + 400 +400 * 3 + 300 背景:500 回答问题:400 三段论:1200 = 400 * 3 结论:300 ~ 400 摘要(<300字) 本人于2022年1月参与了某车厂的全渠道数字化精准营销平台项目,该…

想买一款好用的骨传导耳机怎么挑?一次给你搞定全方位的选购攻略

作为那么多年来购买了无数数码产品热爱听歌的我&#xff0c;也一直在寻找一款好的骨传导耳机&#xff0c;听音乐对我来说不仅仅是一种消遣方式&#xff0c;更多是一种对生活、工作上压力和困难的舒缓&#xff0c;在我购买了那么多款骨传导耳机中&#xff0c;对一些进行了测评与…

MySQL数据库——在Centos7环境安装

MySQL在Centos7环境安装 1.切换root用户 安装与卸载中&#xff0c;用户全部切换成为root&#xff0c;安装好后&#xff0c;普通用户也能使用 2.卸载不要的环境 要将自己环境中有关mysql的全都删除&#xff0c;避免安装过程中被影响 ps axj | grep mariadb 先检查是否有mari…

揭秘教学新利器:SmartEDA电路仿真软件,让电子学习更生动!

在数字化教育浪潮中&#xff0c;一款名为SmartEDA的电路仿真软件逐渐崭露头角&#xff0c;以其直观、易操作的特点&#xff0c;为电子学习领域带来了革命性的变化。今天&#xff0c;就让我们一起探讨如何使用SmartEDA进行教学&#xff0c;让电子学习变得更加生动有趣&#xff0…

健身馆预约小程序定制搭建会员管理系统次卡核销充值年卡saas账号

健身馆预约小程序定制搭建&#xff1a;打造高效会员管理系统 &#x1f3cb;️ 一、引言&#xff1a;为何需要健身馆预约小程序&#xff1f; 随着健康意识的提高&#xff0c;越来越多的人选择到健身馆进行锻炼。然而&#xff0c;传统的健身馆预约方式往往存在诸多不便&#xff…

Dataease安装,配置Jenkins自动部署

Dataease安装&#xff0c;配置Jenkins自动部署 一.安装Dataease 安装前准备&#xff1a;1.Ubuntu20.04 LTS国内源安装指定版本Docker 2.docker-compose安装 下载离线安装的安装包&#xff0c;下载地址&#xff1a;https://community.fit2cloud.com/#/download/dataease/v1-…

js导入导出

好久没有学习新的知识点了&#xff0c;今天开始学一下前端的知识点。直接在vscode里面编写&#xff0c;然后从基本的前端知识开始。 JS的导入导出 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"…