基于深度学习的甲状腺结节影像自动化诊断系统(PyQt5界面+数据集+训练代码)

随着医学影像技术的发展,计算机辅助诊断在甲状腺结节的早期筛查中发挥着重要作用。甲状腺结节的良恶性鉴别对临床治疗具有重要意义,但传统的诊断方法依赖于医生的经验和影像学特征,存在一定的主观性和局限性。为了解决这一问题,本文提出了一种基于深度学习的自动化甲状腺结节良恶性分类方法。

本研究使用了VGG16和ResNet50两种经典卷积神经网络(CNN)模型,对甲状腺结节图像进行分类。首先,我们收集了包含良性和恶性甲状腺结节的医学影像数据集,并进行了数据预处理和增强。然后,利用PyTorch框架对VGG16和ResNet50模型进行训练,并评估其在甲状腺结节良恶性分类中的性能。通过实验结果,表明ResNet50在该任务中表现出较高的准确率和更强的泛化能力。

开发了一个基于PyQt5的图形用户界面(GUI),该系统支持图像上传、分类检测、结果显示和保存等功能,为临床医生提供了便捷的辅助诊断工具。最终,通过对比实验和性能分析,我们验证了深度学习模型在甲状腺结节分类中的有效性,并探讨了模型优化和实际应用的可能性。

本文的研究为甲状腺结节的自动化诊断提供了一种高效的辅助方法,具有较高的临床应用价值,为医生在甲状腺疾病的诊断中提供了有力的支持。

算法流程

项目数据

传统的机器学习算法对图像进行识别等研究工作时,只需要很少的图像数据就可以开展工作。而在使用卷积神经网络解决研究的甲状腺结节识别问题的关键其一在于搭建合适的神经网络,其二更需要具备大量优质的训练数据集,在大量的有标签数据不断反复对模型进行训练下,神经网络才具备我们所需要的分类能力,达到理想的分类效果。因此有一个质量较好的图像数据集至关重要。

数据集介绍:
本研究使用的甲状腺结节图像数据集是专门为甲状腺结节诊断任务设计的,包含了良性(benign)和恶性(malignant)甲状腺结节的组织切片图像。数据集中的图像是从临床病人样本中获取,经过专业的病理学家标注,确保数据的准确性和可靠性。每一张图像代表了甲状腺结节的不同病理特征,包括细胞密度、结节大小、形状不规则性等,能够为深度学习模型提供丰富的特征信息。

数据集已被预先标注,每个类别的图像数量基本均衡,为训练和验证提供了稳定的基准。数据集被划分为训练集和测试集,其中每类生肖图像的数量分别如下:
(1)训练集:良性类2626张图像,恶性类3205张图像,共5831张图像。

(2)测试集:良性类653张图像,恶性类798张图像,共1451张图像。

这种划分方式保证了数据的多样性和代表性,同时通过验证集和测试集的独立性,能够有效评估模型的泛化能力。

数据预处理
为了提高模型的泛化能力并防止过拟合,我们对数据集进行了数据预处理。具体步骤如下:
(1)尺寸标准化:所有图像被调整为统一的224×224像素,以适配VGG16和ResNet50等模型的输入要求。
(2)归一化:对图像进行归一化处理,标准化RGB通道的像素值,使其均值为[0.485, 0.456, 0.406],标准差为[0.229, 0.224, 0.225]。这些参数是基于ImageNet数据集计算得出的,适用于VGG16和ResNet50的预训练模型。

数据增强
1.训练集增强:
(1)随机裁剪:随机裁剪图像并调整为224×224的尺寸,增加数据的多样性,帮助模型更好地学习到不同的尺度和视角。
(2)随机水平翻转:随机对训练图像进行水平翻转,进一步增加数据集的变异性,提高模型的鲁棒性。

2.验证集增强:
(1)Resize和CenterCrop:将验证图像的长边调整为256像素,然后从中心裁剪224×224区域,确保数据统一性。

通过数据增强和标准化处理,能有效提高模型对各种变换的适应能力,从而提升其在不同场景下的分类效果。

数据集划分
数据集已预先划分为两个部分:训练集和测试集,具体如下:
(1)训练集:良性类2626张图像,恶性类3205张图像,共5831张图像,用于模型训练,通过最小化损失函数优化参数。
(2)测试集:良性类653张图像,恶性类798张图像,共1451张图像,用于评估模型在未见数据上的表现

这种数据集划分方式有助于保证模型训练和评估的可靠性,确保各数据集独立,避免数据泄露和过拟合。

实验硬件
本实验的硬件环境设置如下:
(1)计算平台:NNVIDIA GeForce RTX 3070 Ti。(8GB显存),支持CUDA加速
(2)CPU:12th Gen Intel(R) Core(TM) i9-12900H 2.50 GHz 14核处理器
(3)内存:32GB RAM
(4)存储:1TB SSD,用于存储数据集和模型权重

该硬件环境提供了足够的计算资源,能够支持大规模图像数据的训练和高效计算,尤其在使用GPU进行加速时,训练时间得到了显著缩短。

实验超参数设置
本实验中的主要超参数设置如下:
(1)学习率:0.0001,使用Adam优化器,能够自适应调整学习率,表现较好。
(2)批次大小:训练时为32,验证时为64,较小的批次大小有助于稳定训练并提高计算效率。
(3)优化器:使用Adam优化器,适用于稀疏数据和非凸问题。
(4)损失函数:采用交叉熵损失函数(CrossEntropyLoss),适用于多分类任务。
(5)训练轮数:设定为15轮,帮助模型逐渐收敛。
(6)权重初始化:使用预训练的VGG16和ResNet50权重进行迁移学习,加速收敛并提高分类性能。

这些超参数设置经过反复调试,以确保模型在验证集上表现良好。

实验过程与结果分析

Tipps:分析VGG16和ResNet50两种模型在甲状腺结节分类任务中的实验结果。包括训练过程中的损失与准确率变化、模型性能对比、混淆矩阵(热力图)分析、过拟合与欠拟合的讨论,以及计算效率的分析。

训练过程中的损失与准确率变化
为了评估模型在训练过程中的表现,我们记录了每个epoch的训练损失、训练准确率以及验证损失、验证准确率。通过这些指标,我们可以观察到模型是否能够有效收敛,以及是否存在过拟合或欠拟合的情况。

1.1 VGG16模型训练过程
VGG16模型在训练过程中的损失和准确率曲线如下所示:
 


(1)训练损失:这种下降趋势表明,模型在训练过程中逐渐减少了预测误差,学习到了更多有效的特征。随着训练进行,损失值的下降趋于平稳,这通常意味着模型已经较好地拟合了训练数据。
(2)训练准确率:这种上升趋势表明,模型成功地学习到了训练集中的模式,并且能够正确分类大部分训练样本。随着训练轮次的增加,训练准确率逐渐趋近于高值,表明模型在训练数据上的表现良好。
(3)验证损失与验证准确率:波动则可能是过拟合的信号,表明模型在训练集上表现较好,但在验证集上可能存在泛化能力不足的问题。

1.2 ResNet50模型训练过程
ResNet50模型在训练过程中的损失和准确率曲线如下所示:
 


(1)训练损失:训练损失的下降表明模型在训练过程中逐渐减少了预测误差,并且在训练数据上得到了很好的拟合。损失值的持续下降显示出模型在训练数据上的有效学习。
(2)训练准确率:训练准确率从约0.65开始,在初期几个epoch中迅速上升。接着,随着训练的进行,准确率的上升速度减缓,但总体上仍稳步增加,最终在50个epoch时接近0.9。
(3)验证损失与验证准确率:验证准确率在训练过程中初期与训练准确率相似,但随着训练的进行,验证准确率开始出现波动并趋于稳定,最终稳定在0.85左右。验证损失的变化则表现出波动,且下降速度较训练损失慢。在后期,验证损失甚至出现上升的趋势,表明模型在验证数据上的表现不如在训练数据上稳定,进一步反映了过拟合的迹象。

从损失和准确率的曲线来看,ResNet50在训练过程中的收敛速度和稳定性都优于VGG16,表明其更适合处理复杂的分类任务。

模型性能对比
1.VGG16与ResNet50的准确率比较
在训练和验证过程中,ResNet50模型表现出了更高的准确率,尤其是在验证集上的表现更为突出。VGG16的最终训练准确率为0.862,验证准确率为0.862,而ResNet50的训练准确率为0.924,验证准确率为0.924。
(1)训练准确率:ResNet50的训练准确率更稳定,并且在处理复杂任务时具有更强的学习能力和稳定性,而VGG16的表现则相对较为波动。
(2)验证准确率:ResNet50在验证准确率上的稳定性和最终表现优于VGG16,其更能有效地避免过拟合,并展现出较强的泛化能力,适合处理复杂的分类任务。

如果数据集较复杂且计算资源充足,推荐使用 ResNet50,它能提供更好的准确率和泛化能力。如果是较简单的任务,VGG16 可以作为一个快速、有效的选择。

2.损失函数与准确率曲线分析
(1)ResNet50 在损失函数和准确率曲线的稳定性上表现更好,泛化能力较强,且避免了过拟合,验证准确率和训练准确率接近,说明模型能够很好地适应不同数据集。
(2)VGG16 尽管最终的训练和验证准确率与ResNet50相似,但在训练过程中,验证损失和准确率的波动较大,可能是由于其网络结构较简单,导致其泛化能力不如ResNet50。

混淆矩阵分析(热力图)
为了更全面地分析模型的分类性能,我们生成了混淆矩阵并将其可视化为热力图,帮助我们直观地了解模型在哪些类别上表现较好,在哪些类别上存在误分类。

1.VGG16的热力图:VGG16在恶性样本的预测上表现非常优秀,但在良性样本的分类上仍有改进空间。通过调整模型阈值、处理数据不平衡、优化特征工程和进行模型调优等方法,可以进一步提升模型在良性样本的识别准确度。

2.ResNet50的热力图:ResNet50 在分类任务中表现优异,尤其是在恶性类别的预测上具有很高的准确性。尽管在良性类别的预测中有少量的假阴性误差,但整体模型性能非常稳健,适用于实际应用中的肿瘤分类任务。

通过混淆矩阵的分析,ResNet50在分类任务上表现得非常出色,尤其是在恶性样本的预测上。通过进一步的优化,数据增强、特征工程、超参数调优等方法,可以进一步提升良性样本的预测性能,减少假阴性率,从而使模型在实际应用中更加稳定和可靠。

过拟合与欠拟合分析
(1)过拟合:ResNet50更能避免过拟合,其验证准确率和训练准确率的差距较小,泛化能力强,尽管在最后阶段存在轻微的过拟合,但整体表现稳定。
(2)欠拟合:ResNet50在训练过程中没有表现出欠拟合的现象,训练和验证准确率的提升表明模型成功地学习到了数据特征,并在泛化方面表现良好。

ResNet50的性能优于VGG16,特别是在处理较复杂任务时具有更好的泛化能力和稳定性,而VGG16需要进一步优化,尤其是在正则化和数据增强方面,以提升其泛化能力。

计算效率分析
(1)ResNet50 在计算效率方面明显优于 VGG16。ResNet50 的参数量较小,计算资源需求更低,训练和推理速度更快。特别是在深层网络的训练中,ResNet50 更能够高效地进行学习。
(2)VGG16 的计算效率较低,主要是由于其庞大的参数量和复杂的全连接层,导致训练和推理时的时间和内存消耗较大。

如果计算效率是项目的关键考虑因素,ResNet50 更适合用于大规模训练任务,尤其是在时间有限的情况下。

运行效果

– 运行 MainProgram.py
1.ResNet50模型运行:
(1)主界面

(2)甲状腺结节良性

(3)甲状腺结节恶性

2.VGG16模型运行:
(1)主界面

(2)甲状腺结节良性

(3)甲状腺结节恶性

3.检测结果保存

点击保存按钮后,会将当前选择的图检测结果进行保存。
检测的结果会存储在save_data目录下。

图片文件保存的csv文件内容如下:

– 运行 train_resnet50.py
这段代码的主要目的是在直接运行该脚本时,加载指定路径下的训练集和测试集,初始化一个 MainProcess 实例并训练模型(ResNet50),设置训练的轮数为 15 轮。

数据集路径设置:
(1)train_dir = r”D:\Dataset\train”:设置训练集数据的路径。
(2)test_dir = r”D:\Dataset\test”:设置测试集数据的路径。

模型路径设置:
(1)model_name0 = r”models/resnet50.pth”:指定训练模型的文件路径,这里是 resnet50.pth 模型的路径,用于加载预训练的 ResNet50 权重或保存训练后的模型。

实例化MainProcess类:
(1)cnn = MainProcess(train_dir, test_dir, model_name0):通过传入训练集路径、测试集路径和模型路径,创建 MainProcess 类的实例 cnn,这个类负责数据加载、模型训练、验证等操作。

调用主函数main进行训练:
(1)cnn.main(epochs=50):调用 cnn 对象的 main 方法,开始训练模型。epochs=50 表示模型训练将进行50轮(每轮遍历整个训练集一次)。该方法将包括模型的训练过程、损失计算、验证等步骤

训练日志结果
ResNet50日志结果

这张图展示了使用ResNet50进行模型训练的详细过程和结果。

配置信息:
(1)模型在训练了50轮后,总共耗时61分钟。
(2)本次训练使用了GPU设备,具体是CUDA设备0。

训练过程:
训练过程记录了50个 epoch,每个 epoch 的训练损失和验证准确率都有输出:
(1)训练损失(train_loss)逐渐下降,意味着模型正在学习,并优化其预测能力。
(2)验证准确率(val_accuracy)在最初几轮相对较低,但随后迅速提升并稳定在较高的水平,最终达到92.4%,这表明模型具有较好的泛化能力。

训练速度:
训练的速度在2.8it/s到4.1it/s之间,表示每秒钟处理大约2.8到4.18个批次。
(1)每个epoch的训练时间约为50秒到60秒左右。
(2)每个验证批次的处理时间大约是20秒到24秒。

完成信息:
(1)Process finished with exit code 0:表示整个验证过程顺利完成,没有报错。

总结:
ResNet50在训练过程中通常表现出较好的平稳性和较快的收敛速度。通过调整超参数、应用正则化方法和确保充足的计算资源,能够进一步提升其训练和验证性能。

– 运行 train_vgg16.py
这段代码的主要目的是在直接运行该脚本时,加载指定路径下的训练集和测试集,初始化一个 MainProcess 实例并训练模型(VGG16),设置训练的轮数为 15 轮。

数据集路径设置:
(1)train_dir = r”D:\ZodiacDataset\train”:设置训练集数据的路径。
(2)test_dir = r”D:\ZodiacDataset\test”:设置测试集数据的路径。

模型路径设置:
(1)model_name0 = r”models/vgg16.pth”:指定训练模型的文件路径,这里是 vgg16.pth 模型的路径,用于加载预训练的 VGG16 权重或保存训练后的模型。

实例化 MainProcess 类:
(1)cnn = MainProcess(train_dir, test_dir, model_name0):通过传入训练集路径、测试集路径和模型路径,创建 MainProcess 类的实例 cnn,这个类负责数据加载、模型训练、验证等操作。

调用主函数main进行训练:
(1)cnn.main(epochs=15):调用 cnn 对象的 main 方法,开始训练模型。epochs=50 表示模型训练将进行50轮(每轮遍历整个训练集一次)。该方法将包括模型的训练过程、损失计算、验证等步骤

训练日志结果
VGG16日志结果

这张图展示了使用VGG16进行模型训练的详细过程和结果。

配置信息:
(1)模型在训练了50轮后,总共耗时78分钟。
(2)本次训练使用了GPU设备,具体是CUDA设备0。

训练过程:
训练过程记录了15个epoch,每个epoch的训练损失和验证准确率都有输出:
(1)训练损失(train_loss)在每个epoch结束时有所下降(从0.811下降到0.225)。
(2)验证准确率(val_accuracy)从0.638提升到0.862,说明模型的性能在不断提高。

训练速度:
训练的速度在2.5it/s之间,表示每秒钟处理大约2.5个批次。
(1)每个epoch的训练时间约为 1分10秒到1分20秒。
(2)每个验证批次的处理时间大约是23秒到24秒。

完成信息:
(1)Process finished with exit code 0:表示整个验证过程顺利完成,没有报错。

总结:
VGG16模型在50个训练周期中表现出良好的学习能力和逐步提升的验证准确率,尽管初期存在一定的波动,但通过训练能够有效提高性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/927512.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

本地项目通过git传递给新建的github库

第一步,打开终端进入本地项目目录 第二步,初始化Git仓库 git init第三步,添加远程仓库 git remote add origin https://github.com/用户名/仓库名.git第四步,添加所有文件到Git版本控制 git add .这个命令会将所有文件添加到暂…

【Maven Helper】分析依赖冲突案例

目录 Maven Helper实际案例java文件pom.xml文件运行抛出异常分析 参考资料 《咏鹅》骆宾王 鹅,鹅,鹅,曲项向天歌。 白毛浮绿水,红掌拨清波。 骆宾王是在自己7岁的时候就写下了这首杂言 Maven Helper A must have plugin for wor…

第426场周赛:仅含置位位的最小整数、识别数组中的最大异常值、连接两棵树后最大目标节点数目 Ⅰ、连接两棵树后最大目标节点数目 Ⅱ

Q1、仅含置位位的最小整数 1、题目描述 给你一个正整数 n。 返回 大于等于 n 且二进制表示仅包含 置位 位的 最小 整数 x 。 置位 位指的是二进制表示中值为 1 的位。 2、解题思路 我们需要找到一个整数 x,使得: x ≥ nx 的二进制表示中仅包含置位…

Vue框架开发一个简单的购物车(Vue.js)

让我们利用所学知识来开发一个简单的购物车 &#xff08;记得暴露属性和方法&#xff01;&#xff01;&#xff01;&#xff09; 首先来看一下最基本的一个html框架 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"&…

注册表修改键盘位置

1.winr 输入 regedit 2.HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Keyboard Layout 3.右键Keyboard Layout->新建->二进制值->取名Scancode Map 4.右键Scancode Map&#xff0c;修改如下 //第一列 自动生成序号&#xff0c;不用管 第一行 输入8个00 第二…

【Verilog】实验二 数据选择器的设计与vivado集成开发环境

目录 一、实验目的 二、实验环境 三、实验任务 四、实验原理 五、实验步骤 top.v mux2_1.v 一、实验目的 1. 掌握数据选择器的工作原理和逻辑功能。 2. 熟悉vivado集成开发环境。 3. 熟悉vivado中进行开发设计的流程。 二、实验环境 1. 装有vivado的计算机。 2. Sw…

一、文本预处理

文本预处理 前言一、文本处理的基本方法1.1 分词1.1.1 举例&#xff1a;1.1.2 作用1.1.3 分词工具——jieba1.1.3.1 jieba特性1.1.3.2 jieba 的 API 代码演示 二、命名实体识别2.1 命名实体2.2 命名实体识别2.3 举例2.4 作用 三、词性标注3.1 词性3.2 词性标注3.3 jieba词性对照…

【HM-React】02. React基础-下

React表单控制 受控绑定 概念&#xff1a;使用React组件的状态&#xff08;useState&#xff09;控制表单的状态 function App(){const [value, setValue] useState()return (<input type"text" value{value} onChange{e > setValue(e.target.value)}/>) …

二分法篇——于上下边界的扭转压缩间,窥见正解辉映之光(2)

前言 上篇介绍了二分法的相关原理并结合具体题目进行讲解运用&#xff0c;本篇将加大难度&#xff0c;进一步强化对二分法的掌握。 一. 寻找峰值 1.1 题目链接&#xff1a;https://leetcode.cn/problems/find-peak-element/description/ 1.2 题目分析: 题目要求返回数组内…

【C语言】结构体(一)

一&#xff0c;是什么 结构体就是一些值的集合&#xff0c;这些值称为成员变量。 结构体的每个成员可以是不同类型的变量。说到集合&#xff0c;数组也是集合&#xff0c;但是不同的是数组只能是相同类型元素的集合。 二&#xff0c;结构体的声明 struct tag {   member1;…

Leetcode - 周赛425

目录 一&#xff0c;3364. 最小正和子数组 二&#xff0c; 3365. 重排子字符串以形成目标字符串 三&#xff0c;3366. 最小数组和 四&#xff0c;3367. 移除边之后的权重最大和 一&#xff0c;3364. 最小正和子数组 本题可以直接暴力枚举&#xff0c;代码如下&#xff1a; …

uniapp Electron打包生成桌面应用exe文件

1.uniapp Electron打包生成桌面应用exe文件 随着跨平台开发的需求日益增长,UniApp 成为了开发者们的首选之一。通过 UniApp,你可以使用 Vue.js 的语法结构和组件系统来构建原生应用、Web 应用甚至是桌面应用。本文将详细介绍如何使用 UniApp 将你的项目打包成 Windows 桌面端…

Linux -初识 与基础指令1

博客主页&#xff1a;【夜泉_ly】 本文专栏&#xff1a;【Linux】 欢迎点赞&#x1f44d;收藏⭐关注❤️ 文章目录 &#x1f4da; 前言&#x1f5a5;️ 初识&#x1f510; 登录 root用户&#x1f465; 两种用户➕ 添加用户&#x1f9d1;‍&#x1f4bb; 登录 普通用户⚙️ 常见…

【笔记总结】华为云:应用上云后的安全规划及设计

一、背景和问题 数字化时代&#xff0c;随着信息技术的飞速发展&#xff0c;企业和各类组织纷纷将自身的应用程序迁移至云端。云计算凭借其诸多优势&#xff0c;如成本效益、可扩展性、灵活性以及便捷的资源共享等&#xff0c;已然成为了现代业务运营的重要支撑。 今年&#xf…

【机器学习(二)】分类和回归任务-决策树(Decision Tree,DT)算法-Sentosa_DSML社区版 (1)11111

文章目录 一、算法概念11111二、算法原理&#xff08;一&#xff09;树的构造&#xff08;二&#xff09;划分选择1、信息增益2、基尼指数3、卡方检验 &#xff08;三&#xff09;停止标准&#xff08;四&#xff09;剪枝处理1、预剪枝2、后剪枝 三、决策树的优缺点四、决策树分…

【SpringBoot问题】IDEA中用Service窗口展示所有服务及端口的办法

1、调出Service窗口 打开View→Tool Windows→Service&#xff0c;即可显示。 2、正常情况应该已经出现SpringBoot&#xff0c;如下图请继续第三步 3、配置Service窗口的项目启动类型。微服务一般是Springboot类型。所以这里需要选择一下。 点击最后一个号&#xff0c;点击Ru…

【Linux探索学习】第十八弹——进程等待:深入解析操作系统中的进程等待机制

Linux学习笔记&#xff1a;https://blog.csdn.net/2301_80220607/category_12805278.html?spm1001.2014.3001.5482 前言&#xff1a; 在Linux操作系统中&#xff0c;进程是资源的管理和执行单元&#xff0c;每个进程都有其自己的生命周期。在进程的执行过程中&#xff0c;进程…

如何实现一套键盘鼠标控制两台计算机(罗技Options+ Flow功能快速实现演示)

需求背景 之前我写过一篇文章如何实现一套键盘鼠标控制两台计算机&#xff08;Mouse Without Borders快速上手教程&#xff09;_一套键鼠控制两台电脑-CSDN博客 当我们在局域网内有两台计算机&#xff0c;想使用一套键鼠操控时&#xff0c;可以安装Mouse Without Borders软件…

MATLAB中物理系统建模仿真介绍

Simscape 是 MATLAB 提供的一个强大的多域物理系统建模和仿真工具&#xff0c;它允许用户在 Simulink 环境中创建和模拟复杂的物理系统。Simscape 模型可以帮助用户细化需求、设计控制系统、测试嵌入式控制器&#xff0c;并使用数字孪生支持在役运行 1. Simscape概述 Simscap…

剖析kubernetes service的IP能否在宿主机中ping通

文章目录 前言一、serviceIP是怎么产生的二、宿主机中ping serviceIP地址1.ping示例2.为什么ping不通剖析2.1.封装及解封装过程2.2.ICMP报文以太网数据帧格式2.3.原因 三、ping不通svcIP是否跟iptables规则有关&#xff1f;四、为什么ipvs的的clusterIP类型的service能够ping通…