Polyp-DDPM: Diffusion-Based Semantic Polyp Synthesis for Enhanced Segmentation

Polyp- ddpm:基于扩散的语义Polyp合成增强分割

摘要:

本研究介绍了一种基于扩散的方法Polyp-DDPM,该方法用于生成假面条件下息肉的逼真图像,旨在增强胃肠道息肉的分割。我们的方法解决了与医学图像相关的数据限制、高注释成本和隐私问题的挑战。通过对分割掩模(代表异常区域的二进制掩模)的扩散模型进行调节,poly - ddpm在图像质量(实现fr起始距离(FID)得分为78.47,而高于83.79)和分割性能(实现交集比(IoU)为0.7156,而基线模型合成图像低于0.6694,真实数据为0.7067)方面优于最先进的方法。我们的方法生成了一个高质量的、多样化的合成数据集用于训练,从而增强了息肉分割模型与真实图像的可比性,并提供了更大的数据增强能力来改进分割模型。

1 介绍

结直肠癌(Colorectal cancer, CRC)是全球第三常见、第二致命的癌症[1]。结直肠癌通常以结直肠息肉开始,这是该疾病的早期指标。

通过结肠镜检查及早发现并切除这些息肉可预防结直肠癌,降低死亡率。然而,在结肠镜检查中识别小息肉可能很困难,这取决于医生的专业知识和其他挑战,例如息肉在检查过程中看不到或被忽视[2]。

为了加强息肉的检测,研究人员正在利用机器学习来自主识别和强调内镜下的息肉[3]。然而,由于需要广泛和多样化的数据集,这些技术的发展面临着重大挑战,这些数据集对于训练模型实现高精度至关重要。由于异常区域出现的多样性、招募患者的困难、数据标注的高成本以及对患者数据隐私的担忧等原因,医疗行业经常面临此类数据的短缺[4]。

为了缓解数据稀缺问题,探索合成图像作为一种可行的解决方案已经引起了人们的关注[5]。

Thambawita等人[6]开发了一种基于gan的方法,用于使用分割蒙版创建息肉图像,使用两个阶段的过程,包括在1,000张图像的HyperKvasir数据集[7]上进行初始训练,然后进行风格转移以生成合成图像。尽管比其他GAN模型获得了更真实的图像,但他们的SinGAN-Seg模型在多样性和细节准确性方面面临挑战。GAN模型的一个普遍问题是模态崩溃问题。基于扩散的模型的最新进展已经克服了模式崩溃问题,产生了比gan更好的多样化、高质量的图像[8]。Macháček等人[9]使用Kvasir-SEG数据集[10],引入了一种用于息肉图像和掩模生成的两阶段扩散模型。这个过程包括使用改进的扩散模型生成掩模,然后在这些掩模上调节潜在扩散模型以创建图像。尽管该方法可以有效地生成各种图像,但由于需要两个模型,该方法在训练和推理方面的计算成本很高。

为了应对这些挑战,我们引入了一种新的基于扩散的语义息肉合成方法,polyypddpm,旨在增强我们之前的工作Med-DDPM[11]的息肉分割。这种方法通过掩膜图像的通道级联来调节扩散模型。我们使用Kvasir-SEG数据集进行了实验,并将我们提出的方法与SinGAN-Seg[6]和潜在扩散模型[9]进行了比较,因为这些方法代表了注释息肉数据集生成的最新进展,包括基于gan和基于扩散的方法。在我们的实验中,与基线模型相比,poly - ddpm在图像质量和分割任务方面表现出优越的性能。本研究为任意给定掩模图像合成高质量的合成息肉图像提供了一种新的基于扩散的方法,可用于训练更准确的息肉分割模型,从而为该领域的研究做出了贡献。源代码和预训练模型是公开的,以进一步研究和应用在这一重要领域的医学成像。

2 方法

在本研究中,我们在之前语义3D脑MRI合成工作的基础上[11],并增强了基于分割蒙版生成条件2D息肉图像的架构。

我们的方法涉及前向扩散过程𝑞,由方差调度ϵ∼𝒩(0,i)定义的少量高斯噪声α̅t在给定时间步T中的每个时间步𝑥被添加到训练数据集的图像样本𝑡0:

为了避免噪声水平的突然波动,对[12]中提出的余弦噪声时间表进行了调整,定义如下:

其中,参数𝑠表示一个较小的偏移值,以防止在时间步长接近零时计划过小。[11]

在反向扩散过程𝑝θ中,我们采用了具有输入通道的U-Net结构作为去噪模型。我们所提出的方法的核心结构如图1所示。去噪器U-Net结构的主要组件包括正弦位置嵌入,它被用来编码时间步长𝑡,从而通知模型关于影响输入图像的特定噪声水平。该架构的一个关键元素是宽ResNet块,它由卷积层、完全连接层、组归一化、SI鲁激活层和跳过连接组成。组归一化结合了关注层之后的2D卷积层。为了实现条件建模,我们引入了一种简单而高效的技术,该技术通过以通道方式串联分割掩码𝑥𝑡来修改输入图像𝑐。

3 实验和结果

我们使用Kvasir-SEG数据集[10],与LDM[9]使用相同的训练和测试拆分来训练我们提出的方法。图像大小调整为256x256像素,像素强度调整为范围[-1,1]。我们的模型使用900张图像进行训练,然后在100张测试图像上进行测试。为了确保公平的比较,我们使用了LDM[9]和SinGan-Seg[6]的预训练模型。然而,SinGan-Seg模型在HyperKvasir数据集的1000张图像上进行了训练,并包含了样式转移,与仅在900张图像上训练而没有样式转移的模型进行了不公平的比较。尽管如此,我们的目标是评估我们的扩散模型对它的有效性。我们的模型使用了100,000次迭代,学习率为10-4,批次大小为32,输入通道,仅使用250个时间步,并使用了L1损失函数。在训练过程中,我们应用了旋转、水平翻转和随机旋转等增强技术。对于息肉分割任务,作为对合成图像的定性评估,我们使用了相同的分割模型-UNET++、FPN和DeepLabv3plus-AS[9],除了将历元数更改为100以及修改训练和测试图像数外,具有相同的超参数配置。对来自Kvasir-SEG训练集的900幅图像和从训练集的掩模图像创建的900幅合成图像对所有分割模型进行训练。为了评估合成图像的有效性,我们对HyperKvasir数据集[7]中的1000张图像和ETIS-LaribPolypDB数据集[13]中的196张图像以及Kvasir-SEG数据集的100张测试图像测试了分割模型。通过比较1,000个合成图像和真实图像的样本,使用Fréchet初始距离(FID)、初始分数(IS)和核心初始距离(KID)分数对合成图像进行定量评估。我们对两个不同的数据集:KvasirSEG和HyperKvasir进行了定量评估。使用联合交集(IOU)、F1评分、准确度和精确度评分来评估分割模型的性能。所有型号都在特斯拉V100-SXM2 32 GB GPU卡上进行了培训。

A. 图像合成的结果

图2显示了使用来自HyperKvasir数据集的给定掩模,由我们提出的方法和两个基线模型生成的真实和合成图像之间的比较。该数据集被用于训练SinGan-Seg模型,并作为我们提出的方法和潜在扩散模型(LDM)的不可见数据。比较表明,这两种扩散模型比SinGan-Seg模型具有更高的多样性样本生成能力。尽管使用其训练数据的输入掩码的GaN-Seg模型在理论上应该比其他两个扩散模型生成更好的图像,但很明显,预先训练的SinGANSeg模型遭受了模式崩溃的影响,并且只产生略有变化的图像。相比之下,这两种扩散模型能够产生多样化、高质量的样本。将提出的POLIP-DDPM算法与LDM算法进行比较,我们的模型能够生成比LDM算法更丰富、细节更精确的图像。在定量评估方面,我们提出的POLIP-DDPM方法在Kvasir-SEG和HyperKvasir数据集上的表现优于其他基线模型(表I)。

与Kvasir-SEG数据集的图像相比,我们的方法获得了最低的Fréchet初始距离(FID)得分78.47和核初始距离(KID)0.07,而在HyperKvasir数据集中的真实图像上FID和KID分别为81.10和0.07。相比之下,LDM的得分第二高,FID为95.82Kvasir-SEG上的KID为0.09,HyperKvasir上的FID为97.01,KID为0.09。

相反,与它自己的训练数据集HyperKvasir相比,SinGan-Seg的FID和KID得分分别为131.13和0.14,而且在Kvasir-SEG数据集上的表现也很差。然而,与两个基于扩散的模型相比,SinGan-Seg模型获得了最高的初始得分,这归因于SinGan-Seg模型从真实图像中转移风格的能力。

B.分割实验结果

我们在三个不同的测试数据集:KvasirSEG、HyperKvasir和ETIS-LaribPolypDB上,对三种分割模型-UNET++、FPN和DeepLabv3plus的性能进行了全面的分析,比较了使用合成图像和真实图像进行训练的效果,如表II所示。当对900幅合成图像进行训练时,PolypDDPM模型在Kvasir-SEG数据集的测试集上显示了显著的结果。具体地说,该模型的欠条为0.7156,F1得分为0.8342,准确度为0.9464,精确度为0.8203,超过了SINGAN-SEG和LDM模型。与用900张真实图像训练时相比,这一改进更加明显,当时IOU为0.7067,F1得分为0.8281,突显了合成数据在提高分割性能方面的有效性。在FPN和DeepLabv3plus模型中也观察到了类似的趋势,其中Polyp-DDPM的表现优于其他两个基线模型。然而,FPN和DeepLabv3plus模型的IOU和F1得分低于真实图像结果。在不可见的HyperKvasir数据集上,PolypDDPM的优势更加明显。使用unet++模型,它获得了0.7739的借条和0.8725的F1得分,超过了在整个HyperKvasir数据集上训练的SinGan-Seg模型的性能,也超过了LDM。这一趋势在FPN和DeepLabv3plus模型中继续下去,甚至在未见过的ETIS-LaribPolypDB数据集中继续下去,强调了Polyp-DDPM更好地泛化的能力。在Kvasir-SEG和HyperKvasir数据集上的SinGAN-Seg图像上,FPN模型的唯一精度分数高于其他模型。然而,在ETIS-LaribPolypDB数据集上没有观察到这种模式。然而,当应用于这些看不见的数据集时,合成图像的性能与真实图像的性能不匹配,导致得分较低。这突出表明需要进一步改进合成图像的质量。此外,我们研究了使用真实图像和合成图像的组合来训练分割模型,并发现我们所提出的方法在数据增强能力方面有相当大的前景。例如,包含1800张图像(900REAL和900Polyp-DDPM)的混合训练集获得了0.7484的借条和0.8561的F1分数。相比之下,只使用了900张真实图像,借条和F1得分较低:unet++分别为0.7067和0.8281。同样,对于DeepLabv3plus,混合设置产生的借条为0.7496,F1为0.8569,超过了真实图像的借条0.7217和F1 0.8384。

4 结论

这项研究介绍了PolyP-DDPM,一种新的基于扩散的语义息肉合成方法,它在生成高质量、多样化的合成息肉图像方面优于现有的基于GaN和基于扩散的模型。使用Fréchet初始距离和核初始距离度量的定量评估进一步证实了POLIP-DDPM相对于SinGAN-Seg和潜在扩散模型的优势,特别是在生成与真实数据集特征非常相似的图像方面。此外,分割实验强调了我们提出的方法生成的合成图像有潜力改进息肉分割模型的训练,使其与真实图像具有可比性,并在各种测试数据集上取得了显著的结果。PolypDDPM的相对优势尤其明显,它能够以更高的多样性和精确度生成图像,从而解决了医学成像领域数据稀缺的关键挑战。这项研究不仅推进了合成图像生成的技术前沿,而且为更有效和更容易获得的医学成像解决方案铺平了道路,最终有助于改进对模型的培训,以早期发现和预防结直肠癌。

图1.用于训练和生成合成息肉图像的Polyp-DDPM的总体架构。A)训练:通过调节异常区域的二值分割掩模,训练Polyp-DDPM将随机噪声转换为逼真的息肉图像。B)PolypDDPM模型的核心构建块。C)推理:训练好的Polyp-DDPM模型对给定的输入掩模进行推理,生成相应的合成图像。

图2.真实样本和合成样本的比较:展示了从单一输入掩模生成的合成图像的多样性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/731283.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

尚硅谷大数据技术ClickHouse教程-笔记01【ClickHouse单机安装、数据类型】

视频地址:一套上手ClickHouse-OLAP分析引擎,囊括Prometheus与Grafana_哔哩哔哩_bilibili 01_尚硅谷大数据技术之ClickHouse入门V1.0 尚硅谷大数据技术ClickHouse教程-笔记01【ClickHouse单机安装、数据类型】尚硅谷大数据技术ClickHouse教程-笔记02【表引…

Comfy UI使用最新SD3模型,并解决报错‘NoneType‘ object has no attribute ‘tokenize‘【实测可行】

解决Comfy UI使用最新SD3模型报错’NoneType’ object has no attribute ‘tokenize’ 前几天SD3发布了,所以想着尝尝鲜,便去下载了SD3来玩一玩。使用的是Comfy UI而不是Stable Diffusion UI,这是一个比SD UI更加灵活的UI界面,使用…

内容安全复习 4 - 深度生成模型

文章目录 概述经典算法自回归模型(Autoregressive model)变分自编码器(VAE)生成对抗网络(GAN)扩散模型(Diffusion model)总结 应用 概述 深度生成模型是一类使用深度学习技术构建的…

L55--- 257.二叉树的所有路径(深搜)---Java版

1.题目描述 2.思路 (1)因为是求二叉树的所有路径 (2)然后是带固定格式的 所以我们要把每个节点的整数数值换成字符串数值 (3)首先先考虑根节点,也就是要满足节点不为空 返回递归的形式dfs(根节…

数字内容“遍地开花”,AI技术如何创新“造梦”?

文 | 智能相对论 作者 | 陈泊丞 这是春晚舞台西安分会场《山河诗长安》的一幕:“李白”现世,带领观众齐颂《将进酒》,将中国人骨子里的豪情与浪漫演绎得淋漓尽致。 这又是浙江义乌商品市场里的另一幕:只会说几个英文单词的女老板…

入门Ansible常用模块

自动化运维Devops-Ansible Ansible是新出现的自动化运维工具,基于Python 开发,集合了众多运维工具(puppet 、cfengine、chef、func、fabric)的优点,实现了批量系统配置 、批量程序部署、批量运行命令 等功能。Ansible…

小程序 如何支付后获取 Unionid

接口说明 接口英文名 getPaidUnionid 功能描述 该接口用于在用户支付完成后,获调用本接口前需要用户完成支付,用户支付完成后,取该用户的 UnionId,无需用户授权。本接口支付后的五分钟内有效。 注意事项 调用前需要用户完成…

直播websocket签名signature字段生成逻辑,一步一步带你研究学习

现在每个直播的链接都要签名字段才可以校验成功,所以需要开始debug逻辑,研究一下这个加密的签名字段哪里来的,先找到这个发送请求的js代码在哪里: 找到发送websocket的地方了,看了一下_getSocketParams这就是获取请求参…

String(C++)

文章目录 前言文档介绍经典题目讲解HJ1 字符串最后一个单词的长度 模拟实现框架构造函数析构函数迭代器c_str()赋值size()capacity()reserveempty()[ ]访问front/backpush_backappendoperatorinsert一个字符insert一个字符串eraseswapfind一个字符find一个字符串substr()clear(…

超级会员卡积分收银系统源码 带完整的安装代码包以及搭建部署教程

系统概述 超级会员卡积分收银系统源码是一款专为商业运营打造的综合性软件解决方案。它集成了会员卡管理、积分管理、收银管理等多种功能,旨在为企业提供高效、便捷、准确的运营管理工具。 该系统源码采用先进的技术架构,具有良好的稳定性和扩展性&…

Python火焰锋动力学和浅水表面波浪偏微分方程

🎯要点 🎯流图可视化正弦余弦矢量场 | 🎯解空间变化边界条件二维拉普拉斯方程 | 🎯解圆柱坐标系标量场 | 🎯解一维泊松方程 | 🎯解二维扩散方程 | 🎯解火焰锋的动力学偏微分方程 | &#x1f3a…

自动备份SQL Server数据库,试试这4种方法!

各种规模的企业都使用 SQL 数据库来存储数据。因此,备份 SQL Server 数据库对于确保数据安全并在发生灾难时可恢复至关重要。对于 SQL 数据库备份,有多种可行的方法,对于特定组织来说,方法将取决于其具体需求。 SQL Server 备份的…

Vue69-路由基本使用

一、需求 二、开发步骤 2-1、路由的安装 vue-router3才能在vue2中使用!现在默认是vue-router4版本,要在vue3中使用!所以,安装的时候要指定版本。 2-2、在main.js中引入和使用路由 2-3、创建router文件夹 一般在vue中用了vue-ro…

vb.net c#一键编绎引用DLL如何做?编绎成独立EXE

.net c#一键编绎引用如何做? 3个工程有依懒关系 ClassLibrary1,ClassLibrary2,MainProject (主工程) ClassLibrary2依赖ClassLibrary1,MainProject依赖前2个 如何实现一键按顺序编绎,自动添加前…

【中学教资科目二】03中学教学

03中学教学 第一节 教学的任务1.1 教学的任务 第二节 教学过程2.1 教学过程的本质2.2 教学过程的基本规律 第三节 教学原则3.1 因材施教原则 第四节 教学方法4.1 我国中学常用的教学方法4.2 国外常用的教学方法 第五节 教学组织形式、教学工作基本环节和教学评价5.1 现代其他教…

SpringSecurity实战入门——认证

项目代码 gson/spring-security-demo 简介 Spring Security 是 Spring 家族中的一个安全管理框架。相比与另外一个安全框架Shiro,它提供了更丰富的功能,社区资源也比Shiro丰富。 一般来说中大型的项目都是使用SpringSecurity来做安全框架。小项目有Shiro的比较多,因为相比…

容器之对齐构件

代码&#xff1a; #include <gtk-2.0/gtk/gtk.h> #include <glib-2.0/glib.h> #include <gtk-2.0/gdk/gdkkeysyms.h> #include <stdio.h>int main(int argc, char *argv[]) {gtk_init(&argc, &argv);GtkWidget *window;window gtk_window_ne…

同城跑腿小程序的崛起与用户体验革新

随着移动互联网的飞速发展&#xff0c;人们的生活方式正在发生深刻的变化。在这个快节奏的时代&#xff0c;时间成为了最宝贵的资源。在这样的背景下&#xff0c;同城跑腿小程序应运而生&#xff0c;以其高效、便捷的服务特性&#xff0c;迅速赢得了广大用户的青睐。本文将探讨…

java基于ssm+jsp KTV点歌系统

1管理员功能模块 管理员登录&#xff0c;通过填写注册时输入的用户名、密码进行登录&#xff0c;如图1所示。 图1管理员登录界面图 管理员登录进入KTV点歌系统可以查看个人中心、用户管理、歌曲库管理、歌曲类型管理、点歌信息管理等信息。 修改密码&#xff0c;在修改密码页…

ES6(ECMAScript 6.0) 新特性

1 ES6 基本介绍 &#xff08;1&#xff09;ECMAScript 6.0(简称 ES6)是 JavaScript 语言的下一代标准&#xff0c; 2015 年 6 月发布。 &#xff08;2&#xff09;ES6 设计目标&#xff1a;达到 JavaScript 语言可以用来编写复杂的大型程序&#xff0c;成为企业级开发语言 &…