基于连续深度编解码器网络的医学图像鲁棒边界分割
- 摘要
- 引言
- 相关工作
- 方法-----III. PROPOSED METHOD
Robust_Boundary_Segmentation_in_Medical_Images_Using_a_Consecutive_Deep_Encoder-Decoder_Network
摘要
图像分割通常用于定位目标和边界。它在许多临床应用中是必不可少的,如肝脏疾病的病理诊断,手术计划和术后评估。分割任务受到模糊边界、复杂背景和感兴趣对象外观的阻碍,这些因素变化很大。手术的成功仍然高度依赖于操作者的技能和手眼协调水平。因此,本文的强烈动机的必要性,以获得一个早期和准确的诊断,在医学图像中检测到的对象。在本文中,我们提出了一种新的息肉分割方法的基础上的多个深度编码器-解码器网络组合称为CDED-net的架构。该体系结构不仅可以通过在不同有效视场和多个图像尺度下提取有区别的特征来保持多层次的上下文信息,而且还可以在训练阶段从丢失的像素中学习丰富的信息特征。此外,该网络还能够通过使用多尺度有效解码器来捕获对象边界。我们还提出了一种新的策略,以提高该方法的分割性能的基础上结合的边界强调数据增强方法和一个新的有效的骰子损失函数。该策略的目标是使我们的深度学习网络可用于定义不明确的对象边界,这是由背景和前景区域之间的非镜面过渡区引起的。为了提供所提出方法的总体视图,我们的网络在三个著名的息肉数据集CVC-ColonDB,CVC-ClinicDB和ETIS-Larib PolypDB上进行了训练和评估。此外,我们还使用Pedro Hispano医院(PH 2),ISBI 2016皮肤病变分割数据集和CT健康腹部器官分割数据集来描述我们的网络的能力。我们的研究结果表明,CDED-net明显优于最先进的方法。
引言
目前,大多数医学对象筛选系统由临床医生手动操作。由于人类视觉的限制以及系统的低灵敏度和特异性,因此,医生可能在检查阶段错过目标对象。此外,未检测到的物体通常具有小于9 mm的直径,其不能被临床医生清楚地观察和定位。此外,有些物体由于位于危险区域或甚至被肠褶隐藏而未被检测到。它们也可能过于平坦和模糊的外观,使他们能够看到视觉。临床医生的高缺失率可能会使患者的生命处于危险之中。例如,在结直肠癌方面,根据美国癌症协会的报告[7],2018年美国新诊断的癌症病例数约为结肠癌97,220例,直肠癌43,030例,并且这一数字每年都在迅速增加。不幸的是,2018年有50,630人死于结直肠癌。此外,皮肤病变也是一个热门的医学话题,特别是因为黑色素瘤是最具侵袭性的皮肤癌类型,并且是大多数皮肤癌死亡的原因[48]。此外,在美国,根据美国癌症协会的出版物,黑色素瘤新发病例和黑色素瘤死亡的估计数量分别为91,270和9,320。关于肝癌,2018年估计新发肝癌病例数为42,220例(包括肝内胆管癌)。值得注意的是,肝癌在男性中的发病率是女性的三倍。2018年估计有30,200例肝癌死亡[48]。肝癌的死亡率趋势增加了一倍多,从1980年的2.8(每10万人)增加到2015年的6.6,从2006年到2015年每年增加2.5%。癌症的早期诊断可以大大减少其在2018年发生的并发症。此外,皮肤病变也是一个热门的医学话题,特别是因为黑色素瘤是最具侵袭性的皮肤癌类型,并且是大多数皮肤癌死亡的原因[48]。此外,在美国,根据美国癌症协会的出版物,黑色素瘤新发病例和黑色素瘤死亡的估计数量分别为91,270和9,320。关于肝癌,2018年估计新发肝癌病例数为42,220例(包括肝内胆管癌)。值得注意的是,肝癌在男性中的发病率是女性的三倍。2018年估计有30,200例肝癌死亡[48]。肝癌的死亡率趋势增加了一倍多,从1980年的2.8(每10万人)增加到2015年的6.6,从2006年到2015年每年增加2.5%。
癌症的早期诊断可以大大降低其相关死亡率;例如,如果在早期阶段诊断出黑色素瘤,则可以通过及时切除而治愈[1],[2]。医学图像分析界已经注意到了这些关键的发展。然而,从需要手动操作的系统到从数据中学习特征的系统的过渡已经逐渐增加。为了帮助临床医生做出更快、更准确的决策,人们引入了自动医学图像分割方法,在过去的二十年里,它们一直是医学图像分析中最成功的方法。计算机辅助分割系统可以显着降低医疗对象的丢失率,并帮助临床医生识别感兴趣的区域,尽管案件的复杂性。通过使用包含关于感兴趣对象的预期形状和外观的特征信息的先验知识模型,基于模型的分割方法努力使用具有关于对象结构的先验知识的智能算法来解释该知识。由于数据集中的信息,基于模型的分割方法比传统方法更稳定,更准确,其性能对局部图像伪影和扰动敏感。然而,通用网络通常是为商业和工业应用开发的通用模型,如果需要检测具有独特属性的特殊生物对象,它们的性能不足以让临床医生做出正确的决定[3]。因此,许多研究人员已经开发和研究了快速和精确的医学对象分割算法,以提供诊断的早期指征。然而,由于临床要求的限制,它们的性能并没有说服医生,特别是因为感兴趣的对象总是具有不可预测的形状和各种各样的尺寸和方面。此外,在某些情况下,皱纹和褶皱的形状与肿瘤和目标细胞的形状相似。此外,物体与其周围区域之间的过渡区通常不会表现出纹理或颜色的显著变化,从而使临床医生能够将其与所有其他正常区域区分开来。为了解决这些主要问题,我们主要专注于构建一个深度卷积神经网络,以生成专注于对象边界区域和对象微小结构的区分特征。
在医学图像分割中,视频或图像中的像素被分类为目标像素或非目标像素。因此,要考虑用于跟踪或识别的区域从整个图像减少到几个小得多的块。传统的分割方法通常试图确定一个合适的颜色空间,并建立一个模型来单独分类每个像素。有四种主要类型的分割算法:显式皮肤分类器,非参数分类器,参数分类器和动态分类器。显式皮肤分类器,例如RBG、HSV和YCbCr分类器[4],试图通过在颜色空间中定义决策边界来分割对象点。为了克服以前的分割方法中遇到的问题,这些方法由不同种族的患者和不同的照明条件触发,Long等人[5]引入了深度全卷积神经网络(FCNN),最近导致语义分割研究的巨大发展。它们可以被用来在像素级识别和理解图像。在医学领域,由于FCNN在区分特征提取方面的计算效率,许多研究人员将其用于各种目的,并且在应用于许多具有挑战性的数据集时已被证明是有效的。因此,他们已经受到关注的研究人员正在研究的方法,以改善医学图像分割。Ronneberger等人[8]通过引入一种名为U-Net的新深度网络来改进FCNN。该架构被认为是第一个编码器-解码器架构,由捕获上下文的收缩路径和实现精确定位的对称扩展路径组成。由于该网络在分割生物医学图像方面的性能,它已被广泛应用于生物医学领域。此外,在认识到分割最困难的部分是对象轮廓之后,Chen等人。[9]提出了DCAN,其通过采用多级上下文特征来更加关注轮廓信息。从层次结构的多层次的上下文特征进行了探索,辅助监督准确的腺体分割。因此,DCAN的分割性能得到了显著的证明。这些有效的网络促使我们开发一种新型的深度编码器-解码器网络,该网络也可以专注于分割对象的边界。
如前所述,医学图像分割领域存在两个主要问题:识别目标区域和非目标区域之间的过渡空间以及分割目标形状的多样性。
当涉及到第一个问题时,与普通对象的轮廓不同,它可以清楚地将感兴趣对象与背景区分开来,医学对象的边界很难定义。这个问题有两个原因。首先是相机的质量。由于医疗任务的性质,相机通常进入患者体内拍摄内部器官和组织的图像。因此,它的尺寸应该很小,但不幸的是,小型相机拍摄的图像具有失真的分辨率。此外,对于计算机断层摄影(CT)图像和其他类型的图像,区分材料的能力取决于图像各自的线性衰减系数。实际上,CT图像的质量在很大程度上取决于材料特性,例如密度和原子组成、所用X射线光谱的机器参数以及信噪比。内窥镜医生声称,即使使用高质量的工具拍摄图像,仍然很难找到感兴趣的对象,因为他们无法区分其边界和正常区域。因此,Chen等人。[9]修改了用于腺体分割的U-Net网络,并启发我们找到一种基于先验知识的更好的分割方法。然而,当应用于医学领域,DCAN给穷人的边界分割,由于其对比度弱,因此是不如常用的方法有效。为了克服这个问题,我们不是通过使用固定的轮廓来探索补充信息来掩盖息肉边界[9],而是通过随意改变感兴趣区域内的像素值来随机掩盖对象边界厚度和与对象没有很大差异的对象的相邻区域。这些被掩蔽的区域被认为是新的标签,其在医学分割任务中提供比以前的增强方法更丰富的信息。此外,我们提出的增强技术不仅使模型能够避免在模型以详细的方式学习对象时发生的过拟合,而且还使网络能够专注于从每个训练息肉图像中提取边界模式。因此,我们的深度学习网络可以专注于提取对象各个不同部分中最重要的特征,而不是像[9]中所提出的那样在每个训练图像中只提取一个轮廓。此外,我们还提出了一个新的损失函数,它有效地计算预测和地面真理之间的差异。
第二个问题涉及医疗对象的各种外观,例如它们的大小、形状和结构。医学分割对象的大小直接影响对象检查中的漏诊率,因为医生通常无法轻松评估小腺瘤,这些腺瘤很小,很难看到,但它们后来可能会自然变成癌症肿瘤。此外,医疗对象的物理尺寸总是不可预测的,并且它也可能被上述医疗相机错过。这是因为相机和物体之间的距离是非常不可预测的。此外,就计算机辅助检测系统而言,系统的性能高度依赖于训练方法,其中许多重要模式可能被错过或训练不足。据我们所知,这些差异使得计算机辅助检测算法在真实的医疗环境中的有效性大大降低。因此,CDED-Net的输入是多分辨率图像,它也可以完全从训练图像中学习。它是膨胀卷积的级联架构的组合,并且包括有效的解码器模块。我们的网络架构受到DeeplabV 3+网络的启发,用于分割任务[11]和Davies和摩尔提出的Mix-nets [12]。在我们的网络的末端使用膨胀卷积的级联结构来提取局部区域中的多尺度上下文信息,并且不需要增加数量。这种架构还可以有效地学习重要信息,并恢复与对象边界相关的部分,这些部分在数据通过许多卷积和池化层时丢失,因为第二个网络总是学习在第一个网络训练阶段丢失的模式。我们提出的方法扩大了感知能力的大小,而不丢失重要信息。此外,通过将这些技术与我们的损失函数相结合,我们发现连续编码器-解码器网络可以实现相当好的交集(IoU),并且给予更好的预测。
我们比较了我们提出的算法及其竞争对手的性能,这些竞争对手使用的数据集主要是由Grand-Schools 1提供的。大量的实验结果表明,我们的算法显着优于国家的最先进的算法。我们提出了一种新的连续多深度编码器解码器网络CDED-Net,用于从图像中提取最有用的特征,并从多尺度图像输入中完全学习。
·我们介绍了一种边界强调增强方法,用于从训练集中的每个图像中生成大量的对象边界模式。新的增强方法增强和提高CDED网络的分割性能。
·在我们的CDED-net中,假设使用约束扩张卷积,我们为每个组件网络使用不同的步幅和速率来捕获多尺度输入的上下文信息。
·我们提出了一个新的Dicoss损失函数,这是一种广泛用于评估网络分割性能的重叠度量。损失函数和我们的CDED-net的组合产生了更好的性能。
本文的结构如下。首先,在第二节中,我们简要介绍了相关的最先进的息肉分割算法,高度激励我们的研究。然后,在第三节中,我们讨论了我们提出的边界聚焦数据增强方法和CDED-Net的处理。此外,在本节中,我们还讨论了一种新的损失函数。随后,在第IV节中给出了在具有挑战性的数据库上的实验结果。第五节总结了我们的工作,并介绍了我们今后的工作。
相关工作
在本节中,我们将简要讨论医学对象分割的最新相关算法。
在20世纪90年代末,监督技术被用于开发分类和对象检测系统,后来迅速成为分析医学图像的首选方法。在许多医院,计算机辅助诊断(CAD)已被用于帮助医生更快、更准确地诊断患者。特别是,在肿瘤/病变检测的情况下,分割任务在医学对象定位中起着重要作用。它不仅以坐标的形式输出,而且还可以可视化对象的外观。当医生想要更准确地诊断癌症时,这些分割功能非常有用。因此,CAD分割应用程序被用于精确分割器官、癌症肿瘤和息肉,这是一项具有挑战性的医学诊断任务。在医学诊断过程中,CAD可以明智地提供活检建议,减少医生的失败预测。
为了将深度学习方法用于医学图像诊断,计算机必须学习代表手头问题的输入数据的特征。这个概念基于许多深度学习算法的基础:由许多层组成的模型(网络),这些层将图像和视频等输入数据转换为输出,同时学习越来越高的特征[13]。目前最成功和最流行的图像分析模型是卷积神经网络(CNN),它包含许多层,使用小卷积滤波器将其训练图像转换为称为特征矩阵的矩阵。Lo等人[14]应用CNN检测肺结节,这是深度学习在医学领域的首次应用。CNN的成功发表后不久,许多研究人员就努力开发和创建用于多种医疗任务的新网络。CNN可以应用于对图像中的每个像素进行单独分类,方法是将其与在特定像素周围提取的补丁一起呈现。CNN的一个缺点是,来自相邻区域的输入补丁相当大地重叠,不必要地增加了特征数量和计算时间。为了解决这个问题,Long等人[5]提出了全卷积网络(FCNN),将全连接层重写为卷积,这样网络就可以用更大的图像进行训练。此外,代替单个像素的输出,网络可用于给予似然图作为结果。大多数使用FCNN进行语义图像分割的最先进方法都是基于在网络末端添加卷积层而不是使用任何完全连接层的想法。Ronneberger等人。[8]提出了U-net架构,该架构包括FCNN和解码器路径,这是一个上采样部分,其中反卷积用于增加图像大小。
对医学图像中的器官和其他子结构的分割允许对与体积和形状相关的临床参数进行定量分析,例如在息肉、肝脏或皮肤图像分析中。
首先,在息肉检测领域,Wickstrøm等人。[10]通过在每层之后添加批量归一化[15]来增强用于语义分割的全卷积网络(FCN)。此外,作者提出了ESegnet,这是SegNet的改进[16],其中编码器从图像中提取有用的特征并将其映射到低分辨率表示,解码器将低分辨率表示映射回与输入图像相同的分辨率。受Kendall等人[18]的启发,Wickstrøm等人[10]在三个中央编码器和解码器之后还包括Dropout [17]。Dropout用于将层中的单元随机设置为零,并且可以被解释为多个网络的集合。Dropout的添加使模型规则化,并且还允许估计模型预测中的不确定性。Akbari等人。[6]提出了一种新的息肉分割方法,该方法强烈基于网络的级联。作者在网络的训练阶段使用了智能补丁选择方法来提高模型的性能。此外,在将改进的FCN-8 S用于结肠镜图像中息肉区域的分割后,作者使用大津阈值法将FCN-8 S输出的概率图转换为二值图像,然后找到最大连通分量。通过使用后处理方法,假阳性像素的数量略有减少。Zhang等人。[19]提出了一种用于全自动息肉分割的基于混合分类的方法。更具体地说,他们应用了两个初始步骤:区域提案生成和区域区域细化。该方法通过FCN学习息肉的层次特征,并利用纹理基元面片表示法对与息肉边界相关的上下文信息进行建模。在FCN提供逐像素预测和初始息肉区域候选者之后,通过使用随机森林方法使用基于纹理基元的空间特征通过逐块分类来细化后者。通过结合三个著名的卷积网络,即AlexNet [20],GoogLeNet [21]和VGG [22],Brandao等人[23]改进了FCN架构,以识别结肠镜检查图像中的特定结构。该FCN端到端学习,从而通过反卷积层获得密度预测。在FCN在息肉分割计算机辅助系统中取得成功之后,Li等人[24]提出了一种新的端到端FCN结构,该结构受到U-net [8]和FCN [5]的启发。该方法不需要任何后处理,直接给予与输入网络原始测试图大小相同的预测图。开始阶段是特征提取阶段,最后阶段是预测图重构阶段。提取函数从输入图片中提取低级特征,并且特征图被置换,并且随后与连续卷积运算相结合,以产生具有语义信息的抽象的高级特征图。
第二,关于自动皮肤病变分割,Vasconcelos等人。[25]提出了一种形态测地线活动轮廓分割(MGAC)方法,该方法使用数学形态学进行自动初始化,该数学形态学被称为大偏微分方程近似。该方法是自动的,具有较低的计算成本和没有稳定性问题。更具体地,通过仅使用皮肤镜图像的蓝色通道,该方法由于关于病变的通道的信息存储而有效地适应轮廓。为了加快处理时间,Vasconcelos等人。[25]自动初始化测地线活动轮廓;它给出了GAC开始的起点和非常接近病变的轮廓。而且,因为不需要训练过程,这种方法比深度学习方法更快。此外,该方法还能够管理图像中的噪声,例如油泡和毛发。在提高FCN在皮肤病变分割中的性能方面,Bagher Salimi等人。[26]提出了DermoNet,这是一种通过转换DenseNets实现的FCN。为了利用高级特征表示的能力,Bagher Salimi等人。[26]使用密集连接的卷积块和跳过连接。通过这种方法,网络层可以一次又一次地使用其先前层输出的信息。这允许损失函数惩罚来自不同层的多尺度特征图。他们提出的网络使用更少的参数,因此模型可以快速实现高训练精度。此外,由于该架构在编码器过程中采用了多个密集块,DermoNet可以允许多尺度特征映射被损失函数惩罚[26]。
第三,关于肝脏CT图像的分割,传统的方法,如聚类[27]-[29]和形态学算子[30]用于帮助临床医生在特征空间中对纹理进行分类。这些基于强度的方法通常是有效的,并且当肝脏的强度足够时可以给予极好的结果。这些传统方法的主要问题是没有正式的形状;因此,无法定义肝脏的边界,有时会错过重要的部分。为了解决这些缺点,Yan等人[31]提出了一种基于图谱的肝脏脂肪分数评估方法。通过在肝脏的描绘区域中使用基于化学位移的方法来计算脂肪分数图。此外,Chartrand等人。[32]提出了一种由三个主要阶段组成的方法:初始化,优化和校正。在初始化步骤中,从生成的轮廓内插初始形状。该形状随后被优化以朝向肝脏边界收敛。最后,三维表面网格可以交互操作,以获得高精度。Lu等人。[33]通过结合深度学习和图切割方法开发了一个全自动肝脏分割框架。首先,作者使用3D CNN同时定位和分割原始肝脏表面。然后利用图割方法对初始分割结果进行细化。
为了超越这些最先进的方法,我们提出了一种方法,有效地用于医学对象分割的CT,MR和常见格式的图像。更具体地说,在我们应用了我们新的数据增强方法(我们称之为边界强调)之后,增强的数据被带到CDED网络。在本文中,我们还提出了新的损失函数偏向于背景图像,而不是医学感兴趣的对象。
方法-----III. PROPOSED METHOD
在本节中,我们描述了所提出的方法所基于的方法,包括用于评估的样本图像集,以及详细介绍了所提出的医学对象分割的理论基础。首先,我们提出了新的医学分割数据增强方法。其次,我们将所有增强的数据集合并到CDED-net中,以教模型区分背景和前景。在最后一步中,我们提出了一个Dicoss成本函数,可以有效地提高我们网络的分割性能。
A. BOUNDARY-EMPHASIZATION DATA AUGMENTATION–A.边界强化数据扩充
数据增强是在训练数据集中创建每个实例的更改副本,以增加图像的数量。研究人员面临的一个越来越大的挑战是如何避免可能误导深度卷积神经网络的过度拟合问题。研究人员正在努力解决这个问题,并通过修改网络的架构,开发新的学习算法和获取数据来实现更好的结果。最常见的问题是缺乏高质量的数据或数据集中的类别平衡不均衡。目前,最有效的分割网络非常大,因此需要大量的数据,这是很难获得的[34]。因此,数据增强是提高分割性能的重要步骤。最近的研究表明,通过使用原始有限的训练数据集生成额外的数据,数据增强具有鲁棒性[35]。它将这些训练图像带入更大的特征空间,在那里它们可以实现所有的差异。在这项工作中,我们使用了几何增强技术,包括反射,随机裁剪,平移和旋转。特别是,我们应用了Wong等人[36]引入的弹性变形。通过定义归一化随机位移场u(x,y)来执行弹性变形,对于图像中的每个像素坐标(x,y),该位移场表示单位位移矢量,使得Rw = Ro + αu,其中Rw和Ro分别表示原始图像和扭曲图像中的像素位置[36]。像素中的位移强度由α给出。在我们的实验中,我们给出α = 1.12。参数σ是高斯分布的标准差,与形成位移场u的x和y维的均匀分布的随机值的矩阵进行卷积。在医学分割中,由于技术人员的技术技能不同,图像的颜色在实验室之间存在显着差异;因此,我们采用了一种有效的颜色恒定性方法,即灰色世界,它假设图像中的场景平均为中性灰色,平均反射颜色的来源是光的颜色。该技术还增强了感兴趣对象与周围区域之间的对比度。我们使用以下公式将所有实验数据集转换为灰度格式:
其中Ro、Go、Bo分别表示图像中位置(x,y)处的像素的红色、绿色和蓝色值。而U(x,y)表示灰色世界中的新值。
医学目标与其周围区域之间的非镜面过渡区由于其医学特性,用传统的分割方法不易区分。这个领域与其他领域没有太大的不同。此外,特别是在内窥镜领域,不仅该区域的褶皱和皱纹形状与肿瘤的褶皱和皱纹形状相似,而且它可以部分隐藏并且有时重叠感兴趣的对象。为了人工定位医学对象边界并提高CDEDnet的性能,我们提出了一种新的边界强调增强方法,该方法可以与大多数现有的深度卷积神经网络相结合,以提高网络的学习能力。在地面实况图像中检测出目标的坐标后,采用腐蚀法去除目标内部。随后,我们从原始图像中减去我们在上一步中产生的部分,以创建边界标签。换句话说,我们只是删除感兴趣对象的内部部分,以创建具有对象边界的前景。为了扩大模型的感知能力,我们任意设置轮廓线的厚度。在图2中,我们从上到下介绍了三个数据集中的一些典型示例:CVCClinicDB [37],肝脏分割数据集[57],PH2 [38]。
1 Boundary-Emphasization Augmentation Algorithm=1边界强调增强算法
边界强调增强方法的整个过程在算法1中。此方法通常应用于标签格式已知的二进制图像。算子对二进制图像的基本作用是通过结构化元素Cz侵蚀掉对象区域S中的前景像素(即,通常为白色像素)的区域的边界。在第一步中,对应于输入二进制图像的欧几里德S坐标集,即Cz(也称为核),是结构元素的坐标集。Cz对S的侵蚀可以理解为当Cz在S内部移动时Cz的中心所到达的点的轨迹。然后,该侵蚀过程从原始图像提供较小的兴趣对象(即侵蚀标签)之后,我们立即将原始标签LL减去侵蚀标签IE L以获得新标签。最后,我们将两个图像中的每个像素i(x,y)转换为零,并将其在IE L内具有坐标(x,y)的相应标签等同于零。我们把这个过程命名为边界强调过程。引人注目的是,当我们随机设置边界的厚度时,我们获得的结果比使用恒定厚度时更好。
B. CONSECUTIVE DEEP ENCODER-DECODER NETWORK=B。连续深度编解码器网络
编码器-解码器网络已成功应用于许多计算机视觉任务,包括语义分割[5],[8],[16],[39]。近年来,编解码器网络已成为分割任务中最有效的结构之一.因此,DeepLabV 3 + [11]的优点和缺点激励我们开发所提出的网络。本研究的目的是构建一个深度编码器-解码器网络的集合,以训练和获得丰富的上下文信息,用于图3所示的医学对象分割任务。每个DEDN完成主模型的一部分工作。换句话说,使用单个DEDN来处理其问题。通过将所提出的方法与以前的方法进行比较,我们发现我们的集成网络比单个网络具有更好的分割性能。这可能是因为我们的网络不仅可以从前三个网络中获取有区别的特征,还可以通过使用最后三个DEDN从缺失的模式中学习信息。
为了在多个尺度上捕获上下文信息,我们使用了深度编码器-解码器网络,即DeepLab V3 X [11],它具有几个不同速率的并行atrous卷积,但我们也将三种类型的分辨率训练图像放入网络中,以扩大网络的感知能力,以更好地覆盖全局特征。首先,DeepLab V3+ [11]被认为是一个组件网络,因为它在PASCAL VOC 2012挑战中表现出色[40]。此外,通过使用这个主干,我们利用了基本上包含卷积和最大池化层的下采样路径,这些层广泛用于图像分类任务的卷积神经网络[20],[41]。此外,上采样路径包含卷积和去卷积层,也称为向后步幅卷积层[42]。为了恢复原始大小的输出得分掩码和特征图,我们使用了去卷积层。我们这样做是因为下采样路径旨在提取有用的抽象信息,而上采样路径则在得分掩码中给出预测。此外,我们扩展了Chen et al.'s [11]网络进一步通过利用多级上下文特征表示,其包括各种级别的上下文信息,即,强度出现在不同大小的感知能力。
在我们提出的CDED-net中,我们对每个组件网络采用不同的步长,而不是使用恒定的扩张步长,以实现更密集的特征提取。例如,使用小分辨率图像训练的网络,我们分别对最后两个块应用扩张步幅m = 1和扩张步幅n = 2,如图4所示。然而,网络是由传统大小的图像训练的,我们使用扩张步幅m = 2和扩张步幅n = 4,而剩下的一个我们应用扩张步幅m = 3和扩张步幅n = 6。这是因为小图像是,它包含的丰富信息。此外,我们还对每个成员网络采用不同的扩张率,以最佳地扩大视角域。同时,从大图像中提取全局特征是最需要的。通过使用这种策略,我们的网络可以有效地提取大多数区分特征。此外,我们的架构受到以下事实的高度启发:扩张卷积显著支持指数扩展的感受野,而不会丢失覆盖范围[50]。设G 0,G1,G2…,Gn-1:Z2 → R是离散函数,f0,f1,f2。…,fn-2:n → 1 → R是离散的3×3核。感受野如公式2所示:
其次,与之前的研究不同,在之前的研究中,预训练的深度学习模型被用来提取区分性特征,在这项工作中,我们使用预训练的模型和我们的增强训练数据集训练了三个前一个DEDN。在这些训练过程之后,我们的模型可以提取比预训练模型更好的特征。培训步骤详细说明如下:
1)在第一步中,我们用增强的数据集训练我们的网络,使模型关注感兴趣的医学对象。在这个阶段,我们分别用三种不同分辨率的图像训练了第一组网络,例如,肝脏数据集,图像大小分别为640 × 640,512 × 512和384 × 384像素。我们还使用COCO数据集[43]提供的现成模型作为预训练模型用于训练过程。
2)第二,在完成第一个训练阶段后,所有权重都被存储起来,稍后用于验证目的。在验证阶段,我们使用原始训练图像I验证这些第一网络的性能;然后执行减法阶段,在该阶段中,我们应用该方法来寻找未知模式Ie。这里,我们基本上从第一模型的预测图像Iv中减去前者。随后,这些模式Ie = I-Iva被认为是第二组网络的数据集。我们在不同阶段的训练数据集如图5所示[图5在下面]。被称为第一个训练步骤的产品的模型被添加到网络中,以进一步加强训练过程,如图3所示。这可以有效地减少与辅助监督梯度消失的问题。在这个步骤中,我们不仅可以检查丢失的模式,还可以从图像中纠正误解部分。图6显示了您的方法对于模型的各个字段的有效性。通过最后的验证,它表明,最后的模型不犯错误,在相同的对象,通过比较与以前的模型。图
3)最后,在处理之后,soft-max层输出每个体素属于前景和背景的概率。特别地,在医学领域中,诸如在皮肤分割中,感兴趣的解剖结构通常仅占据扫描的非常小的区域。这通常会导致损失函数的最小值影响学习过程,从而产生一个主要偏向背景的预测网络。因此,我们的网络具有从输入I中提取的多层次上下文特征,可以通过最小化预测结果和地面实况注释之间的总体迪科斯损失Lc来训练,我们将在下一节中讨论。此外,对于较大的目标,用大规模图像训练的模型可以给出比其余模型更好的结果给予。然而,通过用小分辨率图像训练模型,小模型对小对象产生了特殊的结果。
在[57]数据集上为所提出的方法提出的训练图像。a)三个头部网络中的图像和相应的标签。B)第一个验证步骤的结果。c)三个尾部网络中的图像和相应的标签。
来自第一个验证步骤(在权重转移阶段)中的原始训练图像和数据集中的最终验证的示例[38],[57]。a)训练图像。B)培训标签。c)首次验证的结果。d)最终验证结果。
C. DICOSS LOSS FUNCTION—C.DICOSS损失函数
为了提供更好的分割结果,我们提出了一种新的简单损失函数,它是两个著名的成本函数和超参数的组合来执行分割。由于Ronneberger等人。[8]描述了将逐像素交叉熵损失用于图像分割任务,因此已被广泛采用。这种损失只是单独验证每个像素,将定义为深度像素向量的类预测与目标向量进行比较。由于该损失函数断言每个像素,因此如果图像中表示各种类别,则可能会产生问题。然而,医学图像通常具有低表面积。因此,用交叉熵损失函数训练的分割网络偏向于背景图像而不是对象本身。此外,由于前景区域经常丢失或仅部分检测到,因此模型不容易看到对象。因此,我们将该函数与骰子损失函数相结合,以减少前者的负面影响。这是因为这个函数可以很好地测量两个对象之间的重叠,一个是预测,剩下的是地面实况。
其中,yi,j是预测的二进制分割体积,yi,j代表图像像素(i,j)处的基础真值,而超参数γ用于平衡。为了识别哪个像素是背景和前景,我们遵循以下条件:
其中Ei表示感兴趣的区域,而Ti,j表示像素坐标(i,j)处的阈值。该损失函数能够给予更平滑的分割预测。然而,为了防止网络偏向负类,并清楚地预测所有零像素,我们添加了γ超参数。实验结果表明,该损失函数比经典的交叉熵损失函数和基本骰子损失函数具有更好的鲁棒性。图7描述了我们提出的损失函数和两个基本损失函数之间的比较。此外,它适合于前景和背景的不平衡类。在此图中,我们使用TensorBoard Visualization在训练过程中导出损失参数,然后在Python中绘制。
该组件的细节提出了以Deeplab V3+ [11]为骨干的CDED-net。1)入口流。2)中间流。3)出口气流。我们修改了卷积步长,以适应数据集的分辨率,以提取丰富的信息特征。`