MCRNet：用于乳腺超声成像语义分割的多级上下文细化网络

摘要
引言
方法

MCRNet_ Multi-level context refinement network for semantic segmentation in breast ultrasound imaging

摘要

由于对比度差、目标边界模糊和大量阴影的不利影响，乳腺超声成像中的自动语义分割仍然是一项具有挑战性的任务。最近，具有U形的卷积神经网络（CNN）在医学图像分割中表现出相当好的性能。然而，经典的U形网络由于编码器和解码器特征的不兼容性而遭受潜在的语义间隙，从而导致超声成像中的次优语义分割性能。在这项工作中，我们专注于通过自适应地减少语义差距和增强编码器和解码器特征之间的上下文关系来改进U形CNN。具体来说，我们提出了两个轻量级的，但有效的上下文细化块，包括倒置残差金字塔块（IRPB）和上下文感知融合块（CFB）。前者可以根据输入特征选择性地提取多尺度语义表示，旨在自适应地减少编码器和解码器特征之间的语义差距。后者可以利用内部特征的语义交互来增强编码器和解码器之间的上下文相关性，旨在改善低级和高级特征的特征融合方案。此外，我们开发了一种新的多级上下文细化网络（MCRNet）无缝地插入这两个上下文细化块到一个编码器-解码器架构，根据多层次的方式，从而实现完全自动化的语义分割超声成像。为了客观地验证所提出的方法，我们进行了广泛的定性和定量分析的基础上，两个公开的乳房超声数据库，包括BUSI和UDIAT。实验结果很大程度上反映了我们所提出的方法的有效性。同时，与现有的9种语义分割方法相比，本文提出的MCRNet在保持良好的计算效率的同时，也取得了上级的性能

引言

乳腺癌是威胁女性健康最严重的疾病之一[1，2]。有几种可检测到的体征可能会增加乳腺癌的风险，如高密度乳房[3]、微钙化[4]、肿块[5]等，其中，乳腺肿块一直被认为是乳腺癌的主要症状[6]。一般而言，乳腺癌的良恶性可根据肿块的形态学特征进行分类。更具体地说，肿块形状越不规则，边界越模糊，恶性肿瘤的可能性就越大[7]。因此，自动和准确的肿块分割是临床乳腺癌诊断中非常关键的一步，因为它可以提供准确的病变形状和边界，从而改善后续的临床治疗策略
在临床实践中，医学影像学是评估乳腺肿块的最有效工具之一，如数字筛查乳腺X线摄影和超声成像。与传统的乳腺X线摄影相比，超声成像可以更好地区分周围腺体组织中的侵入性肿块[8]，同时提供低辐射和廉价的费用。然而，传统的超声成像中的肿块分割通常需要训练有素的具有丰富经验的放射科医生[9]，这在每家医院都不能从根本上解决。为了更好地改善这一问题，引入了计算机辅助检测系统（CAD）作为有效工具，以提高乳腺超声成像分析的准确性和效率，例如图像分类[10-12]、分割[13]和去斑点[14]。在CAD的多个步骤中，肿块分割在评估乳腺癌的性质中起着至关重要的作用，即，良性和恶性的比较尽管如此，由于超声成像的对比度差和乳腺肿块的不同外观[15]，肿块分割仍然是一项长期存在且具有挑战性的任务。近年来，在深度学习算法进步的推动下，CAD已经成功地与深度学习相结合，特别是与卷积神经网络（CNN）[16，17]。
与CNN为每个输入图像分配单个类别预测的分类任务不同，语义分割旨在从图像中生成每个像素的密集预测。随着全卷积网络（FCN）的出现[18]，CNN首次被引入语义分割任务，并取得了显着的性能。基于FCN的特殊性质，人们相继提出了一系列具有代表性的医学图像语义分割网络。例如，U-Net [19]通过具有跳跃连接结构的编码器-解码器，可以有效地将精细的空间细节与丰富的语义信息联合收割机结合起来。其突出的潜力使其成为医学图像分割中最常用的CNN架构。然而，传统的U-Net缺乏更高层次的上下文信息，因为简单的编码器和解码器的跳跃连接结构很难解析更深层次和更广泛的语义信息。为了解决这个问题，近年来提出了U-Net的几个变体。AGU-Net [20]提出了一个注意力门（AG）模块，可以自动学习增强显著区域并抑制不相关的信息。MNPNet [21]将空间金字塔池（ASPP）模块[22]嵌入到U-Net的跳跃连接中，以捕获多尺度上下文信息。MultiResUNet（MRU-Net）[23]采用不同的卷积核来提取多尺度信息，而不同数量的残差块被放置在不同级别的跳过连接中，以改善编码器和解码器之间的语义差距。SK-U-Net [24]用选择性核卷积（SKConv）[25]取代了U-Net中的所有标准卷积层，从而自适应地调整了感受野（RF）的大小。受InceptionResNet-V2块[26]和金字塔池化模块（PPM）[27]的启发，CE-Net [28]将两个上下文编码器（包括密集卷积模块和残差多核池化模块）嵌入到特征编码器的顶层以捕获更丰富的上下文信息，而传统U-Net中的转置卷积和skipconnection也用于恢复特征分辨率。受计算机视觉中的自我注意机制的启发，CS2-Net [30]利用两种类型的注意模块，包括通道注意和空间注意模块来探索通道关系和长期空间依赖性。在CPFNet [31]中，作者引入了多个全局金字塔引导（GPG）模块，通过重新设计跳过连接可以为解码器提供不同特征级别的上下文信息，而尺度感知金字塔融合（SAPF）模块则被提出来选择性地提取高层信息。
虽然上述U型语义分割网络在医学图像分割中取得了优异的性能，但这些方法仍然存在三个问题无法同时解决。
首先，跳接缺乏语境自适应能力。在传统的U型语义分割网络中，随着网络的深入，编码器处理的上下文信息逐渐变得更加丰富。相反，来自解码器的特征总是携带更高级别的语义信息。例如，通过第一跳过连接连接的编码器特征和解码器特征具有明显的语义间隙，因为编码器的第一特征级别仅通过较少的卷积层和池化层计算，而解码器中的对应特征级别由于更多的卷积操作而具有更高的语义一致性。与此同时，随着我们继续进行后续的skip connections，语义差距可能会逐渐减小，这是由于编码器特征经历了更多的卷积处理，而解码器特征处于相对早期的阶段。为了减轻语义差距，Ibtehaz等人。[23]在不同位置将不同数量的残余卷积块嵌入到跳过连接中。具体来说，基于具有四个跳跃连接的经典U形网络，他们将四个残差块嵌入到第一个跳跃连接中，而三个残差块嵌入到第二个跳跃连接中，其余部分可以以相同的方式推断。然而，他们的方法需要手动调整放置在不同跳跃连接处的剩余块的数量，这缺乏自适应性。换句话说，该方法不能根据放置在不同特征级别的跳过连接自适应地调整捕获上下文信息的能力，即，不能以自适应的方式实现语义间隙的释放。因此，该方法仍然不能从根本上避免编码器通过跳过连接向解码器引入不相关的信息，因为模型不知道在哪里强调和在哪里抑制。值得一提的是，AGU-Net [20]采用多层嵌套AG模块来抑制无关信息，但该方法未能解决以下两个问题。
其次，由于单个层次的特征捕获能力不足，较深层捕获的上下文信息可能会随着解码到较浅层而逐渐淡化。换句话说，由于有限的RF，单个水平中的多尺度上下文信息是弱的。因此，传统的U-Net无法科普由于多尺度特征提取的不足，在对象大小的变化。在以前的一些工作[21，23，28]中，作者采用了一些多尺度特征提取模块来克服这个问题，但他们的方法将多尺度信息与等权重相结合。具体地，在诸如PPM、ASPP和InceptionResNet-V2块的传统多尺度模块中，每个单独的尺度具有相同的贡献，即，当对象的尺寸太小时，与大RF的卷积可能引入不相关的信息，而当对象的尺寸太大时，情况相反。为了进一步解决这个问题，Byra等人[24]用SKConv替换了标准卷积，以选择性地提取多尺度信息，但他们的方法没有考虑残差学习，这可能导致网络训练能力不足。在Feng等人的工作中。[31]，作者采用多个GPG来增强多级特征表示，而SAPF用于自适应地为高级特征选择适当的RF。但是，低层次的空间细节可能会衰减，动态多尺度信息是不够的，在每一个单一的层次，除了高层次的方法。同时，由于多个GPG的密集连接，引入了一些计算冗余。最近，Mou等人。[30]引入了自我注意模块来调查高级别的全局上下文信息，但多级别的特征提取能力不足
下面展示一些 内联代码片。

其次，由于单个层次的特征捕获能力不足，较深层捕获的上下文信息可能会随着解码到较浅层而逐渐淡化。

最后，在上述U形语义分割网络中，直接采用通道级联和逐元素求和等特征融合方法来将来自编码器的低层特征和来自解码器的高层特征进行联合收割机组合，忽略了编码器和解码器之间的上下文关系。换句话说，这些方法在利用语义交互和从编码器和解码器捕获共同重要的特征方面是不足的，这导致有用信息和无关信息的不加选择的融合。
在这项工作中，两个新的上下文细化块提出了解决上述问题。受前两个问题的启发，我们提出了一种高效的倒置残留金字塔块（IRPB），它可以无缝嵌套到U形网络的每个跳跃连接中。IRPB中有两个属性。首先，它可以以特征金字塔的方式提取更深更广的语义信息（即，多尺度），同时提供良好的计算效率。其次，由于跳过连接通常构造在具有不同空间分辨率的特征图上，因此将IRPB嵌入到跳过连接中以重新校准上下文信息并通过输入特征抑制无关信息，从而自适应地减少编码器和解码器之间的语义间隙。因此，可以有效地增强多层次上下文信息。此外，第三个问题的动机，提出了一个轻量级的上下文感知融合块（CFB）。循环流化床是用来改善之间的跳过连接传输的低级别的特征和来自解码器的高级别的特征融合方案。具体而言，CFB可以通过自适应地利用语义交互来构建较低级别和较高级别特征之间的上下文相关性，旨在进一步抑制不相关的杂波以细化多级别信息。
基于IRPB和CFB，设计了一种新的U型语义切分网络。由于这两个块都被用来细化多级上下文信息，因此我们将我们的方法称为多级上下文细化网络（MCRNet）。MCRNet在两个具有挑战性的乳腺超声肿块分割数据库（包括BUSI [32]和UDIAT [33]）上进行了评价，并在保持良好计算效率的同时实现了最先进的性能。主要贡献概述如下：
提出了两个轻量级但有效的上下文细化块。IRPB可以选择性地捕获多尺度上下文信息，并自适应地减少编码器和解码器特征之间的语义差距。CFB可以利用语义交互并增强编码器和解码器之间的上下文关系。
通过无缝嵌入IRPB和CFB，设计了一种新的U形MCRNet，旨在实现超声成像中准确高效的乳腺肿块分割。
MCRNet在两个具有挑战性的乳腺超声数据库（分别包括BUSI和UDIAT）上得到了很好的证明。

方法

2.1.网络架构
我们提出的MCRNet如图1所示。MCRNet是一个U形语义分割网络，由四个主要组件组成，包括特征编码器，IRPB，CFB和特征解码器。IRPB被嵌套到每个跳过连接中，以自适应地提取多尺度信息并减少编码器和解码器特征之间的语义差距，而CFB被放置在低层和高层特征之间的融合阶段，以利用语义交互并增强编码器和解码器之间的上下文关系。
在这里插入图片描述
图注：1.我们提出的MCRNet的管道。首先，输入图像被送入一个特征编码器，这是一个预先训练的ResNet-34，以生成一个特征金字塔。其次，多尺度的上下文信息是有选择地提取放置在金字塔特征层次的多个IRPB，旨在自适应地减少编码器和解码器之间的语义差距。接下来，多个CFB被嵌入到解码器的特征金字塔中以利用语义交互，旨在增强编码器和解码器特征之间的上下文关系。最后，由特征解码器获得预测的分割图，该特征解码器由2个双线性插值和3个3卷积（具有BN和ReLU）组成。
2.2.特征编码器
在传统的U-Net中，特征编码器是多个卷积和池化层的直接堆栈，因此在这个简单的编码器中没有考虑梯度消失问题。此外，已经证明在ImageNet数据库上预训练的CNN模型[34]可以显着提高医学超声中乳腺肿块分割的性能[35]。因此，我们使用预先训练的ResNet-34 [36]作为特征编码器来编码更高级的语义表示。与U-Net中的传统卷积块相比，残差块可以有效地改善梯度消失问题，并在不增加计算复杂度的情况下加速训练过程。值得一提的是，ResNet-34也常用作许多医学图像分割工作中的特征编码器[21，28，31]。