PHiSeg:捕捉医学图像分割中的不确定性
- 摘要
- 引言
- 方法
PHiSeg Capturing Uncertainty in Medical Image Segmentation
摘要
解剖结构和病理的分割本质上是模糊的。例如,结构边界可能不清晰可见,或者不同的专家可能具有不同的注释风格。大多数当前最先进的方法不考虑这种模糊性,而是学习从图像到分割的单个映射。在这项工作中,我们提出了一种新的方法来模拟给定的输入图像的分割的条件概率分布。我们推导出一个层次概率模型,其中单独的潜变量负责在不同的分辨率建模的分割。该模型中的推理可以使用变分自动编码器框架有效地执行。我们表明,与最近的相关工作相比,我们提出的方法可以用于生成更真实和多样化的分割样本,无论是在使用来自单个或多个注释器的注释进行训练时。本文的代码可以在https://github.com/baumgach/PHiSeg-code上免费获得。
引言
解剖结构和病理的语义分割是临床诊断和许多下游任务中的关键步骤。大多数最近的自动分割方法将该问题视为从图像到输出掩模的一对一映射(例如[6])。然而,医学分割问题的特点往往是模糊性和多个假设可能是合理的[10]。这部分是由于固有的不确定性,例如差的对比度或由图像采集施加的其他限制,但也由于不同专家之间的注释“风格”的变化。为了解释这种模糊性,预测系统在不牺牲准确性的情况下提供对合理结果的完整分布的访问至关重要。仅预测最可能的假设可能导致误诊,并可能对下游任务产生负面影响。
最近的工作提出使用网络权重上的近似贝叶斯推断来解释学习模型参数中的不确定性[2]。然而,已经表明,该方法可能产生逐像素变化的样本,因此可能无法捕获分割分布中的复杂相关结构[4]。不同的工作线通过训练M个网络的集合[5]或训练具有M个头的单个网络[7]来解释不同结果的可能性。然而,这两种方法都只能产生固定数量的假设。条件变分自动编码器(cVAE)克服了这个问题,cVAE是[3]的扩展,用于在给定输入图像的情况下对条件分割掩码进行建模[8]。最后,最近提出的概率U-NET将cVAE框架与U-NET架构结合起来[4]。作者表明,给定来自多个专家的真实掩膜注释,该方法可以产生无限数量的真实分割样本。此外,该方法被证明优于各种相关方法,包括网络集成,M头[7]和贝叶斯SegNet [2]。
然而,正如我们将要展示的,概率U-NET产生的样本具有有限的多样性。我们认为这可能是由于随机性仅在U-NET的最高分辨率级别中引入,并且因为网络可以选择忽略来自潜在空间的随机抽取,因为它仅连接到通道。在这项工作中,我们提出了一种新的分层概率模型,可以产生分割样本密切匹配的地面真理分布的一些注释。受拉普拉斯金字塔的启发,该模型通过以低分辨率生成输出,然后以越来越高的分辨率不断细化分割的分布来生成图像条件分割样本。与以前的工作相比,每个分辨率水平上的变化由一个单独的潜在变量控制,从而避免了上述问题。该过程如图1所示。我们表明,与最近的工作相比,我们提出的概率分层分割(PHiSeg)为两个具有挑战性的分割任务产生了质量明显更好的样本,当使用多个注释进行训练时,每个图像都有一个注释。此外,我们的模型的平均预测在分割精度方面与标准U-NET不相上下。
方法
我们首先假设给定输入图像x的分割s是根据图1所示的图形模型从L个潜在变量z生成的。1.因此,条件分布p(s|对于L个潜在水平的一般情况,x)由以下表达式给出:
p(s|x)--->在x发生的条件下,s发生的概率
我们进一步假设每个潜在变量z负责对2 - 1处的条件目标分割进行建模。原始图像分辨率的+1(例如,z1和z3分别以原始分辨率和原始分辨率的1/4对分割进行建模)。这并不是由图形模型本身产生的,而是由我们的实现所强制执行的,这一点很快就会变得清楚。
我们的目标是近似p(z)的后验分布|s,x)使用变分近似q(z|其中我们使用z来表示{z1,.,zL},可以证明log p(s| x)= L(s| x)+ KL(q(z| s,x)||p(z| s,x)),其中L表示证据下界,KL(·,·)表示Kullback-Leibler散度[3,4,8]。由于KL(·,·)≥ 0,当近似q与后验精确匹配时,L是条件对数概率的下界。使用Eq.我们发现,对于我们的模型,
其中α = 1。完整的推导可参见附录A。α是额外的启发式变量,我们引入它来帮助解释z之间的维度差异(下面解释)。按照标准实践,我们将先验分布和后验分布参数化为轴对齐的正态分布N(z| μ,σ)。具体来说,我们定义