Path Aggregation Network for Instance Segmentation

PANet

摘要
1. 引言
2.相关工作
3.框架

PANet 最初是为 proposal-based 实例分割框架提出来的，mask 是实例的掩码，覆盖了物体包含的所有像素，proposal 在目标检测领域是可能存在目标的区域。在实例分割中，首先利用RPN(Region Proposal Network)生成proposal。然后，对每个proposal使用额外的网络头（head）来预测该区域的掩码（mask），即物体的精确像素级轮廓。实例分割中的 proposal不仅涉及边界框的预测，还包括为proposal内的每个像素分类，生成一个精确的物体轮廓掩码。

摘要

作者提出了路径聚合网络（PANet），旨在增强基于提议的实例分割框 (proposal-based instance segmentation framework) 中的信息流动。具体来说，通过自底向上的路径增强，加强了整个特征层次结构，使得底层的准确定位信号能够加速传播到最顶层的特征。此外，文章提出了自适应特征池化机制，它连接了特征网格和所有特征层次，使得每一层的有用信息都能直接传播到后续的提议子网络中。为了进一步改进掩模预测，还创建了一个补充分支，用以捕捉每个提议的不同视角。

1. 引言

作者通过研究发现，现有的先进技术，如Mask R-CNN在信息传播方面还有改进空间。具体来说，低层次的特征对于识别大型实例非常有帮助。但是，从低层结构到最顶层特征之间有一个长路径，这增加了获取准确定位信息的难度。此外，每个提议都是基于从单一特征层汇集的特征网格来预测的，这种分配方式是启发式的。作者指出，这个过程可以更新，因为在其他层次中被丢弃的信息可能对最终预测有帮助。最后，掩模预测是基于单一视角进行的，这丧失了收集更多多样化信息的机会。

如图1

首先，为了缩短信息传播路径并增强低层次特征中准确定位信号的特征金字塔，创造了自底向上的路径增强。这意味着通过引入一个新的路径，将低层次的准确定位信息更直接地传递到高层次，这有助于改善特征金字塔中的信息流，并增强对实例的定位能力。
其次，为了修复每个提议（proposal）与所有特征层之间断裂的信息路径，作者开发了自适应特征池化机制。这是一个简单的组件，用于聚合每个建议的所有特征层的特征，避免了随意分配的结果。通过这种操作，与先前的工作相比，创造了更清晰的信息传播路径。
最后，为了捕获每个建议的不同视角，作者通过微小的全连接层增强了掩模预测，这些层具有补充FCN的属性，FCN是Mask R-CNN最初使用的。通过融合这两种视图的预测，增加了信息的多样性，并产生了更高质量的掩模。

文章中提到的前两个组件——自底向上的路径增强和自适应特征池化，都被对象检测和实例分割任务共享，从而显著提高了两种任务的性能。

在这里插入图片描述

这张图1详细展示了PANet（路径聚合网络）的架构：

(a) FPN（特征金字塔网络）骨干：它展示了一个典型的特征金字塔结构，其中信息通过侧向连接从顶层传递到底层（以蓝色箭头表示）。顶层特征P5具有最强的语义信息，而底层特征P2具有最精确的空间信息。

(b) 自底向上路径增强：这一部分补充了自顶向下的路径，允许底层的高分辨率特征N2可以直接传递信息到更高层，从而创建了新的特征层N3, N4, N5。这些特征层通过自底向上的增强路径（以橙色箭头表示）直接与相应的FPN层连接，缩短了从底层到顶层的信息传播路径。

(d) 盒子分支：这一部分用于对象检测任务，它接受自适应特征池化的输出，并进行分类（class）和边界框回归（box）。

(e) 全连接融合：这是用于实例分割任务的一个额外分支，它接受自适应特征池化的输出，通过全连接层处理后预测每个实例的掩模（mask）。这里提到的“全连接融合”增加了预测掩模的多样性。

请注意，在图中(a)和(b)的部分，为了简洁起见，特征图的通道维度被省略了。在实际应用中，每个特征层都会有多个通道携带不同类型的信息。

2.相关工作

在这里插入图片描述
这张图2展示了PANet中自底向上路径增强的一个构建块的结构。在这个构建块中：

特征层 $N_i$ （在图中为蓝色的底部特征图）经过一个下采样（通常是通过一个带有步长的卷积层，使得特征图的空间分辨率降低，例如步长为2），以匹配更高层特征图 $P_{i+1}$ （在图中为蓝色的上部特征图）的大小。
同时，特征层 $P_{i+1}$ 是通过FPN得到的高层特征图，它通过横向连接已经获得了一定程度的语义信息。
然后，通过元素相加操作（图中的圆圈中的加号），将这两个特征图合并，以生成新的特征层 $N_{i+1}$ （在图中为橙色的特征图）。这个融合的特征图将结合了 $N_i$ 的细节和 $P_{i+1}$ 的语义信息，更适合做更高层次的预测。

通过这样的构建块，网络可以维护低层的细节信息并且增强高层特征图的定位能力，有助于改进实例分割的性能。这种自底向上的路径增强构建块是PANet用来提升特征金字塔信息流的关键元素之一。

3.框架

在这里插入图片描述
这张图4展示的是PANet中的掩码预测分支，该分支包括全连接层融合。

ROI：感兴趣区域(Region of Interest)，从特征图中提取的目标区域，是预测掩码的起始点。
conv1 至 conv4：这四个连续的卷积层用于处理提取的ROI，逐步提取更高层次的特征。每个卷积层后通常会跟一个激活函数如ReLU，但在此图中未显示。
deconv：反卷积层（也称为转置卷积层），用于上采样特征图，增加其空间分辨率，以便能够生成像素级的掩码预测。
fc：全连接层，接受从conv3层分出的特征图，此层能够捕捉整个ROI的全局信息。
conv4_fc 和 conv5_fc：这两个卷积层进一步处理全连接层输出的特征。第二个卷积层（conv5_fc）的目的是减少特征的通道数，以减少全连接层输出维度并减少计算负担。
reshape：全连接层的输出将被重塑成二维空间特征图的形状，这样就可以与deconv层的输出合并。
mask：最终的掩码预测是通过将deconv层的输出和重塑后的全连接层的输出相结合来生成的。这里使用了元素级别的融合操作（通常是求和或逐元素最大值），结合了局部特征和全局信息来预测每个像素是否属于目标实例。