文章目录
- Abstract
- 1. Introduction
- Our Findings
- Our Contributions
- 3. Framework
- 3.1. Bottom-up Path Augmentation
- Motivation
- Augmented Bottom-up Structure
- 3.2. Adaptive Feature Pooling
- Motivation
- Adaptive Feature Pooling Structure
- 3.3. Fully-connected Fusion
- Mask Prediction Structure
- 5. Conclusion
PAN
code
Abstract
信息在神经网络中的传播方式非常重要。在基于提议的实例分割框架中,我们提出了一种路径聚合网络(PANet)来促进信息的流动。具体来说,我们通过自底向上的路径增强来增强底层的精确定位信号,从而缩短了底层与顶层特征之间的信息路径。我们提出了自适应特征池,将特征网格和所有特征层连接起来,使每个特征层中的有用信息直接传播到后续的候选框子网。为每个候选框创建一个捕获不同视图的补充分支,以进一步改进mask预测
这些改进实现起来很简单,只是有一些额外的计算开销。在没有大规模训练的情况下,我们的PANet在COCO 2017挑战实例分割任务中获得了第一名,在目标检测任务中获得了第二名
1. Introduction
实例分割是最重要也是最具挑战性的任务之一,它旨在预测类标签和逐像素的实例mask,以定位图像中呈现的不同数量的实例。这项任务广泛惠及自动驾驶汽车、机器人、视频监控等
Mask R-CNN[21]是一个简单有效的实例分割系统。基于Fast/Faster R-CNN[16,51],使用全卷积网络进行mask预测,并结合盒回归和分类
为了获得高性能,利用特征金字塔网络(FPN)[35]提取网络内特征层次,其中增强具有横向连接的自顶向下路径以传播语义强的特征
Our Findings
我们的研究表明,最先进的Mask R-CNN的信息传播可以进一步改善。具体来说,低级别的特性对大型实例识别很有帮助
Our Contributions
(a)FPN骨干网。(b)自下而上的路径扩展。©自适应特征池化。(d)箱形分支。(e)全连接融合。注意,为了简洁起见,我们省略了(a)和(b)中特征映射的通道维度
首先,为了缩短信息路径,利用低层次存在的精确定位信号增强特征金字塔,创建自下而上的路径增强(FPN没有研究通过传播底层特征来增强整个特征层次以进行实例识别)
其次,为了恢复每个候选框和所有特征层之间的破碎信息路径,我们设计了自适应特征池。它是一个简单的组件,可以从每个候选框的所有特征级别聚合特征,避免任意分配结果
最后,为了捕获每个提议的不同观点,我们使用微小的全连接(fc)层来增强Mask预测,这些层具有与mask R-CNN最初使用的FCN互补的特性。通过融合这两种观点的预测,增加了信息多样性,产生了质量更好的mask
3. Framework
为了提高性能,进行了路径增强和聚合。增加了自底向上的路径,使低层信息更容易传播。我们设计了自适应特征池,允许每个候选框访问来自所有级别的信息进行预测,在mask预测分支中加入了互补路径,这种新结构带来了不错的性能
3.1. Bottom-up Path Augmentation
Motivation
高层神经元对整个对象有强烈的响应,而其他神经元更有可能被局部纹理和模式激活,这一深刻的观点[63]表明,在FPN中,需要增加自上而下的路径来传播语义强的特征,并增强所有具有合理分类能力的特征
基于对边缘或实例部分的高响应是准确定位实例的强指标这一事实,我们的框架通过传播底层模式的强响应进一步增强了整个特征层次的定位能力。为此,我们建立了一条从低层到高层的干净的横向连接路径。因此,存在一个“快捷方式”(图1中的虚线绿线),它由不到10个层组成,跨越这些级别。相比之下,FPN中的CNN中继给出了一条从底层到顶层甚至穿越100多层的长路径(图1中红色虚线)
Augmented Bottom-up Structure
我们的框架首先完成了自底向上的路径扩展。我们遵循FPN来定义生成具有相同空间大小的特征图的层处于相同的网络阶段。每个特征级别对应一个阶段。我们也以ResNet[23]为基本结构,使用{p2, p3, p1, p5}表示FPN生成的特征级别。我们的增强路径从最低水平p2开始,逐渐接近p5,如图1(b)所示。从P 2到P 5,空间大小逐渐以因子2降采样。我们用{n2, n3, n4, n5}表示新生成的特征映射对应于{p2, p3, p4, p5}。注意n2就是p2,不做任何处理
如图2所示,每个构建块通过横向连接取一个更高分辨率的特征图N i和一个更粗的特征图P i+1,生成新的特征图N i+1。每个特征映射N i首先经过一个3 × 3的卷积层,步幅为2,以减小空间大小(下采样)。然后将特征图pi +1的每个元素与下采样图通过横向连接进行相加。融合后的特征映射再经过另一个3 × 3卷积层处理,生成N i+1子网络。这是一个迭代过程,在接近p5后终止。在这些构建块中,我们始终使用特征映射的通道256。所有卷积层后面都有一个ReLU[32]。每个候选框的特征网格从新的特征映射中池化,即{N 2,N 3,N 4,N 5}。
3.2. Adaptive Feature Pooling
Motivation
在FPN[35]中,根据proposal的大小,将候选框分配到不同的特征级别。它将小的候选框分配给较低的特征级别,而将大的候选框分配给较高的特征级别。尽管简单有效,但仍可能产生非最佳结果。例如,两个相差10像素的候选框可以分配到不同的级别。事实上,这两个候选框相当相似
此外,特征的重要性可能与它们所属的级别没有强烈的相关性。高层次的特征是由大的接受域生成的,可以捕获更丰富的上下文信息。允许小型候选框更好地访问这些特性,可以利用有用的上下文信息进行预测。同样,低级特征具有许多精细的细节和较高的定位精度。提出大的候选框,访问它们显然是有益的
带着这些想法,我们候选框为每个候选框汇集所有级别的特征,并融合它们以进行后续预测。我们称这个过程为自适应特征池
我们现在用自适应特征池分析从不同层次池化的特征的比例。我们使用最大运算来融合不同层次的特征,这使得网络可以选择元素明智的有用信息。我们根据候选框在FPN中最初签署的级别将其分为四类。对于每一组候选框,我们计算从不同层次选择的特征的比率。在表示法中,级别1−4表示从低到高的级别。如图3所示,蓝线表示最初在FPN中分配给级别1的小候选框。令人惊讶的是,近70%的功能来自其他更高的级别。我们还使用黄线来表示分配给FPN中的第4级的大型候选框。同样,**50%**以上的功能是从其他较低级别汇集而来的。这一观察结果清楚地表明,多个层次的特征一起有助于准确预测。这也是设计自底向上路径增强的有力支持。
自适应特征池化从不同特征层池化的特征比例。每条线代表一组应分配到FPN中相同特征级别的候选框,即具有相似规模的候选框。横轴表示汇集特征的来源。结果表明,不同规模的候选框都利用了几个不同层次的特征
Adaptive Feature Pooling Structure
自适应特征池实际上在实现上很简单,如图1©所示。首先,对于每个候选框,我们将它们映射到不同的特征级别,如图1(b)中的深灰色区域所示。跟随Mask R-CNN[21],ROIAlign用于从每个级别汇集特征网格。然后利用融合运算(逐元素的max或sum)来融合不同层次的特征网格
然后,在后续子网络中,池化特征网格独立通过一个参数层,然后进行融合操作,使网络能够适应特征
最后,将融合的特征网格作为各方案的特征网格进行进一步的预测,即分类、盒回归和mask预测
我们的设计重点是融合来自网络内特征层次的信息,而不是来自输入图像金字塔的不同特征映射的信息
3.3. Fully-connected Fusion
Mask Prediction Structure
如图4所示,主路径是一个小的FCN,它由4个连续的卷积层和1个解卷积层组成。每个卷积层由256个3 × 3滤波器组成,反卷积层由因子2的上采样特征组成。它独立地预测每个类的二进制逐像素mask,以解耦分割和分类,类似于mask R-CNN
我们进一步创建从层conv3到fc层的短路径。有两个3×3卷积层,其中第二层将通道缩小到一半以减少计算开销
fc层用于预测与类别无关的前景/背景mask。它不仅效率高,而且允许用更多的样本训练fc层中的参数,从而获得更好的通用性。我们使用的mask大小是28 × 28,这样fc层就产生了一个784 × 1 × 1的向量。该向量被重塑为与FCN预测的掩模相同的空间大小。为了得到最后的mask预测,我们将FCN中每个类别的mask和fc中前景/背景的预测相加。仅使用一个fc层而不是多个fc层进行最终预测,避免了将隐藏的空间特征映射折叠成短特征向量的问题,从而丢失了空间信息
5. Conclusion
我们提出了用于实例分割的PANet。我们设计了几个简单而有效的组件来增强代表性管道中的信息传播。我们汇集了所有特征层的特征,并缩短了底层和顶层特征层之间的距离,以实现可靠的信息传递,增强了互补路径,以丰富每个候选框的特征。产生了令人印象深刻的结果
我们未来的工作是将我们的方法扩展到视频和RGBD数据