Path Aggregation Network for Instance Segmentation(2018.9)


文章目录

  • Abstract
  • 1. Introduction
    • Our Findings
    • Our Contributions
  • 3. Framework
    • 3.1. Bottom-up Path Augmentation
      • Motivation
      • Augmented Bottom-up Structure
    • 3.2. Adaptive Feature Pooling
      • Motivation
      • Adaptive Feature Pooling Structure
    • 3.3. Fully-connected Fusion
      • Mask Prediction Structure
  • 5. Conclusion

PAN
code

Abstract

信息在神经网络中的传播方式非常重要。在基于提议的实例分割框架中,我们提出了一种路径聚合网络(PANet)来促进信息的流动。具体来说,我们通过自底向上的路径增强来增强底层的精确定位信号,从而缩短了底层与顶层特征之间的信息路径。我们提出了自适应特征池,将特征网格和所有特征层连接起来,使每个特征层中的有用信息直接传播到后续的候选框子网。为每个候选框创建一个捕获不同视图的补充分支,以进一步改进mask预测
这些改进实现起来很简单,只是有一些额外的计算开销。在没有大规模训练的情况下,我们的PANet在COCO 2017挑战实例分割任务中获得了第一名,在目标检测任务中获得了第二名

1. Introduction

实例分割是最重要也是最具挑战性的任务之一,它旨在预测类标签和逐像素的实例mask,以定位图像中呈现的不同数量的实例。这项任务广泛惠及自动驾驶汽车、机器人、视频监控等

Mask R-CNN[21]是一个简单有效的实例分割系统。基于Fast/Faster R-CNN[16,51],使用全卷积网络进行mask预测,并结合盒回归和分类
为了获得高性能,利用特征金字塔网络(FPN)[35]提取网络内特征层次,其中增强具有横向连接的自顶向下路径以传播语义强的特征

Our Findings

我们的研究表明,最先进的Mask R-CNN的信息传播可以进一步改善。具体来说,低级别的特性对大型实例识别很有帮助

Our Contributions

(a)FPN骨干网。(b)自下而上的路径扩展。©自适应特征池化。(d)箱形分支。(e)全连接融合。注意,为了简洁起见,我们省略了(a)和(b)中特征映射的通道维度

首先,为了缩短信息路径,利用低层次存在的精确定位信号增强特征金字塔,创建自下而上的路径增强FPN没有研究通过传播底层特征来增强整个特征层次以进行实例识别

其次,为了恢复每个候选框和所有特征层之间的破碎信息路径,我们设计了自适应特征池。它是一个简单的组件,可以从每个候选框的所有特征级别聚合特征,避免任意分配结果

最后,为了捕获每个提议的不同观点,我们使用微小的全连接(fc)层来增强Mask预测,这些层具有与mask R-CNN最初使用的FCN互补的特性。通过融合这两种观点的预测,增加了信息多样性,产生了质量更好的mask

3. Framework

为了提高性能,进行了路径增强和聚合增加了自底向上的路径,使低层信息更容易传播。我们设计了自适应特征池,允许每个候选框访问来自所有级别的信息进行预测,在mask预测分支中加入了互补路径,这种新结构带来了不错的性能

3.1. Bottom-up Path Augmentation

Motivation

高层神经元对整个对象有强烈的响应,而其他神经元更有可能被局部纹理和模式激活,这一深刻的观点[63]表明,在FPN中,需要增加自上而下的路径来传播语义强的特征,并增强所有具有合理分类能力的特征

基于对边缘或实例部分的高响应是准确定位实例的强指标这一事实,我们的框架通过传播底层模式的强响应进一步增强了整个特征层次的定位能力。为此,我们建立了一条从低层到高层的干净的横向连接路径。因此,存在一个“快捷方式”(图1中的虚线绿线),它由不到10个层组成,跨越这些级别。相比之下,FPN中的CNN中继给出了一条从底层到顶层甚至穿越100多层的长路径(图1中红色虚线)

Augmented Bottom-up Structure

我们的框架首先完成了自底向上的路径扩展。我们遵循FPN来定义生成具有相同空间大小的特征图的层处于相同的网络阶段。每个特征级别对应一个阶段。我们也以ResNet[23]为基本结构,使用{p2, p3, p1, p5}表示FPN生成的特征级别。我们的增强路径从最低水平p2开始,逐渐接近p5,如图1(b)所示。从P 2到P 5,空间大小逐渐以因子2降采样。我们用{n2, n3, n4, n5}表示新生成的特征映射对应于{p2, p3, p4, p5}。注意n2就是p2,不做任何处理

如图2所示,每个构建块通过横向连接取一个更高分辨率的特征图N i和一个更粗的特征图P i+1,生成新的特征图N i+1每个特征映射N i首先经过一个3 × 3的卷积层,步幅为2,以减小空间大小(下采样)。然后将特征图pi +1的每个元素与下采样图通过横向连接进行相加融合后的特征映射再经过另一个3 × 3卷积层处理,生成N i+1子网络。这是一个迭代过程,在接近p5后终止。在这些构建块中,我们始终使用特征映射的通道256。所有卷积层后面都有一个ReLU[32]。每个候选框的特征网格从新的特征映射中池化,即{N 2,N 3,N 4,N 5}。

3.2. Adaptive Feature Pooling

Motivation

在FPN[35]中,根据proposal的大小,将候选框分配到不同的特征级别。它将小的候选框分配给较低的特征级别,而将大的候选框分配给较高的特征级别。尽管简单有效,但仍可能产生非最佳结果。例如,两个相差10像素的候选框可以分配到不同的级别。事实上,这两个候选框相当相似
此外,特征的重要性可能与它们所属的级别没有强烈的相关性。高层次的特征是由大的接受域生成的,可以捕获更丰富的上下文信息。允许小型候选框更好地访问这些特性,可以利用有用的上下文信息进行预测。同样,低级特征具有许多精细的细节和较高的定位精度。提出大的候选框,访问它们显然是有益的
带着这些想法,我们候选框为每个候选框汇集所有级别的特征,并融合它们以进行后续预测。我们称这个过程为自适应特征池

我们现在用自适应特征池分析从不同层次池化的特征的比例。我们使用最大运算来融合不同层次的特征,这使得网络可以选择元素明智的有用信息。我们根据候选框在FPN中最初签署的级别将其分为四类。对于每一组候选框,我们计算从不同层次选择的特征的比率。在表示法中,级别1−4表示从低到高的级别。如图3所示蓝线表示最初在FPN中分配给级别1的小候选框。令人惊讶的是,近70%的功能来自其他更高的级别。我们还使用黄线来表示分配给FPN中的第4级的大型候选框。同样,**50%**以上的功能是从其他较低级别汇集而来的。这一观察结果清楚地表明多个层次的特征一起有助于准确预测。这也是设计自底向上路径增强的有力支持

自适应特征池化从不同特征层池化的特征比例。每条线代表一组应分配到FPN中相同特征级别的候选框,即具有相似规模的候选框。横轴表示汇集特征的来源。结果表明,不同规模的候选框都利用了几个不同层次的特征

Adaptive Feature Pooling Structure

自适应特征池实际上在实现上很简单,如图1©所示。首先,对于每个候选框,我们将它们映射到不同的特征级别,如图1(b)中的深灰色区域所示。跟随Mask R-CNN[21],ROIAlign用于从每个级别汇集特征网格。然后利用融合运算(逐元素的max或sum)来融合不同层次的特征网格
然后,在后续子网络中,池化特征网格独立通过一个参数层,然后进行融合操作,使网络能够适应特征
最后,将融合的特征网格作为各方案的特征网格进行进一步的预测,即分类、盒回归和mask预测
我们的设计重点是融合来自网络内特征层次的信息,而不是来自输入图像金字塔的不同特征映射的信息

3.3. Fully-connected Fusion

Mask Prediction Structure


如图4所示,主路径是一个小的FCN,它由4个连续的卷积层和1个解卷积层组成。每个卷积层由256个3 × 3滤波器组成反卷积层由因子2的上采样特征组成。它独立地预测每个类的二进制逐像素mask,以解耦分割和分类,类似于mask R-CNN
我们进一步创建从层conv3到fc层的短路径。有两个3×3卷积层,其中第二层将通道缩小到一半以减少计算开销

fc层用于预测与类别无关的前景/背景mask。它不仅效率高,而且允许用更多的样本训练fc层中的参数,从而获得更好的通用性。我们使用的mask大小是28 × 28,这样fc层就产生了一个784 × 1 × 1的向量。该向量被重塑为与FCN预测的掩模相同的空间大小。为了得到最后的mask预测,我们将FCN中每个类别的mask和fc中前景/背景的预测相加仅使用一个fc层而不是多个fc层进行最终预测,避免了将隐藏的空间特征映射折叠成短特征向量的问题,从而丢失了空间信息

5. Conclusion

我们提出了用于实例分割的PANet。我们设计了几个简单而有效的组件来增强代表性管道中的信息传播。我们汇集了所有特征层的特征,并缩短了底层和顶层特征层之间的距离,以实现可靠的信息传递,增强了互补路径,以丰富每个候选框的特征。产生了令人印象深刻的结果
我们未来的工作是将我们的方法扩展到视频和RGBD数据

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/148129.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何从 iCloud 恢复永久删除的照片?答案在这里!

在数字时代,丢失珍贵的照片可能会令人痛苦。然而,了解如何从 iCloud 恢复永久删除的照片可以带来一线希望。无论是意外删除还是技术故障,本指南都提供了 2023 年的最新方法来找回您的珍贵记忆。发现分步解决方案并轻松重新访问您的照片库。不…

Linux Ubuntu系统中添加磁盘

在学习与训练linux系统的磁盘概念、文件系统等,需要增加磁盘、扩展现有磁盘容量等,对于如何添加新的磁盘,我们在“Linux centos系统中添加磁盘”中对centos7/8版本中如何添加、查看、删除等,作了介绍,而对Ubuntu版本中…

css技巧分享(优惠券缺角样式实现)

主要知识点:radial-gradient radial-gradient() CSS 函数创建一个图像,该图像由从原点辐射的两种或多种颜色之间的渐进过渡组成。它的形状可以是圆形或椭圆形。函数的结果是 数据类型的对象。这是一种特别的 。 .coupon{width: 190rpx;height: 194rpx;b…

腾讯滑块验证

不在同一起跑线,力所能及尽力就好。 之前的文章里介绍腾讯系列点选类型的验证,然后的话也是有时间去看了无感验证跟这个滑块验证,就放在一起来说说吧,之前的文章在这:TX验证码_逆向学习之旅的博客-CSDN博客 这个tdc_pa…

《使用EasyExcel在Excel中增加序号列的方法》

《使用EasyExcel在Excel中增加序号列的方法》 1、简介2、正文3、核心代码4、使用方法5、效果 1、简介 在处理Excel文件时,有时候需要为表格增加序号列。本文介绍了如何使用Java代码实现在Excel中增加序号列的功能,并提供了一个示例代码。 2、正文 在处理…

ping: www.baidu.com: Name or service not known解决办法

解决服务器无法ping通外网问题 1、问题描述: 配置了网卡信息,发现还是无法访问外网,并报ping: www.baidu.com: Name or service not known信息 2、问题原因: 这就是外网没开通好 3、解决方法: 修改网卡文件&#xff…

在qt的设计师界面没有QVTKOpenGLWidget这个类,只有QOpenGLWidget,那么我们如何得到QVTKOpenGLWidget呢?

文章目录 前言不过,时过境迁,QVTKOpenGLWidget用的越来越少,官方推荐使用qvtkopengnativewidget代替QVTKOpenGLWidget 前言 在qt的设计师界面没有QVTKOpenGLWidget这个类,只有QOpenGLWidget,我们要使用QVTKOpenGLWidget,那么我们如何得到QVTKOpenGLWidget呢? 不过,时过境迁,Q…

Vue中的watch的使用

先看下Vue运行机制图 那么我们思考一件事,vue是通过watcher监听数据的变化然后给发布-订阅,这样实现了dom的渲染,那么我们思考一件事,我们往往需要知道一个数据的变化然后给页面相应的渲染,那么我们工作中在组件中的数…

【nlp】2.3 LSTM模型

LSTM模型 1 LSTM介绍2 LSTM的内部结构图2.1 LSTM结构分析2.2 Bi-LSTM介绍2.3 使用Pytorch构建LSTM模型2.4 LSTM优缺点1 LSTM介绍 LSTM(Long Short-Term Memory)也称长短时记忆结构, 它是传统RNN的变体,与经典RNN相比能够有效捕捉长序列之间的语义关联,缓解梯度消失或爆炸…

Windows10下Docker安装Mysql5.7

文章目录 Windows10下Docker安装Mysql5.7环境说明打开命令工具搜索镜像拉取镜像查看所有镜像启动镜像查看容器查看所有容器查看运行中容器 进入容器进入容器命令输入账号命令输入密码 添加mysql的远程账号创建一个数据库 Windows10下Docker安装Mysql5.7 环境说明 docker&…

几款数据备份软件调研与使用

目的 为确保企业数据安全、避免被非法入侵、数据勒索、破坏业务连续性、及时对重要数据、业务数据、程序、进行备份做到有备无患。遇到突发事件可使用备份数据快速恢复。保障系统正常运行 Filezilla工具介绍: FileZilla是一个免费开源的FTP软件,分为客户…

超级账本区块链Fabric2.4.4版本搭建过程(完整过程)

前提环境:乌班图20.04环境 安装所需要的工具 先配置一下代理源为阿里云代理: sudo apt-get update 更新源 sudo apt-get install ssh 安装远程客户端 sudo apt-get install curl 安装命令行工具 sudo apt-get install git 安装git sudo apt-get install gcc 安装…

BUUCTF easyre 1

BUUCTF:https://buuoj.cn/challenges 题目描述: 下载附件,解压得到一个.exe文件。 密文: 解题思路: 1、使用IDA pro打开exe文件,在反汇编窗口(IDA View-A),直接找到flag。 也可以…

KODExplorer中ace.js代码编辑器中自定义PHP提示片段

目录 KODExplorerace.js参考 KODExplorer 这是搭建云盘工具,该工具可以作为在线开发工具使用,其中使用了ace.js作为编辑器,这里主要讲解ace.js编辑器中如何自定义代码提示下载旧版本,再升级到新版本,直接下载新版本没…

解决 requests-2.17.3 依赖 chardet 库版本不匹配的问题

问题背景 在使用 requests-2.17.3 版本时&#xff0c;我遇到了一个异常&#xff1a;“Requests dependency ‘chardet’ must be version > 3.0.2, < 3.1.0”。我尝试运行了以下命令来修复问题&#xff0c;但仍然无法解决&#xff1a; pip install -U chardet > 3.0…

【Maven】基础快速入门

文章目录 1、Maven概述1.1、Maven是什么1.2、Maven的作用 2、下载安装Maven2.1、新版下载2.2、旧版下载2.3、安装2.4、配置环境变量2.5、配置阿里云镜像2.6、配置本地仓库 3、Maven基础概念3.1、坐标 4、Maven依赖管理4.1、依赖配置与依赖传递4.1.1、依赖传递冲突4.1.2、可选依…

CH12_处理继承关系

函数上移&#xff08;Pull Up Method&#xff09; 反向重构&#xff1a;函数下移&#xff08;Push Down Method&#xff09; class Employee {/*...*/} class Salesman extends Employee {get name() {/*...*/} } class Engineer extends Employee {get name() {/*...*/} }cla…

软件性能测试学习笔记(LoadRunner):从零开始

文章目录 概述LoadRunner的使用创建编辑脚本&#xff08;Virtual User Generator&#xff09;集合点思考时间事务检查点关联参数化 运行负载测试&#xff08;Controller&#xff09; 性能测试报告场景设置表格测试指标记录表 其他的杂谈内容 概述 软件的性能测试与软件的功能测…

在抖音电商,他们帮女性实现了L码自由

“很多&#xff08;女装&#xff09;店铺只做到L&#xff0c;甚至L&#xff08;其实&#xff09;是M码。”身高1米6、体重60公斤的达人鸭嗓明明120斤 在抖音上吐槽道&#xff0c;“尤其是夏天的连衣裙&#xff0c;胸围很多不超过85厘米&#xff0c;那它的意思就是你可以胖&…

优思学院|一文快速看懂TRIZ原理

在创新领域&#xff0c;TRIZ被翻译为发明问题的解决理论。TRIZ理论深刻揭示了创造发明的内在规律和原理&#xff0c;专注于澄清和强调系统中存在的矛盾&#xff0c;旨在完全解决这些矛盾&#xff0c;实现最终的理想解决方案。实践证明&#xff0c;运用TRIZ理论不仅能够极大地加…