Path Aggregation Network for Instance Segmentation

PANet

  • 摘要
  • 1. 引言
  • 2.相关工作
  • 3.框架

PANet 最初是为 proposal-based 实例分割框架提出来的,mask 是实例的掩码,覆盖了物体包含的所有像素,proposal 在目标检测领域是可能存在目标的区域。在实例分割中,首先利用RPN(Region Proposal Network)生成proposal。然后,对每个proposal使用额外的网络头(head)来预测该区域的掩码(mask),即物体的精确像素级轮廓。实例分割中的 proposal不仅涉及边界框的预测,还包括为proposal内的每个像素分类,生成一个精确的物体轮廓掩码。

摘要

作者提出了路径聚合网络(PANet),旨在增强基于提议的实例分割框 (proposal-based instance segmentation framework) 中的信息流动。具体来说,通过自底向上的路径增强,加强了整个特征层次结构,使得底层的准确定位信号能够加速传播到最顶层的特征。此外,文章提出了自适应特征池化机制,它连接了特征网格和所有特征层次,使得每一层的有用信息都能直接传播到后续的提议子网络中。为了进一步改进掩模预测,还创建了一个补充分支,用以捕捉每个提议的不同视角。

1. 引言

作者通过研究发现,现有的先进技术,如Mask R-CNN在信息传播方面还有改进空间。具体来说,低层次的特征对于识别大型实例非常有帮助。但是,从低层结构到最顶层特征之间有一个长路径,这增加了获取准确定位信息的难度。此外,每个提议都是基于从单一特征层汇集的特征网格来预测的,这种分配方式是启发式的。作者指出,这个过程可以更新,因为在其他层次中被丢弃的信息可能对最终预测有帮助。最后,掩模预测是基于单一视角进行的,这丧失了收集更多多样化信息的机会。

如图1

  1. 首先,为了缩短信息传播路径并增强低层次特征中准确定位信号的特征金字塔,创造了自底向上的路径增强。这意味着通过引入一个新的路径,将低层次的准确定位信息更直接地传递到高层次,这有助于改善特征金字塔中的信息流,并增强对实例的定位能力。

  2. 其次,为了修复每个提议(proposal)与所有特征层之间断裂的信息路径,作者开发了自适应特征池化机制。这是一个简单的组件,用于聚合每个建议的所有特征层的特征,避免了随意分配的结果。通过这种操作,与先前的工作相比,创造了更清晰的信息传播路径。

  3. 最后,为了捕获每个建议的不同视角,作者通过微小的全连接层增强了掩模预测,这些层具有补充FCN的属性,FCN是Mask R-CNN最初使用的。通过融合这两种视图的预测,增加了信息的多样性,并产生了更高质量的掩模。

文章中提到的前两个组件——自底向上的路径增强和自适应特征池化,都被对象检测和实例分割任务共享,从而显著提高了两种任务的性能。

在这里插入图片描述

这张图1详细展示了PANet(路径聚合网络)的架构:

(a) FPN(特征金字塔网络)骨干:它展示了一个典型的特征金字塔结构,其中信息通过侧向连接从顶层传递到底层(以蓝色箭头表示)。顶层特征P5具有最强的语义信息,而底层特征P2具有最精确的空间信息。

(b) 自底向上路径增强:这一部分补充了自顶向下的路径,允许底层的高分辨率特征N2可以直接传递信息到更高层,从而创建了新的特征层N3, N4, N5。这些特征层通过自底向上的增强路径(以橙色箭头表示)直接与相应的FPN层连接,缩短了从底层到顶层的信息传播路径。

© 自适应特征池化:此部分用于从不同的特征层(N2, N3, N4, N5)中提取特征,并将它们合并(通过灰色箭头表示),以提供一个丰富的特征表示用于后续预测。

(d) 盒子分支:这一部分用于对象检测任务,它接受自适应特征池化的输出,并进行分类(class)和边界框回归(box)。

(e) 全连接融合:这是用于实例分割任务的一个额外分支,它接受自适应特征池化的输出,通过全连接层处理后预测每个实例的掩模(mask)。这里提到的“全连接融合”增加了预测掩模的多样性。

请注意,在图中(a)和(b)的部分,为了简洁起见,特征图的通道维度被省略了。在实际应用中,每个特征层都会有多个通道携带不同类型的信息。

2.相关工作

在这里插入图片描述
这张图2展示了PANet中自底向上路径增强的一个构建块的结构。在这个构建块中:

  1. 特征层 N i N_i Ni(在图中为蓝色的底部特征图)经过一个下采样(通常是通过一个带有步长的卷积层,使得特征图的空间分辨率降低,例如步长为2),以匹配更高层特征图 P i + 1 P_{i+1} Pi+1(在图中为蓝色的上部特征图)的大小。

  2. 同时,特征层 P i + 1 P_{i+1} Pi+1是通过FPN得到的高层特征图,它通过横向连接已经获得了一定程度的语义信息。

  3. 然后,通过元素相加操作(图中的圆圈中的加号),将这两个特征图合并,以生成新的特征层 N i + 1 N_{i+1} Ni+1(在图中为橙色的特征图)。这个融合的特征图将结合了 N i N_i Ni的细节和 P i + 1 P_{i+1} Pi+1的语义信息,更适合做更高层次的预测。

通过这样的构建块,网络可以维护低层的细节信息并且增强高层特征图的定位能力,有助于改进实例分割的性能。这种自底向上的路径增强构建块是PANet用来提升特征金字塔信息流的关键元素之一。

3.框架

在这里插入图片描述
这张图4展示的是PANet中的掩码预测分支,该分支包括全连接层融合。

  1. ROI:感兴趣区域(Region of Interest),从特征图中提取的目标区域,是预测掩码的起始点。

  2. conv1 至 conv4:这四个连续的卷积层用于处理提取的ROI,逐步提取更高层次的特征。每个卷积层后通常会跟一个激活函数如ReLU,但在此图中未显示。

  3. deconv:反卷积层(也称为转置卷积层),用于上采样特征图,增加其空间分辨率,以便能够生成像素级的掩码预测。

  4. fc:全连接层,接受从conv3层分出的特征图,此层能够捕捉整个ROI的全局信息。

  5. conv4_fc 和 conv5_fc:这两个卷积层进一步处理全连接层输出的特征。第二个卷积层(conv5_fc)的目的是减少特征的通道数,以减少全连接层输出维度并减少计算负担。

  6. reshape:全连接层的输出将被重塑成二维空间特征图的形状,这样就可以与deconv层的输出合并。

  7. mask:最终的掩码预测是通过将deconv层的输出和重塑后的全连接层的输出相结合来生成的。这里使用了元素级别的融合操作(通常是求和或逐元素最大值),结合了局部特征和全局信息来预测每个像素是否属于目标实例。

通过这种方式,全连接融合的掩码预测分支可以同时利用全局信息和局部纹理信息,以提高实例分割的精度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/532306.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

业务逻辑漏洞(靶场) fiddler

目录 fiddler简介: 业务逻辑漏洞: fiddler下载 靶场: 实验一 ​编辑实验二(ps 更改实验url会变,fiddler没抓到东西看看代理改没改) 实验三 实验四 fiddler简介: 一款网络抓包工具&#…

基于Java+SpringBoot+Vue养老院管理系统(源码+文档+部署+讲解)

一.系统概述 随着信息时代的来临,过去的传统管理方式缺点逐渐暴露,对过去的传统管理方式的缺点进行分析,采取计算机方式构建养老院管理系统。本文通过课题背景、课题目的及意义相关技术,提出了一种社区活动、活动记录、床位信息、…

what is tty?

waht is tty? 黑话:TTY 为什么使用Linux的时候CtrlC就会终止一个命令运行,ta是如何设置的? stty -a 桌面切换 CTRL ALT F1 – 锁屏 CTRL ALT F2 – 桌面环境 CTRL ALT F3 – TTY3 CTRL ALT F4 – TTY4 CTRL ALT F5 – TTY5 CTRL ALT F6 – TTY6

【Linux】初识Linux,虚拟机安装Linux系统,配置网卡

前言 VMware软件:首先,确保您已经下载了VMware Workstation软件并安装在电脑上。VMware Workstation是一款功能强大的虚拟化软件,它允许在单一物理机上运行多个操作系统。 Linux镜像文件:需要准备一个Linux操作系统的镜像文件。…

AUS GLOBAL(澳洲环球) 与 Gresini Racing MotoGP 达成全球战略合作

国际知名的零售外汇交易平台 AUS GLOBAL 宣布与知名世界摩托车锦标赛 MotoGP 的Gresini Racing车队达成全球战略合作伙伴关系,成为官方赞助商及官方指定线上外汇交易平台。AUS GLOBAL 于 2024 年起与 Gresini Racing MotoGP 车队展开各项合作项目,为 Gre…

密码学与密码安全:理论与实践

title: 密码学与密码安全:理论与实践 date: 2024/4/10 21:22:31 updated: 2024/4/10 21:22:31 tags: 密码学加密算法安全协议密码分析密码安全实际应用未来发展 第一章:密码学基础 1.1 密码学概述 密码学是研究如何保护信息安全的学科,旨在…

InternLM2 技术报告——社区翻译版

InternLM2技术报告于近日正式对外发布,不少社区大佬自发地参与到报告的翻译与解读中来。本文为社区用户翻译的InternLM2技术报告原文,分享给大家~ 论文地址: https://arxiv.org/pdf/2403.17297.pdf 摘要 大型语言模型(LLMs&…

uniapp开发Android安卓应用打包配置及使用高德地图配置获取定位失败的问题解决(踩坑)

前言 要获取高德定位,需要使用自定义基座运行(默认基座是dcloud封装好的,自带高德地图配置),但是我们正式发布还是需要使用自己的配置,所以提前配置好防止上线各种bug; 步骤1 首先我们需要登录dcloud开发者中心申请一个Android云端证书,然后需要把证书信息配置到自定义基座中…

【MySQL数据库 | 第二十五篇】深入探讨MVCC底层原理

前言: 在当今互联网时代,数据库扮演着数据存储和管理的关键角色。对于大型Web应用程序和企业级系统而言,高效地处理并发访问和事务管理是至关重要的。多版本并发控制(MVCC)是一种数据库事务处理的技术,旨…

第十四届蓝桥杯省赛真题-幸运数

代码及解析: #include <iostream> using namespace std;bool check(int x) {int tmpx,len0;while(tmp){len;tmp/10;}//算位数的方法 if(len%21)return 0;//直接retrun 0 int tlen/2;int ans10,ans20;while(t--){ans1x%10;//加每一位x/10; }while(x){ans2x%10;x/10;}if(…

【Keil5-编译4个阶段】

Keil5-编译 ■ GCC编译4个阶段■ 预处理->编译->汇编->链接■ GNU工具链开发流程图■ armcc/armasm&#xff08;编译C和汇编&#xff09;■ armlink &#xff08;链接&#xff09;■ armar &#xff08;打包&#xff09;■ fromelf &#xff08;格式转换器&#xff09…

element UI 设置type=“textarea“ 禁止输入框缩放

背景 在 Element UI 中&#xff0c;当您使用 el-input 组件并设置 type"textarea" 时&#xff0c;默认情况下&#xff0c;用户可以通过拖动输入框的右下角来调整其大小。如果您想禁止这种缩放行为&#xff0c;需要使用 CSS 来覆盖默认的浏览器行为。 注意上图&#x…

3.Burp Suite 入门篇 —— 修改请求

目录 前言 官网注册 Burp 浏览器访问漏洞页面 登陆购物网站账号 修改请求包 漏洞挖掘 前言 本篇文章会教你如何用 Burp Proxy 修改截获的请求。 修改请求包是为了通过网站程序规定之外的方式请求&#xff0c;然后对比查看响应内容的变化&#xff0c;判断是否有漏洞存在…

Docker部署minio集群

1.基本定义 由于是非常轻量级的软件&#xff0c;所以架构上也没有这么复杂&#xff0c;他使用操作系统的文件系统作为存储介质&#xff0c;我们在向任意节点写数据的时候&#xff0c;minio会自动同步数据到另外的节点&#xff0c;而机制叫做erasure code&#xff08;纠删码&am…

深度学习环境搭建问题汇总

pip无法通过国内源下载&#xff0c;could not find a version that satisfies the requirement 当遇见could not find a version that satisfies the requirement问题时&#xff0c;可以通过下载whl的方式进行离线安装&#xff0c;以torch1.12.0为例&#xff0c;如果用的是阿里…

苹果电脑怎么彻底删除软件 苹果电脑卸载软件在哪里 cleanmymac x怎么卸载 mac废纸篓怎么删除

苹果电脑卸载软件的方法相对直观和简单&#xff0c;尤其是对于习惯使用Mac操作系统的用户来说。以苹果MacBook Pro为例&#xff0c;以下是卸载软件的详细步骤、使用方法、注意事项与建议。 一、卸载软件的详细步骤&#xff1a; 1. 打开Mac电脑&#xff0c;进入桌面&#xff0c…

shardingSphere5.1.1 适配人大金仓

shardingSphere5.1.1 适配人大金仓 编译后的jar文件和源码下载 1. 官网适配数据库说明 图例可见&#xff0c;官网不支持人大金仓国产数据库&#xff0c;若要使用shardingSphere需要修改源码2. 需要修改的类 2.1 KingBase8DatabaseType.java package org.apache.shardingsphe…

Python | 超前滞后分析

Nino SST Indices (Nino 12, 3, 3.4, 4; ONI and TNI) 有几个指标用于监测热带太平洋&#xff0c;所有这些指标都是基于海表温度(SST)异常在一个给定的区域的平均值。通常&#xff0c;异常是相对于30年的周期来计算的。厄尔尼诺3.4指数(Nio 3.4 index)和海洋厄尔尼诺指数(Ocea…

虚拟网络设备的真正使命:实现有控制的通信

在数字化时代&#x1f4f2;&#xff0c;网络安全&#x1f512;成为了企业和个人防御体系中不可或缺的一部分。随着网络攻击的日益复杂和频繁&#x1f525;&#xff0c;传统的物理网络安全措施已经无法满足快速发展的需求。虚拟网络设备&#x1f5a7;&#xff0c;作为网络架构中…

C++的stack和queue类(一):适配器模式、双端队列与优先级队列

目录 基本概念 stack的使用 queue的使用 适配器模式 stack.h test.cpp 双端队列-deque 仿函数 优先队列 priority_queue的使用 queue.h文件 stack.h文件 test.cpp文件 日期类的比较 商品的比较 结论 基本概念 1、stack和queue不是容器而是容器适配器&…