论文阅读《PIDNet: A Real-time Semantic Segmentation Network Inspired by PID》

论文地址:https://arxiv.org/pdf/2206.02066.pdf
源码地址:https://github.com/XuJiacong/PIDNet


概述

  针对双分支模型在语义分割任务上直接融合高分辨率的细节信息与低频的上下文信息过程中细节特征会被上下文信息掩盖的问题,提出了一种新的网络架构PIDNet,该模型受启发于PID控制器并包含:空间细节分支、上下文分支与边界注意力分支。通过使用边界注意力来引导空间细节与上下文信息融合。实验结果表明该模型的精度超过了具有相似推理速度的所有模型,在Cityscapes和CamVid数据集上取得了最佳的推理速度和精确度的平衡。文章的主要贡献为:

  • 将PID控制器与CNN相结合,提出一个三分支的网络结构 。
  • 提出Bag fusion模块来权衡空间细节与上下文信息,提高了PIDNet的性能。
  • PIDNet与现有的方法相比,在推理速度与准确度之间取得了最佳的表现:在Cityscapes测试数据集上取得了78.6%的mIOU与93.2 FPS,且PIDNet-L 取得了80.6% 的mIOU的优异表现。

方法

PIDNet: A Novel Three-branch Network

在这里插入图片描述
  PID控制器包含三个部分:比例控制器P,积分控制器I,微分控制器D,如图3所示,PI控制器表达式为:
c o u t [ n ] = k p e [ n ] + k i ∑ i = 0 n e [ i ] (1) c_{out}[n] = k_pe[n]+ k_i\sum_{i=0}^ne[i]\tag{1} cout[n]=kpe[n]+kii=0ne[i](1)
其中 P 控制器关注当前的误差信号, I 控制器关注误差信号的历史累积。由于积分控制器的惯性效应,当误差信号出现相负的变化时,会给系统引入超调量。为此引入D控制器来作为阻尼器用于减少超调量,PI控制器关注于输入信号的低频信息,而对信号的高频信息不敏感,而D控制器关注于输入信号的微分,对信号的高频信息较为敏感,可以减少模型的超调量,双分支网络与之类似,如图3所示,上下文分支通过级联跨步卷积或者池化层来不断从局部到全局聚合语义信息,用于获取像素之间的长距离依赖关系,而空间细节分支保持高分辨率的特征图,用于保存每个像素的语义与位置信息。因此空间细节和上下文分支等价于空间域中的比例和积分控制器。
  为了解决上述问题,本文提出一种辅助的微分分支ADB用于对细节和上下文分支进行补充,在空域上模拟PID控制器,并突出高频语义信息,其中考虑到每个物体内部的语义是一致的,只有边界上的微分非0,所以ADB分支的目标是边界检测。因此,本文简历一种新的三分支实时语义分割框架 PIDNet,模型包含三个分支,如图4所示:

  • 比例分支:用于解析保存高分辨率特征图中的细节信息
  • 积分分支:用于聚合局部与全局之间的长程依赖关系信息——上下文信息。
  • 微分分支:用于提高高频特征以预测边界区域。
      整个模型和DDRNet保持也一直,采用级联残差块作为骨干网络以便以硬件部署。考虑到任务的复杂性,将PID分支的网络深度分别设计为中等、深、浅,以便于高效运行。此外,通过模型架构缩放来得到PIDNet-S,PIDNet-M,PIDNet-L。
    在这里插入图片描述

Pag: Learning High-level Semantics Selectively

  pixel attention guided fusion(Pag) 为像素级注意力引导模块,用于将比例分支与微分分支的特征融合,受益于lateral connection技术,不同分支之间的特征图可以进行传递,提高了特征的表达能力。在PIDNet中,积分分支旨在提取精确且丰富的语义信息,对于比例分支和微分分支的的细节解析与边界检测至关重要。因此,将 I 分支作为其余两个分支的补充,为两个分支引入更丰富的信息。此外,与直接将P分支直接提供特征图的方式不一样,作者为P分支引入了Pag来选择性学习任务有关的语义特征,如图5所示:
在这里插入图片描述
  Pag 是基于注意力机制的特征选择模块,将P分支与I分支提供的特征图中对应像素的特征向量分别定义为 v p ⃗ \vec{v_p} vp v i ⃗ \vec{v_i} vi ,则sigmoid函数的输出为:
σ = sigmoid ⁡ ( f p ( v p ⃗ ) ⋅ f i ( v i ⃗ ) ) (2) \sigma = \operatorname{sigmoid}(f_p(\vec{v_p})\cdot f_i (\vec{v_i}))\tag{2} σ=sigmoid(fp(vp )fi(vi ))(2)
其中, σ \sigma σ 表示这两个像素属于同一个对象的可能性,如果 σ \sigma σ 越高,表示 v i ⃗ \vec{v_i} vi 的置信度更好,因为在 I 分支在语义上是准确的,反之亦然。因此,Pag模块的输出为:
O u t p a g ⁡ = σ v i ⃗ + ( 1 − σ ) v p ⃗ (3) \operatorname{Out_{pag}}=\sigma \vec{v_i} + (1-\sigma) \vec{v_p}\tag{3} Outpag=σvi +(1σ)vp (3)

PAPPM: Fast Aggregation of Contexts

在这里插入图片描述
  为了更好地构建全局场景的先验信息,本文提出PAPPM模块用于提取多尺度的特征信息。虽然PPM(pyramid poling module)模块可以很好嵌入上下文信息,但该模块无法并行化,导致模型的计算效率受到限制。为此,本文在PPM模块的基础上进行改进,提出可以并行计算的PPM模块,称之为PAPPM(parallel aggregation PPM)模块,并将其应用于PIDNet-M和PIDNet-S中,提高模型的运行速度。对于PIDNet-L,仍然使用原始的PPM模块,但通道数进行缩减以提高运行速度。

Bag: Balancing the Details and Contexts

在这里插入图片描述
  考虑到ADB所提取的边界特征,文中使用边界注意力机制来引导空间细节信息与上下文信息的融合,实现更好地语义分割效果。尽管上下文分支具有语义精度,但它在边界区域与小物体上的几何细节信息与空间信息丢失。因此,PIDNet使用细节分支来提供空间细节信息,并监督模型在边界区域更加信任细节分支,同时利用上下文特征来填充对象的内部区域,如图7所示:P、I、D分支输出中对应像素为 v p ⃗ 、 v i ⃗ \vec{v_p}、\vec{v_i} vp vi v d ⃗ \vec{v_d} vd
σ = Sigmoid ⁡ ( v d → ) (4) \sigma=\operatorname{Sigmoid}\left(\overrightarrow{v_{d}}\right)\tag{4} σ=Sigmoid(vd )(4)
 Out  bag  = f out  ( ( 1 − σ ) ⊗ v i → + σ ⊗ v p → ) (5) \text { Out }_{\text {bag }}=f_{\text {out }}\left((1-\sigma) \otimes \overrightarrow{v_{i}}+\sigma \otimes \overrightarrow{v_{p}}\right) \tag{5}  Out bag =fout ((1σ)vi +σvp )(5)
 Out  light  = f p ( ( 1 − σ ) ⊗ v i → + v p → ) + f i ( σ ⊗ v p → + v i → ) (6) \text { Out }_{\text {light }}=f_{p}\left((1-\sigma) \otimes \overrightarrow{v_{i}}+\overrightarrow{v_{p}}\right)+f_{i}\left(\sigma \otimes \overrightarrow{v_{p}}+\overrightarrow{v_{i}}\right)\tag{6}  Out light =fp((1σ)vi +vp )+fi(σvp +vi )(6)
其中 f f f 表示卷积、BN 与ReLU的组合,当 σ > 0.5 \sigma >0.5 σ>0.5 时,模型更加依赖于细节特征,否则更加关注于上下文信息。


损失函数

  损失函数由4个部分组成,在第一个Pag模块的输出添加了语义头生成额外的语义损失 l 0 l_0 l0 用于更好地对整个模型调优。采用加权的二元交叉熵损失 l 1 l_1 l1 来代替 dice loss, 用于处理边界 检测的不平衡问题,使得模型更倾向于使用粗糙的边界来突出边界区域,并增强小对象的特征。 l 2 l_2 l2 l 3 l_3 l3 表示交叉熵损失,本文使用输出的边界头来协调语义分割和边界检测任务,并增强Bag模块的功能,在 l 3 l_3 l3 中使用带有边界感知的CE损失:
L o s s = λ 0 l 0 + λ 1 l 1 + λ 2 l 2 + λ 3 l 3 Loss=\lambda_0l_0 + \lambda_1l_1 + \lambda_2l_2 + \lambda_3l_3 Loss=λ0l0+λ1l1+λ2l2+λ3l3


实验结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/16574.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【操作系统复习】第5章 存储器管理 2

分页存储管理方式 页号P ◆12-31位:20位 ◆地址空间最多允许有1M(2 20)页 位移量W(页内地址) ◆0-11:12位 ◆每页大小为4KB (2 12) 对某特定机器,地址结构是一…

Apache Flink (最新版本) 远程代码执行

路虽远&#xff0c;行则将至&#xff1b;事虽难&#xff0c;做则必成 Apache Flink < 1.9.1(最新版本) 远程代码执行 CVE-2020-17518 漏洞描述 近日,有安全研究员公开了一个Apache Flink的任意Jar包上传导致远程代码执行的漏洞. 漏洞影响 Apache Flink < 1.9.1(最新…

《最强Android书 架构大剖析》读书笔记

文章目录 第一章 Android 体系结构的变革之路1.2 Android系统源码目录与Linux的异同Android的框架原生二进制可执行文件Android 的原生库核心(core)库用以支持框架的库硬件抽象层Linux内核不带上层 UI界面的Android 第二章 Android 的分区和文件系统2.1 分区架构实验:从设备中获…

C++的智能指针

文章目录 1. 内存泄漏1.1 什么是内存泄漏1.2 内存泄漏分类 2. 为什么需要智能指针3. 智能指针的使用及原理3.1 RAII3.2 使用RAII思想设计的SmartPtr类3.3 让SmartPtr像指针一样3.3 SmartPtr的拷贝3.4 auto_ptr3.5 unique_ptr3.6 shared_ptr3.6.1 shared_ptr的循环引用3.6.2 wea…

axios使用笔记

文章目录 基本语法其他语法defaults config作用案例 创建实例对象作用案例 拦截器 interceptor&#xff08;AOP&#xff09;请求取消&#xff08;节流&#xff09; 基本语法 <!doctype html> <html lang"en"> <head><meta charset"UTF-8&…

可视化工作流管理

​本场景是可视化工作流&#xff0c;通过可视化的精益看板将价值流进行可视化&#xff0c;通过精益思维消除瓶颈、加速流动&#xff0c;提升效率。 创建工作流任务看板 •通过Leangoo可视化工作流项目模板&#xff0c;创建一个工作流看板。 •通过看板&#xff0c;我们可以将…

「欧拉定理」[SDOI2008]仪仗队

[SDOI2008]仪仗队 https://ac.nowcoder.com/acm/problem/20313 题目描述 作为体育委员&#xff0c;C君负责这次运动会仪仗队的训练。 仪仗队是由学生组成的N * N的方阵&#xff0c;为了保证队伍在行进中整齐划一&#xff0c;C君会跟在仪仗队的左后方&#xff0c;根据其视线所…

【计算机网络】图解内容分发网络 CDN

【计算机网络】图解内容分发网络 CDN 参考资料&#xff1a; 用了CDN就一定比不用更快吗&#xff1f; 什么是内容分发网络 高性能利器&#xff1a;CDN我建议你好好学一下&#xff01; 文章目录 【计算机网络】图解内容分发网络 CDN一、CDN 概述1.1、什么是 CDN1.2、为什么需要 …

【Java笔试强训 16】

&#x1f389;&#x1f389;&#x1f389;点进来你就是我的人了博主主页&#xff1a;&#x1f648;&#x1f648;&#x1f648;戳一戳,欢迎大佬指点! 欢迎志同道合的朋友一起加油喔&#x1f93a;&#x1f93a;&#x1f93a; 目录 一、选择题 二、判断题 &#x1f525;完全数计…

shell的基础学习三

文章目录 一、Shell 流程控制二、Shell 函数三、Shell 输入/输出重定向四、Shell 文件包含总结 一、Shell 流程控制 for 循环 与其他编程语言类似&#xff0c;Shell支持for循环。 for循环一般格式为&#xff1a; while 语句 while 循环用于不断执行一系列命令&#xff0c;也…

02-Vue技术栈之基础篇(下)

目录 1、class 与 style 绑定1.1 理解1.2 class 绑定1.3 style绑定1.4 代码示例 2、条件渲染2.1 v-if2.2 v-show2.3 注意事项2.4 代码示例 3、列表渲染3.1 基本列表3.2 key的原理3.2.1 虚拟DOM中key的作用&#xff1a;3.2.2 对比规则&#xff1a;3.2.3 用index作为key可能会引发…

IPsec中IKE与ISAKMP过程分析(主模式-消息1)

IPsec协议族中IKE&#xff08;Internet Key Exchange&#xff09;是一种基于ISAKMP的协议&#xff0c;它为建立IPSec安全通信隧道提供了一种无痕密钥交换的机制。简单来说&#xff0c;IKE就是ISAKMP的扩展&#xff0c;为ISAKMP提供了更加高效、灵活和安全的密钥协商机制。 GMT …

ChatGPT实现HTML网页文本提取

网页自动化工具 既然ChatGPT对于编程语言有非常强大的理解能力&#xff0c;那么它是否可以用来自动化地处理网页呢&#xff1f;答案是肯定的。ChatGPT可以使用机器学习算法来识别网页元素中的文本&#xff0c;并抽取出有用的信息。 例如我们提供一段层数比较多的相对来说较为…

继续科普:ChatGPT 最新写论文使用方法

这两天发现了几个国内就能用的ChatGPT,不需要魔法! 给大家推荐两种方法,大家自行选择: 1、电脑端安装VSCode软件,使用GPT插件: 优点: 无需魔法、无需付费、软件简单易用(稍懂电脑就会用) 缺点: ① 只支持电脑端,不支持手机:软件安装虽简单,但不一定所有人都…

java基础知识——22.lambda表达式

这篇文章&#xff0c;我们来讲一下java的lambda表达式 目录 1.初识lambda表达式 2.lambda表达式介绍 2.1 函数式编程 2.2 lambda表达式的具体格式 2.3 Lambda表达式的好处 2.4 Lambda的省略写法 1.初识lambda表达式 首先&#xff0c;我们来看一下lambda表达式的应用 下…

CKA/CKS/CKAD认证考试攻略

什么是CKA考试&#xff1f; CKA认证考试是由Linux基金会和云原生计算基金会(CNCF)创建的&#xff0c;以促进Kubernetes生态系统的持续发展。该考试是一种远程在线、有监考、基于实操的认证考试&#xff0c;需要在运行Kubernetes的命令行中解决多个任务。CKA认证考试是专为Kube…

SpringCloud+RabbitMQ+Docker+Redis+搜索+分布式,系统详解springcloud微服务技术栈

Docker 我们发现在微服务中有一个令人头疼的问题——部署&#xff0c;用Docker去解决这个部署难题 &#xff08;一&#xff09;初识Docker-什么是docker 1、项目部署的问题 2、Docker 扔到一台机器上&#xff0c;它们的依赖难道没有干扰吗&#xff1f;不会&#xff0c;docke…

组合导航卡尔曼滤波几个杂项

1.组合导航卡尔曼滤波噪声协方差矩阵调参 在组合导航卡尔曼滤波算法中&#xff0c;主要涉及两个噪声协方差矩阵&#xff0c;过程噪声协方差矩阵Q&#xff0c;测量噪声协方差矩阵R&#xff0c;具体来说&#xff1a; R表示测量噪声协方差&#xff0c;它是一个数值&#xff0c;这…

低代码平台很赞,用2个小时,搭出1套应用

最近低代码很火&#xff0c;到处都是低代码的尝试贴&#xff0c;笔者今天也决定深入体验一下&#xff0c;感受它的便捷程度。 在案例开始之前&#xff0c;我们先来聊聊概念。 一、低代码 低代码实质上并不是一个新颖的话题&#xff0c;也不是最近才有的技术突破和创新&#xf…

【全年汇总】2023年CCF软件工程/系统软件/程序设计语言会议截稿时间汇总(持续更新)

本博文是根据CCF会议推荐的软件工程/系统软件/程序设计语言领域相关会议目录撰写。 一、截稿时间总览 截稿时间的总时间轴内容将会持续更新...... 往年投稿及录用情况及链接详见图片后面的内容。 二、会议详细目录 由于一些会议的投稿时间还没公开&#xff0c;因此根据往年投稿…