U-net和U²-Net网络详解

目录

  • U-Net: Convolutional Networks for Biomedical Image Segmentation
    • 摘要
    • U-net网络结构
    • pixel-wise loss weight
  • U²-Net: Going Deeper with Nested U-Structure for Salient Object Detection
    • 摘要
    • 网络结构详解
      • 整体结构
      • RSU-n结构
      • RSU-4F结构
      • saliency map fusion module -- 显著特征融合模块
    • 损失计算
    • 评价准则
      • F-measure
      • MAE(mean absolute error)-- 平均绝对误差
    • 实验结果

U-Net: Convolutional Networks for Biomedical Image Segmentation

论文链接:U-Net: Convolutional Networks for Biomedical Image Segmentation(MICCAI 2015)

摘要

(1)本文提出了一种网络和训练策略,它依赖于大量使用数据增强来更有效地使用可用的带注释样本。

(2)网络架构由一条用于捕获上下文信息的路径(contracting path)和一条用于实现精确定位的路径(expanding path)组成。

(3)这种网络可以从很少的图像中进行端到端训练,并且在当时达到很好的效果。此外,该网络速度在当时分割 512x512 图像只需不到一秒钟。

U-net网络结构

U-net网络结构图如下

左侧为contracting path,主要作用是进行特征提取以及下采样,通常被视为encoder。

右侧则为expansive path,通常被视为decoder。

图中的条形矩阵代表特征层,箭头代表操作(如图中右下红框所示)。

image-20240710150032662

在U-net的卷积操作中stride = 1,padding = 0,因此卷积后图像宽和高都会变小。

当时BN层还没发展起来,所以还没使用BN模块。

执行流程:

contracting path:

首先,输入的是单通道的572 × 572图像。

下采样不改变通道数,但是每次下采样之后经过的第一个卷积层都会使通道数翻倍。

expansive path:

上采样使用的是转置卷积,宽和高都放大两倍,同时通道数减半。

灰色箭头(copy and crop)主要执行的是concat操作,但是由于宽高不同,因此会对左侧的特征图进行中心裁剪再执行concat操作

右侧通道数减半的操作在上采样和上采样后的第一个卷积层中都会执行,因为在上采样减半后concat会恢复原来的维度,然后再通过卷积层降维。

最后输出部分,墨绿色的1 × 1卷积层的卷积核个数和分类的类别个数一样,并且没有经过relu层。因为论文中只有前景和背景两个类别,因此最后的特征图是388 × 388 × 2。

注意:

论文中输入为572 × 572,但是输出为388 × 388,因此只是得到原图中间部分的分割结果。

实际实现通常在左侧的卷积层中加入padding,不会改变宽和高,这样在concat的时候就不用使用中心裁剪,并且最终结果特征图宽高和输入是一致的。同时,现在实现还会在conv 3 × 3 和Relu中间加入 BN层。

pixel-wise loss weight

图中c是当作ground truth用来计算损失,而实际做细胞分割的过程,对于细胞和细胞间的间隙(图中相邻白色区域的黑色间隙)进行分割是很困难的,而图c中大面积黑色区域则是很容易区分的,因此提出了pixel-wise loss weight方案。

对于细胞的间隙在计算损失的时候给予更大的权重,而大片的背景区域施加比较小的权重,图中d热力图所示就是权重分布,蓝色(0)到红色(10)权重逐渐增大,但是该方法在论文中并没有进行消融实验,而只是提到了对模型训练会有帮助。

image-20240710150928124


U²-Net: Going Deeper with Nested U-Structure for Salient Object Detection

论文链接:U²-Net: Going Deeper with Nested U-Structure for Salient Object Detection(CVPR 2020)

U²-Net是针对Salient Object Detetion(SOD)即显著性目标检测任务提出的。该任务虽然是检测任务,但是和语义分割十分类似,它的任务是将图片中最吸引人的目标或区域分割出来,故只有前景和背景两个类别。

摘要

(1)本文设计了一个简单但功能强大的深度网络架构U²-Net,用于显著物体检测(SOD)。

(2)网络架构由两级嵌套的U型结构组成,其设计具有以下优点:

  • ReSidual Block(RSU)中具有不同大小的感受野,它能够从不同尺度捕获更多上下文信息;
  • RSU块中使用了池化操作,增加了整个架构的深度,但却不会显著增加计算成本;
  • 这种架构能够从头开始训练深度网络,而无需使用来自图像分类任务的主干。

网络结构详解

整体结构

下图展示U²-Net的整体结构。主体是一个类似U-Net的结构,而网络中的每个block(无论是Encoder还是Decoder模块)内部也是类似U-Net结构,因此该网络也取名为U²-Net。

总体介绍:

在encoder中每经过一个block后都要进行下采样,下采样2×通过maxpool实现。

在decoder中每经过一个block前都要进行上采样,通过双线性插值(bilinear)实现。

每个阶段的预测输出进行融合,得到融合之后的预测概率图。

image-20240710161413800

通过上图可以看出,En_1、En_2、En_3、En_4、De_1、De_2、De_3、De_4采用的是同一种Block,只不过深度不同。该Block就是论文中提出的ReSidual U-block简称RSU。

RSU-n结构

下图是RSU-7结构,其中7代表深度,注意最下面的3 x 3卷积采用的是膨胀卷积,膨胀因子为2。

image-20240710162007010

image-20240710162134034

其中En_1和De_1采用的是RSU-7,En_2和De_2采用的是RSU-6,En_3和De_3采用的是RSU-5,En_4和De_4采用的是RSU-4,区别就是下采样的倍率不同,RSU-7最多下采样32×,RSU-6最多下采样16×,以此类推。

而En_5、En_6和De_5三个模块采用的是RSU-4F,RSU-4F和RSU-4两者结构并不相同

RSU-4F结构

下图是RSU-4F的结构图,在RSU-4F中并没有进行下采样或上采样,而是将采样层全部替换成了膨胀卷积,下图中带参数d的卷积层全部是膨胀卷积,d为膨胀系数。

image-20240710163106123

注意:在En_5、En_6和De_5三个block内部的操作中,通过控制膨胀系数d,特征图的宽和高是没有发生变化的。

为什么在在En_5、En_6和De_5中不进行采样?

通过Encoder_4这个block之后特征图的尺寸就已经比较小了,如果再进行下采样会丢失很多上下文信息,所以在En_5、En_6和De_5这三个block中就不再进行下采样了,而是将采样层(上采样和下采样)全部替换成了膨胀卷积。

saliency map fusion module – 显著特征融合模块

通过该模块将不同阶段得到的不同尺度的saliency map进行融合并得到最终预测概率图。

执行流程:

  1. 首先收集De_1、De_2、De_3、De_4、De_5以及En_6的输出,然后分别通过一个3 x 3的卷积层(图中白色箭头),这些卷积层的卷积核个数都为1,因此得到的特征图channel都为1;
  2. 然后通过双线性插值进行缩放,把feature map的大小还原成输入图片大小,得到Sup1、Sup2、Sup3、Sup4、Sup5和Sup6;
  3. 接着将这6个特征图进行Concat拼接,得到channel = 6的特征图;
  4. 最后经过一个1 x 1的卷积层以及Sigmiod激活函数得到最终的预测概率图。

image-20240710164211462

损失计算

下面是原论文中给出的损失函数,l代表二值交叉熵损失,w代表每个损失的权重。

image-20240710164713343

该损失函数可以看成两部分,红色框中通过上面提到的Sup1、Sup2、Sup3、Sup4、Sup5和Sup6计算。首先要将Sup1、Sup2、Sup3、Sup4、Sup5和Sup6通过Sigmoid激活函数得到对应的预测概率图,然后与手工标注的ground truth计算lM=6即Sup1至Sup6。。

蓝色框表示最终融合得到的预测概率图S_fuse与ground truth之间的损失,在源码中红色框中的六个w以及蓝色框中的w全部都等于1。

评价准则

F-measure

F-measure是结合了Precision和Recall的综合指标,计算公式如下

image-20240710165740094

最终结果在0-1之间,其中F_β越大,表示网络的分割效果越好。

注意:对于不同的阈值,会得到不同的precision和recall,因此实际得到的F_β是一个数组,而最终报告的指标就是max(F_β),即取数组中的最大值作为评价指标,在源码中β² = 0.3。

MAE(mean absolute error)-- 平均绝对误差

MAE计算公式如下:

image-20240710165837335

最终结果在0-1之间,MAE越接近0表示网络性能越好。

其中P(r,c)代表网络预测的概率图,G(r,c)代表真实的GT,H和W分别代表图片的高和宽。对于输入图中的每个像素点,用网络预测的概率图和ground truth进行相减得到绝对值,然后求得全图像素的平均损失。

实验结果

下图展示了当年SOD任务中最先进的一些公开网络在ECSSD数据集上的max{F_β}性能指标。通过对比,U²-Net无论是在模型size上还是max{F_β}指标上都优于其他网络。

图中红色的五角星代表的是标准的U²-Net(176.3 MB),蓝色的五角星代表轻量级的U²-Net(4.7 MB),效果都十分显著。

image-20240710170559643

下图是具体结果对比。

  • 第一列为原图;
  • 第二列为人工标注的ground truth;
  • 第三列为U²-net标准版的预测结果;
  • 第四列为轻量级U²-net的预测结果;
  • 第五列及其之后的就是当年其他显著性目标检测网络的预测结果。

从图中可以明显看出U²-net的分割精细程度更高,效果很好。

image-20240710170500767

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/789824.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

常见摄像头模块性能对比

摄像头模块在现代电子设备与嵌入式开发中扮演着重要角色,从智能手机到安全监控系统,再到机器人视觉系统,它们无处不在。以下是一些常见的摄像头模块及其特点的对比: OV2640 分辨率:最高可达200万像素(1600x…

递归 迷宫问题-java

1)findWay方法是为了找出走出迷宫的路径,找到返回true,否则返回false 2)(i,j)是老鼠的位置,初始化的位置为(1,1) 3)因为是递归找路&am…

centos磁盘空间满了-问题解决

报错问题解释: CentOS系统在运行过程中可能会出现磁盘空间不足的错误。这通常发生在以下几种情况: 系统日志文件或临时文件过大导致磁盘空间不足。 安装了大量软件或文件而没有清理无用文件。 有可能是某个进程占用了大量磁盘空间。 问题解决方法&a…

10个图源二维码分享及使用方法

我们曾在《8个图源二维码分享及使用方法》一文中,为你分享了8个图源二维码。 现在在此基础之上新增两个图源二维码,共享10个。 如果你需要这些图源,请在文末查看领取方式。 新增了哪两个图源 增加的两个图源分别是全球10m等高线地图和全球…

[C++]: 模板进阶

标题:[C]: 模板进阶 水墨不写bug 目录 一、非类型模板参数 (1)、非类型模板参数简介 (2)、非类型模板参数实例 二、模板的特化 (1)函数模板特化 (2)类…

Python数据分析-天气类型预测分析

一、研究背景 近年来,随着全球气候变化的加剧,天气预报和气象预测变得越来越重要。准确的天气预测不仅能够帮助人们做好日常生活的安排,还能在农业生产、防灾减灾等方面起到关键作用。随着大数据技术和机器学习算法的快速发展,利…

SAP PS学习笔记02 - 网络,活动,PS文本,PS文书(凭证),里程碑

上一章讲了PS 的概要,以及创建Project,创建WBS。 SAP PS学习笔记01 - PS概述,创建Project和WBS-CSDN博客 本章继续讲PS的后续内容。包括下面的概念和基本操作,以及一些Customize: - 网络(Network&#xf…

7.10号小项目部分说明

总体说明 糖锅小助手 我这次主要对上次糖锅小助手界面添加了一个侧边栏(侧边输入框放置了三个按钮,可以跳转到其他ai聊天界面,还可以退出聊天界面回到登录界面)和一个日期输入框(日期输入框获取时间,根据时…

通过Umijs从0到1搭建一个React项目

有一阵时间没写react了,今天通过umi搭建一个demo项目复习一下react;umi是一个可扩展的企业级前端应用框架,在react市场中还是比较火的一个框架。 Umi官方文档:Umi 介绍 (umijs.org) 一、构建项目。 1、安装包管理工具。 官方推…

js原型和类---prototype,__proto__,new,class

原型和原型链 在js中,所有的变量都有原型,原型也可以有原型,原型最终都指向Object 什么是原型 在js中,一个变量被创建出来,它就会被绑定一个原型;比如说,任何一个变量都可以使用console.log打…

支持向量机 (support vector machine,SVM)

支持向量机 (support vector machine,SVM) flyfish 支持向量机是一种用于分类和回归的机器学习模型。在分类任务中,SVM试图找到一个最佳的分隔超平面,使得不同类别的数据点在空间中被尽可能宽的间隔分开。 超平面方…

数据采集:如何使用八爪鱼采集BOSS直聘职位数据

大家好,我是水哥! 今天给大家分享的是数据采集实战:使用「八爪鱼」第三方工具来采集 BOSS 直聘上的数据分析职位数据。 接下来,我们详细看一看。 不重复造轮子 在工作中,我们一定要形成一个认知,能用第…

初次用bable遍历vue项目下的中文

利用 babel 找到 AST 中的中文 // vite-plugin-babel-transform.js const parser require(babel/parser) const traverse require(babel/traverse).default // const types require(babel/types) // const generate require(babel/generator).default const fs require(f…

.Net C#执行JavaScript脚本

文章目录 前言一、安装二、执行 JavaScript 脚本三、与脚本交互四、JS 调用 C# 方法五、多线程使用总结 前言 ClearScript 是一个 .NET 平台下的开源库,用于在 C# 和其他 .NET 语言中执行脚本代码。它提供了一种方便和安全的方法来将脚本与应用程序集成,…

使用Go编写的持续下行测速脚本,快速消耗流量且不伤硬盘

介绍 使用go语言编写的持续下行测速脚本,可用于任意平台使用,通过指定URL清单文本文件自动遍历测速,支持多线程,支持多平台 特性 轻量级,无依赖采用内存进行缓存数据,不占用磁盘(如果内存较小请使用gcd项目),最大程度减少磁盘IO,保护硬盘寿命可自定义最大下载文件…

Hum Brain Mapp:青春期早期的灰质流失可以用白质生长来解释吗?

摘要 关于大脑发育的一个基本谜题是,为什么儿童进入青春期时,灰质(GM)体积明显减少,而白质(WM)体积明显增加。一种流行的理论认为,由于被修剪的突触太小而不足以影响脑灰质体积,因此大脑总体积保持稳定,而…

Puppeteer 是什么以及如何在网络抓取中使用它 | 2024 完整指南

网页抓取已经成为任何处理网页数据提取的人都必须掌握的一项重要技能。无论你是开发者、数据科学家还是希望从网站收集信息的爱好者,Puppeteer都是你可以使用的最强大工具之一。本完整指南将深入探讨什么是Puppeteer以及如何有效地在网页抓取中使用它。 Puppeteer简…

wifi模组Ai-M62-32S的IO映射和UDP透传测试

wifi模组Ai-M62-32S的IO映射和UDP透传测试 基本IO 映射配网示例开启UDP透传示例复位AT查询wifi是否在线配置DHCP静态IP连接wifi连接UDP开启透传 基本IO 映射 对于wifi模组Ai-62-32S来说其模组 IO 引脚(从模组左上角逆时针排序,引脚序号从 1 开始&#x…

LeetCode 2 两数相加

题目 给你两个 非空 的链表,表示两个非负的整数 它们每位数字都是按照 逆序 的方式存储的,并且每个节点只能存储 一位 数字 请你将两个数相加,并以相同形式返回一个表示和的链表 你可以假设除了数字 0 之外,这两个数都不会以…

小程序需要进行软件测试吗?小程序测试有哪些测试内容?

在如今移动互联网快速发展的时代,小程序已成为人们生活中不可或缺的一部分。然而,面对日益增长的小程序数量和用户需求,小程序的稳定性和质量问题日益突显。因此,对小程序进行软件测试显得尤为重要。 近期的一项调查显示&#xf…