26、湾湾国立阳明交通大学、湾湾长庚纪念医院提出:ALL Attention U-Net,独属头部CT分割的[玛格丽特]

本文由台湾国立阳明交通大学、台湾长庚纪念医院2023年12月16日arXiv<Image and Video Processing>发表。

论文地址:

2312.10483.pdf (arxiv.org)

0、Abstract

脑出血在 Head CT扫描中作为第一线工具,帮助专家诊断不同类型的出血。然而,在同一类型中,它们的形状各异,但在形状、大小和位置上相似且令人困惑。为了解决这个问题,本文提出了一种全注意力U-Net。它在U-Net编码器侧使用通道注意力来增强特定类别的特征提取,而在U-Net解码器侧使用空间和通道注意力进行更准确的形状提取和类型分类。模拟结果显示,与 Baseline 、ResNet50+U-Net相比,提高了31.8%,并且在有限注意力情况下表现更好。

1、Introduction

Head CT扫描是急诊室广泛接受的第一线工具,用于处理 Head 损伤、中风或其他颅内病变,因为它具有短的获取时间。识别个体病变类型和区域对于诊断非常重要,但也非常耗时,尤其是对于小而紧急的疾病。近年来,利用深度学习进行医学图像分析是一种有前景且表现良好的方法,已经在识别糖尿病性视网膜病变、分类皮肤病变、胸部CT异常检测、X射线图像和 Head CT等方面得到应用。

对于作者的目标问题, Head CT扫描中的颅内出血,语义分割可以帮助定位和量化这些疾病模式。然而,由于 Head CT扫描中的颅内出血有七种类型,且同一种类型的出血形状不同,不同类型的出血形状相似,大小和位置相似,这给深度学习网络带来了挑战。

Head CT扫描中的颅内出血的语义分割也面临着高分辨率输入(高达512x512)的挑战,由于某些极小的病变尺寸,无法通过调整图像大小来进行训练和测试。此外,这也阻止了使用某些需要大量内存进行训练的高级模型,从而使得批量大小变得太小甚至无法训练。在深度学习模型中,U-Net已经广泛应用于医学图像分析,由于其较小的训练成本和即使在少量数据情况下表现出色,因此在医学图像案例中得到了广泛应用。然而,原始U-Net架构由堆叠卷积组成,没有增强不同通道和层信息的依赖性。这使得很难提取全局特征并生成正确的形状进行医学图像分析。

为了提高性能,已经提出了各种增强版本的U-Net。一种方法是采用最新的分类网络作为U-Net架构的 Backbone [11][12][13]。另一种方法是使用不同的聚合方法将不同 Level 的特征结合。然而,这些聚合方法,其中聚合单元通过一系列嵌套和密集的跳过路径连接,消耗过多的计算和内存。

此外,对于目标问题,它们的表现仍然受到限制,如作者的实验结果所示。另一种方法是使用可以增加感受野并改善模型中长程依赖关系的注意力机制,而无需添加太多计算和参数。这些注意力网络包括在空间、通道或组维度上的注意力,已集成到U-Net解码器侧。然而,解码器侧输入特征图的通道映射仍然被破坏,这需要进一步改进,尤其是对于变异率高的病变数据集。此外,没有人考虑了编码器侧的注意力问题。

为了解决上述问题,作者提出了全注意力U-Net,通过在U-Net编码器侧使用通道注意力和在U-Net解码器侧使用空间和通道注意力来解决形状、大小和位置之间的冲突。模拟结果显示,所提出的网络可以预测各种颅内出血,但仍具有较小的模型大小,这优于 Baseline ResNet50+U-Net和仅有一种注意力U-Net。

2、Dataset

该数据集包含总共51个案例,每个案例约2,048张来自台湾长庚纪念医院的 Head CT扫描图像,这些CT扫描图像均由专业医生进行标记。数据使用得到了当地研究伦理委员会的批准。切片数量在每例案例中从30到50不等。这些案例包括7种颅内出血类型,即脑内出血(ICH)、急性硬膜下血肿(SDH)、蛛网膜下腔出血(SAH)、外膜下血肿(EDH)、慢性硬膜下血肿(CSDH)、气颅、脑室内出血(IVH)。

2.1 Data Imbalance And High Resolution Images

与其他医学图像数据集一样,由于 GT 标记的困难,作者的数据集也相对较小。此外,一个案例中的许多扫描显示没有病变(约占46.55%),如图1所示,病变区域在大多数扫描中都很小。

这种数据不平衡会导致训练困难。此外,CT扫描图像的大小较大,为512 x 512。高分辨率输入将消耗过多的GPU内存并延长训练时间。然而,由于某些类型的病变区域(如图2所示,不到20像素)在缩放图像时将被移除,因此无法重新缩放这些图像。

2.2 High Variety of Lesions

图1显示了不同颅内出血的示例。一张图像可能包含一到几种病变。但是,如果同时出现类似的病变,将很难区分,即使是专家。

例如,EDH和SDH在质地和位置上相似(如图3所示),唯一的区别是它们的形状。其他令人困惑的病变有SAH、IVH和ICH,在某些情况下形状和大小相似。

此外,即使在同一类型的病变中,其形状和大小也有很多变化,如图1所示的ICH。CSDH可以通过其纹理特征来确定,但并非所有这种特征都是CSDH。气颅的像素区域非常小,如图2所示,每个扫描中的像素数量为15到86个。专家总是需要放大CT图像来观察这个病变,这非常费力和耗时。所有这些都为网络设计带来了挑战。

3、Network Architecture

图4显示了作者基于著名的U-Net提出的网络,该网络包含编码器和解码器路径以及编码器和解码器路径之间的直接跳过连接。编码器方面采用最先进的分类网络ResNeSt50作为 Backbone ,因为它结合了通道注意力和ResNet来丰富特征提取。

通过将通道分组并在它们上执行通道注意来突出重要的通道组并抑制不必要的通道。在本论文中,为了进一步选择性地增强所需特征,不同分辨率的提取特征图首先通过空间注意力进行选择性增强以突出形状,然后通过解码器路径上的插值和通道注意进行聚合。

此外,与原始U-Net中的直接跳过连接不同,本文中的跳过连接由1x1卷积和ReLU组成,以降低较低的复杂性。在这些跳过连接中,为了保留精确的位置信息,最低级特征来自输入图像在两个3x3卷积和ReLU层后的直接跳过。对于解码器路径,本文在修复破坏的通道映射以获得更好的类别和形状预测方面,增加了通道注意力块。

3.1 Decoder Side - Channel Attention

通道图可以被视为特定类别的响应。然而,在一系列路径聚合和转换之后,通道图会被破坏。为了解决这个问题,作者在解码器侧添加了通道注意力,使上下文表示更具类特定性。

作者将前一层输出和空间注意力块的输出进行拼接,将结果上采样两倍,然后应用具有全局平均池化的通道注意力模块和两个全连接层(FC)及符号函数。在这个模块中,作者使用Group Normalization (GN)而不是Batch Normalization (BN)以更好地适应GPU内存大小并获得更好的性能。

3.2 Path Aggregation With Space Attention

对于 Head CT扫描中的颅内出血,位置信息是一个重要特征,因为某些类型的病变只发生在某些区域。某些病变的形状和大小差异很大,这使得模型很难正确预测。此外,一些病变非常小,其空间细节在级联卷积和变换过程中很容易丢失。

为了解决这些问题,本文采用空间注意力[18]如图5所示,以自动学习关注特定病变区域,从而消除后处理的必要性。这个模块通过将通道注意力和相邻不同分辨率特征合并,并对其应用空间注意力来聚合不同层级的特征图。在这里,作者采用Group Normalization (GN)和实例归一化(IN)代替Batch Normalization (BN),以获得更好的输入特定结果。

4、Result

4.1 Experimental Setting

该模型使用连续的三张CT图像作为输入,通过结合相邻信息更准确地预测中心图像。输入进一步通过许多自增强技术(如随机旋转、裁剪、翻转、改变对比度、亮度和饱和度)进行增强,以避免由于数据过少而导致的过拟合。模型在四个NVIDIA RTX-2080Ti GPU上进行训练,使用AdamW优化器,循环学习率,混合精度。

此外,损失函数采用类加权Focal Loss来缓解数据不平衡问题。使用Dice得分系数作为评估指标,并将数据集分为训练(78%)、验证(7.5%)和测试集(14.5%)。

值得注意的是,为了避免对准确性的过高估计,作者根据不同的患者案例而不是随机选择切片图像来划分数据集,因为同一患者案例的分布相似。

4.2 Result

表1显示了评估结果。所提出的网络(RSU + SC)在大多数病变病例中的准确率最高,在其他病变病例中也接近最佳,这表明作者对这些具有挑战性的病变类型的网络具有强大的泛化能力。

与表1中的先前网络相比,由于SDH、EDH和SAH等特定病变具有高度相似的特征,它们学习起来很困难。预测结果如图1和6所示。

对于注意力机制,空间注意力和通道注意力各自具有优势。在路径聚合部分使用空间注意力的原因是它们通常发生在某些特定的区域。空间注意力有助于提取位置信息并使形状更准确。在解码器部分使用通道注意力可以改善大多数情况的检测,因为它减少了错误的识别机会并使预测形状更准确。

最后,所提出的网络(RSU + SC)结合了空间注意力和通道注意力的优点。它解决了由路径聚合引起通道图破坏的问题。与基准ResNet50 + U-Net相比,作者提出的模型中每个病变的Dice系数改进分别为2.25%,28.6%,25.1%,31.8%,6.1%,1%对于ICH、SDH、SAH、EDH、CSDH、气颅、脑室内出血。

5、Conclusion

本文提出了一种全注意力U-Net来解决CT扫描上颅内出血的分割问题。所提出的网络使用通道注意来突出特定类别的特征,使用空间注意来突出与疾病相关的特征。注意力机制被集成到U-Net的两侧,以在不增加太多参数的情况下获得最大的好处。评估结果显示与基准相比提高了31.8%,并优于其他分割网络。

6、给个关注呗

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/266117.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

AI技术图像编辑 Luminar Neo最新中文 for Mac

Luminar Neo是一款功能强大的AI智能图像处理工具&#xff0c;借助Luminar Neo领先的AI技术和灵活的工作流程&#xff0c;用户可以完成创意任务并获得专业品质的编辑结果。以下是该软件的主要特点和功能&#xff1a; 支持多种文件格式&#xff1a;Luminar Neo支持多种文件格式&…

Android模拟器的安装和adb连接

一、前置说明 APP 自动化可以使用真机进行测试&#xff0c;也可以使用模拟器来模拟安卓设备。我们可以根据个人喜好安装模拟器&#xff0c;个人推荐安装两款模拟器&#xff1a;网易 MuMu 模拟器、夜神模拟器。 MuMu模拟器可以支持 Android 12 版本&#xff0c;优点是&#xf…

docker-compaose部署openldap

前段时间在本地搭建了一套gitlab geo测试环境&#xff0c;因为需要集成ldap&#xff0c;所以特意搭建下&#xff0c;特此作为笔记记录下。 文章目录 1. 前置条件2. 编写docker-openldap.yml文件3. 登录4. 使用创建组创建用户登录测试 1. 前置条件 安装docker-compose 安装docke…

el-select绑定值的坑

碰到一个问题&#xff0c;选择框的数据是后端传过来的&#xff0c;下拉框的数据也是后端传过来的&#xff0c;但是打开下拉框时&#xff0c;发现数据没有高亮。 最后发现&#xff0c;只要选择框v-model给的值和option的value绑定的值一致&#xff0c;就可以高亮。 大多数情况下…

041_小驰私房菜_MTK平台添加支持通过原生Camera API接口调用UsbCamera

平台:MTK 问题:通过调用Android Camera API去调用UsbCamera,需要做哪些修改? Google官方文档,关于usbcamera的支持: 外接 USB 摄像头 | Android 开源项目 | Android Open Source Project 相关修改内容如下: 一、MTK平台支持通过标准接口打开USB Camera 1)device相…

springboot集成websocket全全全!!!

一、界面展示 二、前置了解 1.什么是websocket WebSocket是一种在单个TCP连接上进行全双工通信的持久化协议。 全双工协议就是客户端可以给我们服务器发数据 服务器也可以主动给客户端发数据。 2.为什么有了http协议 还要websocket 协议 http协议是一种无状态&#xff0c;非…

红帆iOffice iorepsavexml.aspx接口存在任意文件上传漏洞 附POC

@[toc] 红帆iOffice iorepsavexml.aspx接口存在任意文件上传漏洞 附POC 免责声明:请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息或者工具而造成的任何直接或者间接的后果及损失,均由使用者本人负责,所产生的一切不良后果与文章作者无关。该文章仅…

为什么react call api in cDidMount

为什么react call api in cDM 首先&#xff0c;放到constructor或者cWillMount不是语法错误 参考1 参考2 根据上2个参考&#xff0c;总结为&#xff1a; 1、官网就是这么建议的&#xff1a; 2、17版本后的react 由于fiber的出现导致 cWM 会调用多次&#xff01; cWM 方法已…

16-高并发-队列术

队列&#xff0c;在数据结构中是一种线性表&#xff0c;从一端插入数据&#xff0c;然后从另一端删除数据。 在我们的系统中&#xff0c;不是所有的处理都必须实时处理&#xff0c;不是所有的请求都必须实时反馈结果给用户&#xff0c;不是所有的请求都必须100%一次性处理成功…

如何查看内存卡使用记录-查看的设备有:U盘、移动硬盘、MP3、SD卡等-供大家学习研究参考

主要功能 USB Viewer&#xff08;USB移动存储设备使用记录查看器&#xff09;可用于查看本机的USB移动存储设备使用记录。可查看的设备有&#xff1a;U盘、移动硬盘、MP3、SD卡……等。   可用于兵器、航空、航天、政府、军队等对保密要求较高的单位&#xff0c;可在计算机保…

ubuntu22.04+ROS2推荐匹配的gazebo版本

放大以后看到&#xff1a; 可以看到ros2推荐使用版本是humble-----匹配的是Ubuntu22.04LTS -------匹配gazebo Harmonic

论文阅读——Flamingo

Flamingo: a Visual Language Model for Few-Shot Learning 模型建模了给定交织的图片或支视频的条件下文本y的最大似然&#xff1a; 1 Visual processing and the Perceiver Resampler Vision Encoder&#xff1a;from pixels to features。 预训练并且冻结的NFNet&#xff…

每次maven刷新jdk都要重新设置

pom.xml <java.version>17</java.version> 改为<java.version>1.8</java.version>

【LeetCode:1962. 移除石子使总数最小 | 堆 + 贪心】

&#x1f680; 算法题 &#x1f680; &#x1f332; 算法刷题专栏 | 面试必备算法 | 面试高频算法 &#x1f340; &#x1f332; 越难的东西,越要努力坚持&#xff0c;因为它具有很高的价值&#xff0c;算法就是这样✨ &#x1f332; 作者简介&#xff1a;硕风和炜&#xff0c;…

变限积分求导(带参,极限)

方法 一般形 带参数方程形 带极限型

Koordinator 支持 K8s 与 YARN 混部,小红书在离线混部实践分享

作者&#xff1a;索增增&#xff08;小红书&#xff09;、宋泽辉&#xff08;小红书&#xff09;、张佐玮&#xff08;阿里云&#xff09; 背景介绍 Koordinator 是一个开源项目&#xff0c;基于阿里巴巴在容器调度领域多年累积的经验孵化诞生&#xff0c;目前已经支持了 K8s…

Windows安装cnpm报错 The operation was rejected by your operating system.

Windows在安装cnpm时出现如下错误 npm ERR! The operation was rejected by your operating system. npm ERR! Its possible that the file was already in use (by a text editor or antivirus), npm ERR! or that you lack permissions to access it. npm ERR! npm ERR! If y…

Vue3中使用props和emits详解

前言 在Vue3中&#xff0c;父子组件之间的数据传递是一个常见的需求。本文将介绍如何在Vue3中传递对象&#xff0c;并且在子组件中访问和修改父组件对象中的属性值&#xff0c;以及子组件如何调用父组件中的方法。 在 Vue 3 中&#xff0c;父子组件之间传值有以下作用&#xf…

Chatgpt如何共享可以防止封号!

ChatGPT 是一个基于 GPT-3.5/GPT-4 模型的对话系统&#xff0c;它主要用于处理自然语言对话。通过训练模型来模拟人类的语言行为&#xff0c;ChatGPT 可以通过文本交流与用户互动。每个新版本的 GPT 通常都会在模型规模、性能和其他方面有一些改进。在目前免费版GPT-3.5 中&…

【Vulnhub 靶场】【Corrosion: 1】【简单】【20210731】

1、环境介绍 靶场介绍&#xff1a;https://www.vulnhub.com/entry/corrosion-1,730/ 靶场下载&#xff1a;https://download.vulnhub.com/corrosion/Corrosion.ova 靶场难度&#xff1a;简单 发布日期&#xff1a;2021年07月31日 文件大小&#xff1a;7.8 GB 靶场作者&#xf…