论文研读:ViT-V-Net—用于无监督3D医学图像配准的Vision Transformer

目录

摘要

介绍

方法

VIT-V-Net体系结构

损失函数 

图像相似性度量

变形场正则化

结果与讨论


摘要

在过去的十年里,卷积神经网络(ConvNets)在各种医学成像应用中占据了主导地位并取得了最先进的性能。然而,由于缺乏对图像中远程空间关系的理解,ConvNet的性能仍然受到限制。最近提出的用于图像分类的视觉转换器(VIT)使用了一种纯粹基于自我注意的模型,该模型学习远程空间关系以关注图像的相关部分。然而,由于连续的下采样,VIT强调低分辨率的特征,导致缺乏详细的定位信息,不适合图像配准。最近,几种基于VIT的图像分割方法被与ConvNets相结合,以提高对详细定位信息的恢复。受它们的启发,我们提出了VIT-V-Net,它连接了VIT和ConvNet,以提供3D医学图像配准。

介绍

近年来,由于在自然语言处理方面取得了巨大的成功,人们对开发基于自我注意的体系结构越来越感兴趣。、Dosovitski等人。(Dosovitski等人,2020)提出了视觉转换器(VIT),这是第一个纯粹基于自我注意的网络,并在图像识别方面取得了最先进的性能。在这一进展之后,TransUnet(Chen等人,2021年)是在用于二维(2D)医学图像分割的预先训练的VIT的基础上开发的。

然而,医学成像方式通常产生体积图像(即,3D图像),并且2D图像不能充分利用从3D体积获得的空间对应关系。因此,发展3D方法在医学图像配准中更为可取。在这项工作中,作者提出了一项研究,以研究VIT在体积医学图像配准中的应用。提出了一种采用混合ConvNet-Transformer结构的VIT-V-Net,用于自监督体图像配准。在该方法中,VIT被应用于运动图像和固定图像的高层特征,这需要网络学习图像中点之间的远距离关系。编码级和解码级之间的长跳跃连接被用来保持定位信息流。实验结果表明,简单地将VoxelMorph的网络结构替换为Vit-V-Net,就可以获得优于VoxelMorph和传统注册方法的性能。

方法

设f和m分别为固定图像和运动图像。我们假设f和m是单通道灰度图像,并且它们是仿射对齐的。我们的目标是预测一个变换函数φ,它将m(即m◦φ)翘曲到f,其中φ=Id+u,u表示位移矢量的流场,Id表示恒等式。图1概述了我们的方法。首先,深度神经网络(gθ)使用一组参数θ(即,u=gθ(f,m))为给定图像对f和m生成u。然后,通过空间变换函数执行翘曲(即m◦φ)(Jaderberg等人,2015年)。在网络训练过程中,比较m◦φ和f之间的图像相似度,并将损失反向传播到网络中。

图1 VIT-V-Net的方法概述和网络结构

VIT-V-Net体系结构

VIT-V-Net体系结构VIT在全分辨率体积图像中的应用导致了很大的计算复杂性。在这里,作者并没有将全分辨率图像直接送入VIT。

  • 通过一系列卷积层和最大值池(图1中的蓝框)将图像(即f和m)编码成高级特征表示。在VIT(橙色框)中,高层特征被分成N个矢量化的P^{3}*C块,其中N=\frac{HWL}{P^{3}}P表示块大小,C表示通道大小。
  • 使用可训练的线性投影将这些patch映射到潜在的D维空间。
  • 将可学习的position embedding添加到patch embedding以保留patch的位置信息。
  • 将生成的补丁送入Transformer编码器,该编码器由12个交替的多头自我注意(MSA)和多层感知器(MLP)块组成
  • 最后,对VIT的输出进行整形,然后使用V-Net风格的解码器进行解码。

图2 Vision Transformer模型概述 

(请注意,编码器和解码器之间也使用了长跳过连接。网络的最终输出是一个密集的位移场。然后将其用于空间变压器中,以扭曲m)。

损失函数 

本研究中使用的图像相似性度量是均方误差,以及由加权参数λ控制的扩散正则化,用于在位移场u中施加平滑。

用于训练所提出的网络的损失函数可以写成:

L(f,m,\Phi )=L_{MSE}(f,m,\Phi)+\lambda L_{diffusion}(\Phi)

其中,λ是正则化参数,f和m分别是固定图像和运动图像,φ表示变形场

图像相似性度量

以变形后的运动图像与固定图像之间的均方误差(MSE)作为损失函数。它被定义为:

L_{MES}(f,m,\Phi )=\tfrac{1}{\Omega }\sum_{p\in \omega }^{}[f(p)-m o\Phi]^{2}

变形场正则化

为了增强变形场的光滑性,使用了扩散正则化。它被定义为: 

L_{diffusion}(\Phi )=\sum_{p\in \omega }^{}||\bigtriangledown u(p)||^{2}

结果与讨论

作者在脑部核磁共振图像配准任务中进行了实验法。使用了一个内部数据集,其中包括260个T1加权的脑部MRI扫描。数据集被分成182、26和52(7:1:2)卷,用于训练、验证和测试集。将每个图像体积随机匹配到另外两个体积以形成四对f和m,得到768、104和208个图像对。结构脑MRI的标准前处理步骤,包括颅骨剥离、重采样和仿射变换,使用Freesurfer进行(Fischl,2012)。然后,将得到的体积裁剪成相等大小的160×192×224。使用Freesurfer获得了包括29个解剖结构的标记图以供评估。

将所提出的方法在Dice Score与对称正规化(SYN)NiftyReg以及VoxelMorph-1和-2进行了比较。正则化参数λ被设置为0.02,从结果可以看出,作者提出的VIT-V网络在Dice性能方面产生了0.1的显著收益(p值如表所示)。总之,基于VIT的注册体系结构取得了优于性能最好的注册方法的性能,证明了VIT-V-Net的有效性。

 表1 将所提出的方法与其他方法进行了总体骰子比较

图3 MR冠状切片的配准结果 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/796131.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

解决Ubuntu 22.04 vscode搜狗拼音输入无法输入中文

关闭vscode 编辑~/.bashrc,添加以下内容 export GTK_IM_MODULExim export QT_IM_MODULExim export XMODIFIERSimfcitx source ~/.bashrc && code 重新加载环境变量后启动code,即可以正常使用搜狗拼音输入法了

读人工智能全传11人工智能会出什么错

1. 人工智能会出什么错 1.1. 一些报道是公正合理的,不过坦白地说,大部分报道都愚蠢得无可救药 1.2. 一些报道颇有知识性和引导性,而大部分则是杞人忧天式的恐吓 1.3. 滑稽的报道迎合了大众对人工智能的“终结者式恐惧” 1.3.1. 我们创造出…

win10系统更新后无法休眠待机或者唤醒,解决方法如下

是否使用鼠标唤醒 是否使用鼠标唤醒 是否使用键盘唤醒

C# .net6使用Hangfire

首先我们先来了解什么是Hangfire? Hangfire 是一个用于 .NET 的任务调度库,允许你在后台运行任务,而不需要依赖外部的任务队列服务或复杂的基础设施。它简化了后台任务的创建、调度和管理过程,使得在 .NET 应用程序中处理长期运行…

昇思25天学习打卡营第25天 | ResNet50迁移学习

ResNet50迁移学习 https://gitee.com/mindspore/docs/blob/r2.2/tutorials/application/source_zh_cn/cv/transfer_learning.ipynb 在实际应用场景中,由于训练数据集不足,所以很少有人会从头开始训练整个网络。普遍的做法是,在一个非常大的…

嵌入式C++、Qt/QML和MQTT:智能工厂设备监控系统的全流程介绍(附代码示例)

1. 项目概述 本项目旨在开发一套先进的智能工厂设备监控系统,集成嵌入式技术、工业通信协议和人机界面等多项技术,实现对工厂设备的全方位实时监控、高精度数据采集和智能化分析。该系统将显著提升工厂设备的运行效率,大幅降低维护成本&…

Python数据分析-Excel和 Text 文件的读写操作

1.Excel和 Text 文件的读写操作 1. Text 文件读写包 import sys print(sys.argv[0]) print(__file__) print(sys.path[0]) qopen(sys.path[0] "\out.txt","w",encodingutf-8) q.write(这个是测试一下) q.close() print(done)open 语句可以打开的创建text…

案例 | 人大金仓助力山西政务服务核心业务系统实现全栈国产化升级改造

近日,人大金仓支撑山西涉企政策服务平台、政务服务热线联动平台、政务网、办件中心等近30个政务核心系统完成全栈国产化升级改造,推进全省通办、跨省通办、综合业务受理、智能审批、一件事一次办等业务的数字化办结进程,为我国数字政务服务提…

大鲸鱼—docker 基本概念及安装使用

目录 一、docker前言 1.什么是Docker? 2.Docker的宗旨 3.容器的优点 4.Docker与虚拟机的区别 5.Docker核心概念 镜像 容器 仓库 6.为什么要用容器 7.容器越来越受欢迎的原因 8.容器在内核中支持2种重要技术 二、Docker安装 三、Docker 镜像操作 1.搜…

<数据集>水稻叶片病害识别数据集<目标检测>

数据集格式:VOCYOLO格式 图片数量:1448张 标注数量(xml文件个数):1448 标注数量(txt文件个数):1448 标注类别数:3 标注类别名称:[BrownSpot,RiceBlast,BacterialBlight] 序号类别名称图片数框数1Rice…

uniapp微信小程序 TypeError: $refs[ref].push is not a function

我的写法 this.$refs.addPopup.open();报错 打印出来是这样的 解决 参考未整理 原因 在当前页面使用的v-for循环 并且循环体内也有组件使用了ref(而我没有把每个ref做区别命名) 这样就导致了我有很多同名的ref,然后就报错了 解决办法&a…

Java类与对象

类是对现实世界中实体的抽象,是对一类事物的描述。 类的属性位置在类的内部、方法的外部。 类的属性描述一个类的一些可描述的特性,比如人的姓名、年龄、性别等。 [public] [abstract|final] class 类名 [extends父类] [implements接口列表] { 属性声…

超声波清洗机哪家好?家用超声波眼镜清洗机推荐

超声波清洗机现在已经成为了很多家庭的新宠,它能够帮助我们轻松解决日常生活中的清扫烦恼。但是,面对市面上品种繁多的清洗机产品,我们该如何选择一款适合自己的呢?毕竟不同的品牌和型号,在清洗效果、噪音水平、除菌能力等方面都…

电商出海第一步,云手机或成重要因素

电商出海第一步并非易事,挑战和机遇并存,出海企业或个人或将借助云手机从而达成商业部署全球化的目的; 下面我们从网络稳定、数据安全、成本、以及多平台适配方面来看,究竟为什么说云手机会成为出海的重要因素; 首先…

虚幻引擎ue5游戏运行界面白茫茫一片,怎么处理

根剧下图顺序即可调节游戏运行界面光照问题: 在大纲里找到post,然后选中它,找到Exposure 把最低亮度和最高亮度的0改为1即可

提质增效,还看拖拽式报表设计器

随着业务量的增大,传统的报表已经无法满足发展需要了,借助于低代码技术平台、拖拽式报表设计器的优势特点,可以助力摆脱信息孤岛、部门之间协作沟通不畅的弊端,实现高效增值的市场价值。如果想实现提质、降本、增效等发展目标&…

基于AT89C51单片机的16×16点阵LED显示器字符滚动显示设计(含文档、源码与proteus仿真,以及系统详细介绍)

本篇文章论述的是基于AT89C51单片机的1616点阵LED显示器字符滚动显示设计的详情介绍,如果对您有帮助的话,还请关注一下哦,如果有资源方面的需要可以联系我。 目录 仿真效果图 仿真图 代码 系统论文 资源下载 设计的内容和要求 熟悉51系…

论文翻译:Large Language Models for Education: A Survey and Outlook

https://arxiv.org/abs/2403.18105 目录 教育领域的大型语言模型:一项调查和展望摘要1. 引言2. 教育应用中的LLM2.1 概述2.2 学习辅助2.2.1 问题解决(QS) 2.2.2 错误纠正(EC)2.2.3 困惑助手(CH)…

力扣 爬楼梯

动态规划算法基础篇。 class Solution {public int climbStairs(int n) {int[] f new int[n 1];f[0] 1;f[1] 1;//当爬到n阶楼梯时&#xff0c;可知是由n-1阶或n-2阶楼梯而来for(int i 2; i < n; i) {f[i] f[i - 1] f[i - 2];//后面的每一阶种数由前两个状态得到}ret…

Letter Exchange

这道题目看官方题解就好了&#xff0c;这个转换图论挺显然的 证明一下为什么最后一定是 显然练完贬值后图只能长成这个样子 在消掉长度为\(2\)的环后&#xff0c;如果说图没边了&#xff0c; 那么显然就不用交换了&#xff0c;否则的话我们任取一条边 那么对于\(2\)号点来说&am…