6.26.4.1 基于交叉视角变换的未配准医学图像多视角分析

1. 介绍

        许多医学成像任务使用来自多个视图或模式的数据,但很难有效地将这些数据结合起来。虽然多模态图像通常可以在神经网络中作为多个输入通道进行配准和处理,但来自不同视图的图像可能难以正确配准(例如,[2])。因此,大多数多视图模型单独处理视图,只有在全局池化之后才将它们组合起来,这样就消除了视图之间的任何局部相关性。如果这些局部相关性对图像的解释很重要,则可以通过在更早的空间特征级别上链接视图来改进模型。

        提出了一种在空间特征图层次上链接未注册视图的方法。受基于注意力的Transformer模型[13]的启发,该模型在序列或图像的遥远部分之间建立连接,模型使用注意力来连接视图之间的相关区域。将此转换器应用于由CNN生成的中间特征映射。基于可训练的注意力机制,该模型从一个视图中检索特征并将其转移到另一个视图中,在那里它们可以用来为原始视图添加额外的上下文。

        提出的方法不需要像素对应{它比较视图A的特征映射中的所有像素与视图B的特征映射中的所有像素}但使用可训练的注意力模型组合视图。通过将其应用于特征映射而不是直接应用于输入,允许模型链接更高级别的特征并降低计算复杂性。由于链接所有像素对很昂贵,因此研究了一种替代实现,即在视觉标记中对具有相似特征的像素进行分组

        提出了这些新颖的基于像素和基于令牌的交叉视图转换方法,并将它们应用于两个公共数据集。尽管在全局池化之后结合特征是处理未注册医学图像的多视图信息的一种相对常见的方法,但据我们所知,还没有方法使用基于变换的方法在空间特征级别上做到这一点。所提出的模型可以很容易地作为一个模块嵌入到基线多视图架构中,这些架构在全局池化后组合视图。在CBIS-DDSM乳房x线摄影数据集[5,7]和CheXpert胸部x线数据集[6]上评估了我们的方法。通过实验认为早期的特征组合可以提高多视图图像的分类能力。 

2. 相关工作

        大多数方法都是在后期将视图组合起来,通常是通过将从不同视图中获得的特征向量连接起来,然后使用完全连接的部分进行最终预测。 综合全局特征对于乳房x线摄影图像来说很常见,但很难进行配准[2]。例如,Bekker等人[1]结合了来自特定于视图的分类器的二元预测。Carneiro等[2]在全局池化后结合了特定视图CNN分支的特征。Wu等人[16]讨论了在单个网络中组合视图的多种方法,所有方法都具有特定于视图的卷积分支。其他地方也提出了类似的架构(例如,[10,12])。

        其他作品则结合了区域层面的观点。Wang等人[14]提出了一种基于区域的三步方法:在从每个视图中提取大量ROI(感兴趣的区域)之后,使用带有注意力驱动方法的CNN从每个ROI中提取特定于视图的特征。最后,通过基于LSTM的融合模型将两个视图的特征与其他临床特征结合起来。同样,Ma等人[9]提出使用Faster R-CNN来检测每个视图中的roi,然后将其转换为特征向量并组合在多视图网络中。

        Zhao等人[17]的工作,应用了一种联合注意机制,将两个视图或两个侧面(左和右乳房)结合起来,生成通道和空间注意图,突出不对称区域。注意力加权的、特定于视图的分支的输出被汇集和连接起来,以产生最终的分类。与我们在视图之间传递特征值的方法不同,Zhao等人只使用交叉视图信息来计算交叉视图的注意权重。

        Rubin等人[11]评估了一个具有特定视图卷积分支、全局平均池化和共享全连接层的模型,并报告将正面和侧面视图结合起来可以提高分类性能。最近,Hashir等人[3]在大型胸部x射线数据集上比较了几种多视图模型,结果表明,虽然多视图数据对某些诊断任务有用,但正面视图对其他任务可能足够。 

3. 方法

3.1 基线模型

        单视图基线(图1a)遵循基本的ResNet架构。该网络由具有卷积和池化层的ResNet块堆栈组成,其次是全局平均池化和计算最终输出的完全连接部分。延迟连接基线(图1b)通过对每个视图使用单独的卷积分支,将该模型扩展到多个未注册视图。在全局池化之后,所有视图的特征向量被连接到一个共享的全连接部分来计算预测。这与其他工作中多视图数据的组合方式类似,如[16]。

3.2 跨视图Transformer模型 

        与传统的transformer中用于单个序列内部信息传输的自注意力机制不同,使用交叉视图注意力来在视图之间传输信息。 该交叉视图transformer在模型的卷积部分的中间层工作。在第三个ResNet块之后应用该模块,并在全局池化之前保留一个ResNet块。

        定义了这个模型的两个变体:一个像素级的变体,它将源视图和目标视图的像素连接起来;一个基于令牌的变体,其中目标视图的像素与源视图中的视觉令牌相连接。 

跨视图注意力

        使用带有缩放点积注意的多头注意模型[13]。对于每个注意头,使用具有特定视图权重的1 × 1卷积来计算源和目标像素的嵌入。将目标视图的嵌入特征映射重塑为查询矩阵Q\in R^{n\times d},并将源视图的特征映射重塑为键矩阵K\in R^{m\times d},其中d是嵌入的大小,m和n是源和目标像素的数量。我们还将原始源特征映射重塑为值矩阵V\in R^{m\times f},其中f是特征映射的数量。接下来,我们使用缩放后的点积注意函数[13]进行计算

\operatorname{Attention}(Q,K,V)=\operatorname{softmax}\left(\frac{\mathbf{Q}\mathbf{K}^\top}{\sqrt{d}}\right)\mathbf{V}\in\mathbb{R}^{n\times f} 

对于每个目标像素,计算源视图特征的加权和,从而产生每个注意头的 f 个新特征。根据目标特征映射的形状将输出重塑为 m\times f 个特征映射,并应用1 × 1卷积将这些特征映射约简为 f 个基于注意力的特征映射。

将基于注意力的特征映射a与目标数据的原始特征映射x组合,得到组合后的特征映射y:

y=\text{LayerNorm}(x+\text{Dropout}(\text{Linear}(a))) 

Linear是一个1×1卷积,将注意力特征映射到x的特征空间。得到的特征映射y用作以下ResNet块的输入。 

语义视觉标记

        通过分组语义相关的像素,用较少数量的视觉标记替换源像素。 对源特征映射应用了三层标记化过程。在第一层,给定平坦化的特征映射X\in R^{m\times f},其中m是源像素的数量,f是特征映射的数量,我们计算令牌T:

 \mathbf{T}=\mathrm{softmax}_m\left(\mathbf{X}\mathbf{W}_A\right)^\top\mathbf{X}.

空间维度上的softmax使用标记器权重W_A\in R^{f,L} 来计算空间注意图,然后使用它来计算T\in R^{L\times f}中每个标记L的加权特征和。

\mathbf{W}_R=\mathbf{T}_{in}\mathbf{W}_{\mathbf{T}\to\mathbf{R}} 

\mathbf{T}=\mathrm{softmax}_m\left(\mathbf{X}\mathbf{W}_R\right)^\top\mathbf{X}. 

 \mathbf{W}_{\mathbf{T}\to\mathbf{R}}\in R^{f\times f},之后重复\mathbf{W}_{\mathbf{T}\to\mathbf{R}}这个过程,在第三个标记化层中获得最终的标记T集合。在基于标记的交叉Vision Transformer中使用这些标记代替源像素。

4. 数据

CBIS-DDSM

        在预处理过程中,使用描述的方法裁剪扫描Wu等人[16]使用阈值分割来定位一个固定大小的裁剪窗口,该窗口包括乳房,但不包括大部分空白背景。将裁剪后的图像降采样至原始分辨率的1/16,以获得305 × 188像素的图像。将强度归一化为µ= 0和σ = 1,在每次扫描的非零前景像素上测量。

CheXpert数据集

        一个大型的公共数据集,包含正面和侧面胸部x射线扫描,标注了13种不同的观察结果,标记为阴性、阳性、不确定或未知。选择了具有完整的正面和侧面视图的就诊,并将患者随机分组进行训练(23628个样本,16810个独特患者),验证(3915s, 2802p)和测试(3870s, 2802p)。我们将图像归一化为µ= 0和σ = 1,并使用零填充来为每个视图获得一个恒定大小的390×390像素。

5. 实验

        比较了四种模型:单视图模型、后连接模型以及基于令牌和基于像素的交叉视图转换器。所有模型都使用相同的ResNet-18架构来处理卷积和池化块,直至全局平均池化层。在ImageNet上使用预训练的权重,由PyTorch提供。在全局平均池化之后,将两个视图的特征向量连接起来,并将其用作计算输出的单个完全连接层的输入。

        在交叉视图变压器中,使用双向注意力,并在最终ResNet块之前应用交叉视图变压器,将变压器特征添加到最终卷积和池化层的输入中。对于CBIS-DDSM数据集,评估了具有12或18个注意头和16,32或48个令牌的模型,以及基于像素的转换器。对于CheXpert数据集,使用基于令牌的转换器,具有6或12个注意头和16或32个令牌。在所有情况下,嵌入大小都设置为每个头部32个特征。

“未注册”的双视图图像指的是两个视图之间的像素对应关系是未知的或不确定的。这可能是因为图像是从不同的角度、时间或条件下捕获的,或者经过了某种变换(如旋转、缩放或平移),导致两个视图中的像素不能直接对应。

介绍了一种新的基于特征图的跨视图transformer方法,用于连接未注册的双视图图像,并在两个数据集上展示了其优于全局连接方法的性能。同时,该方法易于集成到现有的多视图模型中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/751267.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

创新实训博客(十三)——admin前端工作效果

管理/教师端前端工作汇总education-admin: 首先是登录注册页面的展示 管理员 首页 管理员登录后的首页如下图所示 管理员拥有所有的权限 课程管理 1、可以查看、修改、增添、删除课程列表内容 2、可以对课程资源进行操作 3、可以对课程的类别信息进行管理&…

一个最简单的MySQL事务模拟测试

这里只是简单写了一个转账的小事务,模拟一下事务的过程 代码: 初始数据: 当你关闭自动提交 并且开启一个事务执行了下面的更新语句 但是没有提交时: 此时虽然你运行查询语句会发现他的值发生了变化 ,但是当你运行回滚…

51单片机看门狗定时器配置

测试环境 单片机型号:STC8G1K08-38I-TSSOP20,其他型号请自行测试; IDE:KEIL C51; 寄存器配置及主要代码 手册中关于看门狗的寄存器描述如下: 启动看门狗,需将B5位EN_WDT置1即可,…

大数据------额外软件、插件及技术------Linux(完整知识点汇总)

Linxu 不同领域的主流操作系统 桌面操作系统 WindowsMAac OSLinux 服务器端操作系统 UNIX(付费)LinuxWindows Server(付费) 移动设备操作系统 Android(基于Linux开源)IOS(不开源) 嵌…

时间序列分析入门:概念、模型与应用【ARMA、ARIMA模型】

在这篇博客中,我们将全面探讨时间序列分析的基本概念和分类,深入理解平稳性及其检验方法,并介绍自回归模型(AR)、滑动平均模型(MA)、自回归滑动平均模型(ARMA)以及自回归…

动态流体工厂大屏

目录 一 设计原型 二 后台源码 一 设计原型 二 后台源码 namespace 动态流体工厂大屏 {public partial class Form1 : Form{public Form1(){InitializeComponent();}private void Form1_Load(object sender, EventArgs e){Task.Run(() >{while (true){this.Invoke(() >…

openEuler搭建hadoop Standalone 模式

Standalone 升级软件安装常用软件关闭防火墙修改主机名和IP地址修改hosts配置文件下载jdk和hadoop并配置环境变量配置ssh免密钥登录修改配置文件初始化集群windows修改hosts文件测试 1、升级软件 yum -y update2、安装常用软件 yum -y install gcc gcc-c autoconf automake…

模块化沙箱的优势与应用

在数字化时代,数据安全已成为企业乃至国家层面不可忽视的重要议题。随着云计算、大数据等技术的广泛应用,数据泄露、恶意攻击等安全威胁日益严峻。在这样的背景下,模块化沙箱技术应运而生,为企业提供了高效、灵活的数据安全解决方…

NAND闪存巨头铠侠(Kioxia)计划最迟于10月下旬通过首次公开募股IPO

据路透社于6月26日引用消息来源的报道,在半导体市场条件反弹及财务业绩迅速改善的背景下,NAND闪存巨头铠侠(Kioxia)正准备尽快提交初步申请,并计划最迟于10月下旬通过首次公开募股(IPO)在东京证…

【Hive中常见的优化手段----数据采集!Join 优化!Hive索引!数据倾斜!mapreduce本地模式!map和reduce数量调整!】

前言: 💞💞大家好,我是书生♡,今天主要和大家分享一下Hive中常见的优化手段----数据采集!常见的Join 优化有哪几种!什么是Hive索引!数据怎么发生倾斜!什么是mapreduce的本…

Pycharm 文件标头设置

一、设置模板步骤: “文件File--设置Settings--编辑器Editor--File and Code Templates- Python Script” 里面设置模板 官方预设变量表 变量名 含义 ${DATE} 当前系统日期 ${DAY} 当前月的第几日 ${DAY_NAME_SHORT} 当前星期几的单词缩写&#xff08…

Vue2配置前端代理

在8080向5000请求数据 clivue2 一、cli内配置前端代理 1、使用 发送请求时写8080 在配置文件中配置 vue.config.js 2、缺点 无法配置多个代理无法控制某个请求知否要代理 二、方式二 module.exports {devServer: {proxy: {/api1:{ //匹配所有以/api1开头的请求路径…

向量化算法 doc2vec

第1关:认识 Doc2vec Doc2vec 算法简介 Doc2vec 又叫做 Paragraph2vec, Sentence embeddings,是一种非监督式算法,可以获得句子、段落、文档的向量表达,是 Word2vec 的拓展。学出来的向量可以通过计算距离来找句子、段…

华为笔记本电脑d盘数据丢失:原因、恢复方案与防范建议

华为笔记本电脑以其高性能和稳定的品质赢得了众多用户的青睐,但即使是如此优质的设备,也难免遭遇数据丢失的困境。本文将围绕华为笔记本电脑D盘数据丢失这一问题,探讨其常见原因、恢复方案,并提出未来防范的建议,以帮助…

Go 延迟调用 defer

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

Transformer教程之循环神经网络(RNN)和长短期记忆网络(LSTM)

在当今人工智能和深度学习的世界中,Transformer模型已经成为了主流。然而,回顾过去,循环神经网络(RNN)和长短期记忆网络(LSTM)在序列数据处理上也曾风靡一时。本文将详细讲解RNN和LSTM的原理、应…

FPC板设计

在板框属性里面选择FPC软板: FPC补强为什么要比焊盘单边大1mm:补强区域需比焊盘大1.0mm以上,才能有效保护焊盘与线路交接处不断裂 补强板放在功能面的背面: 、金手指厚度计算工具:https://tools.jlc.com/jlcTools/#/ca…

Apollo9.0 PNC源码学习之Planning模块(一)—— 规划概览

0 前言 规划本质就是搜索问题,数学角度来看就是寻找函数最优解 规划模块复杂的就是相关的逻辑处理和过程计算 对于规划的三维问题,目前解决方案:降维+迭代 将SLT问题分解为ST和SL二维优化问题:在一个维度优化之后,再另一个维度再进行优化,最后整合成三维的轨迹。 虽然降…

2毛钱的SOT23-5封装28V、1.5A、1.2MHz DCDC转换器用于LCD偏置电源和白光LED驱动等MT3540升压芯片

前言 之前发了一个TI的BOOST升压芯片,用于LCD偏置电压或LED驱动,请访问以下链接。 6毛钱SOT-23封装28V、400mA 开关升压转换器,LCD偏置电源和白光LED应用芯片TPS61040 国产半导体厂家发展迅猛,今天推荐一个公司带“航天”的升压…

Vue.js中的虚拟DOM

一.节点和状态 在我们平常对DOM操作的时候,之前在vue没有诞生之前,以命令式的方式对DOM进行操作,页面上的每一个元素都可以看做成一个节点状态。 二.剔除和渲染 框架都有自己渲染的方式,假设一个页面的状态,随着Ajax请求的放松,状态发生改变,有以下的两种方式供你选择&#…