文献学习-23-MRM:用于遗传学医学图像预训练的掩码关系建模

MRM: Masked Relation Modeling for Medical Image Pre-Training with Genetics

Authors:  Qiushi Yang, Wuyang Li, Baopu Li, Yixuan Yuan

Source: ICCV 2023

Abstract:

关于自动多模态医疗诊断的 ODERN 深度学习技术依赖于大量的专家注释,这既耗时又令人望而却步。最近基于掩码图像建模 (MIM) 的预训练方法在从未标记数据中学习有意义的表示并转移到下游任务方面取得了令人瞩目的进展。然而,这些方法只关注自然图像,而忽略了医疗数据的具体属性,导致下游医学诊断的泛化性能不尽如人意。在本文中,旨在利用遗传学来促进图像预训练,并提出一个掩蔽关系建模(MRM)框架。在以前的MIM方法中,没有显式屏蔽输入数据,导致疾病相关语义的丢失,而是设计了关系掩码来屏蔽自模态和跨模态级别的标记特征关系,从而在输入中保留了完整的语义,并允许模型学习丰富的疾病相关信息。此外,为了增强语义关系建模,提出了关系匹配来对齐完整特征和掩码特征之间的样本关系。关系匹配通过鼓励特征空间中的全局约束来利用样本间关系,为特征表示提供足够的语义关系。大量实验表明,所提出的框架简单而强大,在各种下游诊断任务中实现了最先进的转移性能。

在医学诊断中,大规模的多模态生物样本库数据,例如图像和遗传学,对于可靠的诊断是必要的,克服了单一模式的有限规模和疾病信息数据。然而,大规模数据集的专家注释令人望而却步,这使得训练传统的深度模型变得困难。特别是在这种多模态场景中,各个医学领域专家的要求阻碍了足够的注释访问,严重限制了自动诊断系统的接地。为了解决这个问题,最流行的趋势是自监督预训练,例如,掩码图像建模(MIM),旨在训练具有足够泛化能力的无标签模型。现有的MIM方法屏蔽了输入图像中的大部分补丁,并推断出缺失的内容,如图1(a)所示。利用上下文信息来浏览语义并重建整个图像,从而执行掩码和重构任务,以在没有注释的情况下预训练模型,并将有意义的表示转移到各种用于改进标签效率微调的下游任务。尽管取得了巨大的成功,但大多数作品都是为自然图像设计的,忽略了医学数据与自然图像之间的本质区别。因此,根据经验发现,现有的MIM不能在医学数据中很好地工作(见表1),甚至完全无法重建疾病(见图3)。原因源于对重大数据差异的批判性观察,可以将其概括为两个挑战。首先,与自然图像相比,医学数据中的语义区域有限。如图1(a)所示,语义丰富的前景始终是自然图像的主体,而其余非信息性背景区域仅代表一小部分。不同的是,在医学图像(图1(b))中,大多数区域是背景,而信息丰富的疾病区域通常规模很小。

在现有的MIM方法中屏蔽整个标记的策略下,如果疾病标记被屏蔽掉,则与疾病相关的语义将完全丢失,并导致灾难性的信息丢失,从而导致无法处理的重建。这个问题也存在于基因组学和自然图像之间。基因组学中的语义区域,即疾病相关模式,主要位于少数基因组片段中[28,5,7]。因此,这些观察结果并没有屏蔽整个输入标记,而是促使深入研究标记级关系的掩码,这保留了丰富的语义可判别性和充分的自我监督,如图 1 (c) 左图所示。第二个挑战是有限的语义关系。在自然图像中,背景和前景的关系,例如,天空中的鸟和房间里的人,往往是繁荣和丰富的,在语义水平学习中起着关键作用。相比之下,在每个医学数据样本中,疾病意识关系是有限的,不足以提供足够的鉴别证据。原因在于,医学数据集通常是从同一个人体器官(例如眼底)收集的,其中包含冗余和相似的解剖模式(例如毛细血管),这严重阻碍了疾病与复杂医学场景之间的关系建模。这一挑战阻碍了现有MIM方法中的可靠关系学习,并可能不可避免地导致后台中非信息关系的过度拟合。因此,考虑到每个数据样本中的有限语义关系,致力于超越独立和单个数据样本的自监督学习,并建议鼓励利用样本间关系的全局约束(见图1(c)右)。

为了应对上述挑战,如图1(c)所示,提出了MRM,这是一种从统一的关系视图中屏蔽的关系建模,包含关系掩蔽和关系匹配,以合理地预训练具有遗传学的多模态医学图像。为了在原始输入中保留完整的语义信息,设计了关系掩蔽策略,使模型能够学习与疾病相关的语义。关系掩码不是屏蔽输入数据,而是在自模态和跨模态级别上研究特征表示中的标记关系,并屏蔽所有多模态标记之间的关系。关系掩码使模型能够从原始数据中显式学习全局依赖性,而不会遗漏与疾病相关的语义信息。此外,为了改进语义关系建模,设计了关系匹配,通过对齐多个样本的特征关系来提供全局约束。具体而言,关系匹配利用自模态和跨模态水平上的样本关系来鼓励完整特征和掩蔽特征之间的关系一致性。这具有每个样本像素级重建损耗的互补优势,并提高了模型的传递能力。通过预训练模型,可以获得可以转移到监督下游诊断任务的特征表示,以提高标签效率的微调,从而缓解对专业注释的严格需求。

本文的贡献分为四个部分:

• 确定了当前 MIM 方法对医疗数据的挑战,并提出了 MRM,这是一种使用多模态医疗数据的掩蔽关系建模,以促进图像表示学习。

• 针对医疗数据中语义区域有限的问题,设计了关系掩码来掩蔽跨自我和跨模态的特征关系。与MIM显式掩蔽输入不同,关系掩蔽保留了输入中的疾病语义,赋予了强大的掩码和构造任务。

• 此外,为了丰富疾病之间的语义关系,提出关系匹配方法,通过在自身和跨模态水平上对齐完整特征和掩蔽特征之间的样本特征关系来捕捉丰富的疾病相关关系。

• 使用两个公共医疗预训练数据集对各种下游任务进行广泛的迁移评估表明,所提出的框架比最先进的方法具有更好的转移能力。

图 1.比较自然和医学数据的不同掩蔽策略。(a):现有的MIM方法屏蔽输入的自然图像,并推断缺失的内容,通过重构任务学习语义表征。(b):最近的疾病诊断预训练方法明确地在输入的医学数据(例如,医学图像和基因组)上采用MIM,而它们容易丢失微小的疾病区域并导致无法处理的重建。(c):该方法在多模态数据中屏蔽了标记特征关系,匹配了完整特征和掩码特征之间的样本关系,保留了完整的语义区域并丰富了关系信息。

图2.掩码关系建模 (MRM) 概述。MRM 包含关系掩码,用于屏蔽标记、特征关系,同时保留与疾病相关的语义,以及关系匹配,以强制全局语义建模的样本关系一致性。

如图 2 所示,所提出的 MRM 包括关系掩蔽策略,以屏蔽特征关系并保留完整的疾病相关语义,以及关系匹配,为关系建模提供全局约束。使用输入图像习和基因组,ViT编码器fI和自归一化网络(SNN)通过关系掩蔽产生图像和基因组的掩码特征表示。同样,完整的表示由两个编码器获得,没有关系掩码。然后,将掩蔽特征,M与来自其他模态的完整特征聚合,分别得到融合特征。然后将这些融合特征放入图像解码器和基因组解码器中,以重建原始数据和。在完整和屏蔽的特征表示上采用关系匹配,并处理数据重建损失,以共同优化整体框架。

使用关系掩蔽进行重建。将输入数据输入到两个共享参数的网络中,其中第一个网络由一个 ViT 编码器组成,以产生完整的图像特征,以及一个具有自注意力块的 SNN 编码器,以产生基因组特征。同时,第二个网络在前两个注意力块中采用所提出的自模态和跨模态关系掩蔽,分别为图像和基因组生成掩蔽特征。之后,将掩蔽的特征与其他模态的完整特征合并,并产生图像和基因组的合并特征。然后将融合的特征放入解码器以重建图像和基因组。

关系掩码策略利用标记-特征关系进行掩码和重构任务。值得注意的是,尽管去除了强关系,但保留了数据中的内在信息。因此,以原始的完整图像和基因组为输入,的关系掩蔽可以保留完整的疾病相关语义。通过基于关系掩蔽的重建任务,鼓励模型恢复自我模态关系,以捕获每个模态内的疾病相关信息,并强制执行跨模态关系进行重构,学习丰富的多模态知识,以提高疾病相关表征,从而有效地转移下游诊断任务。

考虑到疾病之间的疾病感知关系在医学数据中是有限的,为了提供足够的语义关系,本文提出了关系匹配,这是一种全局约束,用于对齐自模态和跨模态样本的样本关系,以在特征空间中执行全局约束。

在预训练阶段,图像和基因组作为多模态输入被输入到模型中。采用所提出的关系掩码来生成掩码特征,并采用关系匹配作为全局约束,并结合数据重建损失来共同优化整体框架在基于下游图像的微调阶段,丢弃基因组分支,并利用图像编码器提取了特征表示,而无需进行关系掩码。在随机初始任务相关头之后,预训练的编码器在下游任务上进行微调以进行评估。

表 1.通过对四个基于下游视网膜图像的任务进行微调评估,与最先进的预训练算法进行比较。

表 2.在下游病理图像任务上转换的结果。

图3.不同方法重建结果的比较。从左到右分别是原始输入和MAE [16]、AttMask [19]和MRM的重建图像。可以观察到,MRM可以保留以蓝色为框架的疾病区域,而基于MIM的方法则丢失了它们。

表 3.在视网膜图像任务中,每个拟议成分在关系掩蔽和关系匹配方面的消融研究。

图4.消融研究。(a) 图像和基因组的掩蔽比τI和τG。(b) 两个损失函数的平衡系数λ。

表 4.基因-图像关联分析结果。

表 5.在基于视网膜图像的任务上使用单一图像模态预训练转换结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/505368.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【KingSCADA】播放语音

1.函数介绍 PlaySound(string strWaveFileName, int nMode);下面是官方帮助文档中的解释: 2.生成语音文件 3.使用脚本播放音频文件 将音频文件存放在工程目录下面,我存放在了…\Resources\文件夹下: 我简单的写了一个定时1分钟播放一次语…

【MATLAB源码-第23期】基于matlab的短时傅里叶STFT信号变换仿真,得到信号的时频曲线图。

操作环境: MATLAB 2022a 1、算法描述 短时傅里叶变换(Short-Time Fourier Transform,STFT)是傅里叶变换的一种扩展,用于分析信号在时域和频域上的变化。描述如下: 1. **时域与频域分析**: …

使用 Seq2Seq 模型进行文本摘要

目录 引言 1 导入数据集 2 清洗数据集 3 确定允许的最大序列长度 4 选择合理的文本和摘要 5 对文本进行标记 6 删除空文本和摘要 7 构建模型 7.1 编码器 7.2 解码器 8 训练模型 9 测试模型 10 注意 11 整体代码 引言 文本摘要是指在捕捉其本质的同时缩短长文本的…

windows平台虚拟机安装

windows平台虚拟机安装 1. 安装VMwareWorkstationPro 1.1 软件下载 官网下载 官网 百度网盘下载 版本 VMwareWorkstationPro16 链接:https://pan.baidu.com/s/1LidMxoM9e4a4CANixyRoyg?pwd1157 提取码:1157 1.2 软件安装 软件安装注意事项 软件…

Mamba和状态空间模型(SSM)的视觉指南:替代 Transformers 的语言建模方法

原文地址: A Visual Guide to Mamba and State Space Models 2024 年 2 月 19 日 论文地址:https://arxiv.org/pdf/2312.00752.pdf 这篇论文介绍了一种新型的线性时间序列模型Mamba,它通过选择性状态空间(Selective State Space…

详解CAS(Compare and swap)

一、什么是 CAS CAS: 全称Compare and swap,字⾯意思:”⽐较并交换“,⼀个 CAS 涉及到以下操作: 我们假设内存中的原数据V,旧的预期值A,需要修改的新值B。 比较 A 与 V 是否相等。(⽐较) 如果…

【A-013】基于SSH的共享单车管理系统/共享单车出租系统

【A-013】基于SSH的共享单车管理系统/共享单车出租系统 开发环境: Eclipse/MyEclipse、Tomcat8、Jdk1.8 数据库: MySQL 适用于: 课程设计,毕业设计,学习等等 系统介绍: 基于SSH开发的共享单车管理系统/…

python mysql错误如何处理

错误代码类型:pymysql.err.InternalError: (1054, "Unknown column jack in field list") import pymysql d_mysql {host: 127.0.0.1, port: 33333,user: *****,password: *****,db: *****,charset: utf8} conn pymysql.connect(**d_mysql) cur co…

Latex自学以及安装使用教程

你就按部就班的来,准没问题。 Step1:下载Tex live和Tex studio,安装教程参考自:LaTeX的安装教程(Texlive 2020 TeX studio) Step2: (非必要)vscodeLatex,参考自:使用VSCode编写LaTe…

基于OrangePi Zero2的智能家居项目(开发阶段)

智能家居项目的软件实现 紧接上文 基于OrangePi Zero2的智能家居项目(准备阶段)-CSDN博客 目录 一、项目整体设计 1.1项目整体设计 1.2具体划分 二、开发工作的前期准备 1、进行分类,并用Makefile文件进行管理 参考:自己创…

条形图、柱状图的绘制方法

【题目描述】 用*号输出柱状图。第一行输入一个整数n表示数据个数,第二行输入n个整数,用空格隔开。n和输入的数都不超过20。 【样例输入】 7 5 1 1 8 1 1 5 【样例输出】 1.条形图(水平柱状图) 样例中的柱状图属…

C++刷题篇——06整理扑克牌

一、题目 二、解题思路 特别注意多组三张两张组合的情况 具体思路的见代码注释部分 三、代码 #include<iostream> #include<vector> #include<string> #include<map> #include<algorithm>using namespace std;vector<int>split(string p…

2-Prometheus监控主机

文章目录 1 介绍2 部署2.1 下载2.2 解压到指定目录2.3 配置进程管理2.4 程序启动参数2.5 启动和监听 3 添加到 Prometheus4. 指标4.1 通过页面查看指标数据4.2 查看都有哪些指标4.3 指标数据规范 5 程序运行参数 1 介绍 Prometheus 使用 node_exporter 服务程序监控 Linux 主机…

【前端面试3+1】07vue2和vue3的区别、vue3响应原理及为什么使用proxy、vue的生命周期中在什么时期给接口发请求、【找出数组最大公约数】

一、vue2和vue3的区别 1.性能优化&#xff1a; Vue 3在性能方面有很大的提升&#xff0c;主要是通过虚拟DOM的优化和响应式系统的改进实现的。 虚拟 DOM 重构&#xff1a;Vue 3 中对虚拟 DOM 进行了重构&#xff0c;使得更新算法更加高效&#xff0c;减少了更新时的开销&#x…

LCX端口转发

LCX介绍 LCX是一款端口转发工具&#xff0c;分为Windows版和Linux版&#xff0c;Linux版本为PortMap。LCX有端口映射和端口转发两大功能&#xff0c;例如当目标的3389端口只对内开放而不对外开放时&#xff0c;可以使用端口映射将3389端口映射到目标的其他端口使用&#xff1b…

iOS问题记录 - App Store审核新政策:隐私清单 SDK签名(持续更新)

文章目录 前言开发环境问题描述问题分析1. 隐私清单 & SDK签名1.1. 隐私清单 - 数据使用声明1.2. 隐私清单 - 所用API原因描述1.3. SDK签名 2. 即将发布的第三方SDK要求 解决方案最后 前言 前段时间用Flutter开发的iOS App提交了新版本&#xff0c;结果刚过两分钟就收到了…

属性选择器

1.[title]{background:yellow;}&#xff1a;所有带title标签设置成黄色 2.div[class]{background:yellow;}&#xff1a;所有div中带class标签设置成黄色 3.div[classbox1]{border:1px solid blue; }&#xff1a;div中包含class并且classbox1的设置成蓝边框 4. class…

【春秋云镜】CVE-2023-7106标靶Wp

0x01&#xff1a;漏洞点 老样子先&#xff0c;看看标题介绍奥 ok了解到了 我们现在要知道参数是prod_id&#xff0c;路径为/pages/product_details.php 0x02&#xff1a;操作 直接打开SQLmap一把梭 sqlmap -u {URL}/pages/product_details.php?prod_id1 --current-db 这里…

文件操作详解(一)

目录 一.文件的类型1.数据文件2.程序文件3.文件名 二. 二进制文件三.文本文件四. 文件的打开&#xff08;fopen&#xff09;和关闭&#xff08;fclose&#xff09;1.1流是什么1.2标准流 2.文件指针 一.文件的类型 存储在硬盘上的是文件&#xff0c;文件分为数据文件和程序文件…

上岸美团了!

Hello&#xff0c;大家好&#xff0c;最近春招正在如火如荼&#xff0c;给大家分享一份美团的面经&#xff0c;作者是一份某双非的硕&#xff08;只如初见668&#xff09;&#xff0c;刚刚通过了美团的3轮面试&#xff0c;已经拿到offer&#xff0c;以下是他的一些分享。 一面&…