医学多模态模型总结(一)

概念

医学多模态大模型是指利用多种不同的医学数据源和模型,通过深度学习和人工智能技术,构建一个综合性的大型模型,以实现更加准确和全面的医学数据分析和预测。

这种模型可以同时处理多种医学数据类型,如医学图像、病历文本、基因测序数据等,从而更全面地揭示医学数据的内在规律和关联。通过对不同数据源的特征提取和分析,医学多模态大模型可以实现更准确的疾病诊断、治疗方案推荐、预后预测等任务。

例如,在疾病诊断方面,医学多模态大模型可以同时分析医学图像和病历数据,通过深度学习和特征提取技术,自动识别和分类疾病类型,提高诊断的准确性和效率。在治疗方案推荐方面,医学多模态大模型可以综合考虑患者的基因测序数据、病历信息、药物反应等多方面因素,为患者提供个性化的治疗方案。

医学多模态大模型的应用范围非常广泛,可以应用于医疗领域的多个方面,如医学图像分析、疾病预测与预防、个性化治疗等。随着人工智能技术的不断发展和应用,医学多模态大模型将会在更多的领域得到应用,为医学研究和医疗服务带来更多的便利和效益。

模型和方法

模型总结

模型名称base数据集
Med-FlamingoOpenFlamingo-9BMTB PMC-OA Visual USMLE
MedVINTMedVInT-TD,MedVInT-TEPMC-VQA,
CLIP-ViT w/ GPT2CLIP GPT2-XL
MUMCROCO 、MedICaT 和 ImageCLEF2022 SLAKE VQA-RAD PathVQA

Med-Flamingo: a Multimodal Medical Few-shot Learner

贡献
  1. 我们提出了第一个适用于医学领域的多模态少样本学习器,它有望实现新颖的临床应用,例如基于检索到的多模态上下文的基本原理生成和调节。
  2. 我们创建了一个新颖的数据集,可以对一般医学领域的多模态少样本学习器进行预训练。
  3. 我们创建了一个新颖的 USMLE 式评估数据集,将医学 VQA 与复杂的跨专业医学推理相结合。
  4. 我们强调现有评估策略的缺点,并使用专用的评估应用程序与医疗评估员一起对开放式 VQA 世代进行深入的临床评估研究。
训练数据

提出了一个新的医学数据集,在OpenFlamingo-9B模型上进行训练,训练数据集包括MTBPMC-OA,其中MTB是作者自己提出来的数据集,是从4721 本教科书构建了一个新的多模态数据集。

评估数据

后面又提出了一个评估数据集,创建了 Visual USMLE这是一个具有挑战性的多模式问题集,包含 618 个 USMLE 风格的问题,这些问题不仅通过图像进行了增强,还通过案例插图和可能的实验室测量表进行了增强。 Visual USMLE 数据集是通过调整 Amboss 平台的问题(使用许可的用户访问)创建的。为了使可视化 USMLE 问题更具可操作性和实用性,我们将问题改写为开放式问题,而不是多项选择题。这使得基准测试变得更加困难和现实,因为模型必须完全自行提出鉴别诊断和潜在的程序,而不是从少数选择中选择最合理的答案。

USMLE风格主要强调临床医学知识、病人照护和医患关系的处理。它注重临床技能和实际操作能力,要求考生能够理解和应用医学知识,具备诊断、治疗和预防疾病的能力,并能够根据患者的不同需求和情况,提供合适的医疗服务和关怀。
USMLE考试分为三个阶段,每个阶段都包括笔试和面试。第一阶段主要考察基础医学知识,第二阶段主要考察临床医学知识,第三阶段主要考察专业医学知识和临床技能。
此外,USMLE还注重医学伦理和职业道德,要求考生具备高度的职业素养和道德标准,能够遵守医疗伦理和职业道德规范,尊重患者权益,维护医疗质量和安全。
总之,USMLE风格是一种注重临床实践、医学知识和医患关系处理的医学考试风格,旨在评估考生的医学知识和技能水平,以及他们的职业素养和道德标准。

评价指标

不再是使用普通的VQA的评价指标,提出了三个新的评价指标。

  1. 临床评估分数,由三名医生(包括一名委员会认证的放射科医生)使用我们为本研究开发的人类评估应用程序进行评分。第 4.2 节提供了更多详细信息。
  2. BERT相似度得分(BERT-sim),生成答案与正确答案之间的F1 BERT得分Zhang等人。
  3. 精确匹配,生成的答案中与正确答案完全匹配(模标点符号)的部分。该指标相当嘈杂且保守,因为有用的答案可能在词汇上与正确答案不匹配。

PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering

贡献
  1. 我们将 MedVQA 问题重新定义为生成学习任务,并提出 MedVInT,这是一种通过视觉指令调整将预训练的视觉编码器与大语言模型对齐而获得的模型;
  2. 我们引入了一个可扩展的流程,并构建了一个大规模的 MedVQA 数据集 PMC-VQA,该数据集的规模和多样性远远超过了现有数据集,涵盖了各种模式和疾病;
  3. 我们在 PMC-VQA 上对 MedVInT 进行预训练,并在 VQA-RAD [18] 和 SLAKE [23] 上对其进行微调,实现了最先进的性能并显着优于现有模型;
  4. 我们提出了一个新的测试集,并为 MedVQA 提出了更具挑战性的基准,以彻底评估 VQA 方法的性能。
训练数据

在这里插入图片描述

PMC-VQA数据集示例
不同医学数据集对比

因为作者提出了一个新的数据集,所以训练过程中就是使用的这个数据集。该数据集包含 227k 个图像-问题对,上图 中给出了一些示例,它展示了我们数据集中图像的广泛多样性。如表 所示,PMC-VQA 在数据大小和模态多样性方面优于现有的 MedVQA 数据集。我们数据集中的问题涵盖了一系列困难,从识别图像模式、视角和器官等简单问题到需要专业知识和判断的挑战性问题。此外,我们的数据集包含一些难题,需要能够从复合图中识别特定的目标子图。

我们对 PMC-VQA 数据集的分析可以概括为三个方面:(i)图像:我们显示了 PMC-VQA 中排名前 20 的图形类型。PMC-VQA 中的图像极其多样化,从放射学到信号。 (ii) 问题:我们将问题分为不同的类别根据开始问题的单词来确定类型,我们发现了令人惊讶的各种问题类型,包括“有什么区别…”、“成像类型是什么…”和“哪种类型”图像显示…”。大多数问题的长度为 5 到 15 个单词,有关问题长度分布的详细信息在补充材料中显示。 (iii) 答案:答案中的词语主要包括位置描述、图像模式和特定解剖区域。大多数答案都在 5 个单词左右,比问题短得多。正确选项分布如下:A(24.07%)、B(30.87%)、C(29.09%)、D(15.97%)。

效果

首先展示在之前的公开测试集中的效果
在这里插入图片描述
在新的数据集中的效果
在这里插入图片描述

Open-Ended Medical Visual Question Answering Through Prefix Tuning of Language Models

贡献
  1. (i)我们提出了第一个基于大规模语言模型的开放式医学 VQA 方法。
  2. (ii)我们对语言主干采用参数高效的调整策略,这使我们能够使用小数据集微调大型模型,而不会出现过度拟合的危险。
  3. (iii) 我们通过对相关基准进行大量实验证明,我们的模型无需大量计算资源即可产生强大的开放式 VQA 性能。
模型架构

在这里插入图片描述

训练策略

由于医学问答数据集的数量较少,为小样本训练,为了实现具备良好的医学问答能力切不干扰模型的泛化能力,采用lora的形式进行训练,只更新LoRA的权重和连接器Mapper,这样训练的参数就大大减少。

实现细节我们使用具有 ViT 主干的预训练 CLIP 模型 [25] 提取视觉特征,维数为 512。映射网络 fM 的 MLP 层的大小为 {512, (lx·e)/2, lx· e}。 lx 的长度设置为 8。长度 lq 和 la 取决于数据集,并由训练集中标记的平均数量加上其标准差的三倍来定义。将零填充添加到序列的右侧以进行批量学习。我们使用以下语言模型:GPT2-XL [26],一种在 WebText [26] 上训练的具有 1.5B 参数的因果语言模型。 BioMedLM [31] 和 BioGPT [21] 都是基于 GPT2 的模型,在 PubMed 和来自 The Pile [8] 的生物医学数据上进行预训练,参数大小分别为 1.5B 和 2.7B。所有模型都能够在单个 NVIDIA RTX 2080ti GPU 上进行训练(平均训练时间约 3 小时)。我们使用 AdamW 优化器,具有 600 个预热步骤和 5e-3 的学习率,并应用容差为 3 的早期停止。

Masked Vision and Language Pre-training with Unimodal and Multimodal Contrastive Losses for Medical Visual Question Answering

贡献
  1. 我们提出了一种新的自监督视觉语言预训练(VLP)方法,该方法在预训练阶段应用带有单模态和多模态对比损失(MUMC)的蒙版图像和文本建模来解决下游医疗 VQA 任务。
  2. 我们工作中的单峰和多峰对比损失应用于(1)对齐图像和文本特征; (2)通过同一图像的不同视图的动量对比来学习单峰图像编码器(即不同的视图由不同的图像掩模生成); (3) 通过动量对比学习单峰文本编码器。我们还引入了一种新的屏蔽图像策略,以 25% 的概率随机屏蔽图像的补丁,作为数据增强技术来进一步增强模型的性能。
模型架构

在这里插入图片描述
在预训练阶段,网络架构包括图像编码器、文本编码器和多模态编码器,它们都基于 Transformer 架构[15]。如图(a)所示,图像编码器利用12层视觉变换器(ViT)[16]从输入图像中提取视觉特征,而文本编码器采用6层变换器,该变换器由预训练 BERT 的前 6 层 [17]。 BERT 的最后 6 层被用作多模态编码器,并在每一层引入交叉注意力,融合了视觉和语言特征,以促进多模态交互的学习。该模型是在医学图像-标题对上进行训练的。将图像划分为大小为 16 × 16 的块,并随机屏蔽 25% 的块。剩余的未屏蔽图像块由图像编码器转换为嵌入序列。使用 WordPiece [18] 标记器将文本(即图像标题)标记为标记序列,并将其输入到基于 BERT 的文本编码器中。此外,特殊标记 [CLS] 被附加到图像和文本序列的开头。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/238121.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

应用在LED灯光控制触摸屏中的触摸芯片

LED灯光控制触摸屏方法,包括:建立触摸屏的触摸轨迹信息与LED灯光驱动程序的映射关系;检测用户施加在触摸屏上的触摸轨迹,生成触摸轨迹信息;根据生成的触摸轨迹信息,调用对应的LED灯光驱动程序,控…

HTML 块级元素与行内元素有哪些以及注意、总结

行内元素和块级元素是HTML中的两种元素类型,它们在页面中的显示方式和行为有所不同。 块级元素(Block-level Elements): 常见的块级元素有div、p、h1-h6、ul、ol、li、table、form等。 块级元素会独占一行,即使没有…

web服务器之——搭建两个基于不同端口访问的网站

要求如下: 建立一个使用web服务器默认端口的网站,设置DocumentRoot为/www/port/80,网页内容为:the port is 80。建立一个使用10000端口的网站,设置DocumentRoot为/www/port/10000,网页内容为:t…

太阳能光伏企业网站建设效果如何

光伏行业近些年发展也比较迅速,其服务/产品拓展度较高,对企业来说,合作商较少更需要多地域寻找目标客户及信息承载展示、拓展等,传统线下方式单一且不足,线上成为众商家经营的方向。 1、品牌宣传、信息呈现难 太阳能…

windows 镜像下载地址

HelloWindows.cn - 精校 完整 极致 Windows系统下载仓储站

原来使用代码也可以画时序图,用这个Mermaid就行,真香

本文首发于我的个人掘金博客,看到很多人都比较喜欢这篇文章,分享给大家。 个人博客主页:https://www.aijavapro.cn 个人掘金主页:juejin.cn/user/2359988032644541/posts 个人知识星球: 觉醒的新世界程序员 一、背景 在软件开发和…

数据结构基础介绍

一.起源及重要性 1968 年,美国的高德纳 Donakl E . Kn uth 教授在其所写的《 计算机程序艺术》第一卷《基本算法 》 中,较系统地阐述了数据的逻辑结构和存储结构及其操作, 开创了数据结构的课程体系 ,数据结构作为一门独立的…

记录一次postgresql临时表丢失问题

项目相关技术栈 springboot hikari连接池pgbouncerpostgresql数据库 背景 为了优化一个任务执行的速度,我将任务的sql中部分语句抽出生成临时表(create temp table tempqw as xxxxxxxxx),再和其他表关联,提高查询速…

php之jwt使用

PHP JWT(JSON Web Token)是一种用于身份验证和授权的开放标准。JWT是一个包含有关用户或实体身份信息的安全令牌,它由三部分组成:头部(Header)、载荷(Payload)和签名(Sig…

Linux上进行Nacos安装

Nacos安装指南 仅供参考,若有错误,欢迎批评指正! 后期会继续上传docker安装nacos的过程! 1.Windows安装 开发阶段采用单机安装即可。 1.1.下载安装包 在Nacos的GitHub页面,提供有下载链接,可以下载编译好…

PyTorch张量:内存布局

你可能对 torch 上的某些函数感到困惑,它们执行相同的操作但名称不同。 例如: reshape()、view()、permute()、transpose() 等。 这些函数的做法真的不同吗? 不! 但为了理解它,我们首先需要了解一下张量在 pytorch 中…

Http模块

Http模块 1.创建http服务 //导入http模块 const http require(http)//创建服务对象 const server http.createServer((request,response)>{response.end(Hello HTTP Server) })// 监听端口,启动服务 server.listen(9000,()>{console.log(服务已启动....);…

【Jeecg Boot 3 - 第二天】2.1、nginx 部署 JEECGBOOT VUE3

一、场景 二、实战 ▶ 2.1、打包(build 前端) > Stage 1:修改配置文件 .env.production(作用:指向后端接口地址) > Stage 2:点击build(作用&#xff1…

智能优化算法应用:基于蝙蝠算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于蝙蝠算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于蝙蝠算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.蝙蝠算法4.实验参数设定5.算法结果6.参考文献7.MA…

HeartBeat监控Redis状态

目录 一、概述 二、 安装部署 三、配置 四、启动服务 五、查看数据 一、概述 使用heartbeat可以实现在kibana界面对redis服务存活状态进行观察,如有必要,也可在服务宕机后立即向相关人员发送邮件通知 二、 安装部署 参照文章:HeartBeat监…

「差生文具多系列」推荐两个好看的 Redis 客户端

📢 声明: 🍄 大家好,我是风筝 🌍 作者主页:【古时的风筝CSDN主页】。 ⚠️ 本文目的为个人学习记录及知识分享。如果有什么不正确、不严谨的地方请及时指正,不胜感激。 直达博主:「…

前端 三种解决跨域问题 jsonp 、CORS、代理服务器 解决跨域全家桶

我的报错情况是 后端接口是3000 前端本地接口是8080,最后出现跨域 1.什么是跨域? 首先跨域是一种安全机制,是在开发上线前考虑到的安全问题并且需要采取合适的手段去避免这个问题带来的程序错误,接口跨域可以后端处理,也可以前端处理&#x…

Appium微信小程序自动化环境准备

一、前置说明 微信从8.0.19开始内核从x5换成xweb之后,原先的开启webview调试的原方案已经会报503错误。 点击下面的链接,都会报503错误: http://debugmm.qq.com/?forcex5ture http://debugx5.qq.com 微信内核升级为xweb之后,需要…

LeetCode力扣每日一题(Java):58、最后一个单词的长度

一、题目 二、解题思路 1、我的思路 先将字符串转换成字符数组 由于我们需要获取最后一个单词的长度,所以我们从后往前遍历字符数组 我们还需判断所遍历的字符是不是字母,即判断每个字符对应的ASCII值即可,用计数器count来储存单词长度 …

小型洗衣机哪个牌子质量好?迷你洗衣机排名前十名

随着内衣洗衣机的流行,很多小伙伴在纠结该不该入手一款内衣洗衣机,专门来洗一些贴身衣物,答案是非常有必要的,因为我们现在市面上的大型洗衣机只能做清洁,无法对我们的贴身衣物进行一个高强度的清洁,而小小…