《PneumoLLM:利用大型语言模型的力量进行尘肺病诊断》|文献速递--基于深度学习的医学影像病灶分割

Title

题目

PneumoLLM: Harnessing the power of large language model for pneumoconiosis diagnosis

《PneumoLLM:利用大型语言模型的力量进行尘肺病诊断》

01

文献速递介绍

在计算机辅助诊断领域,对医学数据的处理和分析能力至关重要。这不仅有助于潜在疾病的诊断,还能够预测未来的临床结果。随着深度学习理论的迅速发展,研究人员设计了复杂的网络架构(He et al., 2016;Dosovitskiy et al., 2020),并整理了大量高质量的数据集(Deng et al., 2009;Wang et al., 2017),以预训练这些强大的网络。预训练策略通过优化权重分布赋予网络宝贵的知识,从而使研究人员能够进一步利用标注数据来针对特定疾病进行模型的微调。当数据丰富且标注准确时,这一经典范式通常能够取得出色的效果,尤其是在常见疾病的诊断上。例如,EchoNet-Dynamic(Ouyang et al., 2020)在心脏功能评估上已经超越了医学专家。

然而,当我们深入探讨如尘肺病等职业病时(Li et al., 2023b;Dong et al., 2022),情形就会发生变化。长期暴露在充满粉尘的环境中且未配备个人防护装备的个体容易患上肺纤维化,这是一种尘肺病的前兆(Qi et al., 2021;Devnath et al., 2022)。尘肺病高发地区通常经济不发达,缺乏医疗资源和基础设施,以及专业的医疗从业者。此外,这些地区对疾病筛查和诊断存在明显的抵触情绪,导致临床数据严重不足(Sun et al., 2023;Huang et al., 2023b)。数据的匮乏使得传统的预训练与微调策略难以奏效。

Abatract

摘要

The conventional pretraining-and-finetuning paradigm, while effective for common diseases with ampledata, faces challenges in diagnosing data-scarce occupational diseases like pneumoconiosis. Recently, largelanguage models (LLMs) have exhibits unprecedented ability when conducting multiple tasks in dialogue,bringing opportunities to diagnosis. A common strategy might involve using adapter layers for vision–language alignment and diagnosis in a dialogic manner. Yet, this approach often requires optimization ofextensive learnable parameters in the text branch and the dialogue head, potentially diminishing the LLMs’efficacy, especially with limited training data. In our work, we innovate by eliminating the text branch andsubstituting the dialogue head with a classification head. This approach presents a more effective methodfor harnessing LLMs in diagnosis with fewer learnable parameters. Furthermore, to balance the retention ofdetailed image information with progression towards accurate diagnosis, we introduce the contextual multitoken engine. This engine is specialized in adaptively generating diagnostic tokens. Additionally, we proposethe information emitter module, which unidirectionally emits information from image tokens to diagnosistokens. Comprehensive experiments validate the superiority of our methods.

传统的预训练和微调范式虽然在数据充足的常见疾病诊断中表现有效,但在诊断如尘肺病等数据稀缺的职业病时面临挑战。近年来,大型语言模型(LLMs)在对话中执行多项任务时展现出前所未有的能力,为疾病诊断带来了新的机遇。常见的策略可能包括使用适配层进行视觉和语言的对齐,并以对话的方式进行诊断。然而,这种方法通常需要优化文本分支和对话头中的大量可学习参数,在训练数据有限的情况下,可能会削弱LLMs的效能。在我们的工作中,我们创新地去除了文本分支,并用分类头替代了对话头。此方法为利用LLMs进行诊断提供了一种更有效的途径,同时减少了可学习参数的数量。此外,为了平衡详细图像信息的保留与准确诊断的推进,我们引入了上下文多重标记引擎。该引擎专门用于自适应生成诊断标记。此外,我们提出了信息发射模块,该模块单向地将信息从图像标记传递到诊断标记。全面的实验验证了我们方法的优越性。

Method

方法

The efficacy of computer-aided diagnosis systems is crucial in processing and analyzing medical data. However, these systems often facea significant shortfall in clinical data availability. Leveraging the richknowledge reservoirs of foundational models is a promising strategyto address this data scarcity. Yet, the conventional pretraining-andfinetuning approach may compromise the representation capabilities ofLLMs, due to substantial changes in their parameter spaces, leading toincreased training time and memory overhead (Touvron et al., 2023a,b;OpenAI, 2023b).

计算机辅助诊断系统在处理和分析医学数据中的有效性至关重要。然而,这些系统往往面临临床数据可用性不足的重大挑战。利用基础模型丰富的知识储备是一种解决数据稀缺的有前途的策略。然而,传统的预训练和微调方法可能会由于其参数空间的显著变化而削弱大型语言模型(LLMs)的表示能力,导致训练时间和内存开销的增加(Touvron et al., 2023a,b;OpenAI, 2023b)。

Conclusion

结论

In this paper, we introduce PneumoLLM, a pioneering approachutilizing large language models for streamlined diagnostic processesin medical imaging. By discarding the text branch and transformingthe dialogue head into a classification head, PneumoLLM simplifies theworkflow for eliciting knowledge from LLMs. This innovation provesparticular effectiveness when only classification labels are available fortraining, rather than extensive descriptive sentences. The streamlinedprocess also significantly reduces the optimization space, facilitatinglearning with limited training data. Ablation studies further underscorethe necessity and effectiveness of the proposed modules, especiallyin maintaining the integrity of source image details while advancingtowards accurate diagnostic outcomes.

在本文中,我们介绍了PneumoLLM,这是一种利用大型语言模型简化医学影像诊断流程的创新方法。通过舍弃文本分支并将对话头转换为分类头,PneumoLLM简化了从大型语言模型中提取知识的工作流程。这一创新在仅有分类标签用于训练而非大量描述性语句的情况下表现出特别的效果。简化的流程也显著减少了优化空间,有助于在有限的训练数据下进行学习。消融研究进一步强调了所提出模块的必要性和有效性,特别是在保持源图像细节完整性的同时,实现准确诊断结果方面。

Figure

图片

Fig. 1. Representative pipelines to elicit knowledge from large models. (a) Traditional works conduct vision–language contrastive learning to align multimodal representations. (b)To utilize large language models, existing works transform images into visual tokens, and send visual tokens to LLM to generate text descriptions. (c) Our work harnesses LLM todiagnose medical images by proper designs, forming a simple and effective pipeline.

图1. 从大型模型中获取知识的代表性流程。(a) 传统方法进行视觉-语言对比学习,以对齐多模态表示。(b) 为了利用大型语言模型,现有方法将图像转换为视觉标记,并将视觉标记发送到大型语言模型中生成文本描述。(c) 我们的工作通过适当的设计利用大型语言模型诊断医学图像,形成了一个简单而有效的流程。

图片

Fig. 2. Diagram of the proposed PneumoLLM. The vision encoder processes chest radiography and extracts source tokens. The contextual multi-token engine generates multiplediagnosis tokens conditioned on source tokens. To elicit in-depth knowledge from the LLM, we design the information emitter module within the LLM Transformer layers, enablingunidirectional information flow from source tokens to diagnosis tokens, preserving complete radiographic source details and aggregating critical diagnostic information.

图2. 所提出的PneumoLLM的示意图。视觉编码器处理胸部X光片并提取源标记。上下文多重标记引擎基于源标记生成多个诊断标记。为了从大型语言模型中获取深入的知识,我们在大型语言模型的Transformer层中设计了信息发射模块,实现了从源标记到诊断标记的单向信息流动,既保留了完整的X光片源细节,又聚合了关键的诊断信息。

图片

Fig. 3. The illustration examples of dataset preprocessing: two examples labeled as‘‘Normal’’ and ‘‘Pneumoconiosis’’. The window adjustment operation use the defaultwindow level and width (stored in the DICOM tags) to pre-process the original DICOMfiles. The segmentation results are obtained using the CheXmask pipeline, as proposedin the paper by Gaggion et al. (2023). The selection of the rectangular lung regions isbased on the largest external rectangle of the segmentation results.

图3. 数据集预处理的示例说明:“正常”和“尘肺病”两种标签的示例。窗位和窗宽调整操作使用默认的窗位和窗宽(存储在DICOM标签中)对原始DICOM文件进行预处理。分割结果是使用Gaggion等人(2023)论文中提出的CheXmask流程获得的。矩形肺区域的选择基于分割结果的最大外接矩形。

图片

Fig. 4. Pneumoconiosis diagnosis results comparison with recent prestigious methods. The correct diagnosis results are highlighted in red.

图4. 尘肺病诊断结果与近期著名方法的比较。正确的诊断结果以红色突出显示。

图片

Fig. 5. The t-SNE visualization of feature representation obtained by different networks in comparison experiment.

图5. 比较实验中由不同网络获得的特征表示的t-SNE可视化。

图片

Fig. 6. Illustration on various vision encoder networks and the number of generateddiagnosis tokens. Please zoom in for the best view.

图 6. 各种视觉编码器网络及其生成的诊断标记数量的示意图。请放大查看以获得最佳效果。

Table

图片

Table 1Existing diagnosis methods for pneumoconiosis.

表1现有的尘肺病诊断方法。

图片

Table 2Comparison results with recent prestigious methods on the pneumoconiosis dataset

表2 尘肺病数据集上与近期著名方法的比较结果

图片

Table 3Comparison results with recent LLM-based methods on the pneumoconiosis dataset.

表3 尘肺病数据集上与近期基于大型语言模型(LLM)方法的比较结果。

图片

Table 4Analysis of LLaMA-7B foundational model in pneumoconiosis diagnosis

表4 LLaMA-7B基础模型在尘肺病诊断中的分析

图片

Table 5Ablation study on eliminating the textual processing branch in LLM.

表5 消除大型语言模型(LLM)中的文本处理分支的消融研究。

图片

Table 6Ablation study on various PneumoLLM components

表6 各种PneumoLLM组件的消融研究

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/874179.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

在Application中全局获取context

首先自定义一个application,继承Application,并在AndroidManifest.xml文件中配置它。 class TvApplication : Application() {companion object {Volatilevar context: Application? nullprivate setfun getContext(): Context {return context ?: t…

【机器学习】从零开始理解深度学习——揭开神经网络的神秘面纱

1. 引言 随着技术的飞速发展,人工智能(AI)已从学术研究的实验室走向现实应用的舞台,成为推动现代社会变革的核心动力之一。而在这一进程中,深度学习(Deep Learning)因其在大规模数据处理和复杂问题求解中的卓越表现,迅速崛起为人工智能的最前沿技术。深度学习的核心是…

2024年最佳本地营销策略的14个专家意见

本地营销对任何企业都很重要——无论您是市中心的夫妻店,还是大型全国连锁店。您都希望被寻找您产品或服务的人看到并找到,而他们通常是在本地搜索这些内容。事实上,几乎一半的Google搜索都有本地意图。 那么,今年哪些是最好的本…

金智维K-RPA基本介绍

一、K-RPA基本组成 K-RPA软件机器人管理系统基于“RPAX”数字化技术打造,其核心系统由管理中心(Server)、设计器(Control)、机器人(Robot/Agent)三大子系统组成,各子系统协同工作,易于构建协同式环境。 管理中心(Server&#xff…

echarts 5.3.2 折线图 tooltip设置trigger为axis无效

在使用echarts5.3.2过程中,发生一个不应该发生的bug,希望效果如下 现实中如下 代码中设置了tooltip: {trigger: ‘axis’}不生效啊。查阅文档,应该是这样设置的啊,可是为什么无效呢。改成tooltip: {trigger: ‘item’}虽能显示弹…

09-03 周二 ansible部署与使用指南

09-03 周二 ansible部署与使用指南 时间版本修改人描述2024年9月3日10:08:58V0.1宋全恒新建文档,2024年9月4日13:57:25v0.2宋全恒调整结构,添加ansible-playbook和ansible-inventory 简介 首先要找一个跳板机,来确保所有的机器都可以访问。然…

C#自定义控件的放置与拖动

1、自定义控件 using System; using System.Collections.Generic; using System.ComponentModel; using System.Drawing; using System.Drawing.Drawing2D; using System.Linq; using System.Text; using System.Threading.Tasks; using System.Windows.Forms;namespace PartA…

动态内存管理【存稿】

动态内存管理 1.为什么有动态内存分配? 我们所知道的内存开辟 int a 3; //在栈空间上开辟4个字节 char b a; //在栈空间上开辟1个字节 int arr[30] {0};//在栈空间上开辟120个字节的连续空间这种内存开辟的特点: 空间开辟的大小是固定的 数组在申…

简单的springboot log4j2日志配置

简单的springboot log4j2日志配置 1.简介 Log4j2 是 Apache Software Foundation 开发的一个日志记录工具,它是 Log4j 的后续版本,并且在多个方面进行了改进。以下是 Log4j2 的一些关键特性: 性能提升:Log4j2 在设计上做了很多优…

航空维修培训中的虚拟现实辅助工程技术应用

飞机维护对航空旅行安全起着至关重要的作用,据美国劳工统计局的一份报告显示,航空业每年需要招聘12,000名的飞机机械师才能满足行业需求。但由于传统实践培训的限制和航空技术的飞速发展,该行业正面临着专业技术人员短缺的问题。虚拟现实辅助…

智能新纪元:GPT-Next引领的AI革命及其跨领域应用

GPT-Next:性能的百倍提升 在当今这个科技日新月异的时代,人工智能(AI)无疑是最具活力和变革性的领域之一。最近,OpenAI在KDDI峰会上宣布了一项激动人心的消息:他们即将推出名为“GPT-Next”的新一代语言模…

JavaScript - Api学习 Day03 (日期对象、节点操作、两种定时器、本地存储)

文章目录 一、日期对象1.1 实例化1.2 日期对象方法 二、节点操作2.1 父子兄弟节点1. 父节点查找2. 子节点查找3. 兄弟关系查找 2.2 增删节点1. 创建节点 - createElement2. 添加节点2.1 appendChild() 方法2.2 insertBefore() 方法2.3. 克隆节点 - cloneNode 3. 删除节点3.1 re…

第11章 32位x86处理器编程架构

第11章 32位x86处理器编程架构 IA-32(INTEL Architecture, 32-bit):INTEL 32位处理器架构简称IA-3,以8086处理器为基础发展起来的。该章重点介绍了IA-32处理器的工作方式和相关技术。 IA-32架构的基本执行环境 寄存器的扩展 32位处理器通用寄存器&am…

Python专项进阶——初步认识Numpy库

NumPy是Numeric Python的缩写,一个优秀的开源科学计算库。 个人理解,NumPy是一个主要围绕着数值数组对象(ndarray)(或叫做矩阵)进行各种操作的对象、函数集合。提供很多实用的数学函数,涵盖线性…

【Python报错已解决】TypeError: expected string or bytes-like object

🎬 鸽芷咕:个人主页 🔥 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 文章目录 前言一、问题描述1.1 报错示例1.2 报错分析1.3 解决思路 二、解决方法2.1 方法一:确保参数类型正确2.2 步…

知识库管理系统在企业数字化转型中的作用

引言 在数字化转型的浪潮中,企业正以前所未有的速度重塑其业务模式、运营流程和组织架构,以适应快速变化的市场环境和客户需求。这一过程中,知识库管理系统作为信息整合与知识共享的核心平台,发挥着举足轻重的作用,不…

antd-table使用报错的一次记录,rowkey的正确使用

each child in a list should have a unique "key" prop. Each record in table should have a unique key prop, or set rowKey to an unique primary key. 如果你在使用antd-table中报错如上,那么你应该是错误使用rowkey这个属性 正确使用方式&#xf…

【评估指标】Fβ-score

1. Fβ-score 概述 Fβ-score 是一种综合考量精确率(precision)和召回率(recall)的分类评估指标。其公式为: 1.1 Precision(精确率):预测为正类的样本中,实际为正类的比…

Jupyter Notebook设置代码提示和自动代码补全

算法学习、4对1辅导、论文辅导或核心期刊可以通过公众号滴滴我 文章目录 在使用Jupyter Notebook中,会出现Jupyter不像Pycharm一样,可以 自动补全代码以及 代码方法提示等功能,这时候就需要通过给Jupyter安装插件来进行实现。 执行步骤&#…

进程与计划任务

top 查看进程 x users 表示有几个shell开启 x stopped 前台任务在后台暂停firefox & 在后台运行,不在前面显示 ​​​​​​​这种方式常用于需要长时间运行且不需要即时交互的程序或命令,以便用户可以在终端中使用其他命令或进行其他操作&#…