MAGDA:多智能体指南驱动的诊断助手
- 秒懂大纲
- 提出背景
- 精细拆解
- 输入输出全流程
- 创意视角
- 中文意译
论文:MAGDA: Multi-agent guideline-driven diagnostic assistance
秒懂大纲
├── MAGDA: Multi-agent guideline-driven diagnostic assistance【研究主题】
│ ├── 1 背景与动机【研究背景】
│ │ ├── 放射科医生短缺【问题描述】
│ │ │ ├── 紧急部门【影响领域】
│ │ │ ├── 农村医院【影响领域】
│ │ │ └── 欠发达地区诊所【影响领域】
│ │ ├── 大型语言模型(LLMs)的潜力【解决方案】
│ │ │ ├── 高医学考试成绩【优势】
│ │ │ └── 不遵循医疗指南【局限性】
│ │ └── 零样本指南驱动决策支持的需求【研究目标】
│ ├── 2 MAGDA方法【技术方案】
│ │ ├── 多代理系统【核心架构】
│ │ │ ├── 筛查代理【功能模块】
│ │ │ ├── 诊断代理【功能模块】
│ │ │ └── 优化代理【功能模块】
│ │ ├── 视觉语言模型集成【技术特点】
│ │ ├── 临床指南融入【知识来源】
│ │ └── 透明推理过程【方法优势】
│ ├── 3 实验设置【评估方法】
│ │ ├── 数据集【评估基础】
│ │ │ ├── CheXpert【数据集名称】
│ │ │ └── ChestXRay 14 Longtail【数据集名称】
│ │ ├── 评估指标【性能衡量】
│ │ │ ├── F1分数【指标】
│ │ │ ├── 精确度【指标】
│ │ │ └── 召回率【指标】
│ │ └── 实现细节【技术细节】
│ │ └── Mixtral 8x7B instruct模型【使用模型】
│ ├── 4 结果与讨论【研究发现】
│ │ ├── 与现有方法比较【性能评估】
│ │ │ ├── CheXzero【对比方法】
│ │ │ └── Xplainer【对比方法】
│ │ ├── 消融研究【方法验证】
│ │ │ ├── 规则基础否定vs LLM创建否定【比较项】
│ │ │ └── 不同优化方法【比较项】
│ │ └── 定性结果【案例分析】
│ └── 5 结论【研究总结】
│ ├── MAGDA的优势【方法贡献】
│ │ ├── 零样本分类能力【技术特点】
│ │ ├── 透明推理过程【方法优势】
│ │ └── 罕见疾病诊断效果【应用价值】
│ └── 未来展望【研究展望】
技术部分:
├── MAGDA方法【技术方案】
│ ├── 输入【数据来源】
│ │ ├── 医学图像【原始数据】
│ │ └── 临床指南【知识来源】
│ ├── 处理过程【核心架构】
│ │ ├── 多代理系统【执行框架】
│ │ │ ├── 筛查代理【功能模块】
│ │ │ │ ├── 输入:医学图像和临床指南【数据处理】
│ │ │ │ ├── 处理:CLIP模型动态提示【技术方法】
│ │ │ │ │ ├── 提取图像特征【图像分析】
│ │ │ │ │ └── 生成对比提示【文本处理】
│ │ │ │ └── 输出:图像发现列表【中间结果】
│ │ │ ├── 诊断代理【功能模块】
│ │ │ │ ├── 输入:图像发现列表【中间数据】
│ │ │ │ ├── 处理:链式思考推理【推理方法】
│ │ │ │ │ ├── 分析发现【数据分析】
│ │ │ │ │ └── 生成诊断假设【推理过程】
│ │ │ │ └── 输出:初步诊断和推理过程【中间结果】
│ │ │ └── 优化代理【功能模块】
│ │ │ ├── 输入:初步诊断和推理过程【中间数据】
│ │ │ ├── 处理:考虑疾病间依赖关系【优化方法】
│ │ │ │ ├── 评估推理质量【质量控制】
│ │ │ │ └── 调整诊断结果【结果优化】
│ │ │ └── 输出:最终诊断预测【最终结果】
│ │ ├── 视觉语言模型集成【技术特点】
│ │ │ ├── 使用CLIP模型【模型选择】
│ │ │ └── 动态提示生成【创新点】
│ │ └── 临床指南融入【知识整合】
│ │ ├── 指南解析【数据预处理】
│ │ └── 知识嵌入【技术方法】
│ └── 输出【最终结果】
│ ├── 最终诊断预测【诊断结果】
│ └── 透明推理过程【方法优势】
│ ├── 步骤化推理链【可解释性】
│ └── 基于指南的决策依据【可信度】
-
输入:包括医学图像和临床指南,为整个系统提供原始数据和知识基础。
-
处理过程:
- 多代理系统作为核心执行框架,包含三个主要功能模块:
a) 筛查代理:使用CLIP模型进行动态提示,分析医学图像并生成图像发现列表。
b) 诊断代理:采用链式思考推理方法,基于图像发现进行诊断推理。
c) 优化代理:考虑疾病间依赖关系,评估和优化诊断结果。 - 视觉语言模型集成:使用CLIP模型并创新性地应用动态提示生成技术。
- 临床指南融入:通过指南解析和知识嵌入,将医学专业知识整合到系统中。
- 多代理系统作为核心执行框架,包含三个主要功能模块:
-
输出:包括最终诊断预测和透明的推理过程,提供了诊断结果及其可解释性和可信度。
提出背景
根据论文内容,MAGDA方法的提出背景可以分为以下几个方面:
- 问题类别:
MAGDA主要针对医疗诊断领域中的自动化和智能化问题,特别是在放射学图像分析和诊断方面。
在急诊科、农村医院或欠发达地区的诊所,临床医生常常因缺乏快速影像分析而面临挑战这可能影响患者的医疗质量。
大模型通过提供决策支持,有望缓解这一问题尽管 LLM 在医学考试中表现优异,但它们往往不遵循医学指南。
为此,我们提出了一种新的零-shot 指南驱动决策支持方法。
我们构建了一个由多个 LLM 代理组成的系统,这些代理通过对比视觉语言模型协作进行患者诊断。
在提供简单诊断指南后,代理们综合提示并筛选图像,最终提供清晰的思维链推理,并白我完善以考虑疾病间的相互依赖。
由于我们的方法是零-shot,因此特别适用于罕见疾病,即使训练数据有限,也能利用专家制作的疾病描述。
我们在两个胸部X光数据集上进行了评估,结果显示性能优于现有零-shot 方法,并具备对罕见疾病的泛化能力。
- MAGDA旨在解决以下具体问题:
a) 放射科医生短缺:
- 在紧急部门、农村医院和欠发达地区诊所中,存在严重的放射科医生短缺问题。
- 这导致临床医生可能缺乏经过训练的放射科医生的快速图像分析支持,可能对患者的医疗保健产生不利影响。
b) 大型语言模型(LLMs)在医疗诊断中的应用局限性:
- 虽然LLMs在医学考试中表现出色,显示出强大的理论医学知识,但它们往往不遵循医疗指南。
- 这种不遵循指南的特性可能导致诊断结果不一致或不可靠。
c) 零样本诊断的需求:
- 在罕见疾病或训练数据有限的情况下,需要一种能够进行零样本诊断的方法。
- 传统的监督学习方法在这些情况下可能表现不佳。
d) 诊断过程的透明度和可解释性:
- 在医疗领域,诊断结果的可解释性和透明度至关重要,但现有的一些方法缺乏这种特性。
e) 整合临床指南和先进AI技术:
- 需要一种方法能够有效地将临床指南(作为领域专业知识)与先进的AI技术(如LLMs和视觉语言模型)相结合。
综上所述,MAGDA方法的提出是为了解决医疗诊断自动化过程中的多个挑战,包括资源短缺、AI模型的局限性、零样本学习需求、结果可解释性以及知识整合等问题。
它旨在提供一个能够在缺乏专业放射科医生的情况下,依据临床指南进行准确、可解释的医学图像诊断的智能辅助系统。
精细拆解
目的:提供一个能在缺乏专业放射科医生情况下,依据临床指南进行准确、可解释的医学图像诊断的智能辅助系统。
问题:
- 放射科医生短缺
- LLMs在医疗诊断中的应用局限性
- 零样本诊断的需求
- 诊断过程的透明度和可解释性不足
- 需要整合临床指南和先进AI技术
解法:MAGDA(Multi-agent guideline-driven diagnostic assistance)方法
子解法1:多代理系统(因为需要模拟不同专家角色和处理复杂的诊断流程)
- 筛查代理(因为需要初步分析医学图像)
- 诊断代理(因为需要基于筛查结果进行诊断推理)
- 优化代理(因为需要考虑疾病间的依赖关系和优化诊断结果)
之所以用多代理系统,是因为医疗诊断过程涉及多个步骤和专业角色,需要模拟不同专家的协作过程。
例如:在真实的医疗环境中,可能有放射科技师进行初步筛查,放射科医生进行诊断,然后资深专家进行复核和优化。
子解法2:视觉语言模型集成(因为需要处理医学图像和文本描述)
- 使用CLIP模型(因为需要处理图像和文本的跨模态任务)
- 动态提示生成(因为需要灵活适应不同的诊断场景)
之所以用视觉语言模型集成,是因为医学诊断需要同时理解图像内容和相关的文本描述。
例如:在胸部X光诊断中,需要同时理解X光图像和相关的临床症状描述。
子解法3:临床指南融入(因为需要遵循医疗专业规范)
- 指南解析(因为需要将文本形式的指南转化为可计算的形式)
- 知识嵌入(因为需要将指南知识整合到AI模型中)
之所以用临床指南融入,是因为需要确保AI系统的诊断符合医疗专业标准。
例如:在诊断肺炎时,需要遵循特定的临床指南来判断X光上的阴影特征。
- 子解法的逻辑链:
这些子解法形成了一个网络结构,可以用以下决策树形式表示:
MAGDA方法
├── 多代理系统
│ ├── 筛查代理
│ │ └── 视觉语言模型集成
│ │ ├── CLIP模型
│ │ └── 动态提示生成
│ ├── 诊断代理
│ │ └── 临床指南融入
│ │ ├── 指南解析
│ │ └── 知识嵌入
│ └── 优化代理
└── 临床指南融入
├── 指南解析
└── 知识嵌入
- 隐性特征分析:
在MAGDA方法中,存在一些隐性特征,这些特征不直接出现在问题描述或条件中,而是在解法的中间步骤中体现:
隐性特征1:链式思考推理
- 这个特征隐藏在诊断代理的处理过程中。
- 定义:使用步骤化的推理过程,模拟人类专家的思考链,提高诊断的可解释性。
隐性特征2:对比提示生成
- 这个特征隐藏在筛查代理使用CLIP模型的过程中。
- 定义:生成正面和负面的描述,通过对比提高模型对图像特征的识别准确性。
隐性特征3:疾病间依赖关系建模
- 这个特征隐藏在优化代理的处理过程中。
- 定义:考虑不同疾病之间的相互影响和共现概率,提高整体诊断的准确性。
这些隐性特征组合成了MAGDA方法的关键步骤,虽然没有被明确定义,但对于方法的有效性至关重要。它们共同构成了一个复杂的诊断推理过程,使得MAGDA能够更好地模拟人类专家的诊断思路,同时保持高度的可解释性和准确性。
输入输出全流程
这是作者画的:
-
输入:包括待评估的疾病和医学图像(如胸部X光片)。
-
筛选代理(Screening Agent):负责图像分析。它使用CLIP模型来评估图像,并根据临床指南提取细粒度的图像发现。
-
诊断代理(Diagnosis Agent):接收筛选代理提供的图像发现,并基于这些发现进行推理,得出初步诊断结果。
-
精炼代理(Refinement Agent):负责完善诊断代理的预测结果。它考虑疾病之间的相互依赖关系,评估推理的质量,并给出最终的诊断预测。
-
输出:包括预测的疾病和模型的推理过程。
整个过程中,大模型(LLM)被实例化为不同的代理,用于执行各种任务。
临床指南作为知识源被整合到系统中,指导诊断过程。
这个方法的创新之处在于它结合了临床指南、视觉-语言模型的动态提示,以及透明的诊断推理过程,旨在提供准确、可解释的零样本医学图像诊断。
-
输入:一张胸部X光图像。
-
发现(Findings):列出了基于X光图像的4个具体发现,涉及纵隔和心脏的状况。
-
诊断问题:询问患者是否存在扩大的心纵隔。
-
模型推理:
- 模型分析了4个发现,指出前两个发现没有显示扩大的心纵隔迹象。
- 第三个发现表明心影宽度增加,可能暗示心纵隔扩大。
- 最后一个发现也没有显示心纵隔扩大的迹象。
- 模型认为第三个发现(心影宽度增加)是心纵隔扩大的更强指标,比第四个发现(心包无积液或气体)更具说服力。
-
结论:基于这些分析,模型得出结论,认为患者确实存在扩大的心纵隔。
这个例子展示了MAGDA模型如何利用多个图像发现进行权衡和推理,即使在存在一些相互矛盾的证据的情况下,也能得出一个合理的诊断结论。
这种推理过程模仿了人类医生的诊断思路,增强了AI辅助诊断的可解释性和可信度。
这是我画的:
创意视角
- 组合:
-
将大语言模型(LLM)与视觉语言模型(VLM)结合,创造出一个能理解医学图像并提供诊断的智能系统。这种组合利用了LLM的推理能力和VLM的图像理解能力,实现了1+1大于2的效果。
-
融合临床指南和人工智能技术,创造一个遵循医疗规范且具有强大分析能力的诊断助手。这种组合可以平衡AI的创新性和医疗实践的规范性。
- 拆开:
-
将整个诊断过程拆分为多个专门的AI代理(筛选代理、诊断代理、精炼代理),每个代理专注于特定任务,提高整体效率和准确性。
-
将复杂的医学指南拆解为更简单、更具体的指令,使AI系统能更容易理解和执行。
- 转换:
-
将原本用于自然语言处理的LLM转换为医学诊断工具,扩展了其应用范围。
-
将用于图像分类的视觉模型转换为医学影像分析工具,赋予其新的用途。
- 借用:
-
从其他领域借鉴链式思考(chain-of-thought)prompting技术,应用于医学诊断过程,提高AI系统的推理能力和可解释性。
-
借用多智能体系统的概念,将其应用于医学诊断领域,实现更复杂的任务分工和协作。
- 联想:
-
联想到人类医生的诊断过程,模仿医生观察症状、分析检查结果、推理诊断的过程,设计AI系统的工作流程。
-
从团队协作中获得灵感,设计多个AI代理相互配合的系统,模仿医疗团队的协作模式。
- 反向思考:
-
不是让AI模仿人类医生,而是思考如何让AI发挥其独特优势来补充人类医生的不足。例如,AI可以快速分析大量历史病例数据,发现人类可能忽视的模式。
-
不是简单地提高诊断准确率,而是关注如何减少误诊。设计一个系统,专门识别和标记高风险的诊断结果,引导医生进行二次确认。
- 问题:
-
深入探讨"为什么AI在医学考试中表现出色,但在实际诊断中却难以遵循医疗指南?"的问题。这可能揭示AI系统在理解和应用复杂上下文信息方面的局限性。
-
思考"如何让AI系统在没有大量标注数据的情况下也能诊断罕见疾病?"这个问题可能引导我们开发更灵活、更具泛化能力的AI系统。
- 错误:
-
将AI系统的误诊视为学习机会,设计一个机制,让系统能够从错误中学习并不断改进其诊断能力。
-
分析AI在诊断过程中的"思维盲点",探索如何通过多样化的训练数据和更复杂的推理模型来弥补这些盲点。
- 感情:
-
在AI系统的输出中融入更多情感因素,使其诊断报告不仅仅是冷冰冰的数据,而是能够传达出对患者的关心和同理心。
-
设计一个能够识别和回应患者情绪状态的AI系统,使诊断过程更加人性化和个性化。
- 模仿:
-
模仿人类医生的终身学习过程,设计一个能够持续学习和更新知识的AI系统,以适应不断发展的医学知识。
-
借鉴法律系统中的判例法思想,创建一个基于先例的医疗AI系统,能够参考类似病例的诊断结果来辅助当前诊断。
- 联想:
-
联想到蜂群智能,设计一个由多个专门的AI代理组成的"诊断蜂群",每个代理负责特定的诊断任务,共同协作得出最终诊断结果。
-
从生态系统中获得灵感,创建一个"医疗AI生态系统",其中包括诊断、治疗建议、随访管理等多个相互关联的AI子系统。
- 最渴望联结:
-
将AI诊断系统与患者最渴望的"个性化医疗"概念相结合,开发一个能够根据患者个人基因、生活方式等因素提供定制化诊断和建议的AI系统。
-
结合患者对"透明度"的渴望,设计一个能够清晰解释其诊断过程和理由的AI系统,增强患者对AI辅助诊断的信任。
- 空隙填补:
-
针对医疗资源匮乏地区缺乏专科医生的问题,开发一个能够提供初步专科诊断的AI系统,填补专科医疗服务的空缺。
-
解决罕见疾病诊断难的问题,创建一个专门用于识别和诊断罕见疾病的AI系统,填补这一医疗服务的空白。
- 再定义:
-
将AI诊断系统重新定义为"医生的智能助手",而不是替代品,强调其辅助决策的角色,可能会增加医生群体对该技术的接受度。
-
将"诊断"重新定义为一个持续的过程,而不是一次性的结果,据此设计一个能够持续监测患者状况并动态调整诊断的AI系统。
- 软化:
-
在AI系统的界面设计中加入一些幽默元素,如有趣的医学小知识或轻松的对话方式,使患者在诊断过程中感到更加放松。
-
设计一个"游戏化"的患者教育模块,通过有趣的方式向患者解释其健康状况和治疗方案,提高患者的依从性。
- 附身:
-
从侦探的角度思考诊断过程,设计一个能够像侦探一样收集线索、分析证据、推理结论的AI诊断系统。
-
借鉴教育者的思维方式,创建一个不仅能诊断疾病,还能教育患者了解自身健康状况的AI系统。
- 配角:
-
关注诊断过程中常被忽视的"配角"信息,如患者的生活习惯、工作环境等,设计一个能全面收集和分析这些信息的AI系统,提供更全面的健康评估。
-
重视医疗记录中的非结构化数据(如医生手写注释),开发能够有效处理这些"配角"数据的AI系统,挖掘潜在的诊断线索。
- 刻意:
-
设计一个"极端个性化"的AI诊断系统,刻意夸大个性化医疗的概念,为每位患者创建独特的健康档案和诊断模型。
-
开发一个"夸张透明"的AI系统,刻意展示其每一步推理过程,甚至包括被否定的假设,以突出其诊断过程的透明度和可靠性。
比较和选择:
根据以下关键标准对这些创新点进行评估:
- 技术可行性
- 临床价值
- 创新程度
- 市场潜力
- 伦理合规性
经过综合考虑,以下几个创新点可能最具价值:
-
多智能体协作系统(来自"组合"和"拆开"思路):这个创新点技术可行,具有很高的临床价值,创新程度高,市场潜力大,且符合伦理要求。它可以显著提高AI诊断的准确性和可靠性。
-
基于临床指南的AI诊断系统(来自"组合"思路):这个创新点在技术上可行,临床价值高,创新程度适中,市场潜力大,最重要的是高度符合医疗伦理和规范。
-
动态学习和更新的AI系统(来自"模仿"思路):这个创新点技术挑战较大但可行,临床价值高,创新程度高,市场潜力大,且符合持续改进的医疗伦理要求。
-
整合非结构化数据的全面诊断系统(来自"配角"思路):这个创新点技术上具有挑战性,但临床价值很高,创新程度高,市场潜力大,且能提供更全面的患者照护,符合医疗伦理。
-
专注于罕见疾病的AI诊断系统(来自"空隙填补"思路):这个创新点技术可行,临床价值极高(尤其对罕见疾病患者),创新程度高,虽然市场相对小众但意义重大,且填补了重要的医疗服务空白,符合伦理要求。
这些创新点结合了论文中的核心思想,同时拓展了其应用范围和深度,有望在提高诊断准确性、增强系统可解释性、扩大适用范围等方面取得突破,为医疗AI领域带来显著进展。
中文意译
放射学在现代医疗体系中扮演着至关重要的角色,是大多数患者诊疗过程中不可或缺的一环。
然而,当前医疗行业正面临着严重的"放射科医生短缺"问题。
以英国为例,目前放射科医生的缺口高达29%,预计在未来几年内还将进一步扩大到40%。
这种情况在世界欠发达地区的农村医院或诊所中更为严峻,那里的每位放射科医生需要服务更多的患者。
在缺乏专业放射科医生的情况下,临床医生要么无法获得重要的放射学诊断信息,要么不得不在缺乏专业训练的情况下自行解读这些信息。
近年来,大模型( LLMs )在推理和解决复杂问题方面展现出了巨大潜力,为解决这一挑战提供了新的可能。
然而,在临床应用中,相比于创新但不可预测的 LLM 输出,更倾向于使用严格遵循循证医学指南的确定性模型。
此外,像 GPT-4 这样的通用 LLMs 可能缺乏准确诊断所需的专业医学知识,或者其医学见解可能已经过时。
因此,为 LLMs 提供访问相关临床知识源(如凝聚医学界共识的指南)的权限,对提高诊断效果至关重要,特别是在面对数据有限的罕见疾病时。
与传统的视觉指令调整方法相比,通过提示视觉-语言模型( VLMs )来使 LLMs 理解图像内容是一种创新的方法,无需重新训练模型。
最近的研究成功地采用了对比语言-图像预训练( CLIP )技术,实现了胸部 X 射线常见疾病的少样本和零样本分类。
在此基础上, Xplainer 引入了一种基于描述的分类方法,通过查询视觉-语言模型获取指示疾病的图像特征,提供了内在的可解释性。
然而,这种方法简单地平均概念概率,未能考虑概念之间的复杂依赖关系。
为了克服这些限制,我们提出了 MAGDA( 多代理指南驱动诊断辅助 )框架。
这是一个多代理系统,它整合了临床指南作为知识源、动态提示视觉-语言模型以理解放射学图像,以及基于临床指南进行透明诊断推理的功能。
我们的实验表明,这种方法在 CheXpert 数据集的病理学零样本分类任务和 ChestXRay 14 Longtail 数据集的罕见疾病分类任务中都达到了最先进的性能。
我们的主要创新点包括:
- 提出了一种端到端的指南驱动方法,仅需临床指南和医学图像作为输入即可执行零样本诊断。
- 开发了视觉-语言模型的新型动态提示技术,使 LLMs 能够识别未见过的疾病,无需额外的模型微调。
- 通过链式思考推理实现了透明的诊断过程,为诊断决策提供了可解释的见解。
3 实验设置
数据集和评估指标
我们的实验基于两个胸部 X 射线数据集: CheXpert 和 ChestXRay 14 Longtail 。
CheXpert 数据集包含手动标注的验证集(200名患者)和测试集(500名患者),涵盖14个类别,包括"无异常"、12种病理类型(如"肺炎")以及"医疗辅助设备"。
我们在 CheXpert 上进行多标签分类。
虽然大多数相关研究采用 ROC 曲线下面积( AUC )作为评估指标,但由于我们的方法生成离散预测结果,无法直接使用 AUC 这类阈值无关指标。
因此,我们选择报告微观和宏观 F1 分数、精确度和召回率。
为了解决 CLIP 模型过度预测的问题,我们根据验证集实验将 CLIP 发现概率阈值 ψ 设为 0.55。
ChestXRay14 Longtail 数据集是 ChestXRay 14 的扩展版本,新增了5种疾病类型,总共包含20个类别。这些类别分为7个高频类(最常见)、10个中频类(中等常见)和3个低频类(最不常见)。
数据集包含平衡的验证集和测试集,每个类别分别有15或30张图像,以确保全面覆盖各种疾病情况。我们在这个平衡的测试集上进行评估,每个类别的样本数量相等。
在这种情况下,我们执行单标签分类,并报告三个低频类别的分类准确率。此外,我们在提示 CLIP 模型时不使用描述否定,并调整了精炼代理以确保只做出一个正面预测。
实现细节
我们方法的核心是一个强大的大型语言模型( LLM ),它以不同方式实例化为各种代理。
除非特别说明,我们使用 Mistral AI 的 Mixtral 8x7B instruct 模型。这个模型在内存效率、推理速度和模型能力之间取得了很好的平衡。
我们采用了该模型的4位 GPTQ 量化版本,这大大减少了内存需求,同时将模型精度损失降到最低。经过这些优化,我们能够在单个 Nvidia A40 GPU 上进行文本生成,温度参数设为0.8。
为了确保公平比较,我们尽可能使用公开的 Xplainer 存储库中的图像发现作为指南。
在缺少相关数据的情况下,我们采用了类似 Xplainer 的方法,即利用 GPT-4 生成候选发现,然后根据医学教科书知识进行修正。