ChatCAD(论文链接:[2302.07257] ChatCAD: Interactive Computer-Aided Diagnosis on Medical Image using Large Language Models (arxiv.org))
网络流程图:
辅助阅读:
基于大型语言模型的医学图像交互式计算机辅助诊断-CSDN博客
Zihao Zhao | 赵子皓 (zhaozh10.github.io)
ChatCAD+ (论文链接:[2305.15964] ChatCAD+: Towards a Universal and Reliable Interactive CAD using LLMs (arxiv.org))
网络流程图:
ChatCAD主要贡献:
展示了一种将llm与CAD网络集成的策略。该框架通过总结自然语言中的信息,利用llm的医学知识和推理来增强CAD网络输出,如诊断、病变分割和报告生成。生成的报告质量更高,可以提高基于视觉的 CAD 模型的性能。在胸部 X 射线中,与最先进的模型相比,使用 ChatGPT 的 LLM 将诊断性能提高了 16.42 个百分点,而 GPT-3 提供了 15.00 个百分点的 F1 分数改进。与仅由专业人士理解的传统 CAD 系统不同,我们的策略允许准确的报告生成并创建患者友好的交互系统。这种方法有可能彻底改变临床决策和患者沟通。
ChatCAD+主要贡献:
(1)通用图像解释。由于难以获得当前处理各种图像的统一 CAD 网络,ChatCAD+ 包含一个域识别模块来处理各种 CAD 模型(cf.图2(a))。ChatCAD+ 可以自适应地选择给定输入医学图像的相应模型。CAD网络的暂定输出被转换为文本描述以反映图像特征,使其适用于随后的诊断报告。
(2) 用于增强报告生成的分层上下文学习。通过所提出的检索模块从临床数据库中检索在语义上与LLM生成的报告相似的Top-k报告(cf.图3。然后,检索到的k个报告作为上下文示例来细化LLM生成的报告。
(3)基于知识的可靠交互。如图1(b)所示,ChatCAD+并不直接提供医疗建议。相反,它首先通过我们提出的知识检索模块寻求帮助,从专业来源获得相关知识,例如默克手册、梅奥诊所和克利夫兰诊所。然后,LLM将检索到的知识作为参考,提供可靠的医疗建议。总之,我们第一次的 ChatCAD+ 构建了一个通用且可靠的医学对话系统。聊天机器人答案和诊断报告的改进质量揭示了 LLM 在交互式医学咨询中的潜力。
CAD+与CAD的运行逻辑上的主要区别:
1.支持多个器官?图像格式?的医学图像:
多了一个域判别器,及医学图像+文本描述的匹配。
2.将CAD结果+LLM生成的信息+数据库搜索结合 生成报告+问答
可靠报告生成中的检索模块的图示。它采用 TF-IDF 算法来保留每个报告的语义,并在离线建模和在线推理期间将其转换为潜在嵌入。为了便于高效检索,我们在所有 TF-IDF 嵌入上执行球面投影,无论是在构建还是查询期间。通过这种方式,我们可以利用 KD-Tree 结构来存储这些数据并以低时间复杂度实现检索。
可靠交互概述。(a) 结构化医学知识数据库的图示,组织为树状词典,其中每个医学主题有多个部分,而部分可以进一步划分为小节。(b) 提出了一种基于 LLM 的知识检索方法,以回溯的方式搜索相关知识。(c) LLM 被提示根据检索到的知识回答问题。