【CLIP综述】CLIP在医学影像中的应用（二）

原文传递：CLIP in Medical Imaging: A Comprehensive Survey

其他综述篇：
【SAM综述】医学图像分割的分割一切模型：当前应用和未来方向
【CLIP综述】CLIP在医学影像中的应用（一）

4、基于CLIP的应用（CLIP-driven application）

得益于大规模的文本监督，预先训练的 CLIP 模型能够将输入的视觉特征与人类语言/知识对齐，甚至是在医学图像上也有效（见图4），表明其在临床场景中的潜力，其中可解释性和人类一致性是重要的。此外，CLIP 编码的 human-level knowledge 和 human-level knowledge 对应可以作为一些需要注释的任务（如肿瘤分割）的外部监督信号，从而提高视觉模型的性能。这些优势使得CLIP可以应用于各种临床相关任务。

4.1 分类（Classification）

由于 CLIP 是通过 global-level 的图像-文本对齐进行预训练的，因此将其应用于医学图像分类是很自然的想法，分类任务中通常要求模型提供图像的全局评估，确定其良性或恶性性质或是否存在特定疾病。
现有的 CLIP-driven 的分类研究如表3所示，大致可分为两类：zero-shot 分类和 context 优化。前者研究了如何通过 prompt 工程来正确有效地挖掘预训练 domain-specific CLIP 的诊断能力，而后者则希望以参数高效（parameter-efficient）和数据高效（data-efficient）的方式使 non-domain-specific 的 CLIP 适应医疗领域。

4.1.1 Zero-shot 分类（Zero-shot classification）

zero-shot 分类的性能很大程度上取决于 pre-embedded 的知识（预训练参数吧），这影响了现有研究中预训练 CLIP 的选择。如表3所示，这类研究通常通过在医学图像文本数据集上独立微调原始CLIP，或采用开源专用CLIP模型来获取 domain-specific 的CLIP。
以心电图（ECG）为例，数据以一维多通道信号的形式存在，研究人员决定从头开始训练一个 ECG-specific 的 CLIP 模型。

除了预训练CLIP的选择外，zero-shot 分类的另一个关键在于 prompt 工程化。在2.1节中描述的原始CLIP zero-shot prompt，确实不能很好地用于疾病诊断。方程4中的概率计算涉及到 softmax 操作，说明在计算中，每一类都是互斥的。然而，这并不符合疾病诊断的实际情况，因为患者可能同时患有多种疾病。
为了解决这个问题，CheXzero 为每个病理定义了阳性和阴性 prompts (如“肺炎”与“无肺炎”)，以独立实现 zero-shot 疾病诊断（见图11(a)）。然而，CheXzero无法给出可解释的 zero-shot 诊断。
为了缓解这个问题，许多方法尝试将图像与纹理、形状和其他细粒度信息对齐。其中，Pellegrini等人介绍了 Xplainer，这是一种用于临床环境的可解释 zero-shot 诊断新框架。具体来说，他们不是直接预测诊断结果，而是促使模型对存在的描述性观察进行分类，放射科医生会在x射线扫描中寻找描述性观察，并使用描述概率来估计诊断的可能性。他们首先利用ChatGPT来描述x射线图像中的观察结果，将观察结果写入放射学报告，表明特定的病理，并在放射科医生的帮助下进一步完善这些产生的观察结果，使其更加可信。然后给出这些观察结果的阳性和阴性 prompts，如图11 (b)所示。给定这些观察概率（从Prob[#1]到Prob[#N]），估计一个联合概率作为有关病理的最终结果。

Figure 11：zero-shot 疾病诊断的 prompts 工程实例
在这里插入图片描述

图12给出了 Xplainer 在给出真阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN)病例时可解释诊断的定性示例。可以观察到，对于真阳性病例，大多数语言描述都被检测到，并且在真阴性病例中，该模型没有检测到任何病理描述（原文感觉这有点问题）。虽然模型不能总是做出正确的判断，有假阳性和假阴性，但这两种错误的分类结果很容易被放射科医生改变。这是因为在 false cases 中存在矛盾的结果（例如，支气管征象往往与实变同时发生）。因此，知道哪种观察组合导致这样的决定，这是对此的解释。

Figure 12：Xplainer可解释性的定性结果
在这里插入图片描述

4.1.2 Context 优化（Context optimization）

虽然 zero-shot 疾病诊断的概念看起来令人印象深刻又充满希冀，但由于大多数开源生物医学 CLIP 模型主要集中在胸部x射线上，因此 domain-specific 的 CLIP 模型的可用性有限，限制了其在医学成像界的广泛应用。因此，某些研究转向 non-domain-specific 的预训练CLIP模型，旨在有效地使这些模型适应医学成像领域的 context，并优化使用可训练参数。（我理解的context应该是文本prompt吧）

尽管 CoOp 和 CoCoOp 等一些参数高效调优研究已经提出将CLIP应用于 out-of-distribution 的自然图像数据集，但它们都没有考虑医学成像领域。缺乏 domain awareness 也可能导致对医学图像的感知不足，从而导致性能不佳。

为了解决这个问题，一些研究通过提供 domain-adaptive prompts，提出了针对专门医学领域图像的 context 优化方法。此外，为了生成更具体的可优化 prompts，Lei等人提出了用于肺结节恶性预测的基于通道的条件提示（channel-wise conditional prompt，CCP），如图13所示。
与 CoCoOp 不同，CoCoOp 只构造全局和实例级的 prompts，并为所有 prompt tokens 提供 common condition，CCP还分别在不同通道的特征图上构建了特定的可学习 prompts，产生了更多可解释的注意力图。此外，他们同时通过对比学习将图像特征与类和属性特征对齐，同时生成更多可解释的注意图，从而提供更多与诊断相关的 prompts。

Figure 13：肺结节分类的 context 优化
在这里插入图片描述

4.2 密集预测（Dense prediction）

与疾病诊断不同，密集预测侧重于更细粒度的任务，如定位、分割等。这类研究提出的方法通常作为一种辅助工具，为临床医生提供有价值的信息（如潜在的病变区域），以支持他们的决策。由于具有稳健的特征提取和 image-text/label 对齐能力，CLIP及其变体已被广泛应用于各种密集预测任务。

4.2.1 检测（Detection）

检测是临床实践的重要任务，如手术计划、病理诊断和术后评估。以前的医学图像检测方法，通常侧重于利用各种卷积神经网络或基于 transformer 的架构提取图像上的特征。这些方法虽然在一定程度上有效，但往往与医学图像差别细微和复杂的本质作斗争，特别是在视觉线索不易察觉或模糊的情况下。
医学成像中检测任务的 pipeline，受到了视觉语言模型进步和整合的显著影响（CLIP的风吹过来了），例如直接使用CLIP或扩展GLIP。
有研究提出了一种多提示（multiple-prompt）、集成引导（ensemble-guided）的病变检测融合技术，利用 GLIP 通过合并不同的文本描述来解释复杂的医疗场景。
此外，VLPMNuD 引入GLIP，以无训练（training-free）的方式对H&E染色图像中的细胞核进行 zero-shot 检测。该研究提出了一种创新的自动 prompt 设计，并采用自训练（self-training）框架在后处理过程中通过迭代修正改善预测框（predicted boxes）。

虽然目标检测的重点是识别和定位特定的、预先定义的目标，如肿瘤或骨折，但医学成像的另一个关键方面是异常检测，特别是 zero-shot 异常检测（ZSAD），其目的是在没有任何来自目标数据集的训练样本的情况下识别偏离常规的异常。
AnomalyCLIP 展示了 CLIP 在医疗领域 zero-shot 异常检测方面的增强功能。AnomalyCLIP采用对象不可知的文本 prompts，它捕获了各种图像的正常和异常的本质，而不管它们的特定前景对象是什么。（有点子牛哇）这迫使 CLIP 更多地关注图像中的异常区域，而不是目标的语义，从而与以前的 ZSAD 方法相比，促进了更通用的异常识别。

4.2.2 2D 医学图像分割

通过文本监督在二维图像域上对 CLIP 进行预训练。因此，它可以无缝地集成到二维医学图像分割中进行微调。根据这一想法，Muller等人和Anand等人将 CLIP 预训练图像编码器应用于各种医学成像模式，包括x射线、超声和CT/MR（三维数据以二维切片方式处理）。他们的工作表明，CLIP 的图像编码器，最初是在自然图像上训练的，也可以在医学图像分割任务中提供令人印象深刻的性能。
此外，更多的研究使用预训练的 CLIP 图像和文本编码器构建视觉语言分割模型，并对其进行微调，以服务于二维医学图像分割任务。

4.2.3 3D 医学图像分割

越来越多的公开注释数据集允许研究人员训练越来越复杂的模型，以从医学扫描中分割解剖结构和病变。然而，其中大多数都只有少量的样本。它们通常只关注某些器官或解剖结构，而所有与任务无关的器官和肿瘤都被注释为背景。因此，如何打破单个数据集的障碍，充分利用现有的数据源来扩展分割模型的能力仍然是一个制约因素。
此前，DoDNet 是第一个解决这一问题的通用分割模型，它引入了针对特定任务的动态分割头（dynamic segmentation head），并将任务表示为 one-hot 嵌入。然而，这种标签正交性编码忽略了器官之间的自然语义关系。随着不同分割任务数量的增加，这种限制会加剧。由于难以利用相关解剖结构和病理之间的内在相关性，当任务的多样性变得更加复杂时，标签正交性编码不能有效地泛化。
为了解决上述挑战和局限性，Liu等人提出了一种 CLIP-Driven 的医学图像分割通用模型，通过引入从 CLIP 中学习到的文本嵌入来取代 DoDNet 中使用的 one-hot 编码。具体来说，他们利用训练好的 CLIP 文本编码器对“肝脏”、“肝肿瘤”、“左肾”、“右肾”、“肝血管”、“肾肿瘤”等任务 prompts 进行编码，如图14所示。然后将这些嵌入与视觉编码器生成的图像特征连接起来，生成动态分割 head ，该分割 head 在解码器之后使用。

Figure 14：通用分割的 CLIP-driven 分割模型
在这里插入图片描述
如图16所示，固定长度的 CLIP 标签嵌入可以更好地建立器官与肿瘤之间的相关性，即肝脏与肝肿瘤、肾脏与肾肿瘤之间的关系。该方法不仅在器官分割方面表现优异，而且在更具挑战性的肿瘤分割任务中也表现出色，优于其他仅用图像的SOTA分割模型，如图15所示。

Figure 15：肝肿瘤分割结果
在这里插入图片描述

Figure 16：(a) one-shot任务编码和 (b) CLIP标签编码之间的解码器嵌入空间的 t-SNE 可视化

根据文献[98]中提出的想法，Zhang等人通过利用额外的 MLP 来处理新任务，将该框架扩展到持续学习（continual learning）中。先前的研究侧重于开发新的损失函数作为额外的约束，来保持对所学习类的性能，或者通过记忆模块来保留原始数据的模式，Zhang等人使用配对的 MLP 和 CLIP 生成的文本嵌入，利用语言辅助进行任务分离，使动态分割 head 能够以优异的性能过滤和保留特定任务的信息。

4.2.4 其他

在弱监督分割中，类激活图（class activation maps, CAM）通常用于注意力定位和伪标签生成，但它们只关注最具特征的对象部分，往往由于边界忽略而产生低质量标签。尽管最近的研究试图扩大 CAM 的覆盖范围，但这个基本问题仍然存在。
值得注意的是，Zhang等人提出将语言先验知识整合到弱监督学习中，为寻找目标结构提供可靠的帮助。具体来说，他们引入了一种基于文本提示的弱监督分割方法（TPRO），通过使用预训练的 MedCLIP 文本编码器来分析语义标签并提取文本特征作为 class-level 嵌入。另外还采用了 BioBERT 来提取标签相应文本描述的详细信息。然后将这两种额外的文本监督与图像特征进行融合，有效地提高了伪标签的质量，从而比其他基于 CAM 的方法具有更好的性能。

针对医学成像领域中存在的视觉模糊、器官形态不清等问题，人们开发了多种定位关键点的方法。虽然这些方法在常见情况下表现出了可靠的性能，但它们仍然难以处理复杂的 localization environments。
TCEIP 通过将目标区域的指导性文本嵌入到回归网络中，来指导种植体位置的预测，从而解决了这一限制。通过利用 CLIP，TCEIP 能够解释和处理诸如“左”、“中”和“右”等指令以及视觉数据，确保更精确和 context-aware 的关键点检测。它的性能超过了以往仅有图像检测方法的能力，特别是在具有多个缺失牙齿或稀疏牙齿的挑战性情况下。

4.3 跨模态（Cross-modal）

除了前面提到的纯视觉任务，CLIP 还推动了跨模态任务的发展，其中跨模态是指图像和文本模态之间的交互。代表性研究如表5所示。

在这里插入图片描述

4.3.1 报告生成（Report generation）

考虑到在临床环境中手工抄写报告需要耗费大量时间，人们越来越倾向于自动化生成医疗报告。（规培生、进修生、实习生、研究生的痛啊，感谢科技，阿门~）由于医学报告的有效生成需要识别关键的发现、属性和 inter-finding 间的语义关系，CLIP 由于其固有的语义感知而天生适合这项任务。
Wang等人采用 CLIP 的视觉编码器从胸部x射线中提取语义感知的图像表示，使所提出的医学概念生成网络（Medical Concepts Generation Network）可以引入丰富的语义概念并将其编码为语义信息，从而提高报告生成的性能。
Keicher等人充分利用 CLIP 的优势，将报告生成任务重新制定为多标签分类任务，标签表明是否存在特定的发现。他们在训练集中汇编了所有可能的发现（Findings）和位置（Locations）组合，形成一个 prompt 集，并利用 CLIP 的 zero-shot 能力来计算每个 prompt 出现在图像中的可能性。（妙啊~）

4.3.2 医疗视觉问答（Medical Visual Question Answering）

医疗视觉问答（MedVQA）是一项需要深入理解基于文本的问题和相关医学视觉内容的任务。（第一次听说这个）它引起了社会的关注，因为它将指引更有效和准确的诊断和治疗决策。
由于 CLIP 长期以来凭借其对齐视觉和文本内容的能力而受到青睐，因此最近已经做出了在 MedVQA 中应用CLIP的努力。

初步努力已将 CLIP 纳入封闭式（closed-ended） MedVQA 任务。这些研究通常将 CLIP 的图像编码器集成到原始的 MedVQA 框架中，旨在通过语义理解增强图像表示。然而，他们往往忽视了对图像-文本对齐的综合利用。此外，封闭式 MedVQA 通常为每个问题提供所有潜在的答案选项，这本质上是将任务转化为一个分类问题。因此，由于这些限制，这些方法的实际应用似乎受到了限制。

相反，开放式（open-ended）MedVQA 没有为每个问题预先定义选项，从而扩展了其对各种场景的适用性，并且需要提高图像-文本理解能力。因此，Zhang等人充分利用CLIP的图像编码器和文本编码器来理解问题和图像，并紧接着一个语言解码器来生成答案。图17中说明了 CLIP 驱动的开放式 MedVQA 。为了将原始图像嵌入与当前 MedVQA 数据集对齐，并减轻 CLIP 预训练数据集的域偏移，通常使用映射层（mapping layer）。然后将问题嵌入和转换后的图像嵌入连接起来，直接输入到语言解码器中，语言解码器可以采用 multi-layer transformer 或语言模型的形式，便于生成答案。

Figure 17：开放式 MedVQA 的 CLIP 驱动方法展示
在这里插入图片描述

4.3.3 图像文本检索（Image-text retrieval）

检索增强，包括通过检索相关信息来补充数据，允许利用来自可信知识来源的最新信息，本质上提供非参数内存扩展。该方法因其多功能性而受到关注，特别是在检索增强的大语言模型领域。然而，现有的检索方法往往侧重于全局图像特征，这可能在医学成像中只有次优结果。不像患者之间的整体特征可能相似，微妙的图像细节对疾病诊断有影响，并具有重要意义。

为了解决医学和自然图像之间的域转移问题，Van等人提出了一种基于 CLIP 的多模态检索框架。该方法包括两个主要部分，如图18所示。第一部分对原有的CLIP模型进行微调，构建检索模型。考虑到医学图像的视觉相似性和小的局部标记作为疾病重要指针，他们提出了一种内容分类器来实现有监督的基于内容的对齐。第二部分利用检索器在跨模态检索增强中的输出，通过多头注意（MHA）增强下游任务。在评估他们的检索方法，与以前的疾病分类和报告检索方法相比的性能时，它显示出了显著的性能改进，显著优于所有现有的检索方法。展示了CLIP在构建鲁棒检索方法方面的潜力。

Figure 18：X-TRA 的架构概述
在这里插入图片描述

4.4 总结

本节中，展示了一些典型的 CLIP 驱动的应用，以展示在CLIP帮助下的性能改进。虽然这些研究侧重于各种任务，但它们通常表明，预训练的 CLIP 的优势在于其解释和传达人类知识的能力。
在一些研究中，将描述性文本 prompts 输入到 CLIP 中，实验结果表明 CLIP 能够熟练地理解嵌入在 prompts 中的语义，并有效地将语义传递给框架内的其他模块。这意味着 CLIP 驱动的应用可以通过简单地修改输入 prompts 中的特定内容来适应不同的患者群体，这有利于具有区域或年龄相关差异疾病的诊断或预后。
例如，脓毒症等疾病在不同种族群体中往往表现出不同的进展模式，而社区获得性肺炎的生存率与患者的年龄相关。通过调整描述性 prompts 中的内容，开发的 CLIP 驱动的应用可以在不同组之间无缝转换，而无需重新训练或微调。

5、讨论和未来的发展方向

上述部分已经深入研究，要么利用改进的CLIP预训练范式，要么在医学成像领域中展示CLIP驱动的临床应用。尽管取得了重大进展，但仍存在一些挑战和有待解决的问题。本节中，将总结关键的挑战，并就潜在的未来方向进行讨论。

5.1 预训练与应用不一致（Inconsistency between pre-training and application）

一些读者可能会注意到，refined CLIP pre-training 和 CLIP-driven application 这两个部分目前是不协调的。理想情况下，refined CLIP pre-training 负责提供更专门化 domain-specific 的 CLIP，反过来，应该在 CLIP-driven application 中利用它来增加专业知识。不幸的是，本调查涵盖的 CLIP-driven application 仍然主要依赖于OpenAI的预训练CLIP（在自然图像-文本数据集上训练）。这将极大地限制 CLIP-driven application 在临床实践中的性能。
在图19中，我们为每个器官选择前20到30个最常见的疾病，计算器官间疾病文本嵌入的相似度分布。尽管所选疾病之间存在固有的语义差异，但由此产生的相似性分布揭示了 CLIP 在有效区分它们方面面临的挑战。值得注意的是，这一困境在 BiomedCLIP 中得到了显著缓解，强调了特定领域的CLIP预训练的重要性。

Figure 19：非特定领域和特定领域预训练的比较
在这里插入图片描述

同时，为胸部x光分析量身定制的 BioViL 模型显示了最好的性能。这一观察结果强调了专门的预训练CLIP模型的有效性，强调了它们优于广义模型的能力，特别是在疾病之间的细粒度区分至关重要的情况下。因此，我们认为未来专注于 CLIP-driven application 的工作应该采用针对其目标器官的预训练CLIP。即使是针对 context 优化的研究（见4.1.2节），旨在有效地微调非领域特定的 CLIP 到特定的医学成像场景，我们仍然推荐使用 BioomedCLIP 而不是OpenAI的CLIP。

5.2 改进的预训练评价不全面（Incomprehensive evaluation of refined pre-training）

如前面3.5节所述，以 refined CLIP pre-training 为中心的研究通常通过各种评估任务来评估预训练质量。这些评估任务包括那些主要旨在评估视觉编码器的任务，如CLS/ZSC/SEG/DET，以及同时评估图像和文本编码器的任务，如ITR/VQA/PG。然而，问题在于现有的研究往往倾向于视觉偏倚的评价任务，在一定程度上忽略了对文本编码器的评价，这在表2中得到了明显的证明。虽然高质量的预训练视觉模型可以更容易地应用于特定领域的任务（例如，胸部疾病诊断），但它不应该成为忽视文本编码器的理由。
CLIP的本质在于图像和文本之间的对齐。只有当视觉编码器和文本编码器都显示出高质量时，它们才能有效地在特定领域的 CLIP-driven applications 中，作为基础部分发挥作用。BioViL 和BioViL-T 值得认可，因为它们对其预先训练好的视觉和文本编码器进行了相对全面的评估，并且 BioViL 已经被一些 CLIP-driven applications 所采用（见表3）。
对于未来的工作，我们鼓励研究人员进行更全面的评估。这些评估可以包括它们在诸如报告生成（IU-Xray）、phrase grounding（MS-CXR）和VQA（EHRXQA）等任务中的表现。

5.3 改进的CLIP预训练范围有限（Limited scope of refined CLIP pre-training）

目前，领域特定的CLIP模型是专门针对医学成像中的胸部x光片，其他流行的图像类型，如乳房x线摄影，膝关节MRI和组织学没有充分的研究。这种限制主要归因于公开可用数据集的稀缺性。以前，MIMIC-CXR是医学成像中图像-文本对齐的主要大型数据集。然而，随着最近发布的FFA-IR（2021年）和两个额外的组织学数据集（2023年），迫切需要进一步推进CLIP预训练，优先考虑这两个领域，而不是仅仅关注胸部x射线。这两个领域也有其特定的挑战，这使它们与胸部x射线不同。
FFA-IR数据集具有多视图诊断的特点。眼底荧光素血管造影（FFA）检查可能包括几十张甚至更多的图像，以全面观察和评估眼睛血管系统的状态和活动，这比胸部x线检查（只有1或2张）的情况要复杂。同时，组织学图像具有千兆像素分辨率的特点，通常在 patch level 进行处理，这鼓励了对 patch level 对齐和 slide-level 对齐的研究。
我们期望未来的工作可以开发更复杂的 CLIP 式预训练方法，以解决胸片以外领域的这些问题。

5.4 探索元数据的潜力（Exploring the potential of metadata）

虽然元数据具有提供有价值信息的潜力，但它在很大程度上仍未得到开发。这些数据通常包含各种患者属性，其中一些可能与视觉形态学表现出很强的相关性。例如，一个常见的属性，比如病人的年龄，可以提供对脑组织分割的见解。在图20中，人类一生中不同形态和组织的对比，强调了年龄信息在与大脑相关的任务中的潜在意义。因此，将元数据作为 prompts 的一部分集成可以增强基于深度学习的模型对数据的理解和解释。与之前通过多层感知器直接编码元数据的方法相比，CLIP 通过提供语义更丰富的文本嵌入脱颖而出，这表明了未来探索前途光明。

Figure 20：脑形态和强度对比随年龄的变化而变化
在这里插入图片描述

5.5 结合高阶相关性（Incorporation of high-order correlation）

现有的医学成像领域的 CLIP 式的预训练方法，仍然主要坚持图像和文本之间的正交对齐，缺乏对样本间相关性的明确考虑。这种传统做法包括将每个图像与其相应的 ground-truth 报告正交对齐。如3.3节所述，由于医学样本之间存在大量语义重叠，这种方法可能导致性能下降。虽然在之前介绍的一些研究中已经尝试通过报告间语义相似性来缓解这个问题，但它们的成功主要取决于手工制定的规则或使用预训练的文本编码器。此外，他们忽略了图像间的语义相似度。
因此，高阶相关性的集成成为一种很有前途的解决方案。为了详细说明，图像和文本样本之间的一阶相关性，表示 CLIP 预训练期间优化的图像-文本相似度，表示为 $\in R^{N×N}}$ ，其中，N表示样本数。二阶相关性，表示相关性之间的相关性，计算方法为 $\cdot C^T }$ ，扩展此逻辑，可以类似地计算高阶相关性。
高阶相关性的有效性已经在涉及多个信息源或那些需要解释复杂关系的任务中得到了证实，包括脑网络分析、多标签分类和多视图聚类。同样，医学图像-文本预训练涉及两种信息（即图像和文本），其语义相关性需要进一步探索。因此，我们期望未来的研究将更多地关注理解医学图像-文本样本之间复杂的语义相关性，通过高阶相关的方法解决正交图像-文本对齐的挑战。

5.6 超越图像-文本对齐（Beyond image-text alignment）

CLIP 的理念围绕着实现不同模式之间的对齐，特别是图像和文本。在这种情况下，对齐是指模型理解和在视觉内容和文本内容之间建立有意义的联系的能力。通过理解视觉和文本信息之间的内在联系，CLIP 可以在各种跨模态应用中表现出色，这是个广泛的趋势。将 CLIP 的对齐理念扩展到其他多模态医学成像分析是一个有前途的方向。医学成像通常包括x射线、核磁共振成像、CT扫描等多种方式，每种方式都能提供对患者病情不同方面的独特见解。与 CLIP 的方法类似，在统一的嵌入空间内对齐这些不同的成像模式可能会彻底改变医疗数据分析。这种对齐方法具有增强对复杂医学信息的整体理解和综合评估的潜力，为医学研究和诊断提供了一个进步的方向。

6、结论

综上所述，我们首次对医学影像中的CLIP进行了全面回顾。我们从两个角度深入研究了广泛的文献综述：refined CLIP pre-training 和 CLIP-driven application，在 refined CLIP pre-training 领域内，我们的调查提供了一个基于 CLIP 预训练在医学成像领域遇到的独特挑战的结构化分类，旨在为研究人员逐步推进这一领域绘制一条清晰的路径。在探索 CLIP-driven application 时，我们将这些方法与单独的视觉驱动方法进行了比较，强调了预训练的 CLIP 模型带来的附加价值。值得注意的是，经过深思熟虑的设计，它们可以作为有价值的补充监督信号，显著提高各种任务的性能。除了简单回顾这两部分的现有研究外，我们还讨论了常见问题，为未来的方向奠定了基础。通过阐明在医学成像中使用 CLIP 的潜力和挑战，我们的目标是推动该领域向前发展，鼓励创新并为类人化（human-aligned）的医疗人工智能铺平道路。

完结撒花~