小罗碎碎念
今天是Nature Medicine病理AI系列的最后一篇文章,标题为A foundation model for clinical-grade computational pathology and rare cancers detection。
这篇文章介绍了一个大型病理基础模型Virchow,它在计算病理学领域实现了对常见和罕见癌症的高精度检测,展示了在有限标记数据下的应用潜力。
作者角色 | 姓名 | 单位(中文) |
---|---|---|
第一作者 | Eugene Vorontsov | 纽约,美国,Paige公司 |
第一作者 | Alican Bozkurt | 纽约,美国,Paige公司 |
第一作者 | Adam Casson | 纽约,美国,Paige公司 |
第一作者 | George Shaikovski | 纽约,美国,Paige公司 |
第一作者 | Michal Zelechowski | 纽约,美国,Paige公司 |
第一作者 | Kristen Severson | 纽约,美国,纪念斯隆凯特琳癌症中心 |
通讯作者 | Siqi Liu | 纽约,美国,Paige公司 |
通讯作者 | Thomas J. Fuchs | 纽约,美国,纪念斯隆凯特琳癌症中心 |
再给大家稍微扩展一下,目前顶尖的医学AI专家在商界是多么吃香,哈哈。
这篇文章介绍了一个名为Virchow的新型基础模型,它是为了提高临床级计算病理学和罕见癌症检测的能力而开发的。
Virchow是迄今为止最大的计算病理学基础模型,它通过自监督学习算法训练,能够处理大量的组织样本数据。该模型在预测生物标志物和识别细胞方面表现出色,并且在泛癌症检测方面取得了显著的成果,能够在九种常见和七种罕见癌症中实现0.95的标本级区域下接收者操作特征曲线(AUC)。
文章强调了基础模型在临床病理学中的价值,尤其是在训练数据有限的情况下。Virchow模型在泛癌症检测方面的性能提升,为多种高影响应用开辟了可能性,这些应用在以往由于标记训练数据不足而难以实现。此外,文章还展示了Virchow模型在预测特定基因突变和蛋白质表达方面的潜力,这些生物标志物在癌症的诊断和治疗中起着关键作用。
研究还比较了Virchow模型与其他几种模型的性能,发现Virchow在多种生物标志物预测任务中表现优于其他模型。通过定性分析,研究还探讨了AI模型未能识别或错误识别癌细胞的错误模式。
总的来说,这篇文章展示了Virchow模型在计算病理学领域的潜力,尤其是在提高罕见癌症检测和生物标志物预测的准确性方面。这可能对临床实践产生重大影响,包括减少诊断时间、提高筛查率和为患者提供更快速的治疗方案。
一、研究概览
1-1:训练数据
下图展示了与患者数据相关的统计信息。
-
患者总数:数据中代表的独特个体总数为 119,629 人。
-
需要组织样本的患者事件:需要组织样本的患者事件总数为 208,815 例。
-
组织样本总数:收集的组织样本总数为 392,268 个。
-
石蜡包埋样本总数:为显微镜检查而切片的石蜡包埋样本总数为 1,207,837 块。
-
H&E 染色切片总数:经过数字化处理后,每个样本有数万平方像素的诊断样本总数为 1,488,550 张。
1-2:关于患者样本类型的统计数据
以下是对这些数据的详细分析:
-
样本类型分布:
- Cancer:占样本的 38.0%。
- Precursor:占样本的 8.0%。
- Benign:占样本的 24.6%。
- Unknown:占样本的 29.4%。
-
样本来源分布:
- Resection:37% 的样本来自切除手术。
- Biopsy:63% 的样本来自活检。
-
按身体部位分布:
- Lymph node:16.6% 的样本来自淋巴结。
- Skin:18.4% 的样本来自皮肤。
- Breast:24.9% 的样本来自乳腺。
- Lung:6.1% 的样本来自肺部。
- Bladder:5.5% 的样本来自膀胱。
- Prostate:3.7% 的样本来自前列腺。
- Liver:3.2% 的样本来自肝脏。
- Ovary:3.2% 的样本来自卵巢。
- Endometrium:3.4% 的样本来自子宫内膜。
- Colon:3.2% 的样本来自结肠。
- Bone:2.7% 的样本来自骨骼。
- Stomach:3.5% 的样本来自胃部。
- Peritoneum:0.8% 的样本来自腹膜。
- Brain:0.4% 的样本来自脑部。
- Pancreas:1.8% 的样本来自胰腺。
- Adrenal gland:0.2% 的样本来自肾上腺。
- Upper Gl:2.2% 的样本来自上消化道。
1-3:切片处理流程
- 基础模型(Foundation model):
- 这个模型被训练用来将组织切片嵌入到一个基本的表示中,这个表示可以适应多种不同的任务。
- 这意味着该模型具有通用性,可以被调整用于各种不同的分析和诊断目的。
- 组织瓦片(Tissue tiles):
- 这些是从组织切片中裁剪出来的 224 x 224 像素的区域。这些瓦片是模型处理的基本单位,用于训练和适应不同的任务。
- Virchow:
- 个人猜测,作者之所以把模型命名为Virchow,是想致敬鲁道夫·维尔肖(Rudolf Virchow),因为他是细胞病理学之父,对病理学领域做出了重要贡献。
- 模型架构(Foundation model with ViT-H architecture):
- 模型使用了 ViT-H 架构,这是一种Vision Transformer的变体,具有 632 百万参数。这种架构特别适合处理图像数据,能够捕捉到复杂的视觉模式。
- 训练框架(trained using DINOv2 framework):
- DINOv2 是一种自监督学习框架,用于训练深度学习模型,使其能够在没有明确标签的情况下学习数据的表示。这种方法有助于提高模型的泛化能力,使其能够更好地适应新的任务和数据。
1-4:基础模型的应用
- 适应过程(Adaptation):
- 这个过程涉及将组织瓦片的聚合嵌入(来自基础模型的输出)适应于预测整个切片级别的属性,这些属性可以跨多种不同的任务。
- 组织瓦片(Tissue tiles):
- 这些是从H&E染色切片中裁剪出来的小区域,用于训练和适应模型。
- 嵌入(Embeddings):
- 嵌入是模型从组织瓦片中学习到的表示,这些表示可以捕捉到组织的视觉和语义特征。
- 下游任务:
- 泛癌检测
- 泛癌亚型检测
- 数字标志物的预测
二、泛癌检测
使用Virchow、UNI、Phikon或CTransPath瓦片嵌入作为输入的聚合网络在标本级别预测癌症检测。
2-1:根据起源组织确定的癌症类型对癌症检测性能(AUC)进行分层
。对于每种癌症类型,统计上显著(P < 0.05)的最佳表现嵌入的AUC以洋红色突出显示。当不止一个AUC不是灰色时,性能是“并列的”(没有统计学意义上的差异)。用于为聚合器生成瓦片嵌入的基础模型显示在左侧的边缘,以及相应的聚合器达到(或并列)最高AUC的癌症类型数量。所有统计显著性(a–e)是使用AUC的成对DeLong检验和特异性Cochran’s Q检验后继以McNemar’s检验计算得出的,均使用Holm的方法进行多重比较校正。
Virchow模型在所有癌症类型中实现了最佳的癌症检测性能,包括罕见癌症。
- 数据列出了按美国(SEER)发病率从高到低排序的癌症类型:
- 乳腺癌
- 前列腺癌
- 肺癌
- 结肠癌
- 皮肤癌
- 膀胱癌
- 子宫癌
- 胰腺癌
- 头颈癌(H&N)
- 这些数字代表每10万人中的发病率。
2-2:癌症检测性能
A. 所有癌症类型
-
AUC(Area Under the Curve):
- Virchow:0.950
- UNI:0.940
- Phikon:0.932
- CTransPath:0.907
AUC值接近1表示模型的预测性能越好。Virchow模型在所有癌症类型上的AUC值最高,其次是UNI,Phikon和CTransPath。
-
特异性(在95%的敏感性下):
- Virchow:0.725
- UNI:0.689
- Phikon:0.629
- CTransPath:0.523
特异性是指在给定的敏感性水平下,模型正确识别非癌症样本的能力。Virchow模型在特异性上也表现最佳,其次是UNI,Phikon和CTransPath。
B. 罕见癌症类型
-
AUC:
- Virchow:0.937
- UNI:0.925
- Phikon:0.917
- CTransPath:0.878
对于罕见癌症类型,Virchow模型仍然具有最高的AUC值,其次是UNI,Phikon和CTransPath。
-
特异性(在95%的敏感性下):
- Virchow:0.606
- UNI:0.583
- Phikon:0.594
- CTransPath:0.453
在罕见癌症类型中,Virchow模型的特异性最高,其次是Phikon,UNI和CTransPath。
样本数量
- 所有癌症类型的样本总数:6,142
- 罕见癌症类型的样本总数:2,595
2-3:罕见癌症检测性能
- 癌症起源部位:
- 列出的癌症起源部位包括:肝脏、胃、大脑、卵巢、宫颈、睾丸和骨骼。
- 每个部位的样本数量(n)为400,这表明每个部位的数据量是一致的,允许进行公平的模型性能比较。
结论
Virchow模型几乎在所有列出的癌症起源部位中均显示出最高的预测性能,UNI和Phikon模型在其后。
2-4:癌症检测性能与基础模型的大小以及用于训练它的训练样本(瓦片)数量成比例
三、Virchow可以学习到有意义的切片内容
在CoNSeP数据集中,通过嵌入主成分突出显示的细胞。
四、不同模型在特定癌症类型和生物标志物上的预测性能
- 模型性能:
- Virchow:在大多数癌症类型和生物标志物上,Virchow模型的预测性能最高0。
- CTransPath:CTransPath模型的性能在所有列出的模型中最低,其值通常低于0.900。
- 癌症类型和生物标志物:
- 列出的癌症类型包括:皮肤癌、子宫内膜癌、前列腺癌、卵巢癌、胃癌、乳腺癌、结肠癌、膀胱癌和肺癌。
- 列出的生物标志物包括:AR、FGA、HER2、BRAF、PTEN、EGFR、CDH1、MSI和FGFR。
- 性能比较:
- 在某些特定情况下,如卵巢癌,Phikon模型的性能超越Virchow。
- 对于某些癌症类型和生物标志物,如肺癌和皮肤癌,CTransPath模型的性能显著低于其他模型。