小罗碎碎念
今天分析Nature Medicine病理AI系列的第三篇文章——《Prediction of tumor origin in cancers of unknown primary origin with cytology-based deep learning》
这篇文章报道了一种基于细胞学图像的深度学习方法TORCH,用于预测未知原发部位癌症的肿瘤起源,并在多个测试集上显示出高准确性。
作者角色 | 作者姓名 | 单位名称(中文) |
---|---|---|
第一作者 | Fei Tian | 天津医科大学肿瘤医院,天津医科大学消化肿瘤临床研究中心,国家癌症临床医学研究中心,天津,中国 |
通讯作者 | Wencai Li | 同上 |
通讯作者 | Kexin Chen | 同上 |
通讯作者 | Xiangchun Li | 同上 |
研究团队开发了一种基于深度学习的名为TORCH的方法,用于区分未知原发部位的癌症(CUP)的肿瘤起源。
CUP是一种难以诊断的疾病,因为它的原发肿瘤位置难以确定。该研究利用了来自四个三级医院的57,220个病例的细胞学图像,训练了一个能够识别恶性肿瘤并预测肿瘤起源的深度学习模型,无论是在胸腔积液还是腹水中。
研究结果显示,TORCH在内部和外部测试集上的表现都非常出色,癌症诊断的接收者操作特征曲线下面积(AUROC)值在0.953到0.991之间,肿瘤起源定位的AUROC值在0.953到0.979之间。TORCH在预测原发肿瘤起源方面表现出色,top-1准确率为82.6%,top-3准确率为98.9%。
与病理学家的结果相比,TORCH显示出更好的预测效果,显著提高了初级病理学家的诊断分数。此外,与TORCH预测起源一致的CUP患者的初始治疗方案与更好的总体生存率相关(27个月对比17个月,P=0.006)。
研究强调了TORCH作为临床实践中有价值的辅助工具的潜力,尽管需要在随机试验中进一步验证。这项研究为CUP的诊断和治疗提供了新的视角,并展示了人工智能在病理诊断中的潜力。
一、训练集和测试集的基线特征
该研究涉及57,220个样本,分为训练集、内部测试集和外部测试集。
以下是对表格中数据的详细分析:
1-1:总体分布(Overall)
- 性别:男性占45.1%,女性占54.9%。
- 年龄:平均年龄为59.13岁,标准差为14.21岁。
- 年龄组:49.1%的样本年龄小于或等于60岁,50.9%的样本年龄大于60岁。
- 原发肿瘤部位:消化系统肿瘤占9.9%,女性生殖系统肿瘤占21.6%,呼吸系统肿瘤占29.8%,血液和淋巴系统肿瘤占1.8%,良性肿瘤占36.9%。
- 胸腔积液:62.7%的样本有胸腔积液。
- 腹水:37.3%的样本有腹水。
- 癌症类型:56.7%的样本为癌症,其中80.9%为Tianjin地区,36.0%为Zhengzhou地区,58.5%为Suzhou地区。腺癌占47.2%,鳞状细胞癌占0.6%,其他癌症类型占2.7%,未分类癌症占6.2%。
- 确定性病例:75.0%的病例为高确定性病例,25.0%为低确定性病例。
1-2:训练集(Training sets)
- Tianjin:男性占32.8%,平均年龄58.23岁。消化系统肿瘤占15.3%,女性生殖系统肿瘤占39.7%,呼吸系统肿瘤占33.0%。80.9%的癌症为腺癌。
- Zhengzhou:男性占50.4%,平均年龄57.17岁。消化系统肿瘤占7.8%,女性生殖系统肿瘤占12.1%,呼吸系统肿瘤占25.7%。29.3%的癌症为腺癌。
- Suzhou:男性占52.3%,平均年龄63.02岁。消化系统肿瘤占12.1%,女性生殖系统肿瘤占13.5%,呼吸系统肿瘤占39.1%。47.9%的癌症为腺癌。
1-3:内部测试集(Internal testing sets)
- Tianjin:男性占32.7%,平均年龄58.25岁。消化系统肿瘤占14.1%,女性生殖系统肿瘤占39.7%,呼吸系统肿瘤占34.2%。87.7%的癌症为腺癌。
- Zhengzhou:男性占49.9%,平均年龄57.15岁。消化系统肿瘤占8.7%,女性生殖系统肿瘤占12.4%,呼吸系统肿瘤占25.5%。46.5%的癌症为腺癌。
- Suzhou:男性占51.9%,平均年龄63.57岁。消化系统肿瘤占11.3%,女性生殖系统肿瘤占13.9%,呼吸系统肿瘤占40.3%。65.0%的癌症为腺癌。
1-4:外部测试集(External testing sets)
- Tianjin-P:男性占45.6%,平均年龄60.27岁。消化系统肿瘤占8.0%,女性生殖系统肿瘤占22.6%,呼吸系统肿瘤占28.9%。59.4%的癌症为腺癌。
- Yantai:男性占46.0%,平均年龄60.73岁。消化系统肿瘤占6.2%,女性生殖系统肿瘤占21.5%,呼吸系统肿瘤占26.6%。52.6%的癌症为腺癌。
注意
- 表格底部的注释解释了“其他类型”主要包括哪些癌症类型,以及“未分类癌症”的含义。
- Tianjin-P代表Tianjin的外部测试集,并且是前瞻性招募的。
二、TORCH模型框架
这张图展示了一个医学研究或临床试验的流程,从数据收集到模型训练,再到测试的过程。
-
数据收集(Three medical centers n = 29,883 training sets):
- 研究开始于三个医疗中心,共收集了29,883个训练集数据。
- 临床病理数据来自放射影像科、医疗记录系统和病理数字数据库。
-
临床数据过滤(Clinical data filtration):
- 收集到的数据需要经过过滤,以确保数据的质量和相关性。
- 过滤过程包括去除不完整或不准确的数据,以及选择与研究目标最相关的数据。
-
模型训练(Iterative training):
- 过滤后的数据用于训练模型。
- 模型训练是一个迭代过程,涉及多次调整和优化模型参数,以提高其预测准确性。
- 图中显示了一个模型分类的概率分布图,这表示模型在训练过程中对不同类别的预测概率。
-
模型测试(Four medical centers n = 27,337 testing sets):
- 训练好的模型在四个医疗中心的27,337个测试集上进行评估。
- 测试集是独立于训练集的数据,用于验证模型的泛化能力,即模型在新数据上的表现。
这个流程图展示了一个典型的机器学习在医疗领域的应用过程,从数据的收集和预处理,到模型的训练和测试,每一步都是确保模型能够有效、准确地应用于临床实践的关键。通过在多个医疗中心进行测试,可以增加模型结果的可靠性和普适性。
在诊断过程中,大多数图像被放大了×200或×400倍。
这张图展示了一个使用深度神经网络对病理切片进行分析和分类的过程。
以下是对每个步骤的详细分析:
-
深度神经网络处理:
- 中间的部分展示了深度神经网络的结构,它由多个层组成,包括输入层、隐藏层和输出层。
- 网络通过学习病理切片图像的特征来进行分类。每个节点代表一个神经元,它们通过权重连接,这些权重在训练过程中不断调整以优化分类性能。
-
概率输出:
- 深度神经网络处理后,输出每个类别的概率。在这个例子中,类别包括良性、消化系统、呼吸系统、女性生殖系统和血液淋巴系统。
- 概率图显示了模型对每个类别的预测置信度。
-
排名:
- 根据输出的概率,模型对可能的诊断进行排名。
- 排名最高的类别被认为是最可能的诊断。在这个例子中,消化系统被预测为最可能的类别(Top-1),其次是呼吸系统(Top-2),依此类推。
这个过程展示了深度学习在病理诊断中的应用,通过自动化的方式提高诊断的效率和准确性。深度神经网络能够从大量的病理图像中学习复杂的特征,从而帮助病理学家做出更准确的诊断。
三、开发和评估TORCH模型的流程
这张图展示了一个肿瘤起源预测模型的开发和测试流程,分为三个主要部分:训练集和模型开发、测试集以及模型的可解释性分析。
3-1:训练集和模型开发
-
数据来源:
- 病理影像数据来自TCGA(The Cancer Genome Atlas),涵盖32个器官或系统,包括11,607个个体,1360,892张图像,20种治疗方式。
- 细胞学影像数据来自四家医院,时间跨度为2010年6月至2023年10月,共57,220例胸腔积液和腹水病例。
-
数据分类:
- 数据被分为良性(21,112例)和恶性(36,108例,分为四个类别)。
-
训练集构建:
- 训练集包含29,883例,其中胸腔积液18,981例,腹水10,902例。
- 通过迭代训练,使用深度卷积神经网络(DCNN)模型进行五种亚型的分类。
-
模型目标:
- 模型的目标是预测肿瘤的起源。
3-2:测试集
-
测试集构建:
- 总测试集包含27,337例,其中10,635例为良性病例,16,702例为恶性病例。
- 内部测试集包括Tianjin的4,186例,Zhengzhou的6,234例,Suzhou的2,379例。
- 外部测试集包括Tianjin-P的3,933例,Yantai的10,605例。
-
验证方法:
- 通过常规病理学检查验证。
3-3:模型的可解释性分析
-
随机选择:
- 从测试集中随机选择495例,由高级病理学家和初级病理学家进行分析。
-
AI辅助:
- 另外496例由初级病理学家在AI辅助下进行分析。
-
模型可解释性:
- 通过1,351例进行模型的可解释性分析。