作者:李宝珠
编辑:三羊
阿里达摩院联合国内外十余家医疗机构,发布 PANDA 大模型,实现胰腺癌早期筛查,在 2 万余真实世界连续病人群体中发现了 31 例临床漏诊病变。
尽管医学发展日新月异,但人们还是不免谈「癌」色变。其中,胰腺癌因起病隐匿、生存时间短,尤为棘手,中国疾控中心流行病学首席专家吴尊友、苹果之父乔布斯等人都没能逃脱胰腺癌的「魔掌」。其中,占胰腺癌病例 95% 的胰腺导管腺癌 (pancreatic ductal adenocarcinoma,PDAC) 堪称是所有实体瘤中,致死率最高的癌症类型之一,被称为「癌症之王」。根据 2020 年的数据,PDAC 每年导致约 46.6 万人死亡。
世界卫生组织曾提出,三分之一的癌症可以通过早期发现得到根治。而胰腺癌初期的明显表征少,胰腺又位于身体「深处」、位置隐蔽,腹部超声等基础影像学检查和平扫 CT,由于图像对比度低很难识别早期病变。增强 CT 等影像诊断又因为需要注射造影剂、检查周期长、费用昂贵等原因,不适宜应用于大规模胰腺癌早期筛查。
针对胰腺癌的早筛早治问题,阿里达摩院联合上海市胰腺疾病研究所、浙江大学医学院附属第一医院、中国医科大学附属盛京医院等国内外医疗机构,开发了基于深度学习的胰腺癌人工智能检测 (Pancreatic Cancer Detection with Artificial Intelligence,PANDA),通过「平扫 CT+AI」进行大规模的胰腺癌早期筛查。该研究成果目前已发表于「Nature Medicine」。
该研究成果已发表于「Nature Medicine」
论文地址:https://www.nature.com/articles/s41591-023-02640-w
数据集:包含 5 个患者队列
该研究的数据集包含 5 个患者队列:
- 内部训练数据集队列,用于构建 AI 模型;
- 内部测试队列,用于评估模型性能;
- 外部多中心测试队列,用于评估模型通用性;
- 胸部非对比 CT 测试队列,用于评估对胸部 CT 扫描的泛化能力;
- 实际临床评估队列,用于评估临床转化问题。
其中,在内部训练队列中,PANDA 在腹部平扫 CT 扫描训练集上进行了训练,该训练集来自上海胰腺疾病研究所 (SIPD) 于 2015 年 1 月至 2020 年 10 月之间收治的 3,208 例患者,研究人员还进行了两年的随访确认。
模型架构:Transformer 识别病变类型
PANDA (Pancreatic Cancer Detection with Artificial Intelligence) 由 3 个网络阶段级联而成,模型复杂性和任务难度逐渐增加。首先通过构建分割网络 (nnU-Net) 来定位胰腺,进而采用卷积神经网络 (CNN) 来检测异常病变,最后采用双通道 Transformer 来分类并识别胰腺病变的类型。
PANDA 深度学习框架由 3 个阶段组成
第一阶段(图 a),由于胰腺病变在 CT 扫描中只呈现出很小的一个区域,所以胰腺的定位可以加速病变的发现过程,并剔除与胰腺区域专业训练无关的信息。对此,研究人员利用医学影像分割框架 nnU-Net,从输入的非对比 CT 扫描中分割整个胰腺。
第二阶段(图 b),主要是进行病变检测。研究人员从分割网络中提取多层次特征,并构建了卷积神经网络及分类头,以区分平扫 CT 中胰腺病变的细微纹理变化。同时,研究人员对第二阶段的模型进行了调整,使其在训练集的交叉验证中病变检测的特异性达到了 99%,减少假阳性预测。
第三阶段(图 c),主要是对胰腺病变进行鉴别诊断。如果在第二阶段检测到任何异常,则整合辅助记忆 Transformer 来自动编码胰腺病变的特征原型,如局部纹理、位置和胰腺形状,以便更准确地进行细粒度分类。
实验验证:模型表现略优于专业阅片人员
内部测试
在内部测试评估中,研究团队选取了上海市胰腺疾病研究所的 291 例患者,进行病变检测。其中有 108 名胰腺导管腺癌患者、67 名非胰腺导管腺癌患者和 116 名正常对照组。
PANDA 在受试者工作特征曲线 (ROC 曲线) 下的面积 (AUC) 为 0.996(95% 置信区间为 0.991-1.00),灵敏度为 94.9%, 特异性为 100%。对于常见的胰腺导管腺癌亚型,PANDA 的灵敏度为 97.2%,特异性为9 7.3%。对于体积较小的PDAC (直径<2 cm) 检测灵敏度达到了 85.7%。
内部测试评估及外部测试评估结果
外部测试
在外部多中心测试评估中,研究人员选取了来自中国大陆、中国台湾地区和捷克共和国的 9 个中心共 5,337 例患者。其中,2,737 例胰腺导管腺癌患者,932 例非胰腺导管腺癌患者和 1,668 例正常对照人群。
结果显示,对于胰腺病变,PANDA 的 AUC 值为 0.984,敏感性为 93.3%,特异性为 98.8%;对于 PDAC 亚组,总体检出率为 96.5%。对于病灶较小的 PDAC(直径<2 cm,T1),敏感性为 92.2%。总体而言,PDAC 诊断的敏感性达到了 90.1%,特异性达到了 95.7%。
胸部 CT 检验测试
此外,研究人员还验证了在胸部 CT 上使用 PANDA 检测胰腺病变的可行性。研究人员收集了上海市胰腺疾病研究所 492 名患者的非对比胸部 CT 扫描影像,其中包括 63 名胰腺导管腺癌患者,51 名非胰腺导管腺癌患者和 378 名正常对照患者,作为独立于训练数据的测试队列。
利用 PANDA 在胸部 CT 上检测胰腺病变
在没有调整任何胸部 CT 扫描的情况下,PANDA 在病变检测方面的灵敏度为 86.0%,特异性为 98.9%。值得一提的是,根据详细的胸部 CT 方案,某些胰腺病变不能完全扫描。研究人员通过参考对比增强腹部 CT 扫描中的病变位置,分析了胸部 CT 中的病变扫描完整性,发现 67% 的胰腺导管腺癌患者和 43% 的非胰腺导管腺癌患者未完全扫描。在 CT 扫描视野未能捕获到胰腺病变的患者中 ,有 75% 的胰腺导管腺癌病例被 PANDA 成功检测到。
临床应用测试
此外,研究团队还进行了两轮临床应用评估,进一步验证了 PANDA 在实际场景中的可用性。
第一轮共选取了 16,420 名患者,评估了 PANDA 的实际临床表现、护理诊断场景变化、患者获益等多方面的效果。
结果显示,在病变检测中,PANDA 的总灵敏度为 84.6%,特异性为 99.5%;在胰腺导管腺癌鉴定方面,PANDA 的总灵敏度为 95.5%,特异性为 99.9%。此外,在体检、急诊、门诊和住院四种场景下,PANDA 对住院患者病变检测的敏感度最高,为 88.6%,PANDA 对体检患者病变检测的特异性最高,为 99.8%。
在第二轮测试评估前,研究人员进行了模型优化,以减少假阳性并扩充之前未观察到的疾病种类。研究人员通过难例挖掘 (hard example mining) 和增量学习 (incremental learning) ,将 PANDA 升级为 PANDA-plus,并进行了第二轮临床应用研究。
本轮评估共纳入 4,110 例患者,结果结果,PANDA-plus 较 PANDA 降低了超过 80% 的假阳性率,胰腺病变检出和胰腺导管腺癌的特异性均达到了 99.9%。同时,PANDA-plus 对急性胰腺炎的检测敏感性也达到了 90.0%。
PANDA检测到初始护理标准未检测到的胰腺病变
更重要的是,在包含 20,530 名患者的实际临床研究中,PANDA 检测到了 5 例癌症和 26 例临床漏诊病例,并使一名胰腺神经内分泌肿瘤患者得到了治愈性治疗。
此外,研究团队还联合胰腺成像专家、一般放射科医生和放射科住院医生,进行了实际阅片比对。15 名专业的胰腺成像专家解读了相同 291 例患者的多相增强 CT 扫描,PANDA 在非增强 CT 扫描中的表现略优于专业阅片者使用增强 CT 扫描的平均表现。
达摩院的 AI 医疗版图
达摩院医疗 AI 团队负责人、IEEE Fellow 吕乐在接受媒体采访时表示:「我们的最大创新之处在于,首次证实了在平扫 CT 上使用 AI 进行胰腺癌筛查的可行性,并达到了之前认为可能达不到的高性能。」
此外,论文共同一作、上海市胰腺疾病研究所的曹凯医生认为,「PANDA 将拓宽业内对胰腺癌筛查的认知边界,推动临床治疗的发展。”另一位共同一作、复旦大学附属肿瘤医院放射诊断科的汤伟医生表示,“PANDA 提出了一种有潜力的大规模胰腺癌筛查方法,在提升检出率的同时,又不会给病人带来额外的辐射与经济负担。」
根据达摩院官网给出的数据,PANDA 已在医院、体检等场景被调用超过 50 万次,每 1,000 次只出现一次假阳性。
毫无疑问,这是 AI 与医疗数据双剑合璧之下,对胰腺癌发起的沉重一击,使得早筛早治成为可能。而这也恰恰是医疗 AI 的初心所在。了解达摩院的读者应该知道,其医疗 AI 团队长期致力于 AI 与医疗影像的融合研究。据介绍,达摩院医疗 AI 团队重点布局精准癌症诊疗、精准慢性病诊疗、神经退行性疾病预筛三大方向。
除了 PANDA 外,达摩院还在今年 8 月,联合中山大学肿瘤防治中心、四川省肿瘤医院、浙大附属第一医院、盛京医院、广东省人民医院等单位,提出了一个统一的多癌影像分析通用模型 (cancerUniT),以 Mask Transformer 语义分割为基础,解决多种肿瘤图像此前难以统一检测、分割和诊断的问题,适用于 8 种主流的高发高致死癌症(肺、结直肠、肝、胃、乳腺、食管、胰腺、肾)以及相关器官中的肿瘤子类型。
此前,在达摩院免费开放的 100 件 AI 专利中,就有 3 件是专门针对癌症的精准治疗,应用于「图像引导的放射治疗」、「纵向病灶量化」、「基于图谱的分割以及多模态融合的计算机辅助诊断」。
此外,2022 年 10 月,达摩院还曾联合浙江大学医学院附属第一医院提出了危及器官分层分割模型 (SOARS)。这个自动化且高效的算法系统 SOARS,构建了两个维度的分层深度学习框架,实现 42 个头颈部 OARs 的精准分割。
据悉,达摩院医疗 AI 团队正在联合全球多家顶尖医疗机构,利用 AI 技术探索低廉、高效的多癌筛查新方法,也期待其能够将更多的 AI「黑科技」带入医疗领域。
参考资料:
1.https://mp.weixin.qq.com/s/WhWnkkAFJjAkqGlMTDEx9w
2.https://mp.weixin.qq.com/s/wkNutLLWNHkZByY0QV90pg
3.https://mp.weixin.qq.com/s/_qhI