Nature Medicine病理AI汇总|TORCH:预测未知原发部位癌症的肿瘤起源|顶刊精析·24-11-01

小罗碎碎念

今天分析Nature Medicine病理AI系列的第三篇文章——《Prediction of tumor origin in cancers of unknown primary origin with cytology-based deep learning》

文章标题及发表时间

这篇文章报道了一种基于细胞学图像的深度学习方法TORCH,用于预测未知原发部位癌症的肿瘤起源,并在多个测试集上显示出高准确性。

https://doi.org/10.1038/s41591-024-02915-w

作者角色作者姓名单位名称(中文)
第一作者Fei Tian天津医科大学肿瘤医院,天津医科大学消化肿瘤临床研究中心,国家癌症临床医学研究中心,天津,中国
通讯作者Wencai Li同上
通讯作者Kexin Chen同上
通讯作者Xiangchun Li同上

研究团队开发了一种基于深度学习的名为TORCH的方法,用于区分未知原发部位的癌症(CUP)的肿瘤起源。

CUP是一种难以诊断的疾病,因为它的原发肿瘤位置难以确定。该研究利用了来自四个三级医院的57,220个病例的细胞学图像,训练了一个能够识别恶性肿瘤并预测肿瘤起源的深度学习模型,无论是在胸腔积液还是腹水中。

研究结果显示,TORCH在内部和外部测试集上的表现都非常出色,癌症诊断的接收者操作特征曲线下面积(AUROC)值在0.953到0.991之间,肿瘤起源定位的AUROC值在0.953到0.979之间。TORCH在预测原发肿瘤起源方面表现出色,top-1准确率为82.6%,top-3准确率为98.9%。

与病理学家的结果相比,TORCH显示出更好的预测效果,显著提高了初级病理学家的诊断分数。此外,与TORCH预测起源一致的CUP患者的初始治疗方案与更好的总体生存率相关(27个月对比17个月,P=0.006)。

研究强调了TORCH作为临床实践中有价值的辅助工具的潜力,尽管需要在随机试验中进一步验证。这项研究为CUP的诊断和治疗提供了新的视角,并展示了人工智能在病理诊断中的潜力。


一、训练集和测试集的基线特征

该研究涉及57,220个样本,分为训练集、内部测试集和外部测试集。

表1

以下是对表格中数据的详细分析:

1-1:总体分布(Overall)

  • 性别:男性占45.1%,女性占54.9%。
  • 年龄:平均年龄为59.13岁,标准差为14.21岁。
  • 年龄组:49.1%的样本年龄小于或等于60岁,50.9%的样本年龄大于60岁。
  • 原发肿瘤部位:消化系统肿瘤占9.9%,女性生殖系统肿瘤占21.6%,呼吸系统肿瘤占29.8%,血液和淋巴系统肿瘤占1.8%,良性肿瘤占36.9%。
  • 胸腔积液:62.7%的样本有胸腔积液。
  • 腹水:37.3%的样本有腹水。
  • 癌症类型:56.7%的样本为癌症,其中80.9%为Tianjin地区,36.0%为Zhengzhou地区,58.5%为Suzhou地区。腺癌占47.2%,鳞状细胞癌占0.6%,其他癌症类型占2.7%,未分类癌症占6.2%。
  • 确定性病例:75.0%的病例为高确定性病例,25.0%为低确定性病例。

1-2:训练集(Training sets)

  • Tianjin:男性占32.8%,平均年龄58.23岁。消化系统肿瘤占15.3%,女性生殖系统肿瘤占39.7%,呼吸系统肿瘤占33.0%。80.9%的癌症为腺癌。
  • Zhengzhou:男性占50.4%,平均年龄57.17岁。消化系统肿瘤占7.8%,女性生殖系统肿瘤占12.1%,呼吸系统肿瘤占25.7%。29.3%的癌症为腺癌。
  • Suzhou:男性占52.3%,平均年龄63.02岁。消化系统肿瘤占12.1%,女性生殖系统肿瘤占13.5%,呼吸系统肿瘤占39.1%。47.9%的癌症为腺癌。

1-3:内部测试集(Internal testing sets)

  • Tianjin:男性占32.7%,平均年龄58.25岁。消化系统肿瘤占14.1%,女性生殖系统肿瘤占39.7%,呼吸系统肿瘤占34.2%。87.7%的癌症为腺癌。
  • Zhengzhou:男性占49.9%,平均年龄57.15岁。消化系统肿瘤占8.7%,女性生殖系统肿瘤占12.4%,呼吸系统肿瘤占25.5%。46.5%的癌症为腺癌。
  • Suzhou:男性占51.9%,平均年龄63.57岁。消化系统肿瘤占11.3%,女性生殖系统肿瘤占13.9%,呼吸系统肿瘤占40.3%。65.0%的癌症为腺癌。

1-4:外部测试集(External testing sets)

  • Tianjin-P:男性占45.6%,平均年龄60.27岁。消化系统肿瘤占8.0%,女性生殖系统肿瘤占22.6%,呼吸系统肿瘤占28.9%。59.4%的癌症为腺癌。
  • Yantai:男性占46.0%,平均年龄60.73岁。消化系统肿瘤占6.2%,女性生殖系统肿瘤占21.5%,呼吸系统肿瘤占26.6%。52.6%的癌症为腺癌。

注意

  • 表格底部的注释解释了“其他类型”主要包括哪些癌症类型,以及“未分类癌症”的含义。
  • Tianjin-P代表Tianjin的外部测试集,并且是前瞻性招募的。

二、TORCH模型框架

这张图展示了一个医学研究或临床试验的流程,从数据收集到模型训练,再到测试的过程。

共有42,682个病例来自三个大型三级转诊机构,其中70%(n = 29,883)被用作训练集

  1. 数据收集(Three medical centers n = 29,883 training sets)

    • 研究开始于三个医疗中心,共收集了29,883个训练集数据。
    • 临床病理数据来自放射影像科、医疗记录系统和病理数字数据库。
  2. 临床数据过滤(Clinical data filtration)

    • 收集到的数据需要经过过滤,以确保数据的质量和相关性。
    • 过滤过程包括去除不完整或不准确的数据,以及选择与研究目标最相关的数据。
  3. 模型训练(Iterative training)

    • 过滤后的数据用于训练模型。
    • 模型训练是一个迭代过程,涉及多次调整和优化模型参数,以提高其预测准确性。
    • 图中显示了一个模型分类的概率分布图,这表示模型在训练过程中对不同类别的预测概率。
  4. 模型测试(Four medical centers n = 27,337 testing sets)

    • 训练好的模型在四个医疗中心的27,337个测试集上进行评估。
    • 测试集是独立于训练集的数据,用于验证模型的泛化能力,即模型在新数据上的表现。

这个流程图展示了一个典型的机器学习在医疗领域的应用过程,从数据的收集和预处理,到模型的训练和测试,每一步都是确保模型能够有效、准确地应用于临床实践的关键。通过在多个医疗中心进行测试,可以增加模型结果的可靠性和普适性。


在诊断过程中,大多数图像被放大了×200或×400倍。

就是常规意义的20X和40X


这张图展示了一个使用深度神经网络对病理切片进行分析和分类的过程。

通过细胞学图像训练的深度学习网络旨在根据最高的预测概率得分将目标图像分为五个类别。

以下是对每个步骤的详细分析:

  1. 深度神经网络处理

    • 中间的部分展示了深度神经网络的结构,它由多个层组成,包括输入层、隐藏层和输出层。
    • 网络通过学习病理切片图像的特征来进行分类。每个节点代表一个神经元,它们通过权重连接,这些权重在训练过程中不断调整以优化分类性能。
  2. 概率输出

    • 深度神经网络处理后,输出每个类别的概率。在这个例子中,类别包括良性、消化系统、呼吸系统、女性生殖系统和血液淋巴系统。
    • 概率图显示了模型对每个类别的预测置信度。
  3. 排名

    • 根据输出的概率,模型对可能的诊断进行排名。
    • 排名最高的类别被认为是最可能的诊断。在这个例子中,消化系统被预测为最可能的类别(Top-1),其次是呼吸系统(Top-2),依此类推。

这个过程展示了深度学习在病理诊断中的应用,通过自动化的方式提高诊断的效率和准确性。深度神经网络能够从大量的病理图像中学习复杂的特征,从而帮助病理学家做出更准确的诊断。


三、开发和评估TORCH模型的流程

这张图展示了一个肿瘤起源预测模型的开发和测试流程,分为三个主要部分:训练集和模型开发、测试集以及模型的可解释性分析。

image-20241101093014442

3-1:训练集和模型开发

  1. 数据来源

    • 病理影像数据来自TCGA(The Cancer Genome Atlas),涵盖32个器官或系统,包括11,607个个体,1360,892张图像,20种治疗方式。
    • 细胞学影像数据来自四家医院,时间跨度为2010年6月至2023年10月,共57,220例胸腔积液和腹水病例。
  2. 数据分类

    • 数据被分为良性(21,112例)和恶性(36,108例,分为四个类别)。
  3. 训练集构建

    • 训练集包含29,883例,其中胸腔积液18,981例,腹水10,902例。
    • 通过迭代训练,使用深度卷积神经网络(DCNN)模型进行五种亚型的分类。
  4. 模型目标

    • 模型的目标是预测肿瘤的起源。

3-2:测试集

  1. 测试集构建

    • 总测试集包含27,337例,其中10,635例为良性病例,16,702例为恶性病例。
    • 内部测试集包括Tianjin的4,186例,Zhengzhou的6,234例,Suzhou的2,379例。
    • 外部测试集包括Tianjin-P的3,933例,Yantai的10,605例。
  2. 验证方法

    • 通过常规病理学检查验证。

3-3:模型的可解释性分析

  1. 随机选择

    • 从测试集中随机选择495例,由高级病理学家和初级病理学家进行分析。
  2. AI辅助

    • 另外496例由初级病理学家在AI辅助下进行分析。
  3. 模型可解释性

    • 通过1,351例进行模型的可解释性分析。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/906477.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

关于SQLServer在局域网内无法连接的问题的解决思路

针对SQL Server 2008在局域网内无法连接的问题,以下是一些详细的解决办法。我们在过程中需要用到Microsoft SQL Server 2008和Microsoft SQL Server tools 2008数据库软件中的配置管理器以及SQL Server Management Studio工具,入下截图所示。 一、检查网…

Ubuntu22.04 安装图形界面以及XRDP教程

一、准备环境 1.一台服务器安装系统ubuntu(这里大部分ubuntu系统可以同用) 2.安装的ubuntu系统未安装图形界面 二、操作步骤 1.远程ssh或者直接登录服务器命令行界面 ssh -p 远程端口 rootIP 2.更新系统软件包 sudo apt update # 更新本地的软件包…

【运动的&足球】足球运动员球守门员裁判检测系统源码&数据集全套:改进yolo11-DBBNCSPELAN

改进yolo11-FocalModulation等200全套创新点大全:足球运动员球守门员裁判检测系统源码&数据集全套 1.图片效果展示 项目来源 人工智能促进会 2024.10.28 注意:由于项目一直在更新迭代,上面“1.图片效果展示”和“2.视频效果展示…

【特征值处理】

【特征值处理】 💐The Begin💐点点关注,收藏不迷路💐 在处理机器学习的相关数据时,需要把特征值与目标组成二组,请您输出处理后的结果。 输入 第一行输入特征值向量,第二行输入目标向量。 输…

异步电机转差率和工作原理,异步电机和同步电机的区别

一、异步电机 异步电机的工作原理基于转差率( s s s),而转差率的大小决定了电机是作为电动机还是发电机运行。为了深入理解其中的原理,我们可以从电磁感应和转速关系来分析: 1. 电动机工作原理 异步电机工作时&…

《双指针篇》---移动零

题目传送门 这道题可以归类为 数组划分/数组分块 。 题目制定了一个规则,我们可以在这个规则下,将数组划分为若干个区间。 这道题让我们把所有非零元素移动到左边。所有零元素移动到右边。 将数组划分为: 左区间非0; 右区间&…

龙迅#LT6211适用于HDMI转4PORT LVDS,分辨率高达4K60HZ,可提供技术支持!

1.特点HDMI1.4接收器 符合HDMI 1.4规范,TMDS数据速率每通道高达3.4Gbps 支持HDCP 1.4 自适应接收器均衡的PCB、电缆和连接器损耗 单/双端口/四端口LVDS发射机 兼容VESA和JEIDA标准 1/2/4可配置端口 1时钟通道和每个端口有4个可配置的数据通道 数据通道…

Linux——Ubuntu的基础操作

压缩与解压缩 gzip压缩工具 创建文件 a.c和b.c touch a.c touch b.c 压缩文件a.c和b.c gzip a.c gzip b.c 解压缩a.c.gz和b.c.gz gzip -d a.c.gz 对文件夹进行压缩 gzip -r 对文件夹进行解压缩 gzip -rd 注意:这只是对文件夹里所有文件进行压缩&#xff0c…

HTML静态网页成品作业(HTML+CSS)——自行车介绍网页设计制作(1个页面)

🎉不定期分享源码,关注不丢失哦 文章目录 一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码CSS部分代码 五、源码获取 一、作品介绍 🏷️本套采用HTMLCSS,未使用Javacsript代码,共有1个页面。 二、作品…

基于Transformer的路径规划 - 第五篇 GPT生成策略_解码方法优化

上一篇:基于Transformer的路径规划 - 第四篇 GPT模型优化 在上一篇中,我尝试优化GPT路径生成模型,但没有成功。在随机生成的测试集上,路径规划成功率只有99%左右。而使用传统的路径规划算法,例如A*,路径规划…

【HarmonyOS】鸿蒙系统

文章目录 前言一、鸿蒙OS概述1. 定义与特性2. 核心技术理念3. 技术架构设计1. 应用层2. 框架层3. 系统服务层4. 内核层 二、分布式架构分布式架构的核心理念分布式能力的实现关键技术 三、 总结 前言 鸿蒙OS是由华为推出的一款开源操作系统,旨在满足智能终端设备的…

[MySQL]介绍与基础指令

介绍 现在常见的数据库如:Oracle、DB 2、SQL Server、MySQL等都是关系型数据库,使用二维表格来存储数据。 关系结构型数据库系统 管理员 仓库 MySQL的数据存储目录为data,在data下的每个目录都代表一个数据库。 MySQL的安装目录下: bin目录…

智慧农业云平台:大数据赋能现代农业的未来

近年来,随着科技的迅速发展,农业作为传统行业正面临着前所未有的变革。智慧农业,作为现代农业发展的重要方向,借助云计算、大数据、物联网等技术,正在为农业生产、管理和服务提供全新的解决方案。在这个背景下&#xf…

Windows基础(1)

声明:学习视频来自b站up主 泷羽sec,如涉及侵权马上删除文章 声明:本文主要用作技术分享,所有内容仅供参考。任何使用或依赖于本文信息所造成的法律后果均与本人无关。请读者自行判断风险,并遵循相关法律法规。 感谢泷…

Pandas CSV学习

1.CSV文件简介 CSV(Comma-Separated Values,逗号分隔值,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。CSV 是一种通用的、相对简…

Visual Studio | 配置管理

文章目录 一、配置管理1、项目属性1.1、常规1.2、VC 目录1.3、C/C -> 常规1.4、C/C -> 预处理器1.5、C/C -> 预编译头1.6、连接器 -> 常规1.7、连接器 -> 输入 2、编辑2.1、显示空格或tab符 一、配置管理 1、项目属性 1.1、常规 字段功能目标平台版本用于生成…

数据采集-Kepware 安装证书异常处理

这里写目录标题 一、 问题描述二、原因分析三、处理方案3.1 1.执行根证书的更新3.2 安装KepServerEx 资源 一、 问题描述 在进行KepServerEx进行安装的情况下,出现了如下的报错: The installer was unable to find required root certificates ,please …

递归到分治

一、递归与分治: 1、递归:如果一个问题分可以简化为某些更小的、更简单的子问题来解决,那么可以用递归 2、分治:如果想并行处理,可以用到分治 二、假设我们有一段文本,需要统计每个单词出现的频率。我们将…

什么是护网(HVV)需要什么技术?(内附护网超全资料包)

文章目录 一、什么是护网行动?二、护网分类三、护网的时间四、护网的影响五、护网的规则六、什么是红队? 6.1、红队测试的意义 七、什么是蓝队 一、什么是护网行动? 护网行动是以公安部牵头的,用以评估企事业单位的网络安全的…

Chromium127编译指南 Linux篇 - 同步第三方库以及Hooks(六)

引言 在成功克隆 Chromium 源代码仓库并建立新分支之后,配置开发环境成为至关重要的下一步。这一过程涉及获取必要的第三方依赖库以及设置钩子(hooks),这些步骤对于确保后续的编译和开发工作能够顺利进行起着决定性作用。本指南旨…