Nat Med病理AI系列|基础模型Virchow在病理学中的应用·顶刊精析·24-11-09

小罗碎碎念

今天是Nature Medicine病理AI系列的最后一篇文章,标题为A foundation model for clinical-grade computational pathology and rare cancers detection

经过筛选,最后只剩下八篇与病理直接相关的


这篇文章介绍了一个大型病理基础模型Virchow,它在计算病理学领域实现了对常见和罕见癌症的高精度检测,展示了在有限标记数据下的应用潜力。

https://www.nature.com/articles/s41591-024-03141-0

作者角色姓名单位(中文)
第一作者Eugene Vorontsov纽约,美国,Paige公司
第一作者Alican Bozkurt纽约,美国,Paige公司
第一作者Adam Casson纽约,美国,Paige公司
第一作者George Shaikovski纽约,美国,Paige公司
第一作者Michal Zelechowski纽约,美国,Paige公司
第一作者Kristen Severson纽约,美国,纪念斯隆凯特琳癌症中心
通讯作者Siqi Liu纽约,美国,Paige公司
通讯作者Thomas J. Fuchs纽约,美国,纪念斯隆凯特琳癌症中心

再给大家稍微扩展一下,目前顶尖的医学AI专家在商界是多么吃香,哈哈。

image-20241109094704220


这篇文章介绍了一个名为Virchow的新型基础模型,它是为了提高临床级计算病理学和罕见癌症检测的能力而开发的。

Virchow是迄今为止最大的计算病理学基础模型,它通过自监督学习算法训练,能够处理大量的组织样本数据。该模型在预测生物标志物和识别细胞方面表现出色,并且在泛癌症检测方面取得了显著的成果,能够在九种常见和七种罕见癌症中实现0.95的标本级区域下接收者操作特征曲线(AUC)。

文章强调了基础模型在临床病理学中的价值,尤其是在训练数据有限的情况下。Virchow模型在泛癌症检测方面的性能提升,为多种高影响应用开辟了可能性,这些应用在以往由于标记训练数据不足而难以实现。此外,文章还展示了Virchow模型在预测特定基因突变和蛋白质表达方面的潜力,这些生物标志物在癌症的诊断和治疗中起着关键作用。

研究还比较了Virchow模型与其他几种模型的性能,发现Virchow在多种生物标志物预测任务中表现优于其他模型。通过定性分析,研究还探讨了AI模型未能识别或错误识别癌细胞的错误模式

总的来说,这篇文章展示了Virchow模型在计算病理学领域的潜力,尤其是在提高罕见癌症检测和生物标志物预测的准确性方面。这可能对临床实践产生重大影响,包括减少诊断时间、提高筛查率和为患者提供更快速的治疗方案。


一、研究概览

1-1:训练数据

下图展示了与患者数据相关的统计信息。

训练数据可以根据患者、病例、标本、块或切片来描述

  1. 患者总数:数据中代表的独特个体总数为 119,629 人。

  2. 需要组织样本的患者事件:需要组织样本的患者事件总数为 208,815 例。

  3. 组织样本总数:收集的组织样本总数为 392,268 个。

  4. 石蜡包埋样本总数:为显微镜检查而切片的石蜡包埋样本总数为 1,207,837 块。

  5. H&E 染色切片总数:经过数字化处理后,每个样本有数万平方像素的诊断样本总数为 1,488,550 张。


1-2:关于患者样本类型的统计数据

癌症状态(b)、手术(c)和组织类型(d)

以下是对这些数据的详细分析:

  1. 样本类型分布

    • Cancer:占样本的 38.0%。
    • Precursor:占样本的 8.0%。
    • Benign:占样本的 24.6%。
    • Unknown:占样本的 29.4%。
  2. 样本来源分布

    • Resection:37% 的样本来自切除手术。
    • Biopsy:63% 的样本来自活检。
  3. 按身体部位分布

    • Lymph node:16.6% 的样本来自淋巴结。
    • Skin:18.4% 的样本来自皮肤。
    • Breast:24.9% 的样本来自乳腺。
    • Lung:6.1% 的样本来自肺部。
    • Bladder:5.5% 的样本来自膀胱。
    • Prostate:3.7% 的样本来自前列腺。
    • Liver:3.2% 的样本来自肝脏。
    • Ovary:3.2% 的样本来自卵巢。
    • Endometrium:3.4% 的样本来自子宫内膜。
    • Colon:3.2% 的样本来自结肠。
    • Bone:2.7% 的样本来自骨骼。
    • Stomach:3.5% 的样本来自胃部。
    • Peritoneum:0.8% 的样本来自腹膜。
    • Brain:0.4% 的样本来自脑部。
    • Pancreas:1.8% 的样本来自胰腺。
    • Adrenal gland:0.2% 的样本来自肾上腺。
    • Upper Gl:2.2% 的样本来自上消化道。

1-3:切片处理流程

训练期间的数据流程需要将切片处理成瓦片,然后再裁剪成全局和局部视图

  1. 基础模型(Foundation model)
    • 这个模型被训练用来将组织切片嵌入到一个基本的表示中,这个表示可以适应多种不同的任务。
    • 这意味着该模型具有通用性,可以被调整用于各种不同的分析和诊断目的。
  2. 组织瓦片(Tissue tiles)
    • 这些是从组织切片中裁剪出来的 224 x 224 像素的区域。这些瓦片是模型处理的基本单位,用于训练和适应不同的任务。
  3. Virchow
    • 个人猜测,作者之所以把模型命名为Virchow,是想致敬鲁道夫·维尔肖(Rudolf Virchow),因为他是细胞病理学之父,对病理学领域做出了重要贡献。
  4. 模型架构(Foundation model with ViT-H architecture)
    • 模型使用了 ViT-H 架构,这是一种Vision Transformer的变体,具有 632 百万参数。这种架构特别适合处理图像数据,能够捕捉到复杂的视觉模式。
  5. 训练框架(trained using DINOv2 framework)
    • DINOv2 是一种自监督学习框架,用于训练深度学习模型,使其能够在没有明确标签的情况下学习数据的表示。这种方法有助于提高模型的泛化能力,使其能够更好地适应新的任务和数据。

1-4:基础模型的应用

基础模型应用的示意图,使用聚合模型预测切片级别的属性

  1. 适应过程(Adaptation)
    • 这个过程涉及将组织瓦片的聚合嵌入(来自基础模型的输出)适应于预测整个切片级别的属性,这些属性可以跨多种不同的任务。
  2. 组织瓦片(Tissue tiles)
    • 这些是从H&E染色切片中裁剪出来的小区域,用于训练和适应模型。
  3. 嵌入(Embeddings)
    • 嵌入是模型从组织瓦片中学习到的表示,这些表示可以捕捉到组织的视觉和语义特征。
  4. 下游任务:
    • 泛癌检测
    • 泛癌亚型检测
    • 数字标志物的预测

二、泛癌检测

使用Virchow、UNI、Phikon或CTransPath瓦片嵌入作为输入的聚合网络在标本级别预测癌症检测。

2-1:根据起源组织确定的癌症类型对癌症检测性能(AUC)进行分层

每种癌症的发病率和新陈代谢比例。对于每种癌症类型,统计上显著(P < 0.05)的最佳表现嵌入的AUC以洋红色突出显示。当不止一个AUC不是灰色时,性能是“并列的”(没有统计学意义上的差异)。用于为聚合器生成瓦片嵌入的基础模型显示在左侧的边缘,以及相应的聚合器达到(或并列)最高AUC的癌症类型数量。所有统计显著性(a–e)是使用AUC的成对DeLong检验和特异性Cochran’s Q检验后继以McNemar’s检验计算得出的,均使用Holm的方法进行多重比较校正。

Virchow模型在所有癌症类型中实现了最佳的癌症检测性能,包括罕见癌症。

  • 数据列出了按美国(SEER)发病率从高到低排序的癌症类型:
    • 乳腺癌
    • 前列腺癌
    • 肺癌
    • 结肠癌
    • 皮肤癌
    • 膀胱癌
    • 子宫癌
    • 胰腺癌
    • 头颈癌(H&N)
  • 这些数字代表每10万人中的发病率。

2-2:癌症检测性能

所有癌症(b)和罕见癌症(c)的癌症检测性能总结

A. 所有癌症类型

  1. AUC(Area Under the Curve)

    • Virchow:0.950
    • UNI:0.940
    • Phikon:0.932
    • CTransPath:0.907

    AUC值接近1表示模型的预测性能越好。Virchow模型在所有癌症类型上的AUC值最高,其次是UNI,Phikon和CTransPath。

  2. 特异性(在95%的敏感性下)

    • Virchow:0.725
    • UNI:0.689
    • Phikon:0.629
    • CTransPath:0.523

    特异性是指在给定的敏感性水平下,模型正确识别非癌症样本的能力。Virchow模型在特异性上也表现最佳,其次是UNI,Phikon和CTransPath。


B. 罕见癌症类型

  1. AUC

    • Virchow:0.937
    • UNI:0.925
    • Phikon:0.917
    • CTransPath:0.878

    对于罕见癌症类型,Virchow模型仍然具有最高的AUC值,其次是UNI,Phikon和CTransPath。

  2. 特异性(在95%的敏感性下)

    • Virchow:0.606
    • UNI:0.583
    • Phikon:0.594
    • CTransPath:0.453

    在罕见癌症类型中,Virchow模型的特异性最高,其次是Phikon,UNI和CTransPath。


样本数量

  • 所有癌症类型的样本总数:6,142
  • 罕见癌症类型的样本总数:2,595

2-3:罕见癌症检测性能

罕见癌症检测在95%特异性下的敏感性

  1. 癌症起源部位
    • 列出的癌症起源部位包括:肝脏、胃、大脑、卵巢、宫颈、睾丸和骨骼。
    • 每个部位的样本数量(n)为400,这表明每个部位的数据量是一致的,允许进行公平的模型性能比较。

结论

Virchow模型几乎在所有列出的癌症起源部位中均显示出最高的预测性能,UNI和Phikon模型在其后。


2-4:癌症检测性能与基础模型的大小以及用于训练它的训练样本(瓦片)数量成比例

image-20241109110513191


三、Virchow可以学习到有意义的切片内容

在CoNSeP数据集中,通过嵌入主成分突出显示的细胞。

恶性上皮(红色),杂项(黄色)和炎症(洋红色)。


四、不同模型在特定癌症类型和生物标志物上的预测性能

image-20241109111045063

  1. 模型性能
    • Virchow:在大多数癌症类型和生物标志物上,Virchow模型的预测性能最高0。
    • CTransPath:CTransPath模型的性能在所有列出的模型中最低,其值通常低于0.900。
  2. 癌症类型和生物标志物
    • 列出的癌症类型包括:皮肤癌、子宫内膜癌、前列腺癌、卵巢癌、胃癌、乳腺癌、结肠癌、膀胱癌和肺癌。
    • 列出的生物标志物包括:AR、FGA、HER2、BRAF、PTEN、EGFR、CDH1、MSI和FGFR。
  3. 性能比较
    • 在某些特定情况下,如卵巢癌,Phikon模型的性能超越Virchow。
    • 对于某些癌症类型和生物标志物,如肺癌和皮肤癌,CTransPath模型的性能显著低于其他模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/911890.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

vue3 + element-plus 的 upload + axios + django 文件上传并保存

之前在网上搜了好多教程&#xff0c;一直没有找到合适自己的&#xff0c;要么只有前端部分没有后端&#xff0c;要么就是写的不是很明白。所以还得靠自己摸索出来后&#xff0c;来此记录一下整个过程。 其实就是不要用默认的 action&#xff0c;要手动实现上传方式 http-reque…

多模态数字人AI产品正在革新金融业,解密头部银行、证券公司都在用的AI工具

在人工智能迅猛发展的时代背景下&#xff0c;金融业正迎来一场深刻的变革。 多模态的人工智能&#xff0c;以其独特的魅力&#xff0c;正在重塑金融行业的格局&#xff0c;为金融服务带来前所未有的新想象。从今年以来行业对AI技术的探索与实践中&#xff0c;AIGC 3D数字人多模…

数据仓库还是数据集市?这俩怎么选?

数据仓库和数据集市作为支持决策分析的两种不同方式&#xff0c;根据各自的特点和优势&#xff0c;有不同的应用场景&#xff0c;今天就来探讨下数据集市和数据仓库该怎么选&#xff1f; 一、数据集市和数据仓库对比 1、数据集市与数据仓库的关系&#xff1a; 1&#xff09;数…

2024年数据分析5大趋势

在快速发展和创新的数据分析领域&#xff0c;2024 年有望成为突破性趋势的一年&#xff0c;这些趋势将重新定义企业从数据中提取洞察的方式。 下文将分析2024 年 5 大数据分析趋势&#xff0c;揭示将塑造数据驱动决策未来的工具和策略。 趋势一&#xff1a;人工智能落地将成为…

AI帮你记住所有密码,你敢把隐私交给它吗?

数字时代的密码管理挑战 在这个信息爆炸的数字时代&#xff0c;每个人都面临着前所未有的密码管理挑战。随着我们在网上进行越来越多的活动&#xff0c;从购物到社交&#xff0c;再到网上银行&#xff0c;所需的密码数量也随之激增。每个账户需要独特且复杂的组合&#xff0c;…

[Meachines] [Medium] MonitorsThree SQLI+Cacti-CMS-RCE+Duplicati权限提升

信息收集 IP AddressOpening Ports10.10.11.30TCP:22&#xff0c;80 $ nmap -p- 10.10.11.30 --min-rate 1000 -sC -sV -Pn PORT STATE SERVICE VERSION 22/tcp open ssh OpenSSH 8.9p1 Ubuntu 3ubuntu0.10 (Ubuntu Linux; protocol 2.0) | …

springboot牛奶预定系统-计算机设计毕业源码70299

摘要 在当今社会&#xff0c;随着人们对健康和营养需求的不断增长&#xff0c;牛奶作为重要的营养食品备受青睐。然而&#xff0c;传统的牛奶预定方式存在着诸多不便和限制&#xff0c;如需要到实体店购买或电话预定等&#xff0c;导致消费者体验不佳。因此&#xff0c;开发一款…

Windows 局域网IP扫描工具:IPScaner 轻量免安装

IPScaner是一款258KB的工具&#xff0c;具备快捷修改IP、批量扫描、地址计算等功能&#xff0c;自动识别本机IP网段&#xff0c;快速查看IP使用情况&#xff0c;适用于监控维护、企业IT运维等场 软件功能介绍&#xff1a; 1&#xff09;快捷修改本地IP、IP批量扫描、IP地址计算…

基于java校园招聘管理系统的设计与实现

一、环境信息 开发语言&#xff1a;JAVA JDK版本&#xff1a;JDK8及以上 数据库&#xff1a;MySql5.6及以上 Maven版本&#xff1a;任意版本 操作系统&#xff1a;Windows、macOS 开发工具&#xff1a;Idea、Eclipse、MyEclipse 开发框架&#xff1a;SpringbootHTMLjQueryMysq…

后端Node学习项目-项目基础搭建

前言 各位好&#xff0c;我是前端SkyRain。最近为了响应公司号召&#xff0c;开始对后端知识的学习&#xff0c;作为纯粹小白&#xff0c;记录下每一步的操作流程。 项目仓库&#xff1a;https://gitee.com/sky-rain-drht/drht-node 因为写了文档&#xff0c;代码里注释不是很…

Halcon 重写Rectangle2及Arrow

验证目标&#xff1a;验证rotate_image后图像是否变形 获取信息&#xff1a;获取矩形中轴起点&#xff0c;终点&#xff0c;及四角位置信息 应用场景&#xff1a;1&#xff0c;找线找点算子封装后为检测极性指明方向 2&#xff0c;为二次定位提供位置信息 读取原图 read_im…

技术复杂性导致估算不准确?5大对策

技术复杂性引发的估算不准确可能导致成本超出预算&#xff0c;不当的资源分配则可能造成人力浪费或关键任务缺乏必要支持&#xff0c;进而影响客户满意度和市场竞争力&#xff0c;增加项目失败的风险。而有效避免因技术复杂性导致的估算不准确问题&#xff0c;可以显著提升项目…

【动手学电机驱动】STM32-FOC(5)基于 IHM03 的无感 FOC 控制

STM32-FOC&#xff08;1&#xff09;STM32 电机控制的软件开发环境 STM32-FOC&#xff08;2&#xff09;STM32 导入和创建项目 STM32-FOC&#xff08;3&#xff09;STM32 三路互补 PWM 输出 STM32-FOC&#xff08;4&#xff09;IHM03 电机控制套件介绍 STM32-FOC&#xff08;5&…

教程:FFmpeg结合GPU实现720p至4K视频转换

将一个 720p 的视频放大编码到 4K&#xff0c;这样的视频处理在很多业务场景中都会用到。很多视频社交、短视频、视频点播等应用&#xff0c;都会需要通过服务器来处理大量的视频编辑需求。 本文我们会探讨一下做这样的视频处理&#xff0c;最低的 GPU 指标应该是多少。利用开源…

31.7K+ Star!AgentGPT:一个在浏览器中运行的Agent

AgentGPT 简介 AgentGPT[1] 是一个可以让你在浏览器中组装、配置和部署自主AI代理的项目。你可以为你的自定义AI命名,并让它去实现任何你想象中目标。它将尝试通过思考要执行的任务、执行它们并从结果中学习来达成目标。 项目特点 主要特点 自主AI代理:用户可以自定义AI并赋…

革新汽车装配产线:MR30分布式IO模块引领智能制造新时代

在日新月异的汽车制造行业中&#xff0c;每一分每一秒的效率提升都意味着成本的降低与市场竞争力的增强。随着工业4.0时代的到来&#xff0c;智能化、自动化已成为汽车产线升级转型的关键词。在这场技术革命的浪潮中&#xff0c;MR30分布式IO模块以其高效、灵活、可靠的特点&am…

汽车免拆诊断案例 | 2017款凯迪拉克XT5车组合仪表上的指针均失灵

故障现象 一辆2017款凯迪拉克XT5车&#xff0c;搭载LTG 发动机&#xff0c;累计行驶里程约为17.2万km。车主反映&#xff0c;组合仪表上的发动机转速表、车速表、燃油表及发动机冷却液温度表的指针均不指示&#xff0c;但发动机起动及运转正常&#xff0c;且车辆行驶正常。 故…

LeetCode 热题100之二分

关于二分&#xff0c;之前也写过一篇&#xff0c;参考二分Acwing 1.搜索插入位置 思路分析&#xff1a;典型的 二分查找算法&#xff0c;用于在一个已排序的数组中查找目标值的位置。如果找到了目标值&#xff0c;返回其索引&#xff1b;如果没有找到&#xff0c;则返回目标值…

viewerjs实现以图片中心点进行缩放

最近有个需求&#xff0c;使用到了viewerjs对一个图片进行可缩放预览&#xff0c;但是存在一个问题&#xff0c;通过滚轮缩放图片时会导致图片移动到视窗外面。 翻了一下GitHub上的源码&#xff0c;viewerjs滚轮&#xff08;触摸板双指&#xff09;缩放功能是监听了wheel事件&a…

OpenAI大事记;GPT到ChatGPT参数量进化

目录 OpenAI大事记 GPT到ChatGPT参数量进化 OpenAI大事记 GPT到ChatGPT参数量进化 ChatGPT是从初代 GPT逐渐演变而来的。在进化的过程中,GPT系列模型的参数数量呈指数级增长,从初代GPT的1.17亿个参数,到GPT-2的15 亿个参数,再到 GPT-3的1750 亿个参数。模型越来越大,训练…