CoD-MIL: 基于诊断链提示的多实例学习用于全切片图像分类|文献速递-基于深度学习的病灶分割与数据超分辨率

Title

题目

CoD-MIL: Chain-of-Diagnosis Prompting Multiple Instance Learning for Whole Slide Image Classification

CoD-MIL: 基于诊断链提示的多实例学习用于全切片图像分类

01

文献速递介绍

病理检查被广泛视为肿瘤诊断的金标准,因为它为治疗决策和患者管理提供了关键信息。数字切片扫描仪的快速发展使得将传统病理切片高通量转换为全切片图像(WSI)成为可能。该研究得到了宁夏回族自治区重点研发项目资助(项目编号:2023BEG02023),部分资金来自中国工程科技知识中心项目。

Jiangbo Shi、Chen Li(通讯作者)和 Tieliang Gong 隶属于西安交通大学计算机科学与技术学院,地址:中国陕西省西安市,邮编 710049(电子邮件shijiangbo@stu.xjtu.edu.cn;cli@xjtu.edu.cn;gongtl@xjtu.edu.cn)。Chunbao Wang 隶属于西安交通大学第一附属医院病理科,地址:中国陕西省西安市,邮编 710061(电子邮件:bingliziliao2012@163.com)。Huazhu Fu(通讯作者)隶属于新加坡科学技术研究局(ASTAR)高性能计算研究所(IHPC),地址:新加坡,邮编 138632(电子邮件:hzfu@ieee.org)。

全切片图像(WSI)具有金字塔结构和巨大的尺寸,通常在最高放大倍率下包含数十亿像素(0.25 µm/像素)。因此,WSI 的像素级标注非常耗时且劳动密集 。目前,多实例学习(MIL) 已成为处理 WSI 的主要方法,仅利用切片级别的标注。

Aastract

摘要

Multiple instance learning (MIL) has emergedas a prominent paradigm for processing the whole slideimage with pyramid structure and giga-pixel size in digitalpathology. However, existing attention-based MIL methodsare primarily trained on the image modality and a predefined label set, leading to limited generalization and interpretability. Recently, vision language models (VLM) haveachieved promising performance and transferability, offering potential solutions to the limitations of MIL-based methods. Pathological diagnosis is an intricate process thatrequires pathologists to examine the WSI step-by-step. Inthe field of natural language process, the chain-of-thought(CoT) prompting method is widely utilized to imitate thehuman reasoning process. Inspired by the CoT promptand pathologists’ clinic knowledge, we propose a chainof-diagnosis prompting multiple instance learning (CoDMIL) framework for whole slide image classification. Specifically, the chain-of-diagnosis text prompt decomposes thecomplex diagnostic process in WSI into progressive subprocesses from low to high magnification. Additionally,we propose a text-guided contrastive masking module toaccurately localize the tumor region by masking the mostdiscriminative instances and introducing the guidance ofnormal tissue texts in a contrastive way. Extensive experiments conducted on three real-world subtyping datasetsdemonstrate the effectiveness and superiority of CoD-MIL.

多实例学习(MIL)已成为数字病理学中处理具有金字塔结构和超大像素大小的全切片图像的主要方法。然而,现有基于注意力的 MIL 方法主要在图像模态和预定义的标签集上进行训练,导致其泛化性和可解释性受限。最近,视觉语言模型(VLM)取得了令人鼓舞的性能和可迁移性,为 MIL 方法的局限性提供了潜在解决方案。病理诊断是一个复杂的过程,需要病理学家逐步检查全切片图像(WSI)。在自然语言处理中,链式思维(CoT)提示方法被广泛用于模拟人类的推理过程。受 CoT 提示和病理学家临床知识的启发,我们提出了一种用于全切片图像分类的基于诊断链提示的多实例学习(CoD-MIL)框架。具体来说,诊断链文本提示将 WSI 中的复杂诊断过程分解为从低倍到高倍放大的渐进子过程。此外,我们提出了一种文本引导的对比掩模模块,通过掩盖最具辨别力的实例并引入正常组织文本的对比性指导,以准确定位肿瘤区域。在三个真实世界的亚型数据集上进行的大量实验表明了 CoD-MIL 的有效性和优越性。

Method

方法

A. Attention-based Multiple Instance Learning

In MIL, a WSI (i.e., bag) W = {Wl , Wh} is croppedinto a series of patches (i.e., instances) P = {Pl ∈R Nl×N0×N0×3 , Ph ∈ R Nh×N0×N0×3} by the non-overlappingsliding window method. Wl and Wh denote the slides at lowand high magnifications; Pl and Ph represent the corresponding patches to Wl and Wh; Nl and Nh denote the patchnumber of Pl and Ph; and N0 is the patch size. To identifythe corresponding spatial relations of patches between twomagnifications, we define an alignment matrix M ∈ R Nl×Nh .

A. 基于注意力的多实例学习

在多实例学习(MIL)中,全切片图像(WSI,即包)W = {Wl, Wh} 被通过无重叠滑动窗口方法裁剪为一系列小块(即实例)P = {Pl ∈ R Nl×N0×N0×3, Ph ∈ R Nh×N0×N0×3}。其中,Wl 和 Wh 分别表示低倍和高倍放大倍率下的切片;Pl 和 Ph 分别代表与 Wl 和 Wh 对应的小块;Nl 和 Nh 表示 Pl 和 Ph 的小块数量;N0 为小块的尺寸。为了识别两个放大倍率之间小块的对应空间关系,我们定义了一个对齐矩阵 M ∈ R Nl×Nh。

Conclusion

结论

In this work, we proposed a chain-of-diagnosis promptingmultiple instance learning framework (CoD-MIL) for wholeslide image classification. Inspired by the chain-of-thoughtprompt in NLP and the diagnostic prior of pathologists,our chain-of-diagnosis text prompt decomposed the complexdiagnostic process into a series of progressive sub-processesin WSI from low to high magnification. Moreover, we alsoproposed a text-guide contrastive masking module to improvethe model’s ability to accurately locate the tumor region byintroducing the normal tissue texts as the negative corpusin a contrastive way. Extensive comparative and ablationexperiments demonstrated that CoD-MIL achieved new stateof-the-art results for whole slide image classification.

在本研究中,我们提出了一种用于全视野图像分类的链式诊断提示多实例学习框架 (CoD-MIL)。受自然语言处理中的链式思维提示和病理学家诊断先验的启发,我们的链式诊断文本提示将复杂的诊断过程分解为在全视野图像中从低倍到高倍的系列渐进子过程。此外,我们还提出了一种文本引导的对比遮罩模块,通过引入正常组织的文本作为对比中的负样本,提升模型准确定位肿瘤区域的能力。大量的对比实验和消融实验表明,CoD-MIL 在全视野图像分类中达到了新的最先进结果。

Figure

图片

Fig. 1. Illustration on chain-of-thought (CoT) and our chain-of-diagnosis (CoD) prompting methods.

图1. 链式思维(CoT)和我们提出的诊断链(CoD)提示方法的示意图。

图片

Fig. 2. Illustration of the proposed CoD-MIL framework. The input of the CoD-MIL is the multi-scale WSIs and the chain-of-diagnosis text prompt.TCM is the text-guided contrastive masking module to improve the model’s performance and interpretability. The output is the summation of twoscale slide logits.

图2. 所提出的 CoD-MIL 框架示意图。CoD-MIL 的输入包括多尺度全切片图像(WSIs)和诊断链文本提示。TCM 是文本引导的对比掩模模块,用于提升模型的性能和可解释性。输出是两个尺度切片 logits 的总和。

图片

Fig. 3. The second diagnostic chain text prompts of the normal tissues.

图3. 正常组织的第二条诊断链文本提示。

图片

Fig. 4. Text-guided Contrastive Masking Module.

图4. 文本引导的对比掩模模块。

图片

Fig. 5. Visualization results of each ablation setting on TCGA-RCC dataset. The second column represents the tumor area outlined in a red line.

图 5. TCGA-RCC 数据集上各消融设置的可视化结果。第二列表示用红线勾勒的肿瘤区域。

图片

Fig. 6. Parameter analysis: the number of masking ratio r% (first row) and the number of sampling number K (second row) on three datasets.

图 6. 参数分析:在三个数据集上遮罩比例 r%(第一行)和采样数量 K(第二行)的分析。

Table

图片

TABLE I dataset  statics

表1 数据集统计。

图片

TABLE II  table ii results (presented in %) on tcga-rcc, tfah-rcc, and tcga-lung datasets. the best results are in bold, and its comparable performance is denoted by underlining based on a paired t-test (p-value>0.05)

表2 TCGA-RCC、TFAH-RCC 和 TCGA-LUNG 数据集的结果(以%表示)。最佳结果以粗体显示,基于配对 t 检验(p 值 > 0.05)的相近性能以下划线标出。

图片

TABLE III  results (presented in %) on the camelyon16 dataset. the best results are in bold, and its comparable performance is denoted by underlining based on a paired t-test (p-value>0.05).

表3 CAMELYON16 数据集的结果(以%表示)。最佳结果以粗体显示,基于配对 t 检验(p 值 > 0.05)的相近性能以下划线标出。

图片

TABLE IVtable iv comparison of flops (g) and inference time (s) on three datasets. the top result is in bold, and its comparable performance is denoted by underlining based on a paired t-test (p-value>0.05).

表 IV 三个数据集上的 FLOPs(G)和推理时间(s)比较。最优结果以加粗显示,基于配对 T 检验的可比性能(P 值 > 0.05)以下划线标注。

图片

TABLE Vresults (presented in %) of multi-center cross-evaluation between tcga-rcc and tfah-rcc dataset. the best results are in bold, and its comparable performance is denoted by underlining based on a paired t-test (p-value>0.05).

表 VTCGA-RCC 和 TFAH-RCC 数据集之间的多中心交叉评估结果(以 % 表示)。最佳结果以加粗显示,基于配对 T 检验的可比性能(P 值 > 0.05)以下划线标注。

图片

TABLE VI ablation experiment results (presented in %) on tcga-rcc, tfah-rcc, and tfah-rcc datasets. the best result

表 VI在 TCGA-RCC、TFAH-RCC 和 TFAH-RCC 数据集上的消融实验结果(以 % 表示)。最佳结果

图片

TABLE VII results (presented in %) of different ablation factors on three datasets. the best results are in bold, and its comparable performance is denoted by underlining based on a paired t-test (p-value>0.05).

表 VII三个数据集上不同消融因素的结果(以 % 表示)。最佳结果以加粗显示,基于配对 T 检验的可比性能(P 值 > 0.05)以下划线标注。

图片

TABLE  VIII parameter analysis: the number of α1 and α2 on three datasets. the best results are in bold, and its comparableperformance is denoted by underlining based on a paired t-test (p-value>0.05).

表 VIII参数分析:三个数据集上的 α1 和 α2 数值。最佳结果以加粗显示,基于配对 T 检验的可比性能(P 值 > 0.05)以下划线标注。

图片

TABLE IXresults (presented in %) of vlms on the tcga-rcc dataset.the best results are in bold, and its comparableperformance is denoted by underlining based on a pairedt-test (p-value>0.05).

表 IXTCGA-RCC 数据集上 VLMS 的结果(以 % 表示)。最佳结果以加粗显示,基于配对 T 检验的可比性能(P 值 > 0.05)以下划线标注。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/914122.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Socket 和 WebSocket 的应用

Socket(套接字)是计算机网络中的一个抽象层,它允许应用程序通过网络进行通信。套接字用于跨网络的不同主机上的应用程序之间的数据交换。在互联网中,套接字通常基于 TCP(传输控制协议)或 UDP(用…

uniapp发布到微信小程序,提示接口未配置在app.json文件中

使用uniapp打包上传微信小程序发布,在提交审核时提示 “接口未配置在app.json文件中” 如下图所示 解决方法:在manifest.json文件中打开源码视图,添加 requiredPrivateInfos 字段键入所需要的接口(数组)

Golang | Leetcode Golang题解之第557题反转字符串中的单词III

题目&#xff1a; 题解&#xff1a; func reverseWords(s string) string {length : len(s)ret : []byte{}for i : 0; i < length; {start : ifor i < length && s[i] ! {i}for p : start; p < i; p {ret append(ret, s[start i - 1 - p])}for i < le…

[产品管理-58]:安索夫矩阵矩阵帮助创业者确定研发出来的产品在市场中定位策略

目录 一、提出背景 二、核心思想与结构 三、应用背景与领域 四、实践案例 安索夫矩阵&#xff08;Ansoff Matrix&#xff09;&#xff0c;也被称为产品/市场方格或成长矢量矩阵&#xff0c;其应用背景可以从以下几个方面进行详细阐述&#xff1a; 一、提出背景 安索夫矩阵…

使用 Vue 配合豆包MarsCode 实现“小恐龙酷跑“小游戏

作者&#xff1a;BLACK595 “小恐龙酷跑”&#xff0c;它是一款有趣的离线游戏&#xff0c;是Google给Chrome浏览器加的一个有趣的彩蛋。当我们浏览器断网时一只像素小恐龙便会出来提示断网。许多人认为这只是一个可爱的小图标&#xff0c; 但当我们按下空格后&#xff0c;小恐…

运行ts文件出错及解决办法

运行ts文件出错及解决办法 TypeError [ERR_UNKNOWN_FILE_EXTENSION]: Unknown file extension “.ts” 这个错误是因为 ts-node 无法直接处理 TypeScript 文件作为 ES 模块。你可以尝试以下解决方案&#xff1a; 解决方案 1: 使用 --loader ts-node/esm 选项 如果你使用的是 …

Unity中IK动画与布偶死亡动画切换的实现

在Unity游戏开发中&#xff0c;Inverse Kinematics&#xff08;IK&#xff09;是创建逼真角色动画的强大工具。同时&#xff0c;能够在适当的时候切换到布偶物理状态来实现死亡动画等效果&#xff0c;可以极大地增强游戏的视觉体验。本文将详细介绍如何在Unity中利用IK实现常规…

JS爬虫实战之TikTok_Shop验证码

TikTok_Shop验证码逆向 逆向前准备思路1- 确认接口2- 参数确认3- 获取轨迹参数4- 构建请求5- 结果展示 结语 逆向前准备 首先我们得有TK Shop账号&#xff0c;否则是无法抓取到数据的。拥有账号后&#xff0c;我们直接进入登录。 TikTok Shop 登录页面 思路 逆向步骤一般分为…

易泊车牌识别相机:4S 店的智能之选

在当今数字化时代&#xff0c;科技的进步不断为各个行业带来更高效、便捷的解决方案。对于 4S 店来说&#xff0c;易泊车牌识别相机的出现&#xff0c;无疑为其运营管理带来了全新的变革。 一、易泊车牌识别相机的强大功能 易泊车牌识别相机以其卓越的性能和精准的识别能力&…

音频数据的处理

前言 在研究android音频架&#xff0c;音频驱动等的时候&#xff0c;就有涉及到dump音频数据debug&#xff0c;重采样&#xff0c;downmixer&#xff0c;位深转换的处理&#xff0c;那这些的操作原理以及相关算法是如何实现的呢&#xff1f; 带着这个问题&#xff0c;开始探讨…

【前端】手写一个简单的分页器

1. 前言 分页器基本上是任何网站必须要有的一个组件&#xff0c;为什么需要分页器&#xff0c;当后台传入了大量的数据&#xff0c;那么在前端拿到数据&#xff0c;如果直接展示很有可能或造成卡顿&#xff0c;同时消耗过多的内存&#xff0c;给用户带来的浏览效果就不好。所以…

如何在Linux中使用Cron定时执行SQL任务

文章目录 前言一、方案分析二、使用步骤1.准备脚本2.crontab脚本执行 踩坑 前言 演示数据需要每天更新监控数据&#xff0c;不想手动执行&#xff0c;想到以下解决方案 navicat 创建定时任务java服务定时执行linux crontab 定时执行sql脚本 一、方案分析 我选择了第三个方案…

超好用shell脚本NuShell mac安装

利用管道控制任意系统 Nu 可以在 Linux、macOS 和 Windows 上运行。一次学习&#xff0c;处处可用。 一切皆数据 Nu 管道使用结构化数据&#xff0c;你可以用同样的方式安全地选择&#xff0c;过滤和排序。停止解析字符串&#xff0c;开始解决问题。 强大的插件系统 具备强…

过程自动化的新黄金标准:Ethernet-APL

| Ethernet-APL为终客户和设备制造商带来益处 Ethernet-APL&#xff08;Advanced Physical Layer&#xff0c;高级物理层&#xff09;是一种两线制以太网物理层&#xff0c;它使用了由IEEE 802.3cg所定义的10BASE-T1L&#xff0c;并采用了新的工艺制造规定&#xff0c;因此构成…

扫雷游戏代码分享(c基础)

hi , I am 36. 代码来之不易&#x1f44d;&#x1f44d;&#x1f44d; 创建两个.c 一个.h 1&#xff1a;test.c #include"game.h"void game() {//创建数组char mine[ROWS][COLS] { 0 };char show[ROWS][COLS] { 0 };char temp[ROWS][COLS] { 0 };//初始化数…

OceanBase 应用实践:如何处理数据空洞,降低存储空间

问题描述 某保险行业客户的核心系统&#xff0c;从Oracle 迁移到OceanBase之后&#xff0c;发现数据存储空间出现膨胀问题&#xff0c;数据空间 datasize9857715.48M&#xff0c;实际存储占用空间17790702.00M。根据 required_mb - data_mb 值判断&#xff0c;数据空洞较为严重…

算法学习第一弹——C++基础

早上好啊&#xff0c;大佬们。来看看咱们这回学点啥&#xff0c;在前不久刚出完C语言写的PTA中L1的题目&#xff0c;想必大家都不过瘾&#xff0c;感觉那些题都不过如此&#xff0c;所以&#xff0c;为了我们能更好的去处理更难的题目&#xff0c;小白兔决定奋发图强&#xff0…

立体工业相机提升工业自动化中的立体深度感知

深度感知对仓库机器人应用至关重要&#xff0c;尤其是在自主导航、物品拾取与放置、库存管理等方面。 通过将深度感知与各种类型的3D数据&#xff08;如体积数据、点云、纹理等&#xff09;相结合&#xff0c;仓库机器人可以在错综复杂环境中实现自主导航&#xff0c;物品检测…

【测试框架篇】单元测试框架pytest(3):用例执行参数详解

一、前言 上一篇内容介绍了用例编写的规则以及执行用例&#xff0c;执行用例时我们发现有些print输出内容&#xff0c;结果没有给我们展示&#xff0c;这是因为什么原因呢&#xff1f;接下来我们会针对这些问题进行阐述。 二、参数大全 我们可以在cmd中通过输入 pytest -h 或…

web安全测试渗透案例知识点总结(上)——小白入狱

目录 一、Web安全渗透测试概念详解1. Web安全与渗透测试2. Web安全的主要攻击面与漏洞类型3. 渗透测试的基本流程 二、知识点详细总结1. 常见Web漏洞分析2. 渗透测试常用工具及其功能 三、具体案例教程案例1&#xff1a;SQL注入漏洞利用教程案例2&#xff1a;跨站脚本&#xff…