HIPT论文阅读

题目《Scaling Vision Transformers to Gigapixel Images via Hierarchical Self-Supervised Learning》

论文地址:[2206.02647] Scaling Vision Transformers to Gigapixel Images via Hierarchical Self-Supervised Learning

项目地址:mahmoodlab/HIPT: Hierarchical Image Pyramid Transformer - CVPR 2022 (Oral)

Abstract:

        视觉变换器(ViTs)及其多尺度和层次变体在捕获图像表示方面取得了成功,但它们通常被研究用于低分辨率图像(例如256×256,384×384)。对于计算病理学中的千兆像素全切片成像(WSI),WSIs的尺寸可以大至150000×150000像素,在20倍放大倍数下,展现出不同分辨率下的视觉标记的层次结构:从16×16的图像捕获单个细胞,到4096×4096的图像表征组织微环境中的相互作用。我们引入了一种新的ViT架构,称为层次图像金字塔变换器(HIPT),它利用WSI中固有的自然层次结构,通过两级自监督学习来学习高分辨率图像表示。HIPT在33种癌症类型上进行了预训练,使用了10,678个千兆像素WSIs、408,218个4096×4096图像和1.04亿个256×256图像。我们在9个幻灯片级别的任务上对HIPT表示进行了基准测试,并证明了:1)具有层次预训练的HIPT在癌症亚型和生存预测方面超越了当前的最先进方法,2)自监督ViTs能够对肿瘤微环境中表型层次结构的重要归纳偏差进行建模。

Introduction:

        在20×目标下扫描WSIs,结果是一个大约每像素0.5微米的固定尺度,允许对视觉元素进行一致的比较,这可能揭示了超出正常参考范围的重要组织形态学特征。此外,WSIs在20×放大倍数下还展现出不同图像分辨率下的视觉标记的层次结构:

16×16的图像包含细胞和其他细粒度特征(基质、肿瘤细胞、淋巴细胞)[23, 37],

256×256的图像捕获细胞间相互作用的局部簇(肿瘤细胞性)[2,8,31,60],

1024×1024-4096×4096的图像进一步表征细胞簇之间的宏观相互作用及其在组织中的组织(描述肿瘤浸润与肿瘤远端淋巴细胞的肿瘤-免疫定位程度)[1, 10],

最后,整个肿瘤内部异质性在WSI的幻灯片级别上描绘[5,36,40,58,65]。本工作测试的假设是,在自监督学习中合理利用这一层次结构可以产生更好的幻灯片级表示。

在HIPT中:

1)我们将学习WSI的良好表示问题分解为通过自监督学习可以学习的层次相关表示;

2)我们使用学生-教师知识蒸馏(DINO[14])在高达4096×4096的区域上对每个聚合层进行预训练。我们将HIPT应用于在20×分辨率下提取的千兆像素组织病理图像的学习表示任务。

Related work:

1、在WSIs中的多重实例学习。 在一般的基于集合的深度学习中,Edwards & Storkey和Zaheer等人提出了第一个在基于集合的数据结构上操作的网络架构,Brendel等人证明了“特征包”能够在ImageNet上达到高精度[11,26,82]。与此同时,在病理学领域,Ilse等人将基于集合的网络架构扩展为组织学感兴趣区域的多重实例学习的方法,Campanella等人后来在千兆像素WSIs上扩展了端到端的弱监督[13,39]。Lu等人证明了通过使用在ImageNet上预训练的ResNet-50编码器进行实例级特征提取,只需要训练一个全局池化操作器就可以用于弱监督的幻灯片级任务[54]。在Lu等人之后,有许多MIL的变体适应了图像预训练技术,如VAE-GANs、SimCLR和MOCO作为实例级特征提取[46,64,86]。最近的MIL变体也发展到扩展聚合层和评分函数[18,66,70,77,79,80,87]。Li等人提出了一个多尺度MIL方法,该方法在20×和5×分辨率下进行斑块切割和自监督实例学习,然后对斑块进行空间解析对齐[46]。在WSIs中整合放大目标的工作也在其他工作中跟进[30,33,57,59],然而,我们注意到跨目标结合视觉标记不会共享相同的尺度。在这项工作中,斑块切割是在单一放大目标下完成的,使用更大的斑块尺寸来捕获宏观形态特征,我们希望这将有助于重新思考WSIs的上下文建模。(红色是核心创新点)

2、视觉变换器和图像金字塔。 Vaswani等人的开创性工作不仅在语言建模方面取得了显著发展,也在通过视觉变换器(ViTs)进行图像表示学习方面取得了进展,其中256×256的图像被构建为[16×16]视觉标记的图像补丁序列[24,71,73]。受多尺度、金字塔式图像处理的启发[12,43,63],最近在ViT架构开发中的进展集中在效率和多尺度信息的整合上(例如- Swin, ViL, TNT, PVT, MViT),以解决视觉标记的不同尺度/纵横比问题[28,32,52,74,83]。与病理学相比,我们强调如果图像尺度在给定放大倍数下是固定的,那么学习尺度不变性可能不是必要的。与我们的工作类似的是NesT和Hierarchical Perciever,它们同样通过Transformer块从非重叠的图像区域分割然后聚合特征[15,85]。一个关键的区别是我们展示了每个阶段的ViT块可以单独预训练,用于高分辨率编码(高达4096×4096)。

Method:

Result:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/940455.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

智能挂号系统设计典范:SSM 结合 Vue 在医院的应用实现

摘要 随着信息技术在管理上越来越深入而广泛的应用,管理信息系统的实施在技术上已逐步成熟。本文介绍了医院预约挂号系统的开发全过程。通过分析医院预约挂号系统管理的不足,创建了一个计算机管理医院预约挂号系统的方案。文章介绍了医院预约挂号系统的系…

Windows11 家庭版安装配置 Docker

1. 安装WSL WSL 是什么: WSL 是一个在 Windows 上运行 Linux 环境的轻量级工具,它可以让用户在 Windows 系统中运行 Linux 工具和应用程序。Docker 为什么需要 WSL: Docker 依赖 Linux 内核功能,WSL 2 提供了一个高性能、轻量级的…

【hackmyvm】Diophante 靶场

1. 基本信息^toc 这里写目录标题 1. 基本信息^toc2. 信息收集2.1. 端口扫描2.2. 目录扫描2.3. knock 3. WordPress利用3.1. wpscan扫描3.2. smtp上传后门 4. 提权4.1. 提权leonard用户4.2. LD劫持提权root 靶机链接 https://hackmyvm.eu/machines/machine.php?vmDiophante 作者…

OB删除1.5亿数据耗费2小时

目录 回顾:mysql是怎么删除数据的? 删除方案 代码实现 执行结果 结论 本篇是实际操作 批量处理数据以及线程池线程数设置 记录学习 背景:有一张用户标签表,存储数据量达4个亿,使用OceanBase存储,由于…

Qt:QMetaObject::connectSlotsByName实现信号槽自动关联

简介 在Qt中,QMetaObject::connectSlotsByName 是一个便利的方法,它可以根据对象的对象名(objectName)自动将信号和槽连接起来。但是,要使用这个方法,必须确保: 1 控件(如按钮&…

记录仪方案_记录仪安卓主板定制_音视频记录仪PCBA定制开发

记录仪主板采用了强大的联发科MTK8768处理器,拥有出色的性能表现。它搭载了四个主频为2.0GHz的Cortex-A53核心与四个主频为1.5GHz的Cortex-A53核心,确保了高效的处理速度。此外,主板配备了4GB的RAM(可选8GB),并且内置64GB的ROM(可…

Ubuntu 20.04 卸载和安装 MySQL8.0

卸载 首先,检查一下系统安装的软件包有哪些,使用dpkg -l | grep mysql命令: 为了将MySQL卸载干净,这些文件都需要被删除。 在Ubuntu20.04系统下,卸载干净MySQL8.0以确保下一次安装不会出错,可以按照以下…

RCNN系列是如何逐步改善的

1、R-CNN的缺点: 1)计算效率低下:RCNN需要为每一个候选框都提取特征,会导致大量重复的工作,因为候选框是原始图片的一部分,肯定是存在交集的。2)需要大量的磁盘空间:在训练阶段&…

数据结构day5:单向循环链表 代码作业

一、loopLink.h #ifndef __LOOPLINK_H__ #define __LOOPLINK_H__#include <stdio.h> #include <stdlib.h>typedef int DataType;typedef struct node {union{int len;DataType data;};struct node* next; }loopLink, *loopLinkPtr;//创建 loopLinkPtr create();//…

后摩尔定律时代,什么将推动计算机性能优化的发展?

在摩尔定律时代&#xff0c;每两年芯片上的晶体管数量就会翻一番&#xff0c;这一看似不可避免的趋势被称为摩尔定律&#xff0c;它极大地促进了计算机性能的提高。然而&#xff0c;硅基晶体管不可能一直小下去&#xff0c;半导体晶体管的微型化推动了计算机性能的提升&#xf…

LEAST-TO-MOST PROMPTING ENABLES COMPLEX REASONING IN LARGE LANGUAGE MODELS---正文

题目 最少到最多的提示使大型语言模型能够进行复杂的推理 论文地址&#xff1a;https://arxiv.org/abs/2205.10625 摘要 思路链提示在各种自然语言推理任务中表现出色。然而&#xff0c;它在需要解决比提示中显示的示例更难的问题的任务上表现不佳。为了克服这种由易到难的概括…

0101多级nginx代理websocket配置-nginx-web服务器

1. 前言 项目一些信息需要通过站内信主动推动给用户&#xff0c;使用websocket。web服务器选用nginx&#xff0c;但是域名是以前通过阿里云申请的&#xff0c;解析ip也是阿里云的服务器&#xff0c;甲方不希望更换域名。新的系统需要部署在内网服务器&#xff0c;简单拓扑图如…

Mysql8版本的下载安装配置,无痛使用!!!!

mysql8.x版本和msyql5.x版本zip安装的方式大同小异&#xff0c;但是在mysql8.0版本不用手动创建data数据目录&#xff0c;初始化的时候会自动安装的。而且mysql8.0版本性能官方表示比mysql 5.7的快两倍&#xff01; 可以查看文章看5.7版本的安装 MySql5.7安装、配置最新版_my…

《商业模式2.0图鉴》读书笔记(如何构建创新驱动的商业模式:打破定律与重塑价值)

文章目录 引言一、构建创新商业模式的核心原则二、创新商业模式的构建维度三、商业模式设计的实践工具与方法四、从现状到未来&#xff1a;商业模式的演进路径结论附录标题图 引言 商业模式是企业连接资源与客户的桥梁&#xff0c;是价值创造与捕获的核心框架。随着市场需求和…

【数据结构】数据结构整体大纲

数据结构用来干什么的&#xff1f;很简单&#xff0c;存数据用的。 &#xff08;这篇文章仅介绍数据结构的大纲&#xff0c;详细讲解放在后面的每一个章节中&#xff0c;逐个击破&#xff09; 那为什么不直接使用数组、集合来存储呢 ——> 如果有成千上亿条数据呢&#xff…

Flutter组件————FloatingActionButton

FloatingActionButton 是Flutter中的一个组件&#xff0c;通常用于显示一个圆形的按钮&#xff0c;它悬浮在内容之上&#xff0c;旨在吸引用户的注意力&#xff0c;并代表屏幕上的主要动作。这种按钮是Material Design的一部分&#xff0c;通常放置在页面的右下角&#xff0c;但…

python rabbitmq实现简单/持久/广播/组播/topic/rpc消息异步发送可配置Django

windows首先安装rabbitmq 点击参考安装 1、环境介绍 Python 3.10.16 其他通过pip安装的版本(Django、pika、celery这几个必须要有最好版本一致) amqp 5.3.1 asgiref 3.8.1 async-timeout 5.0.1 billiard 4.2.1 celery 5.4.0 …

【Verilog】期末复习

数字逻辑电路分为哪两类&#xff1f;它们各自的特点是什么&#xff1f; 组合逻辑电路&#xff1a;任意时刻的输出仅仅取决于该时刻的输入&#xff0c;而与电路原来的状态无关 没有记忆功能&#xff0c;只有从输入到输出的通路&#xff0c;没有从输出到输入的回路 时序逻辑电路&…

光伏电站无人机巡检都有哪些功能?

焱图慧云光伏智能巡检系统主要依托于先进的无人机技术、传感器技术、图像处理技术和智能分析技术。 一、无人机自主飞行与航迹控制 全自主飞行&#xff1a;无人机能够按照预设的飞行路线自主飞行&#xff0c;完成指定的巡检任务&#xff0c;无需人工干预&#xff0c;大大提高了…

图书馆管理系统(三)基于jquery、ajax

任务3.4 借书还书页面 任务描述 这部分主要是制作借书还书的界面&#xff0c;这里我分别制作了两个网页分别用来借书和还书。此页面&#xff0c;也是通过获取books.txt内容然后添加到表格中&#xff0c;但是借还的操作没有添加到后端中去&#xff0c;只是一个简单的前端操作。…