文献速递:基于SAM的医学图像分割---医疗 SAM 适配器:适配用于医学图像分割的 Segment Anything 模型

Title 

题目

Medical SAM Adapter: Adapting Segment Anything Model for Medical Image Segmentation

医疗 SAM 适配器:适配用于医学图像分割的 Segment Anything 模型

01

文献速递介绍

最近,Segmentation Anything 模型(SAM)(Kirillov 等人,2023年)因其强大和多功能的视觉分割模型能力而受到了显著关注。它可以基于用户提示生成多样化和详细的分割掩模。尽管在自然图像上表现出色,许多最近的研究也显示(Deng 等人,2023年;Roy 等人,2023年;He 等人,2023年),其在医学图像分割上的表现不尽人意。使医学图像分割变得互动,例如采用像 SAM 这样的技术,具有巨大的临床价值。互动系统可以根据临床医生指示的兴趣区域进行优先级划分,为他们提供更加沉浸式和个性化的体验。例如,在单个眼底图像中,常常有血管、视盘、视杯和黄斑等重叠和错综复杂的结构。互动式分割可以极大地帮助临床医生有效区分这些复杂结构中的目标组织。考虑到获取大规模标注数据集的难度,采用像 SAM 这样的基础互动模型对于临床使用变得至关重要。

SAM 在医学图像上的有限表现是由于它缺乏医学特定知识,包括低图像对比度、模糊的组织边界和微小的病变区域等挑战。解决这一问题的最先进(SOTA)方法是在医学数据上完全微调原始的 SAM 模型(Ma 和 Wang 2023),这在计算和内存占用方面都相当昂贵。此外,是否真的需要完全微调还存在疑问,因为之前的研究已经显示出预训练的视觉模型对医学图像有强大的迁移能力(Raghu 等人,2019;Xie 和 Richmond,2018)。

在本文中,我们尝试用最小的努力将训练良好的 SAM 适配到医学图像分割上。技术上,我们选择使用一种叫做适配(Adaption)的参数高效微调(PEFT)技术来微调预训练的 SAM(Hu 等人,2021)。适配已经成为自然语言处理(NLP)中广泛使用的流行技术,用于微调基础预训练模型以适应各种下游任务。适配的主要思想是将带有部分参数的适配器模块插入到原始模型中,并且只更新少量额外的适配器参数,同时保持大型预训练模型冻结。

Abstract

摘要

The Segment Anything Model (SAM) has recently gained popularity in the field of image segmentation due to its im pressive capabilities in various segmentation tasks and its prompt-based interface. However, recent studies and indi vidual experiments have shown that SAM underperforms in medical image segmentation, since the lack of the medical specific knowledge. This raises the question of how to en hance SAM’s segmentation capability for medical images. In this paper, instead of fine-tuning the SAM model, we pro pose the Medical SAM Adapter (Med-SA), which incorpo rates domain-specific medical knowledge into the segmenta tion model using a light yet effective adaptation technique. In Med-SA, we propose Space-Depth Transpose (SD-Trans) to adapt 2D SAM to 3D medical images and Hyper-Prompting Adapter (HyP-Adpt) to achieve prompt-conditioned adap tation. We conduct comprehensive evaluation experiments on 17 medical image segmentation tasks across various im age modalities. Med-SA outperforms several state-of-the-art

(SOTA) medical image segmentation methods, while updat ing only 2% of the parameters. Our code is released at https:

//github.com/KidsWithTokens/Medical-SAM-Adapter.

Segment Anything 

模型(SAM)最近由于其在各种分割任务中的卓越能力以及基于提示的接口,在图像分割领域获得了广泛的流行。然而,最近的研究和个体实验表明,SAM 在医学图像分割中表现不佳,原因是缺乏医学特定知识。这引发了如何提高 SAM 对医学图像分割能力的问题。在这篇论文中,我们不是对 SAM 模型进行微调,而是提出了医疗 SAM 适配器(Med-SA),它使用一种轻量级而有效的适配技术,将特定领域的医学知识整合到分割模型中。在 Med-SA 中,我们提出空间-深度转置(SD-Trans)以适配 2D 的 SAM 至 3D 医学图像,和超级提示适配器(HyP-Adpt)以实现基于提示的适配。我们在 17 个医学图像分割任务上进行了全面的评估实验,涵盖各种图像模式。Med-SA 在仅更新 2% 的参数的情况下,超越了多个最先进(SOTA)的医学图像分割方法。我们的代码已在 https://github.com/KidsWithTokens/Medical-SAM-Adapter 发布。

METHOD

方法

Preliminary: SAM architecture

To begin with, we provide an overview of the SAM architec ture. SAM comprises three main components: an image en coder, a prompt encoder, and a mask decoder. The image en coder is based on a standard Vision Transformer (ViT) pre trained by MAE. Specifically, we use the ViT-H/16 variant,

which employs 14×14 windowed attention and four equally spaced global attention blocks, as shown in 1 (a). The out put of the image encoder is a 16× downsampled embedding of the input image. The prompt encoder can be either sparse (points, boxes) or dense (masks). In this paper, we focus only on the sparse encoder, which represents points and boxes as positional encodings summed with learned embeddings for each prompt type. The mask decoder is a Transformer de coder block modified to include a dynamic mask prediction head. The decoder uses two-way cross-attention to learn the interaction between the prompt and image embeddings. Af ter that, SAM upsamples the image embedding, and an MLP maps the output token to a dynamic linear classifier, which predicts the target mask of the given image.

初步:SAM 架构

首先,我们提供 SAM 架构的概览。SAM 包含三个主要部分:图像编码器、提示编码器和掩码解码器。图像编码器基于经 MAE 预训练的标准视觉 Transformer(ViT)。具体来说,我们使用 ViT-H/16 变体,该变体采用 14×14 窗口注意力和四个等间距的全局注意力块,如图 1(a)所示。图像编码器的输出是输入图像的 16×下采样嵌入。提示编码器可以是稀疏的(点、框)或密集的(掩码)。在本文中,我们仅关注稀疏编码器,它将点和框表示为位置编码与每种提示类型的学习嵌入相加。掩码解码器是一个修改过的 Transformer 解码器块,增加了动态掩码预测头。解码器使用双向交叉注意力学习提示和图像嵌入之间的交互。之后,SAM 对图像嵌入进行上采样,一个 MLP 将输出令牌映射到动态线性分类器,该分类器预测给定图像的目标掩码。

CONCLUSION

结论

In this paper, we have extended SAM, a powerful general segmentation model, to address medical image segmenta tion, introducing Med-SA. Leveraging parameter-efficient adaptation with simple yet effective SD-Trans and HyP Adpt, we have achieved substantial improvements over the original SAM model. Our approach has resulted in SOTA performance across 17 medical image segmentation tasks spanning 5 different image modalities. We anticipate that this work will serve as a stepping stone towards advancing foundation medical image segmentation and inspire the de velopment of novel fine-tuning techniques.

在本文中,我们扩展了 SAM——一个强大的通用分割模型,以解决医学图像分割问题,引入了 Med-SA。利用参数高效的适配以及简单而有效的 SD-Trans 和 HyP-Adpt,我们在原始 SAM 模型的基础上取得了显著的改进。我们的方法在 17 个医学图像分割任务上获得了 SOTA 表现,这些任务涵盖了 5 种不同的图像模态。我们预期,这项工作将成为推进基础医学图像分割发展的垫脚石,并激发新的微调技术的开发。

Fig

图片

Figure 1: Med-SA architecture. We use (b) as the encoder with standard Adapter to process 2D medical images, and (c) incorporating SD-Trans to process 3D images. Then we use (d) as the decoder with HyP-Adpt to incorporate the prompts.

图 1:Med-SA 架构。我们使用 (b) 作为带有标准适配器的编码器来处理 2D 医学图像,并且使用 (c) 结合 SD-Trans 来处理 3D 图像。然后我们使用 (d) 作为解码器,配合 HyP-Adpt 来整合提示。

图片

Figure 2: HyP-Adpt architecture. We utilize Prompt Embed ding to generate the weights that are applied to the Adapter Embedding.

图 2:HyP-Adpt 架构。我们利用提示嵌入来生成应用于适配器嵌入的权重。

图片

Figure 3: Visual comparison of Med-SA and SAM on abdominal multi-organ segmentation. We use Check mark to represent SAM correctly found the organ and Cross to represent it lost.

图 3:Med-SA 与 SAM 在腹部多器官分割上的视觉比较。我们使用勾选标记表示 SAM 正确找到了器官,使用叉号表示它未能找到。

图片

Figure 4: Visual comparison of Med-SA and SAM on medical image segmentation with four different modalities. Top-left:optic disc and cup segmentation from the fundus image. Top-right: brain tumor segmentation from the Brain MRI. Bottom-left: melanoma segmentation from the dermoscopic image. Bottom-right: thyroid nodule segmentation from the ultrasound image.

图 4:Med-SA 与 SAM 在四种不同模态的医学图像分割上的视觉比较。左上角:来自眼底图像的视盘和视杯分割。右上角:来自脑部 MRI 的脑瘤分割。左下角:来自皮肤镜图像的黑色素瘤分割。右下角:来自超声图像的甲状腺结节分割。

Table 

图片

Table 1: The comparison of Med-SA with SOTA segmentation methods over BTCV dataset evaluated by Dice Score. Best results are denoted as bold.

表 1:Med-SA 与 SOTA 分割方法在 BTCV 数据集上通过 Dice 得分评估的比较。最佳结果以加粗表示。

图片

Table 2: The comparison of Med-SA with SAM and SOTA segmentation methods on different image modalities. The grey background denotes the methods are proposed for that/those particular tasks. Performance is omitted (-) if the algorithm fails

over 70% of the samples.

表 2:Med-SA 与 SAM 和 SOTA 分割方法在不同图像模态上的比较。灰色背景表示该方法是针对那些特定任务提出的。如果算法在超过 70% 的样本中失败,性能将被省略(-)。

图片

Table 3: An ablation study on SD-Trans and HyP-Adpt.、

表 3:对 SD-Trans 和 HyP-Adpt 的消融研究。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/478893.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Tuxera NTFS使用教程:关于Tuxera NTFS mac还有你不知道的用法

NTFS for Mac是Mac电脑里非常重要的工具之一,因为它太实用了,解决了NTFS移动硬盘在Mac上的写入问题。但是,小伙伴在安装完软件之后,通常再也不会关注它,甚至时间长了,也就忘了Mac里还有这么一个软件。 在T…

​2024年保护微服务的前10种技术

1*5rY-jEv7qlpa_swi4WMIBw.png 引言 与当前正在使用的任何其他技术或方法一样,微服务也有其自己的一套缺陷和问题。尽管如此,微服务架构的采用率不断增加,预计到2028年将达到1718.2亿美元。 然而,尽管团队使用微服务,但…

RabbitMQ的使用—实战

RabbitMQ的使用—实战 ​ RabbitMQ是一个开源的消息代理中间件,在分布式系统开发中被广泛应用。它实现了高级消息队列协议(AMQP),提供可靠的消息传递、灵活的路由、消息确认等功能。下面是使用RabbitMQ的基本流程: 安…

动态QCA|一条通向动态QCA产出的道路2.0

一、《A General Approach to Panel Data Set-Theoretic Research 》阅读 摘要:基于一般线性统计模型的学术研究正迅速向纵向和面板数据计量经济学方法的更广泛和更丰富的应用方向发展。相比之下,集合论的实证研究,尽管其日益普及&#xff0c…

GraalVM详细安装及打包springboot、java、javafx使用教程(打包javafx项目篇)

前言 在当前多元化开发环境下,Java作为一种广泛应用的编程语言,其应用部署效率与灵活性的重要性日益凸显。Spring Boot框架以其简洁的配置和强大的功能深受开发者喜爱,而JavaFX则为开发者提供了构建丰富桌面客户端应用的能力。然而&#xff…

ANDRAXv6软件工具列表介绍

系统环境:Xiaomi HyperOS Android 14 以下列表仅为部分内容,实际工具更多,方便大家了解为什么ANDRAX比NetHunter更强大 注意以下内容:仅供学习,未经相关部门许可请勿随意测试或恶意破坏公共网络设备,违者…

工控机在机器人领域的应用丨工业一体机的应用

随着机器人技术的不断发展,机器人在制造、物流等领域得到了广泛应用。而工业控制计算机(工控机)作为机器人控制系统的核心设备,也在机器人领域发挥着越来越重要的作用。 机器人控制系统是机器人的核心部分,控制系统的…

基于Springboot的农产品销售管理系统+数据库+免费远程调试

项目介绍: 基于Springboot的农产品销售管理系统。Javaee项目,springboot项目。采用M(model)V(view)C(controller)三层体系结构,通过SpringMvc SpringBootMybatisVuemaven来实现。MyS…

Uscrapper:一款功能强大的网络资源爬取工具

关于Uscrapper Uscrapper是一款功能强大的网络资源爬取工具,该工具可以帮助广大研究人员从各种网络资源中轻松高效地提取出有价值的数据,并且提供了稳定、友好且易于使用的UI界面,是安全研究人员和网络分析人员的强有力工具。 Uscrapper最大…

PR如何制作火焰特效?VFX火焰动画元素PR视频剪辑素材

如何使用Premiere软件制作火焰特效动画?VFX火焰特效元素动画pr视频剪辑素材。使用颜色控制器轻松自定义辉光效果的颜色和强度。每个场景都充满逼真的火焰。在预告片、极限运动视频或任何需要电影火力的场景中添加动作的好方法。 来自:pr素材库&#xff0…

python云上水果超市的设计与实现flask-django-php-nodejs

伴随着我国社会的发展,人民生活质量日益提高。于是对云上水果超市进行规范而严格是十分有必要的,所以许许多多的信息管理系统应运而生。此时单靠人力应对这些事务就显得有些力不从心了。所以本论文将设计一套云上水果超市,帮助商家进行商品信…

仿京东项目——京西商城(数据库设计)

文章目录 仿京东——京西商城数据库设计建立E-R图数据库表设计用户表商品表订单表订单详情表评论表购物车表购物车项表 仿京东——京西商城 数据库设计 主要实体有: 用户 用户ID(User_ID):唯一标识用户的主键 用户名&#xff0…

RuoYi-Vue-Plus(基础知识点jackson、mybatisplus、redis)

一、JacksonConfig 全局序列化反序列化配置 1.1yml中配置 #时区 spring.jackson.time-zoneGMT8 #日期格式 spring.jackson.date-formatyyyy-MM-dd HH:mm:ss #默认转json的属性,这里设置为非空才转json spring.jackson.default-property-inclusionnon_null #设置属性…

数据库级别的刷新和数据表级别的刷新结果不一样吗

这个刷新和这个刷新有啥区别 我发现点左边的刷新没有办法刷新出新注册成功的用户,但是下一张图片就能刷新出来 我也知不道是不是,还是我navicat有问题 是的,数据库级别的刷新和数据表级别的刷新的结果是不同的: 数据库级别的刷新…

JavaSE(简介)

1. Java语言特性 简单 Java语法是C语法的一个“纯净版本”,相当于对C做了一个减法。这里没有头文件、指针运算(甚至指针 语法)、结构、联合、操作符重载、虚基类等等。不仅如此,Java开发环境远远超出大多数其他编程语言的开 发环…

ttkbootstrap界面美化系列之按钮Button(三)

目录 一:Button接口 二:Button创建 三:Button主题 四:Button样式 五:Button状态 从本章开始将详细介绍ttkbootstrap中支持的常用组件,从按钮BUTTON开始,在各类界面设计中按钮几乎是必不可少…

解锁AI生成模型的无限可能:Stability-AI 带你领略前沿科技

厌倦了千篇一律的图片和视频?想要创作独一无二的艺术作品?Stability-AI 横空出世,为你打开通往 AI 生成模型的大门,带你领略前沿科技的无限可能! 神奇的功能,尽在掌握 Stability-AI 拥有众多令人惊叹的功能…

第2讲-Memory(4)拓展

存储器芯片结构 存储器扩展 地址总线:这决定了处理器将从内存中读取数据或写入数据的内存位置。 数据总线:它包含已从内存位置读取或将写入内存位置的数据内容。 控制总线:它管理组件之间的信息流,指示操作是读取还是写入,并确保操作在正确的时间发生。

聊一下大模型的函数调用-Function call

你好,我是 shengjk1,多年大厂经验,努力构建 通俗易懂的、好玩的编程语言教程。 欢迎关注!你会有如下收益: 了解大厂经验拥有和大厂相匹配的技术等 希望看什么,评论或者私信告诉我! 文章目录 一…