文献速递:基于SAM的医学图像分割---阶梯式微调方法,用于整合补充网络的自适应矩估计(SAM)

Title 

题目

Ladder Fine-tuning approach for SAM integrating complementary network

阶梯式微调方法,用于整合补充网络的自适应矩估计(SAM)

01

文献速递介绍

医学图像分割在医疗保健中扮演着至关重要的角色。它旨在使用各种医学成像方式,如X射线、CT扫描、MRI扫描或超声波图像,对包括肝脏、大脑和病变在内的各种身体器官进行分割。因此,它极大地帮助临床医生进行诊断、治疗计划和治疗后监测。在过去的十年里,卷积神经网络(CNN)已经成为广泛应用于各种计算机视觉任务的流行技术。 最近,Long等人提出了全卷积网络(FCN)。这种方法能够处理任何大小的输入图像,并通过用卷积层替换全连接层来生成分割结果。 U-Net,由Ronneberger等人开发,是医学图像分割最广泛使用的架构。它包括一个编码器和一个解码器,其中包含跳跃连接以保留重要特征。编码器路径对输入图像进行下采样的同时捕获高级特征。而解码器路径对特征图进行上采样以预测分割结果。Zhou等人通过引入嵌套跳跃连接方案,扩展了U-Net架构。 这允许捕获多尺度的上下文信息并更好地整合来自不同层次的特征。Chen等人提出了Deeplab系列模型,其中包括空洞/扩张卷积操作和全连接条件随机场的概念。 最近,Transformer[5]被引入到计算机视觉(CV)领域,它最初是为自然语言处理(NLP)设计的。与传统的CNN架构相比,Transformer能够捕获长距离依赖关系。Dosovitskiy等人提出了用于图像分类的Vision Transformer(ViT),采用自注意力机制。随后,Chen等人[7]提出了TransUNet,它使用ViT进行分割任务。TransUNet共同利用CNN和ViT从输入图像中获取局部和全局上下文特征。Tang等人展示了使用ViT模型作为主要编码器进行特征提取的Swin UNETR。

Abstract

摘要

Recently, foundation models have been introduced

demonstrating various tasks in the field of computer vision. 

These models such as Segment Anything Model (SAM) are generalized models trained using huge datasets. Currently, ongoing research focuses on exploring the effective utilization of these generalized models for specific domains, such as medical imaging. However, in medical imaging, the lack of training samples due to privacy concerns and other factors presents a major challenge for applying these generalized models to medical image segmentation task. To address this issue, the effective fine tuning of these models is crucial to ensure their optimal utilization. In this study, we propose to combine a com plementary Convolutional Neural Network (CNN) along with the standard SAM network for medical image segmentation. To reduce the burden of fine tuning large foundation model and implement cost-efficient trainnig scheme, we focus only on fine-tuning the additional CNN network and SAM decoder part. This strategy significantly reduces trainnig time and achieves competitive results on publicly available dataset. The code is available at https://github.com/11yxk/SAM-LST.

最近,基础模型在计算机视觉领域的各种任务中展现了其能力。

这些模型,如 Segment Anything Model (SAM),是使用庞大数据集训练的泛化模型。目前, 持续的研究重点在于探索这些泛化模型在特定领域(如医学成像)的有效利用。然而,在医学成像中, 由于隐私问题和其他因素导致的训练样本缺乏,为这些泛化模型在医学图像分割任务中的应用带来了主要挑战。为了解决这一问题, 这些模型的有效微调至关重要,以确保它们的最优利用。在本研究中,我们提议结合一个补充的卷积神经网络(CNN)和标准的SAM网络,用于医学图像分割。为了减轻微调大型基础模型的负担,并实施成本高效的训练方案,我们仅关注于微调附加的CNN网络和SAM解码器部分。

这一策略显著减少了训练时间,并在公开可用的数据集上取得了有竞争力的结果。代码可在 https://github.com/11yxk/SAM-LST 获取。

METHOD

方法

A. Segment Anything Model

The Segment Anything Model (SAM) [13] is the first attempt of foundation models in segmentation task. SAM consists of three components, these are image encoder,prompt encoder and mask decoder. The image encoder employs an MAE pre-trained ViT network [6] to extract image features. The prompt encoder enables four types of prompt inputs: points, boxes, text and masks. The points and boxes are embedded with positional encoding while the text is embedded with text encoder from CLIP .Masks are embedded using convolution operations. The mask decoder is designed to map the image embedding and prompt embedding in a lightweight manner. These two types of embeddings interact using cross-attention module, using one embedding as query and another embedding as key and value vectors. Finally, the Transposed convolutions are used to up sample the features. The mask decoder has the capability to generate multiple results as the provided prompts might have ambiguity. The default number of outputs is set to three. It is worth to mention that the image encoder extracts image features only once for each input image. After that the lightweight prompt encoder and mask decoder can interact with users based on different input prompts in a web browser in real-time. The SAM is trained using more than 11M images and 1B masks. The experimental results demonstrate the superior zero-shot transfer ability. As implied by its name, the model can almost segment anything, even in cases that have not seen before (unseen test samples).

Segment Anything Model(SAM)

是基础模型在分割任务中的首次尝试。SAM由三个部分组成,这些部分包括图像编码器、提示编码器和遮罩解码器。图像编码器采用经过MAE预训练的ViT网络来提取图像特征。提示编码器支持四种类型的提示输入:点、框、文本和遮罩。点和框使用位置编码进行嵌入,而文本则使用CLIP中的文本编码器进行嵌入。遮罩使用卷积操作进行嵌入。遮罩解码器旨在以轻量级方式映射图像嵌入和提示嵌入。这两种类型的嵌入通过交叉关注模块进行交互,使用一个嵌入作为查询,另一个嵌入作为键和值向量。最终,使用转置卷积对特征进行上采样。遮罩解码器具有生成多个结果的能力,因为提供的提示可能存在歧义。默认的输出数量设置为三个。值得一提的是,图像编码器对每个输入图像只提取一次图像特征。之后,轻量级的提示编码器和遮罩解码器可以根据不同的输入提示与用户实时在网页浏览器中进行交互。SAM使用超过1100万张图片和10亿个遮罩进行训练。实验结果展示了其卓越的零样本转移能力。正如其名称所暗示的,这个模型几乎可以分割任何东西,即使是之前未见过的案例(未见测试样本)。

CONCLUSION

结论

We introduce a robust and flexible fine-tuning strategy for large foundation model, specifically SAM. Our proposed approach of integrating CNN encoder while employing a learnable weight parameter achieves a significant result. This approach provides the way for new fine-tuning strategies in computer vision. Furthermore, our proposed approach minimizes resource utilization and reduces training time. In the future, we aim to explore additional fine-tuning methods to enhance performance.

我们介绍了一种针对大型基础模型(特别是SAM)的稳健且灵活的微调策略。我们提出的方法中,集成CNN编码器同时采用可学习的权重参数,取得了显著的结果。这种方法为计算机视觉中新的微调策略提供了途径。此外,我们提出的方法最小化了资源利用并减少了训练时间。未来,我们旨在探索额外的微调方法以提升性能。

Fig

图片

Fig. 1. Overview of our proposed method.

图 1. 我们提出的方法概览。

图片

Fig. 2. The architecture of CNN Encoder. In this figure, we omit the activation function, batch normalization layer and residual connections for simplicity

图 2. CNN编码器的架构。在此图中,为简化起见,我们省略了激活函数、批量归一化层和残差连接。

图片

Fig. 3. Segmentation results on Synapse dataset.

图 3. 在Synapse数据集上的分割结果。

Table 

图片

TABLE Icomparison with state-of-the-arts

表 I 与最先进技术的比较

图片

TABLE II  ablation results

表 II消融实验结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/472139.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MS2574/2574T/2574S高速、四通道差动线路驱动器

品简述 MS2574/MS2574T/MS2574S 是一款高速、低功耗的四通道 差动线路驱动芯片,用于平衡或非平衡的数字数据传输。可 以满足 ANSI TIA/EIA-422-B 和 ITU (原 CCITT )建议 V.11 的要求。 三态输出可提供用于驱动双绞线或平行双线传输线路等…

公司购买阿里云服务器多少钱一年?199元2核4G5M配置

阿里云服务器ECS u1实例,2核4G,5M固定带宽,80G ESSD Entry盘优惠价格199元一年,性能很不错,CPU采用Intel Xeon Platinum可扩展处理器,购买限制条件为企业客户专享,实名认证信息是企业用户即可&a…

基于机器视觉的太阳能电池片异物遮挡检测含数据集

分享链接见文末 近年来,随着太阳能发电技术的快速发展,太阳能电池片的应用越来越广泛。然而,太阳能电池片在实际运行过程中常常会受到各种异物的遮挡,如树叶、灰尘等,导致发电效率下降甚至损坏设备。因此,…

python 基于 websocket 的简单将视频推流到网页

本来有一台设备是要搞成无线的形式的,设备的摄像头的数据可以在一台局域网连接的平板上查看,因为试着使用 RTMP 推流,感觉延时太大了,而 Webrtc 感觉有太麻烦了,所以一开始看到这篇文章使用 UDP 协议进行推流&#xff…

竞赛 - 基于机器视觉的图像拼接算法

前言 图像拼接在实际的应用场景很广,比如无人机航拍,遥感图像等等,图像拼接是进一步做图像理解基础步骤,拼接效果的好坏直接影响接下来的工作,所以一个好的图像拼接算法非常重要。 再举一个身边的例子吧,…

“比特币跌至8900美元”?逢低买入信号闪现!亚洲投资者需求正持续增长!

3月19日,美股三大指数集体收涨,美联储正在召开为期两天的货币政策会议,周三公布结果,市场普遍预计美联储将按兵不动。 然而,比特币近几日却面临显著的价格回调,昨早再次从6.7万美元水平快速下滑&#xff0c…

学习vue3第九节(新加指令 v-pre/v-once/v-memo/v-cloak )

1、v-pre 作用:防止编译器解析某个特定的元素及其内容,即v-pre 会跳过当前元素以及其子元素的vue语法解析,并将其保持原样输出; 用于:vue 中一些没有指令和插值表达式的节点的元素,使用 v-pre 可以提高 Vu…

【Linux】shell命令运行原理---认识Linux基本指令

主页:醋溜马桶圈-CSDN博客 专栏:Linux_醋溜马桶圈的博客-CSDN博客 gitee:mnxcc (mnxcc) - Gitee.com 目录 1.shell命令以及运行原理 1.1 shell命令 1.2 Linux内核权限 1.3 图示Linux shell和bash的区别 2.认识Linux基本指令 2.1 指令的…

选马桶别再犯错,这7点要注意!福州中宅装饰,福州装修

在众多卫浴品牌中,各种型号尺寸和性能的马桶更是层出不穷,在选购的时候总是陷入难题,那么接下来就给大家讲讲马桶应该怎么选购: ①高效冲水系统:高效的冲水系统,不仅能确保每一次冲洗都干净彻底&#xff0c…

【RabbitMQ】【Docker】基于docker-compose构建rabbitmq容器

本文通过docker-compose构建一个单体的rabbtimq容器。 1,docker、docker-compose环境 首先需要有docker和docker-compose环境,docker安装[1],docker-compose安装[2]。 通过下列命令确定docker、docker-compose是否安装成功。 [root192 ge…

春暖花开,一起来看看2024年品牌春分海报吧!

春分(Vernal equinox)已至,春花烂漫、燕子归来、百草回芽。 今天我们要分享的是2024年品牌发布的春分节气海报合集,快来随我们一起感受这昂扬、蓬勃的春意吧! (1)泸州老窖 (2)BD…

语义分割基础知识

1、什么是语义分割 目标检测: 检测出图像中目标位置和类别,使用锚框框出目标位置 实例分割: 将前景物体分割开来,并且每一个物体有不同的id(颜色) 语义分割: 和实例分割相似,但…

nginx介绍及搭建

架构模型 Nginx是由一个master管理进程、多个worker进程组成的多进程模型。master负责管理worker进程,worker进程负责处理网络事件,整个框架被设计为一种依赖事件驱动、异步、非阻塞的模式。 优势: 1、充分利用多核,增强并发处理…

Python快速导入id至json文件(2024.3.19)

Python实现id导入至json文件 2024.3.19 需求分析1、输入数据介绍1.1 三个.txt文件1.1.1 computers.txt(计算机)1.1.2 cameras.txt(摄像头)1.1.3 monitors.txt(显示器) 1.2 单个.xlsx文件 2、实现思路3、Pyt…

软考81-上午题-【面向对象技术3-设计模式】-行为型设计模式01

一、行为型设计模式一览 二、责任链模式 2-1、意图 使多个对象都有机会处理请求,从而避免请求的发送者和接收者之间的耦合关系。将这些对象连成一条链,并沿着这条链传递该请求,直到有一个对象处理它为止。 1-2、结构 1-3、代码实现 1-4、适…

基于python的4s店客户管理系统

技术:pythonmysqlvue 一、背景 进入21世纪网络和计算机得到了飞速发展,并和生活进行了紧密的结合。目前,网络的运行速度以达到了千兆,覆盖范围更是深入到生活中的角角落落。这就促使管理系统的发展。网上办公可以实现远程处理事务…

一文带你详解天池电商数据集

行业介绍: 淘系技术部隶属于阿里巴巴新零售技术事业群,支撑淘宝、天猫核心电商以及闲鱼、躺平等创新业务,服务9亿用户,赋能各行业1000万商家。 淘系技术打造了全球领先的线上新零售技术平台,并作为核心技术团队保障了…

常用大数据组件的Web端口号总结

常用大数据组件的Web端口号总结 网站访问方式 在地址栏中输入虚拟机名称对应组建的Web端口号,回车访问。 常用大数据组建的Web端口号 Hadoop HDFS:9870Hadoop YARN ResourceManager:8088JobHistoryServer:19888 Zeppelin&…

css 如何获取分辨率(使用@media查询)

在CSS中,可以使用media查询来应对不同的屏幕分辨率。例如,您可以为不同的屏幕宽度设置不同的样式规则。 /* 针对屏幕宽度小于600px的样式 */ media screen and (max-width: 599px) {body {background-color: lightblue;} }/* 针对屏幕宽度大于或等于600…

“垃圾不落地,捡跑来助力”学雷锋志愿服务暨党支部党日活动

指导思想 紧紧围绕建设和谐社会主题,以创建文明为契机,学习雷锋精神,为人民服务为宗旨,大力开展志愿捡跑活动,激发大家积极参与志愿活动的热情,大力弘扬奉献、友爱、互助、进步的志愿服务精神。 活动启动 …