MSA【3】:SAMed

文章目录

  • 前言
  • 1. Abstract & Introduction
    • 1.1. Abstract
    • 1.2. Introduction
  • 2. Methods
    • 2.1. Overview
    • 2.2. LoRA in image encoder
    • 2.3. Prompt encoder and mask decoder
    • 2.4. Training strategies
      • 2.4.1. Loss function
      • 2.4.2. Warmup
      • 2.4.3. AdamW optimizer
  • 总结


前言

SAMed 是基于大规模图像分割模型 Segment Anything Model (SAM) 构建的,旨在探索将大规模模型定制化应用于医学图像分割的新研究范式

原论文链接:Customized Segment Anything Model for Medical Image Segmentation


1. Abstract & Introduction

1.1. Abstract

本文提出了医学图像分割的通用解决方案 SAMed

  • SAMedSAM 图像编码器采用基于低秩的微调策略(LoRA),并在标注的医学图像分割数据集上对其与提示编码器和掩码解码器一起进行微调
  • Warmup 微调策略和 AdamW 优化器使 SAMed 成功收敛并降低了损失

SAM 不同,SAMed 可以对医学图像进行语义分割

1.2. Introduction

由于缺乏医学图像数据及其相应的语义标签,大规模 CV 模型无法直接用于解决医学图像分割问题

  • 大规模 CV 模型根据强度方差来决定不同分割区域的边界,这在自然图像中是合理的,但在医学图像中却不合理
    • 基础的分割大模型可以通过识别强度值发生显著变化的区域,以判断不同区域之间可能存在的边界
    • 但是,医学图像包含复杂的结构和纹理,需要专门的算法和模型才能精确分割
      • 在核磁共振成像图像中,不同的组织具有不同的信号强度,它们之间的界限并不总是明确定义的
      • 医学图像分割需要能够考虑图像的解剖学和病理特征(例如形状、纹理和背景)的模型
  • 大规模 CV 模型无法将分割区域与有意义的语义类别联系起来

在这里插入图片描述


2. Methods

2.1. Overview

给定一幅空间分辨率为 H × W H \times W H×W、通道数为 C C C 的医学图像 x ∈ R H × W × C x \in \mathbb{R}^{H \times W \times C} xRH×W×C,其中每个像素都属于预定义类别列表 Y = { y 0 , y 1 , ⋯   , y k } Y = \{y_0, y_1, \cdots, y_k \} Y={y0,y1,,yk} 中的一个元素( y 0 y_0 y0 通常被视为背景)

在这里插入图片描述

  • SAMed 冻结了图像编码器中的所有参数,并为每个变压器模块设计了可训练的旁路
    • LoRA 所示,这些旁路首先将变换器特征压缩到低级空间,然后将压缩后的特征重新投影,使其与冻结变换器块中输出特性的通道保持一致
  • SAMed 没有使用提示编码器,因为 SAMed 在推理过程中无需任何提示即可执行自动分割
    • 如果剥离 SAM 中的所有提示,SAM 将更新默认的默认嵌入,因此 SAMed 还会在训练过程中对该嵌入进行微调
  • 使用 LoRA 对变换解码器进行微调是可选的
    • 如果冻结变换解码器,并使用 LoRA 层对其进行微调,但不对其所有参数进行微调,则可以进一步缩小更新参数的模型大小,以方便部署,但性能会略有下降
  • SAM 的原始分割头输出多个分割掩码,以解决分割提示的模糊性
    • SAMed 也会预测多个分割掩码,但每个掩码代表 Y Y Y 中的一个类别,因此 SAMed 会预测 k 个分割掩码

2.2. LoRA in image encoder

给定编码令牌序列 F ∈ R B × N × C i n F \in \mathbb{R}^{B \times N \times C_{in}} FRB×N×Cin 和由投影层 W ∈ R C o u t × C i n W \in \mathbb{R}^{C_{out} \times C_{in}} WRCout×Cin 操作的输出令牌序列 F ^ ∈ R B × N × C o u t \hat{F} \in \mathbb{R}^{B \times N \times C_{out}} F^RB×N×Cout

  • 投影层
    • 将输入数据从原始空间映射到新空间的层,新空间通常具有不同的维度
    • 投影层通常由一组可学习的参数组成,如权重和偏置,这些参数在训练过程中得到优化

LoRA 假定 W W W 的更新应该是渐进和稳定的,SAMedLoRA 策略如下所示:
在这里插入图片描述

  • SAMed 首先冻结变压器层以保持 W W W 固定不变,然后添加一个旁路来完成低秩近似
    • 该旁路包含两个线性层 A ∈ R r × C i n A \in \mathbb{R}^{r \times C_{in}} ARr×Cin B ∈ R C o u t × r B \in \mathbb{R}^{C_{out} \times r} BRCout×r
    • 其中 r ≪ { C i n , C o u t } r \ll \{ C_{in}, C_{out} \} r{Cin,Cout}

因此更新层 W ^ \hat{W} W^ 的处理过程可描述为
在这里插入图片描述
由于多头自关注机制是通过余弦相似度来确定要关注的区域,因此对 Q Q Q K K K V V V 的投影层应用 LoRA 来影响关注分数是明智的

观察发现,将 LoRA 应用于 Q Q Q V V V 投影层时,SAMed 可以获得更好的性能,因此多头自关注的处理策略将变为
在这里插入图片描述
参数含义:

  • W q W_q Wq W k W_k Wk W v W_v WvSAM 中冻结的投影层, A q A_q Aq B q B_q Bq A v A_v Av B v B_v Bv 是可训练的 LoRA 参数

2.3. Prompt encoder and mask decoder

由于 SAM 中的提示编码器在没有提示时使用默认嵌入,因此 SAMed 保留了这一默认嵌入,并在微调过程中对其进行训练

SAM 中的掩码解码器由一个轻量级转换层和一个分割头组成

  • 可以选择将 LoRA 应用于轻量级转换器层并对分割头进行微调

  • 或者直接微调掩码解码器中的所有参数
    在这里插入图片描述
    SAMedSAM 的分割头稍作修改,以定制 Y Y Y 中每个语义类别的输出,如图所示:

  • SAM 的模糊预测不同,SAMed 以确定性的方式预测 Y Y Y 中的每个语义类别

  • SAMed 的掩码解码器会同时预测 k 个语义掩码 S ^ l ∈ R h × w × k \hat{S}_l \in \mathbb{R}^{h \times w \times k} S^lRh×w×k,与每个语义标签相对应

  • 最后,预测的分割图生成为

    • 其中, d = − 1 d = -1 d=1 表示在最后一个维度(通道维度)上执行 Softmaxargmax 操作
      在这里插入图片描述

2.4. Training strategies

2.4.1. Loss function

SAMed 采用交叉熵和骰子损失来监督微调过程
在这里插入图片描述

2.4.2. Warmup

  • SAMed 采用预热来稳定训练过程,并在训练初期熟悉医疗数据
  • SAMed 利用指数学习率衰减使训练过程逐渐收敛
    在这里插入图片描述

2.4.3. AdamW optimizer

在这里插入图片描述


总结

问题总结:

  1. 自然图像分割更关注于边界,但解剖或病理结构的分析在医学图像分割中同样起着至关重要的作用
  2. SAM无法用医学图像做到语义分割

贡献点:

  1. 首先对SAM进行扩展,探索其在医学图像语义标签分割上的能力
  2. 考虑到性能、部署和存储开销,提出了图像编码器的自适应和一系列调优策略

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/257129.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

青藤销售云助力企业数智化销售

青藤销售云助力企业数智化销售覆盖: 1.人工自动外呼群呼 2.AI电销销售机器人自动筛选意向客户 3.crm企业微信智能客户管理运行系统 4.电话回拨系统不限拨打频次高频外呼不封号 5.语音通知系统覆盖工单提醒、发货提醒、缴费提醒等场景 6.手机号外显专号专用高接通率线…

【数据分享】2019-2023年我国地级市逐年新房房价数据(免费获取/Excel/Shp格式)

房价是一个城市发展程度的重要体现,一个城市的房价越高通常代表这个城市越发达,对于人口的吸引力越大!因此,房价数据是我们在各项城市研究中都非常常用的数据!之前我们分享了2019—2023年我国地级市逐月的新房房价数据…

EasyExcel模板导出(行和列自动合并)

1.需求背景: ①需要从第三方获取数据,第三方接口有两个参数,开始时间和结束时间 ②获取回来的数据并没有入库,所以不能通过数据库将数据归类统计,excel合并大概的流程是判断上一行或者左右相邻列是否相同,然后进行合并,所以不能是零散的数据且客户要求每一个自治区和每一个航站…

Spring Boot学习随笔- 实现AOP(JoinPoint、ProceedingJoinPoint、自定义注解类实现切面)

学习视频:【编程不良人】2021年SpringBoot最新最全教程 第十一章、AOP 11.1 为什么要使用AOP 问题 现有业务层开发存在问题 额外功能代码存在大量冗余每个方法都需要书写一遍额外功能代码不利于项目维护 Spring中的AOP AOP:Aspect 切面 Oriented 面向…

博特激光:紫外激光打标机在玻璃行业的应用

随着科技的飞速发展,紫外激光打标机在玻璃行业的应用日益广泛。这种高效、高精度的打标设备为玻璃制品的标识和加工带来了革命性的变革,助力企业提升生产效率和产品质量。 ​ ​ 一、玻璃制品标识 紫外激光打标机采用高能量密度的激光束,能够…

【RocketMQ-Install】RocketMQ 的安装及基础命令的使用

【RocketMQ-Install】Windows 环境下 安装本地 RocketMQ 及基础命令的使用 1)下载 RocketMQ 安装包1.1.官网下载(推荐)1.2.Git 下载1.3.安装环境要求说明 2)Windows 安装3)Linux 安装4)控制台安装5&#xf…

乐理基础-弱起小节、弱起

弱起小节的定义: 1.音乐不是从强拍开始的,是从弱拍或次强拍开始的。 2.弱起小节会省去前面没有音乐的部分,它是不完整的小节,它的拍数是不够的。如图1 弱起小节的作用: 强拍经常要作为 和弦出现 和 变化的地方&#xf…

lvs-nat部署

LVS负载均衡群集部署——NAT模式 实验环境: 负载调度器:内网关 lvs,ens33:172.16.23.10;外网关:ens36:12.0.0.1 Web服务器1:172.16.23.11 Web服务器2:172.16.23.12 NFS…

Home Assistant 如何开启SSH服务

环境: Home Assistant 11.2 SSH & Web Terminal 17.0 问题描述: Home Assistant 如何开启SSH服务 解决方案: 通过添加一个名为Terminal & SSH的插件来在 Home Assistant 中启用 SSH 服务 下面是启用 SSH 服务的大致步骤&#x…

黑盒测试中关键截图如何打点

黑盒测试中关键截图如何打点Android黑盒测试过程中如何进行有效的打点是我们经常遇到的问题,我们一般会在脚本内部进行数据打点,也可以使用其他进程录屏或截图。那我们如何选取合适的方式进行打点记录呢?下图是对常用打点方式的统计&#xff…

程序流程图的意义(合集)

程序流程图的意义 1、矩形 作用:一般用作要执行的处理(process),在程序流程图中做执行框。 在axure中如果是画页面框架图,那么也可以指代一个页面。有时候我们会把页面和执行命令放在同一个流程中做说明,这个时候将两类不同的矩形…

selenium自动化webdriver下载及安装

1、确认浏览器的版本 在浏览器的地址栏,输入chrome://version/,回车后即可查看到对应版本 2、找到对应的chromedriver版本 2.1 114及之前的版本可以通过点击下载chromedriver,根据版本号(只看大版本)下载对应文件 2.2 116版本通过…

全链路压力测试:解析其主要特点

随着信息技术的飞速发展和云计算的普及,全链路压力测试作为一种关键的质量保障手段,在软件开发和系统部署中扮演着至关重要的角色。全链路压力测试以模拟真实生产环境的压力和负载,对整个业务流程进行全面测试,具有以下主要特点&a…

D35|整数拆分+不同的二叉搜索树

96.不同的二叉搜索树 初始思路: 一开始需要推导递推公式也就是需要找规律: 我认为的规律是 dp[0] 1; dp[1] 1; dp[2] 2; dp[3] dp[2]dp[1]xdp[1]dp[2]5; dp[4] dp[3]dp[2]xdp[1]dp[1]xdp[2]dp[3]; dp[5] dp[4]dp[1]xdp[3]dp[2]xdp[2]dp[3…

详解—C++ [异常]

目录 一、C语言传统的处理错误的方式 二、C异常概念 三、异常的使用 3.1 异常的抛出和捕获 3.2 异常的重新抛出 3.3异常安全 3.4 异常规范 四、自定义异常体系 五、C标准库的异常体系 六、异常的优缺点 6.1、C异常的优点: 6.2、C异常的缺点:…

超实用的Web兼容性测试经验总结,建议Mark

在日常工作中,我们经常碰到网页不兼容的问题。我们之所以要做兼容性测试,目的在于保证待测试项目在不同的操作系统平台上正常运行。 主要包括待测试项目能在同一操作系统平台的不同版本上正常运行;待测试项目能与相关的其他软件或系统的“和…

JBoss 4.x JBossMQ JMS 反序列化漏洞CVE-2017-7504 已亲自复现

JBoss 4.x JBossMQ JMS 反序列化漏洞CVE-2017-7504 已亲自复现 漏洞名称影响版本影响版本 漏洞复现环境搭建漏洞利用修复建议 总结 漏洞名称 影响版本 Red Hat JBoss Application Server 是一款基于JavaEE的开源应用服务器。JBoss AS 4.x及之前版本中,JbossMQ实现…

八大易犯领英LinkedIn错误

领英是一个全球知名的职场社交平台,拥有海量的用户,也成为了外贸人开发客户的一个重要平台。但是如果没有很好地避好一些易犯错误,那很可能努力的结果是事倍功半。接下来我来讲解八大容易犯的领英错误。 1、没有完善个人信息 领英是一个职场…

【安全】常见的kali安全工具,小白收藏!!

前言 Kali系统预装了大量的安全工具,可以说是一个安全工具的数据库。在kali2018.2系统中就有600多个工具,工具如此之多,掌握所有的工具是不现实的,只有需要用的时候再去学习工具的使用即可。但是了解这些工具的用途,掌…

Kubernetes 的用法和解析 -- 5

一.企业级镜像仓库Harbo 准备:另起一台新服务器,并配置docker yum源,安装docker 和 docker-compose 1.1 上传harbor安装包并安装 [rootharbor ~]# tar xf harbor-offline-installer-v2.5.3.tgz [rootharbor ~]# cp harbor.yml.tmpl harbor…