候选CVPR 2024最佳论文!深圳大学联手香港理工发布MemSAM:将 「分割一切」模型用于医学视频分割

根据世界卫生组织 (WHO) 的统计数据,心血管疾病是全球死亡的主要原因,每年夺走约 1,790 万人的生命,占全球死亡人数的 32%。超声心动图是用于心血管疾病的超声诊断技术,由于其便携性、低成本和实时性,被广泛应用于临床实践。然而,超声心动图需要有经验的医生进行人工评估,且评估质量很大程度上依赖于医生的专业知识与临床经验, 这导致评估结果常常会出现较大的观察者间和观察者内差异 (inter- and intra-observer differences)。因此,临床实践迫切需要自动化的评估方法。

近年来,许多深度学习方法被提出用于超声心动图视频分割。然而,由于超声视频质量低且注释有限,这些方法仍无法取得令人满意的结果。近期,一个大型视觉模型——Segment Anything Model (SAM) 受到了高度关注,在许多自然图像分割任务中取得了显著成功,但如何将 SAM 应用于医学视频分割仍是一项颇具挑战性的任务。

超声心动图视频评估的挑战(a) 轮廓模糊,(b) 斑点噪声,(c-d) 跨帧尺度变化

基于此,由深圳大学计算机与软件学院和香港理工大学智能健康研究中心联合组成的团队,在计算机视觉顶级会议 CVPR 2024 上发布了题为「MemSAM: Taming Segment Anything Model for Echocardiography Video Segmentation」的论文。在论文中,研究人员提出了一种新颖的超声心动图视频分割模型 MemSAM,将 SAM 应用于医学视频。

论文成功入围 CVPR2024 最佳论文的候选名单

该模型使用包含时空信息的记忆作为提示当前帧的分割,并使用记忆强化机制在存储记忆之前提高记忆质量。在公开数据集的实验表明,该模型以少量点提示实现了最先进的性能,并以有限的注释实现了与完全监督方法相当的性能,大大降低了视频分割任务所需的提示和注释要求。

研究亮点:

  • 本研究使用包含时空信息的记忆作为提示当前帧的分割,以提高表示的一致性和分割精度
  • 研究人员进一步提出了记忆增强模块,以在存储记忆之前增强记忆,从而减轻记忆提示过程中斑点噪声和运动伪影的不利影响
  • 新模型与现有模型相比展示了最先进的性能,特别是其在有限注释的情况下实现了与完全监督方法相当的性能

论文地址:
https://github.com/dengxl0520/MemSAM

数据集:2 个公开可用的超声心动图数据集

研究人员在 2 个广泛使用的公开可用的超声心动图数据集 CAMUS 和 EchoNet-Dynamic 上评估了其方法:

  • CAMUS 数据集包含 500 个病例,包括 2D 心尖二腔和心尖四腔视图视频,同时还提供了所有帧的标注。
  • EchoNet-Dynamic 数据集包含 10,030 个 2D 心尖二腔视图视频。每个视频以积分的形式提供左心室的面积,仅标注了舒张末期 (ED) 和收缩末期 (ES) 的相位。

为了全面评估新方法在半监督视频分割中的有效性,研究人员将 CAMUS 数据集改编为两个变体:CAMUS-Full 和 CAMUS-Semi。CAMUS-Full 在训练期间使用所有帧的标注,而 CAMUS-Semi 仅使用舒张末期 (ED) 和收缩末期 (ES) 帧的标注。在测试期间,这两个数据集都使用完整的标注进行评估。

研究人员从数据集中均匀采样视频,并将它们裁剪到每个 10 帧。裁剪确保 ED 帧是第一帧,ES 帧是最后一帧,分辨率调整为 256×256。并将 CAMUS 数据集按照 7:1:2 的比例,划分为训练集、验证集和测试集。

模型架构:SAM 组件和记忆组件构筑 MemSAM 总体框架

MemSAM 模型的总体框架如下图所示,由 SAM 组件和 Memory 组件两个部分组成。

MemSAM 总体框架图中灰色底部分为 SAM,橙色底部分为 Memory

SAM 组件采用与原始 SAM 相同的架构,由图像编码器 (Image Encoder)、提示编码器 (Prompt Encoder) 和掩码解码器 (Mask Decoder) 组成。

图像编码器采用 Vision Transformer (ViT) 作为 backbone,将输入图像编码为图像向量 (Image Embedding)。

提示编码器接收外部提示,如点提示 (Point Prompt),并将它们编码为一个 c 维度向量 (a c-dimensional embedding)。随后,掩码解码器结合图像和提示向量来预测分割掩码。

在这些组件中,图像向量通过投影层 (projection layer) 映射到记忆特征空间,然后研究人员进行记忆读取 (Memory Reading),从多重特征记忆(如感觉记忆 Sensory Memory、工作记忆 Working Memory 和长期记忆 Long-term Memory)中获得记忆提示 (Memory Prompt),并将其提供给掩码解码器。最后,通过记忆增强 (Memory Reinforcement) 和记忆编码器 (Memory Encoder) 后,记忆将被更新。

下图进一步展示了记忆读取、记忆增强和记忆更新 (Memory Update) 过程中的更多细节:

记忆读取、记忆增强和记忆更新的更多细节

记忆读取

记忆读取块展示了从图像向量生成记忆向量的过程。图像向量通过投影生成查询 (Query),随后针对记忆值亲和力 (Affinity) 查询得到记忆读出,最后记忆读出将与感觉记忆 (Sensory Memory) 和图像向量融合得到记忆向量。

记忆增强
与自然图像相比,超声图像包含更复杂的噪声,这意味着由图像编码器生成的图像向量不可避免地会携带噪声。如果在没有任何处理的情况下将这些噪声特征更新到记忆中,可能会导致错误的累积和传播。

为了减轻噪声对记忆更新的影响,需要采用记忆增强模块来增强记忆中特征表示的可辨识性。记忆增强块首先串联图像向量和预测概率图,随后通过 3×3 卷积限制每个像素的感受野 (receptive fiel) 从而生成局部权重特征 (local attention weight feature)。

记忆更新
最后通过 Softmax 函数和图像向量的点积得到将要被更新至记忆库的输出特征。

研究结果:MemSAM 在有限注释下实现了最佳性能

为了验证 MemSAM 的性能,研究人员广泛选择了不同类型的对比方法,包括传统图像分割模型和医学基础模型。三个传统的图像分割模型分别是基于 CNN 的 UNet、基于 Transformer 的 SwinUNet 和 CNN-Transformer 混合的 H2Former。适用于医学领域的 SAM 模型包括 MedSAM、MSA、SAMed、SonoSAM 和 SAMUS。其中,SonoSAM 和 SAMUS 专注于超声图像。

首先是定量比较结果,如下表所示:

在 CAMUS-Semi 和 EchoNet-Dynamic 数据集上研究方法与最先进方法的分割性能对比

在这些最新的方法中,得益于 CNN-Transformer 架构和超声图像优化,H2Former 和 SAMUS 在两个数据集上表现相对较好。然而,在稀缺注释、不利用视频时间属性的情况下,上述模型均落后于本研究提出的方法。实验验证了 MemSAM 在有限注释的情况下实现了最佳的性能。

为了进一步评估 MemSAM,研究人员还在相同设置下对 CAMUS-Semi 和 CAMUS-Full 数据集进行了比较。结果如下图所示:

在 CAMUS-Semi 和 CAMUS-Full 数据集上 研究方法与最先进方法的分割性能对比

可以看出,像 UNet 和 H2Former 这样的传统方法,以及像 SonoSAM 和 SAMUS 这样的超声特化方法,在给出完整注释时可以恢复不错的分割结果。尽管本研究的方法从半监督到全监督设置的增益较小,但在这两种情况下仍然优于其他竞争对手。

值得注意的是,医学基础模型在全监督下需要每帧提示,而 MemSAM 只需要一个点提示。实验验证了本研究提出的方法在稀疏标签下以远少于外部提示的方式实现了与全注释相当的性能。

其次是定性比较结果,研究人员为一些具有挑战性的案例提供了可视化结果,如下图所示:

在 CAMUS-Semi 测试集上与最先进方法的直观对比 绿色、红色和黄色区域分别代表有效区域、预测和重叠区域

上图第 1-2 行的图像包含左心室周围的斑点噪声,误导了一些传统和医学基础模型错误地将其识别为心室边缘。第 3-4 行包含边界严重模糊的实例,几乎所有对比模型给出的结果都超出了真正的心室边界,而本研究提出的方法精确地勾勒出了边界。这些可视化结果表明本研究提出的方法在处理图像质量差的情况下具有鲁棒性。

AI 为心血管病防治带来新思路

心血管疾病是心脏和血管疾病的一个类别,包括冠心病、脑血管病、风湿性心脏病和其他疾病。现代社会,由于人们不健康的饮食、缺乏身体活动、吸烟酗酒,进一步增加了心血管疾病的发病风险。

近年来,随着人工智能、大数据等技术的发展,「AI+医疗」步入发展快车道,AI 在心血管疾病的诊断和预测领域已经取得广泛进展,如 AI 结合心电图和心血管影像数据可实现精准诊断,AI 联合心血管影像数据和其他临床数据可实现冠状动脉疾病、先天性心脏病、心力衰竭等心血管疾病的早期筛查和风险预测。

举例来看:心音的精确分类是心血管疾病早期诊断和干预领域的关键。人工心音听诊的效果仍然依赖于医生的专业知识,但这种形势正悄然改变。2023 年 11 月,中国医学科学院阜外医院(阜外医院)潘湘斌团队在 Alexandria Engineering Journal 在线发表题为「Heart sound classification based on bispectrum features and Vision Transformer mode」的研究论文,该研究基于双谱启发的特征提取和视觉转换器模型,实现了对心音的二元分类。

模型在全人群(包括怀孕和非怀孕患者)中体现出极好的分类效果,诊断效能优于人类专家,体现出了极大的应用潜力。

2023 年 10 月,发表在「临床医学」杂志上的新研究数据表明,通过识别冠状动脉疾病的迹象,如钙化和堵塞,以及先前心脏病发作的证据,ECG-AI 可以比目前的风险计算器方程式早几年标记出一些风险。

就在近日,英国一家名为 Caristo Diagnostics 的公司在「柳叶刀」上发表了一项具有里程碑意义的临床研究结果,他们的 CaRi-Heart AI 技术可量化冠状动脉炎症的严重程度并准确预测心脏疾病。

图源:Caristo 公司官网

Caristo 公司由牛津大学心脏病专家创立于 2018 年,该公司 50 多年前就已有重磅研究发现——心脏病发作是由冠状动脉的炎症引起的,但临床医生一直无法通过常规心脏检查来观察和测量炎症的情况。而现在可以使用 CaRi-Heart 技术从患者心脏的 CTTA 扫描中提取这方面信息, 这标志着一项科学突破,从根本上改变了心脏病预测、预防和管理的传统方法。据悉,CaRi-Heart 已经在英国、欧洲和澳大利亚投入临床使用。

展望未来,人工智能在临床诊疗尤其是心血管病防治方面,具有巨大的发展潜力,将助力医生更加高效、可靠的为患者提供精确的诊断和建议。

参考资料:
1.https://m.chinacdc.cn/jkzt/mxfcrjbhsh/jcysj/201909/t20190906_205347.html
2.https://mp.weixin.qq.com/s/daqoXwnxeZxw7xC6iw1h3A
3.https://www.drvoice.cn/v2/article/12166
4.https://36kr.com/p/280080595174

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/701537.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Linux 基本指令1

ls指令 ls【-选项】【目录或文件】当不指定目录或文件时指令能列出当前目录下所有文件除隐藏文件 选项: -a 列出所有包括隐藏的文件-隐藏文件以.开头。 -d 将目录如文件般显示-一般用ls显示目录是显示其目录中所有文件,加-d则显示目录的信息 -r 以反…

浅谈网络通信(2)

文章目录 一、TCP1.1、TCP提供的api —— ServerSocket 、Socket1.2、使用TCP协议编写回显服务器1.3、长/短连接 二、应用层协议、传输层协议详解2.1、应用层(后端开发必知必会)2.1.1、自定义应用层协议2.1.2、通用的协议格式2.1.2.1、XML2.1.2.2、json2.1.2.3、protobuffer 2.…

国产数字证书大品牌——JoySSL

一、品牌介绍 网盾安全旗下品牌JoySSL是专业的https安全方案服务商,业务涉及网络安全技术服务、安全防护系统集成、数据安全软件开发等。网盾安全以网络安全为己任,携手GlobalSign、DigiCert 、Sectigo等全球数家权威知名SSL证书厂商,加速ht…

8-1RT-Thread消息队列

8-1RT-Thread消息队列 消息队列又称队列,是一种常用于线程间通信的数据结构。 消息队列控制块里有两个链表,空闲列表用来挂接空的小几块,另一个链表是用来挂接存有消息的消息框。其中消息链表头指向消息队列当中的第一个消息框,而…

ATA-3080C功率放大器在电解液体浸润性测试中的应用

现在的电子设备上的供电电池多为可反复充放电的锂电池,这种在我们日常生活中扮演着重要角色的电池,却有着自燃、爆炸的风险;随着电池在生活中的普及,电池检测相关行业和领域也随之发展。那么功率放大器在电解液体浸润性测试中有什…

自动求导实现与可视化

前言 micrograd为一个自动梯度引擎,其实现了反向传播算法,用于学习理解深度学习中的自动求导原理。自动求导无论再传统的机器学习中还是深度学习或是目前非常热门的大语言模型GPT中其都是非常重要基础部分。 反向传播算法可以高效计算出神经网络中损失…

护眼灯到底有没有用?警惕商家的四大智商税套路!

随着科技进步与大众健康意识的普遍提高,智能小家电逐渐成为了我们日常生活的一部分。在这些小家电中,一款被称为护眼台灯因其出色的护眼效果而备受瞩目。许多人好奇,护眼灯到底有没有用?是真的能够起到护眼效果的吗?而…

【设计模式深度剖析】【6】【行为型】【中介者模式】

文章目录 中介者模式定义英文原文直译如何理解? 中介者模式的角色1. 中介者(Mediator)2. 具体中介者(ConcreteMediator)3. 同事(Colleague)类图代码示例 中介者模式的应用优点缺点使用场景 中介…

【区块链】解码拜占庭将军问题:区块链共识机制的哲学基石

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 ​💫个人格言: "如无必要,勿增实体" 文章目录 解码拜占庭将军问题:区块链共识机制的哲学基石引言一、拜占庭将军问…

微软云计算[2]之微软云关系数据库SQL Azure

微软云关系数据库SQL Azure SQL Azure概述SQL Azure关键技术SQL Azure数据库SQL Azure报表服务SQL Azure数据同步 SQL Azure和SQL Server对比 SQL Azure概述 SQL Azure是微软的云中关系型数据库。 SQL Azure数据库简化了多数据库的供应和部署。 SQL Azure还为用户提供内置的高…

meilisearch的Managing API keys,自己趟过的坑

Elasticsearch 做为老牌搜索引擎,功能基本满足,但复杂,重量级,适合大数据量。 MeiliSearch 设计目标针对数据在 500GB 左右的搜索需求,极快,单文件,超轻量。 所以,对于中小型项目来说…

graphpad加截断线 更改图表类型

1. 双击图表进入 2.设置最大值和最小值 设置的时候先设置bottom再设置top,否则改变不成功!! 3.设置坐标轴间隔 4. 更改图表类型

金融上云及信创改造过程中的新老设备兼容性、虚拟化多池管理简化、提升故障恢复能力等问题及解决方案|金融行业数字化QA合集②

Q:金融机构如何解决新老设备间的兼容性问题? 我行在虚拟化资源池扩容时,新采购的服务器与原有的服务器存在代差,容易出现新服务器的CPU架构与原有服务器不同,可能导致虚拟机迁移或运行时的性能问题或不兼容&#xff1…

AutoKG:为语言模型打造高效自动化知识图谱

在人工智能领域,大型语言模型(LLMs)如BERT、RoBERTa、T5和PaLM等,以其在自然语言处理(NLP)任务中的卓越性能而著称。然而,这些模型在提供信息时可能会产生“幻觉”,即提供看似合理但…

【UE数字孪生学习笔记】 虚幻日志系统

声明:部分内容来自于b站,知乎,慕课,公开课等的课件,仅供学习使用。如有问题,请联系删除。 部分内容来自UE官方文档,博客等 虚幻日志系统 1. 日志是一种非常实用的调试工具,可以详细…

国内首家!悦数图数据库全项完成中国信通院图数据库性能测试

大数据时代,随着各种社交网络、系统推荐等业务需求的不断发展,数据间的依赖和复杂度的逐渐增加,传统关系型数据库对这些需求捉襟见肘,图数据库应运而生。图数据库在金融风控、知识图谱、关系分析等应用场景的关联查询上有着明显优…

自带红外码库可使用蓝牙小程序控制的离线语音万能红外遥控器

离线语音蓝牙红外模块简介 此蓝牙红外模块是一种低成本的离线语音单麦应用方案,主芯片是一颗专用于语音处理的人工智能芯片,可广泛应用于家电,家居,音箱,玩具,穿戴设备,汽车等产品领域&#xf…

餐饮行业可燃气体报警器计量校准,惠州博罗引领安全新趋势

在惠州博罗这片繁荣的土地上,餐饮行业作为城市经济的重要组成部分,其安全问题一直备受关注。 可燃气体报警器作为餐饮场所预防火灾和爆炸事故的关键设备,其准确性和可靠性至关重要。 在这篇文章中,佰德将通过实际案例和数据&…

基本元器件 - 光电耦合器

光耦是将发光二极管(LED)和光电探测器集成于一个封装中的器件。 光耦的作用 在光耦中,一次侧(LED 侧)和二次侧(受光器件侧)是电绝缘的。因此,即使一次侧和二次侧的电位(…

epy - 终端电子书阅读器(epub2、epub3、fb2、mobi)

文章目录 一、关于 epy二、安装epy manual 三、用法四、颜色配置文件五、使用Epy的阅读技巧六、配置文件七、网址支持八、使用鼠标九、文字转语音十、字典十一、Double Spread 一、关于 epy 终端 电子书(epub2、epub3、fb2、mobi)阅读器 github : http…