经典文献阅读之--RepViT-SAM(利用语义分割提高NDT地图压缩和描述能力的框架)

0. 简介
Segment Anything Model (SAM) 最近在各种计算机视觉任务上展现了令人瞩目的零样本迁移性能 。然而,其高昂的计算成本对于实际应用仍然具有挑战性。MobileSAM 提出通过使用蒸馏替换 SAM 中的重图像编码器,使用 TinyViT,从而显著降低了计算需求。然而,由于自注意力机制导致的内存和计算开销,其部署在资源受限的移动设备上仍面临挑战。

最近,RepViT 通过将 ViTs 的高效架构设计集成到 CNN 中,实现了移动设备上的最佳性能与延迟权衡。在这里,为了在移动设备上实现实时分割任何事物,作者遵循 [27] 的方法,用 RepViT 模型替换 SAM 中的重型图像编码器,最终得到了 RepViT-SAM 模型。相关的代码已近在Github上开源了。

1. 方法论
SAM [13]由一个重量级的基于ViT的图像编码器和一个轻量级的基于提示的掩模解码器组成。它庞大的图像编码器占据了大部分推理时间开销。因此,MobileSAM [27]建议将SAM中默认的ViT-H [6]图像编码器替换为轻量级的TinyViT [24]。TinyViT由四个逐渐降低分辨率的阶段组成。TinyViT的初始阶段由利用反向残差块[20]的卷积块组成。为了在模型开始时降低分辨率,采用了步幅为2的两个卷积块。类似地,相邻阶段之间也采用了步幅为2的卷积块进行空间降采样。为了使TinyViT的最终分辨率与原始SAM中ViT-H图像编码器的分辨率保持一致,MobileSAM将TinyViT中最后一个降采样卷积的步幅设置为1。此外,MobileSAM提出了解耦蒸馏策略,以有效训练轻量级图像编码器,其中TinyViT模型直接从原始SAM中的ViT-H蒸馏而来,而无需提示引导的掩模解码器。尽管MobileSAM显著降低了分割任何物体的计算需求,但在移动设备上部署仍然面临着相当大的挑战。如表1所示,由于其巨大的内存占用,MobileSAM无法在iPhone 12上运行。此外,在Macbook上,其处理单张图像的推理时间为494毫秒,表明有很大的改进空间。

最近,RepViT [21]通过重新审视ViT视角下CNN的高效设计,展示了在移动设备上性能和延迟的权衡方面的最新成果。RepViT采用了早期卷积[25]作为起始模块,即两个步幅为2的卷积进行4×降采样。它采用了RepViT块,由结构重参数化的深度卷积[4, 5]和前馈模块组成。相邻阶段之间采用了深度降采样模块,利用步幅为2的深度卷积和逐点卷积进行空间降采样和通道维度调制。此外,在所有阶段中都采用了交叉块方式的squeeze-and-excitation [8]层。RepViT在高分辨率视觉任务的延迟方面显示出了显著优势[21],这归功于其纯卷积架构。如表1所示,将ViT-H图像编码器替换为RepViT-M2.3模型后,RepViT-SAM在延迟方面与其他模型相比显著减少。在iPhone 12上,RepViT-SAM可以顺利进行模型推理。此外,在Macbook上,RepViT-SAM比MobileSAM快近10倍。

根据[27],我们通过直接蒸馏图像编码器RepViT-M2.3,即从原始SAM [13]中的ViT-H蒸馏,利用简单的均方误差损失来训练RepViT-SAM。与[27]类似,RepViT中最后一个降采样深度卷积的步幅设置为1,以使输出分辨率与原始SAM [13]中的提示引导掩模解码器兼容。

表1. RepViT-SAM与其他模型在延迟方面的比较。延迟(毫秒)是使用iPhone 12和Macbook M1 Pro上的Core ML工具,以标准分辨率[7] 1024×1024进行测量的。OOM表示内存不足。

 表2. 零样本边缘检测的比较结果。粗体表示最佳,下划线表示次佳。

2. 实验
2.1 实施细节

RepViT-SAM在与[27]相同的设置下进行了8个时期的训练。与MobileSAM [27]一样,我们只使用SAM-1B数据集[13]中的1%数据。为了加快训练过程,我们在蒸馏阶段之前预先计算并保存了来自ViT-H图像编码器的图像嵌入,这消除了在蒸馏过程中运行ViT-H的前向过程的需要,就像[27]一样。我们在BSDS500 [1, 17]上评估了RepViT-SAM在零样本边缘检测、使用COCO [14]进行零样本实例分割、在野外基准[29](SegInW)上进行分割、使用DAVIS 2017 [18]/UVO v1.0 [23]进行零样本视频对象/实例分割、使用DUTS [22]进行零样本显著对象分割,以及使用MVTec-AD [2]进行零样本异常检测的性能,遵循[3, 9, 12, 13, 19]。

点击经典文献阅读之--RepViT-SAM(利用语义分割提高NDT地图压缩和描述能力的框架) - 古月居可查看全文

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/659137.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

认识K8s集群的声明式资源管理方法

前言 Kubernetes 集群的声明式资源管理方法是当今云原生领域中的核心概念之一,使得容器化应用程序的部署和管理变得更加高效和可靠。本文将认识了解 Kubernetes 中声明式管理的相关理念、实际应用以及优势。 目录 一、管理方法介绍 1. 概述 2. 语法格式 2.1 管…

AI图书推荐:用ChatGPT和Python搭建AI应用来变现

《用ChatGPT和Python搭建AI应用来变现》(Building AI Applications with ChatGPT API)将ChatGPT API与Python结合使用,可以开启构建非凡AI应用的大门。通过利用这些API,你可以专注于应用逻辑和用户体验,而ChatGPT强大的…

适合学生党的蓝牙耳机有哪些?盘点四大性价比蓝牙耳机品牌

对于追求高品质音乐体验而又预算有限的学生党来说,一款性价比高的蓝牙耳机无疑是最佳选择,在众多品牌和型号中,如何挑选到既适合自己需求又价格亲民的蓝牙耳机,确实是一个值得思考的问题,作为一个蓝牙耳机大户&#xf…

台灯护眼是真的吗?警惕这六大问题!

在当今社会,随着电子设备的普及和长时间的用眼,大多数人面临着严重的视觉疲劳问题。长时间盯着屏幕或学习,眼睛需要不断调节焦距,导致眼睛肌肉疲劳,进而引发视力下降。这种现象在年轻一代甚至青少年中尤为普遍&#xf…

半导体测试基础 - 功能测试

功能测试(Functional Test)主要是验证逻辑功能,是运用测试矢量和测试命令来进行的一种测试,相比于纯 DC 测试而言,组合步骤相对复杂且耦合度高。 在功能测试阶段时,测试系统会以周期为单位,将测试矢量输入 DUT,提供预测的结果并与输出的数据相比较,如果实际的结果与测…

图论(五)-最短路

一、Bellman-Ford算法 算法思想:通过 n 次循环,每次循环都遍历每条边(共 m 条边),进而更新节点的距离,每次循环至少可以确定一个点的最短路,循环 n 次,求出 n 个点的最短路 时间复杂…

opencascade V3d_RectangularGrid 源码学习

类V3d_RectangularGrid V3d_RectangularGrid() V3d_RectangularGrid::V3d_RectangularGrid(const V3d_ViewerPointer &aViewer, const Quantity_Color &aColor, const Quantity_Color &aTenthColor) // 构造函数 ◆ ~V3d_RectangularGrid() virtual V3d_Rectang…

YOLOv10最详细全面讲解1- 目标检测-准备自己的数据集(YOLOv5,YOLOv8均适用)

YOLOv10没想到出来的如此之快,作为一名YOLO的爱好者,以YOLOv5和YOLOv8的经验,打算出一套从数据集装备->环境配置->训练->验证->目标追踪全系列教程。请大家多多点赞和收藏!!!YOLOv5和YOLOv8亲测…

Simulink从0搭建模型06-P7模型中结构体的使用

Simulink从0搭建模型06-P7模型中结构体的使用 本节课学习内容1. 结构体的创建 Bus Creator(多输入单输出)2. 结构体的引用 Bus Selector(单输入多输出)3. 结构体的赋值 Bus Assignment4. 结构体对象的创建 Bus object5. 结构体数组…

10分钟掌握FL Studio21中文版,音乐制作更高效!

FL Studio 21中文版是Image Line公司推出的一款深受欢迎的数字音频工作站软件,在音乐制作领域享有盛誉。这个版本特别针对中文用户进行了本地化处理,旨在提供更加便捷的用户体验和操作界面。本次评测将深入探讨FL Studio 21中文版的功能特点、使用体验及…

Java RMI

RMI - 安全篇 RMI分为三个主体部分: *Client-客户端*:客户端调用服务端的方法 *Server-服务端*:远程调用方法对象的提供者,也是代码真正执行的地方,执行结束会返回给客户端一个方法执行的结果。 *Registry-注册中心…

防火墙技术基础篇:配置主备备份的双机热备

防火墙技术基础篇:配置主备备份的双机热备 防火墙双机热备(High Availability, HA)技术是网络安全中的一个关键组成部分,通过它,我们可以确保网络环境的高可靠性和高可用性。下面我们一起来了解防火墙双机热备的基本原…

第二十三届中国科学家论坛盛大开幕,星医联董事长杨星荣获“十四五”科技创新先锋人物

2024年5月25-26日,第二十三届中国科学家论坛在北京召开,北京星医联科技有限公司(以下简称“星医联”)董事长杨星女士受邀出席并荣获“十四五科技创新先锋人物”称号。同时星医联专利“一种靶向协同降脂的纳米双药制备及应用”荣获…

[CVPR-24] HUGS: Human Gaussian Splats

本文提出一种新的数字人表征Human Gaussian Splats (HUGS),可以实现新姿态和新视角生成;本文提出一种新的前向形变模块(forward deformation module),在标定空间基于Gaussians表征数字人,并基于LBS学习如何…

从 ASCII 到 UTF-8 - Unicode 码的诞生与实现

前言:最近我在整理过往笔记时,发现涉及到了 UTF-8、Unicode 的相关内容,相信大家中的很多人和之前的我一样,在过去的很长一段时间里,并没有搞清楚什么是 Unicode、什么是 UTF-8,于是就有了这篇文章&#xf…

SSL证书:守护个人信息安全的坚固盾牌

在数字化浪潮汹涌的今天,我们的个人信息如同一座座宝藏,吸引着不法分子的贪婪目光。数据泄露事件频发,让信息安全问题日益凸显。而在这个信息爆炸的时代,如何保护我们的个人信息安全,成为了一个亟待解决的问题。幸运的…

【第三节】类的构造和析构函数

目录 一、数据成员的初始化 二、构造函数 2.1 什么是构造函数 2.2 构造函数的注意事项 三、析构函数 四、带参数的构造函数 五、缺省构造函数 六、构造函数初始化列表 七、拷贝构造函数和调用规则 八、深拷贝和浅拷贝 九、总结 一、数据成员的初始化 定义普通变量&am…

java智慧工厂制造生产管理MES系统saas模式Java+ idea+ uniapp全套MES系统源码,多端展示

java智慧工厂制造生产管理MES系统saas模式Java idea uniapp全套MES系统源码,多端展示 MES 系统源码(生产制造执行系统)能够帮助企业实现全生产过程的可视化,数据分析智能化、构建高效智能工厂,MES系统通过控制指令、人…

大气污染溯源算法及其技术实现

污染溯源基础概念知识 大气污染溯源是指识别并追踪污染物的来源及其传输过程,以确定造成大气污染的根本原因和污染物传播路径的技术和方法。这对于制定有效的控制和减轻污染策略至关重要。大气污染的溯源主要涉及以下几个方面: 污染源识别:…

Facebook开户 | 如何检查公共主页的状态

想要了解你的Facebook公共主页的状态吗? Facebook公共主页是让广告主与粉丝互动、传播信息的绝佳平台,但是大家知道如何检查并维护自己的主页状态吗?别担心,Facebook提供了一系列简单易用的工具来帮助大家实现这一目标。 *Page Q…