深度学习论文: MobileSAMv2: Faster Segment Anything to Everything

深度学习论文: MobileSAMv2: Faster Segment Anything to Everything
MobileSAMv2: Faster Segment Anything to Everything
PDF:https://arxiv.org/pdf/2312.09579
PyTorch: https://github.com/shanglianlm0525/PyTorch-Networks

1 概述

SAM模型应对两大分割任务的挑战:SegAny,针对单一感兴趣对象的分割;SegEvery,负责图像中所有对象的分割。SAM在SegAny任务上的效率问题已通过MobileSAM的知识蒸馏技术得到优化。然而,SegEvery任务的效率瓶颈在于其掩码解码器,这一问题通过直接生成有效掩码的方式得到改进,避免了冗余的网格搜索和后续过滤步骤。

本文提出的改进方法显著提升了效率,将掩码解码器的处理时间减少了至少16倍,并在性能上取得了3.6%的平均提升(LVIS数据集上的掩码AR@K指标从38.9%提高到42.5%)。

2 MobileSAMv2

SegEvery任务通过网格搜索前景点来激活图像编码器,但稀疏的网格可能会漏检小物体或重要的对象部分。为解决这一问题,SegEvery采用了64×64点的高密度网格,虽然提高了检测率,却也导致对大物体的冗余提示。这种方法首先生成大量多于所需的掩码,然后通过过滤去除多余的部分。
在这里插入图片描述
本文提出一种更高效的提示采样方法,通过直接生成有效的掩码来简化流程,节省时间和资源。现代目标检测技术,如YOLOv8,能够提供所需的对象感知提示,通过边界框定位对象,有效减少歧义并提高效率。

MobileSAMv2 提出使用对象感知的框提示替代默认的网格搜索点提示,大幅提升速度并提高整体性能。核心方法是用对象感知提示采样替代默认的网格搜索,利用现代目标检测确定图像中的对象位置。

Object-Aware Prompt Sampling 对象感知提示采样

采用对象发现技术来避免繁琐的搜索,通过现代目标检测模型定位对象,但不包括分类头。选择YOLOv8模型并用开放世界数据集进行训练,以生成重叠的边界框,然后通过NMS过滤,选择框的中心或直接使用框作为提示(实际使用框提示)。

Prompt-guided Mask Decoding 提示引导掩码解码

遵循SAM的方法批量执行掩码解码,SAM的掩码解码器接受框作为输入,可以直接使用过滤后的框来引导解码,避免了复杂的掩码过滤过程,提高了效率。

3 Experiments

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/796575.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数字数据编码为数字信号/编码模式

~~~~~~~~~~~~~ 1 非归零编码【NRZ】 2 曼彻斯特编码 3 差分曼彻斯特编码 ~~~&#xff…

『C++成长记』vector模拟实现

🔥博客主页:小王又困了 📚系列专栏:C 🌟人之为学,不日近则日退 ❤️感谢大家点赞👍收藏⭐评论✍️ 目录 一、存储结构 二、默认成员函数 📒2.1构造函数 📒2.2拷贝…

Unity实现安卓App预览图片、Pdf文件和视频的一种解决方案

一、问题背景 最近在开发app项目,其中有个需求就是需要在app软件内显示图片、pdf和视频,一开始想的解决方案是分开实现,也就是用Image组件显示图片,找一个加载pdf的插件和播放视频的插件,转念一想觉得太麻烦了&#x…

集成excel工具:自定义导入监听器、自定义类型转换器、web中的读

文章目录 I 封装导入导出1.1 定义工具类1.2 自定义读监听器: 回调业务层处理导入数据1.3 定义文件导入上下文1.4 定义回调协议II 自定义转换器2.1 自定义枚举转换器2.2 日期转换器2.3 时间、日期、月份之间的互转2.4 LongConverterIII web中的读IV 其他注意事项应用场景:导入…

Canvas:实现在线动态时钟效果

想象一下,用几行代码就能创造出如此逼真的图像和动画,仿佛将艺术与科技完美融合,前端开发的Canvas技术正是这个数字化时代中最具魔力的一环,它不仅仅是网页的一部分,更是一个无限创意的画布,一个让你的想象…

万界星空科技MES系统:食品加工安全的实时监控与智能管理

万界星空科技MES系统通过集成多种技术和功能,能够实时监控食品加工过程中各环节的安全风险。以下是对该系统如何实现实时监控的详细分析: 一、集成传感器和数据分析技术 万界星空科技MES系统利用集成的传感器和数据分析技术,实时监控生产过程…

c++ - 多态

文章目录 一、多态的概念二、多态使用三、多态的原理 一、多态的概念 1、概念: 多态就是具有多种形态,可以理解为同一个行为不同对象去完成表现出不同的状态,如: 二、多态使用 1、构成多态的条件 (1)派…

硬件开发笔记(二十五):AD21导入电解电容原理图库、封装库和3D模型

若该文为原创文章,转载请注明原文出处 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/140344547 长沙红胖子Qt(长沙创微智科)博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV…

[DiT] Scalable Diffusion Models with Transformers

1、目的 用transformer来替代U-Net backbone,提升生成效果 2、方法 Diffusion Transformers (DiTs) 1)结构 Latent Diffusion Models (LDMs) -> Transformer (Vision Transformer, ViT) based DDPM -> off-the-shelf convolutional VAE 2&#xf…

Navicat使用教程——连接/新建数据库、SQL实现表的创建/数据插入、解决报错【2059-authentication plugin‘caching_sha2_password’……】

一、连接数据库 以MySQL为例 1、新建连接 (1)点击“文件”“新建连接”“MySQL” (2)根据需要,自定义连接名,输入安装MySQL时的密码,点击“连接测试”,确定是否可以连接 &#xf…

【企业级监控】Zabbix实现邮箱报警

Zabbix监控自动化 文章目录 Zabbix监控自动化资源列表基础环境前言四、Zabbix邮件告警4.1、实现报警所需的条件4.1.1、告警媒介4.1.2、触发器(trigger)4.1.3、动作(action) 4.2、配置告警媒介4.2.1、设置告警媒介参数4.2.2、启用此…

秋招Java后端开发冲刺——Mybatis使用总结

一、基本知识 1. 介绍 MyBatis 是 Apache 的一个开源项目,它封装了 JDBC,使开发者只需要关注 SQL 语句本身,而不需要再进行繁琐的 JDBC 编码。MyBatis 可以使用简单的 XML 或注解来配置和映射原生类型、接口和 Java POJO(Plain …

【提交ACM出版 | EIScopus检索稳定 | 高录用】第五届大数据与社会科学国际学术会议(ICBDSS 2024,8月16-18)

第五届大数据与社会科学国际学术会议(ICBDSS 2024)将于2024年08月16-18日在中国-上海隆重举行。 ICBDSS会议在各专家教授的支持下,去年已成功举办了四届会议。为了让更多的学者有机会参与会议分享交流经验。本次会议主要围绕“大数据”、“社…

小浣熊素材 - 分析博客文章分布

我上传的 Excel,第一列为文章标题,请你分析这个 Excel 里总共的文章数量,并且根据文章标题,智能地将这些文章进行归类,然后绘制出饼状图,展示每一类的文章,占文章总数的百分比。 自己的 Pytho…

51单片机STC89C52RC——17.1 红外线遥控器

目的/效果 LCD1602显示红外遥控按键值 一,STC单片机模块 二,红外线遥控器 2.1 简介 人的眼睛能看到的可见光按波长从长到短排列,依次为红、橙、黄、绿、青、蓝、紫。 光的波长和频率如下图 红外遥控是利用红外光进行通信的设备&#xff0…

程序的控制结构——switch语句【互三互三】

文章目录 🍁 引言 🍁1.语句格式: 🍁2.语句执行过程 🍁3.语句格式举例 🍁例题 👉【例1】 🚀示例代码 👉【例2】 🚀【分析】 🚀示例代码…

【linux】进程间通信(IPC)——匿名管道,命名管道与System V内核方案的共享内存,以及消息队列和信号量的原理概述

目录 ✈必备知识 进程间通信概述 🔥概述 🔥必要性 🔥原理 管道概述 🔥管道的本质 🔥管道的相关特性 🔥管道的同步与互斥机制 匿名管道 🔥系统调用接口介绍 🔥内核原理 …

如何搞定美国TikTok直播网络?

在全球范围内,TikTok已经积累了超过30亿次的下载量,月活跃用户达到13亿以上,支持75种语言,覆盖了150多个国家和地区。这一庞大的流量池吸引了众多国内电商人尝试在TikTok上进行业务拓展。本文将探讨如果要在美国运营TikTok直播&am…

Kithara与OpenCV (一)

Kithara使用 OpenCV 库 目录 Kithara使用 OpenCV 库简介需求和支持的环境构建 OpenCV 库使用 CMake 进行配置以与 Kithara 一起工作 使用 OpenCV 库设置项目运行 OpenCV 代码图像采集和 OpenCV自动并行化限制和局限性1.系统建议2.实时限制3.不支持的功能和缺失的功能4.显示 Ope…

彻底搞懂JVM垃圾回收

哈喽,大家好🎉,我是世杰。 欢迎大家关注我的公众号『程序员世杰』获取更多后端技术干货🎉🎉! 本文我为大家介绍「JVM垃圾回收那些事」 面试连环call 如何判断对象是否应被回收?finalize方法的实现机制是什么?如何判…