【PaperReading】5. Open-Vocabulary SAM

Category

Content

论文题目

Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively

作者

Haobo Yuan1 Xiangtai Li1 Chong Zhou1 Yining Li2 Kai Chen2 Chen Change Loy1

1S-Lab, Nanyang Technological University 2Shanghai Artificial Intelligence Laboratory {haobo.yuan, xiangtai.li, chong033, ccloy}@ntu.edu.sg {liyining, chenkai}@pjlab.org.cn

Project page: https://www.mmlab-ntu.com/project/ovsam

Code: https://github.com/HarborYuan/ovsam

发表年份

2024

摘要

这篇论文介绍了一种在计算机视觉领域中用于交互式分割和识别的新方法。该方法结合了两个模型:分割任何模型(SAM)和CLIP(对比语言图像预训练),创建了开放词汇的SAM。这个模型通过结合SAM的分割能力和CLIP的现实世界识别能力,显著提高了计算效率。

引言

文章强调了在视觉基础模型领域整合不同模型的重要性,并介绍了SAM和CLIP模型的基本原理。

主要内容

详细讨论了开放词汇SAM模型的设计和实现方法。这个模型是通过整合两个先进的模型:分割任何模型(SAM)和CLIP(对比语言图像预训练)来构建的。SAM模型擅长于图像分割,而CLIP模型则在图像和文本的关联识别方面表现出色。论文的核心在于开发了两个模块——SAM2CLIP和CLIP2SAM——以实现这两个模型间的知识转移。

SAM2CLIP模块的主要功能是将SAM的图像分割能力传递给CLIP,这样CLIP不仅能识别图像中的对象,还能理解这些对象的确切边界。另一方面,CLIP2SAM模块则是将CLIP的强大语言-图像识别能力传递给SAM。这使得SAM不仅能分割图像,还能更准确地识别和理解图像中的对象。

这种双向知识转移使得开放词汇SAM模型能够有效地处理更复杂的图像分割和识别任务。论文还详细讨论了这种集成方法对模型性能的具体影响,以及如何优化这两个模块以实现更好的识别精度和分割效果。

实验

文中进行了多项实验,证明了开放词汇SAM在分割和识别任务上的优越性能。实验涵盖了不同的数据集和探测器,特别在COCO开放词汇基准上展示了其显著的性能提升。实验结果表明,与简单结合SAM和CLIP的基线方法相比,开放词汇SAM在处理小对象识别和多样化数据集方面表现出色。

结论

在结论部分,论文强调开放词汇SAM模型在交互式图像分割和识别领域中的创新和有效性。通过结合SAM和CLIP模型,研究展示了在处理多样化和复杂的图像场景时的显著性能提升。实验结果证实了这种集成方法在识别准确率和分割效果上的优势。该研究不仅提升了图像处理的能力,也为未来的视觉识别技术提供了新的研究方向和应用可能性。

阅读心得

这篇论文主要的亮点是他引入了两个模块:SAM2CLIP 和 CLIP2SAM,实现了CLIP和SAM的对齐,这种融合方法是隐式的,而不是简单的concat或者直接crop出来feature。更具有泛化性,文中说尤其对小目标提升显著,因为小目标如果用crop的方法出来的feature很小,会丢失很多信息。

其中本文中用到的adapter 是来自另外两篇工作

  1. ViT-Adapter

  2. Context Optimization (CoOp): The main idea is to model a prompt’s context using a set of learnablevectors, which can be optimized through minimizing the classification loss. Two designs are proposed: one is unified context,whichsharesthesamecontextvectorswithallclasses;andtheotherisclass-specificcontext,whichlearnsforeachclassaspecific set of context vectors. Learning to Prompt for Vision-Language Models.pdf


本论文方法架构图:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/311851.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

力扣日记1.11-【二叉树篇】450. 删除二叉搜索树中的节点

力扣日记:【二叉树篇】450. 删除二叉搜索树中的节点 日期:2024.1.11 参考:代码随想录、力扣 450. 删除二叉搜索树中的节点 题目描述 难度:中等 给定一个二叉搜索树的根节点 root 和一个值 key,删除二叉搜索树中的 key…

燃情瞬间,智能酒精壁炉点亮户外聚会新潮流

在户外聚会中,一种备受瞩目的装饰品和功能性家居设备正逐渐崭露头角,那就是智能酒精壁炉。这种独特的户外装置不仅为聚会场合带来独特的氛围,还具有许多引人注目的优势。 其明亮的火焰不仅照亮整个场所,还散发出温暖迷人的光芒&am…

创建型模式 | 工厂模式

文章目录 一、简单工厂1.1、原理1.2、核心角色1.3、UML类图1.4、代码实现1.5、总结 二、工厂模式2.1、原理2.2、关键角色2.3、代码实现2.4、总结 三、抽象工厂模式3.1、原理3.2、关键角色3.3、UML类图3.4、工厂模式与抽象工厂模式的区别 前言 工厂模式是最常用的设计模式之一&a…

知识引导的分子生成扩散模型 - KGDiff 评测

一、背景介绍 KGDiff模型是一个基于口袋的知识引导的3D分子生成的扩散模型,来源于上海交通大学计算机学院涂仕奎教授的文章: 《KGDiff: towards explainable target-aware molecule generation with knowledge guidance》。文章链接:*KGDiff…

Qt QTableView和QStandardItemModel包含搜索出现的文本及隐藏顶层节点

前言 使用Qt进行开发时,树结构一般是使用QTreeWidget或使用QTreeViewQStandardItemModel结合。 查找 如果要进行查找树的所有项中,是否包含某文本,就需要遍历。 QTreeWidget查找 以下是使用QTreeWidget进行查找: 首先初始化一…

跟着仙凡兄学习编译Telegram vs2022 2024.1.11编译成功

编译Telegram 本人花了两天,问官方作者终于编译成功Telegram 运行环境:win11 vs2022 参见学习视频:【telegram编译成功,编译遇到的各种问题】https://www.bilibili.com/video/BV11c411x7jm?vd_sourcedf2e51268cc7412cc3937cf3df2…

如何构建Prompt,帮我生成QA,作为召回率检索的测试集?

最近在做搜索召回率的提升工作。粮草未动兵马先行!在做之前应该先有一把尺子来衡量召回率的好坏。所以应该先构建测试数据集,然后去做标准化测试。 有了测试机集以后。再去做搜索优化,才能看出来效果。 当然可以选择一些开源的测试集。如果可…

【OpenCV学习笔记04】- 绘图功能

这是对于 OpenCV 官方文档的 GUI 功能的学习笔记。学习笔记中会记录官方给出的例子,也会给出自己根据官方的例子完成的更改代码,同样彩蛋的实现也会结合多个知识点一起实现一些小功能,来帮助我们对学会的知识点进行结合应用。 如果有喜欢我笔…

C++内存管理机制(侯捷)笔记1

C内存管理机制(侯捷) 本文是学习笔记,仅供个人学习使用。如有侵权,请联系删除。 参考链接 Youtube: 侯捷-C内存管理机制 Github课程视频、PPT和源代码: https://github.com/ZachL1/Bilibili-plus 第一讲primitives的笔记 截至…

【提示学习论文六】MaPLe: Multi-modal Prompt Learning论文原理

文章目录 MaPLe: Multi-modal Prompt Learning 多模式提示学习文章介绍动机MaPLe:Multi-modal Prompt Learning 模型结构1、Deep Language Prompting 深度语言提示2、Deep Vision Prompting 深度视觉提示3、Vision Language Prompt Coupling 视觉语言提示耦合提示耦合过程 实验…

使用MistNet在COCO128数据集上协作训练Yolo-v5

本案例介绍如何在MNIST手写数字分类场景中,使用名为MistNet的聚合算法训练联邦学习作业。数据分散在不同的地方(如边缘节点、摄像头等),由于数据隐私和带宽的原因,无法在服务器上聚合。因此,我们不能将所有…

linux手动安装 vscode-server

适用场景 很多时候,我们需要在本机(比如windows)通过remote ssh访问远程服务器(一般是ubuntu),但经常出现 vscode 一直连不上远程服务器的情况,看一下 log: 这个log表示远程服务器…

长尾分布定义,举个物种长尾分布和词频长尾分布的例子。

问题描述:长尾分布定义,举个物种长尾分布和词频长尾分布的例子。 问题解答: 长尾分布是一种概率分布的类型,它描述的是一种极端事件或者稀有事件的发生概率。具体来说,长尾分布描述的是少量的类别占据了大部分的样本…

uniapp 设置底部导航栏

uniapp 设置原生 tabBar 底部导航栏。 设置底部导航栏 一、创建页面,一定要在 pages.json 文件中注册。 二、在 pages.json 文件中,设置 tabBar 配置项。 pages.json 页面 {"pages": [...],"globalStyle": {...},"uniIdRout…

获取ffmpeg转码的实时进度

文章目录 前言一、需求二、实现获取 ffmpeg 转码的实时进度1、思路梳理2、源码修改 三、运行结果 前言 本文记录查看 ffmpeg 进行转码时的实时进度。所用的工程基于上个博客编译成功的工程:使用FFmpeg4.3.1的SDK官方开发包编译ffmpeg.c 一、需求 使用 ffmepg 对音…

二叉树题目:完全二叉树插入器

文章目录 题目标题和出处难度题目描述要求示例数据范围 解法思路和算法代码复杂度分析 题目 标题和出处 标题:完全二叉树插入器 出处:919. 完全二叉树插入器 难度 6 级 题目描述 要求 完全二叉树是每一层(除最后一层外)都…

Word·VBA实现邮件合并

目录 制作邮件合并模板VBA实现邮件合并举例 之前写过的一篇使用《python实现word邮件合并》,本文为vba实现方法 制作邮件合并模板 域名可以使用中文,最终完成的word模板,wps操作步骤类似 VBA实现邮件合并 在Excel启用宏的工作表运行以下代…

攒机到底能省多少钱?

昨天弄好了攒机配置,今天要求配置一些更为实用的配置,只是作为一般办公,单位买进来的计算机都是联想,价格普遍在7000元以上,出于省钱和实用目的,今天搭配了一个组机方案。 上面的配置对付一般办公足够&…

查看进程对应的路径查看端口号对应的进程ubuntu 安装ssh共享WiFi设置MyBatis 使用map类型作为参数,复杂查询(导出数据)

Linux 查询当前进程所在的路径 top 命令查询相应的进程号pid ps -ef |grep 进程名 lsof -I:端口号 netstat -anp|grep 端口号 cd /proc/进程id cwd 进程运行目录 exe 执行程序的绝对路径 cmdline 程序运行时输入的命令行命令 environ 记录了进程运行时的环境变量 fd 目录下是进…

[HCTF 2018]Warmup

[HCTF 2018]Warmup wp 进入页面&#xff1a; 查看源码&#xff1a; 发现提示&#xff1a;source.php &#xff0c;直接访问&#xff0c;得到源代码&#xff1a; <?phphighlight_file(__FILE__);class emmm{public static function checkFile(&$page){$whitelist [&qu…