论文解读|MetaAI图像分割基础模型SAM——解锁数字大脑“视觉区”

 原创  |  文  BFT机器人

内容提要

  • 事件背景: 

    2023年4月5日,MetaAI研究团队发布论文“分割一切”一《Segment Anything》并在官网发布了图像分割基础模型一Segment Anything Model(SAM)以及图像注释数据集Segment-Anything 1-Billion(SA-1B)。

  • 论文核心观点 :

目标: 

MetaAI的目标是通过引入三个相互关联的部分来构建一个用于图像分割的基础模型:1)可提示的图像分割任务;2)数据标注并通过提示实现零样本到一系列任务的分割模型-SAM ;3)拥有超过10亿个掩码的数据集-SA-1B。

功能: 

1)SAM允许用户仅通过单击或通过交互式单击点来包含和排除对象来分割对象,也可以通过边界框进行提示

2)当分割对象存在歧义时,SAM可以输出多个有效掩码,是解决现实世界中分割的重要和必要能力之一

3)SAM可以自动查找并掩盖图像中的所有对象;4)SAM可以在预计算图像嵌入之后即时为任何提示生成分割掩码,从而允许与模型实时交互。结论:SAM模型试图将图像分割提升到基础模型时代,而SAM是否能达到基础模型的地位还有待观察它在社区中的使用情况,但无论该项目前景如何,超过1B的掩码以及可提示的分割模型为其未来发展奠定了基础。

启发: 我们认为,SAM模型在SA-1B强大分割数据集的支撑下,可以通过各种形式的提示对图像下,无需额外训练即可自动完成分割任务,这一通用特性使得SAM模型在相关领域的推广应用达指令成为可能。

我们认为,SAM模型有望作为效率提升的工具,赋能自动驾驶、医疗健康、安防监控农业科技等领域,跨视觉模态和相关场景将从中收益。游戏娱乐、农业科技等领域,跨视觉模态和相关场景将从中收益。

2023年4月5日,MetaAI发布论文《Segment Anything》。论文指出MetaAI的目标是通过引入三个相互关联的部分来构建一个用于图像分割的基础模型:

1)可提示的图像分割任务。

2)数据标注并通过提示实现零样本到一系列任务的分割模型SAM。

3)拥有超过10亿个掩码的数据集-SA-1B。

论文介绍Segment Anything(SA)项目主要包括了用于图像分割的新任务、模型和数据集。指出AI团队发现SAM在多任务上具备竞争力,且它的零样本性能让人印象深刻。

通过在数据收集循环中使用高效模型AI团队构建了迄今为止最大的分割数据集,在1100万张许可和尊重隐私的图像上有超过10亿个掩码。该模型被设计和训练为可提示的,因此它可以将零样本转移到新的图像分布和任务中。

文章提到,MetaAI研究团队在https://segment-anything.com上发布了Segment AnythingModel(SAM)和相应的1B掩模和11M图像数据集(SA-1B),以促进对计算机视觉基础模型的研究

01 介绍:

根据论文表述,SA的目标是建立一个图像分割的基础模型,即寻求开发一个可提示的模型,并使用能够实现强大泛化的任务在广泛的数据集上对其进行预训练,从而可以通过使用提示工程解决新数据分布上的一系列下游分割问题。

文章认为,SA项目成功的关键在于3个部分:任务、模型和数据,由此,团队需要解决以下问题:

1、什么任务可以实现零样本泛化?

首先需要定义一个可提示的分割任务,该任务足够通用,以提供强大的预训练目标并支持广泛的下游应用程序。

2、对应的模型架构是怎样的?

需要一个支持灵活提示的模型,并且可以在提示时实时输出分割掩码,以供交互使用。

3、哪此数据可以为这项任务和模型提供支持?

文章提出,训练模型需要多样化、大规模的数据源,为解决这一问题,可以构建一个“数据引擎”,即在使用高效模型来协助数据收集和使用新收集的数据来改进模型之间进行选代。

02 任务

论文提到,团队是从NLP中获得了灵感,希望可以将NLP领域的Prompt范式延展到计算机视觉(CV)领域。其中:

图像分割的提示(Prompt) : 可以是一组前景/背景点、粗略框或掩码自由格式的文本,或者指示分割图像的任何信息。

可提示的分割任务(promptablesegmentation task): 指在给定任何提示的情况下返回有效的分割掩码。有效掩码是指,即使提示不明确、并且可能涉及多个对象,输出也应该是其中至少一个对象的合理掩码。

文章通过展示下图,介绍了SAM模型在1个不明确的提示下,生成了3个有效掩码。其中,绿色圆点代表提示,红色框线所呈现的图形代表有效掩码。

2023年4月5日,MetaAI同时发布博客,将SAM与过去2种图像分割方法进行了对比,具体如下:

博客介绍,SAM主要有以下突出功能:

1)SAM允许用户仅通过单击或通过交互式单击点来包含和排除对象来分割对象,也可以通过边界框进行提示。

2)当分割对象存在歧义时,SAM可以输出多个有效的掩码,这是解决现实世界中分割的重要和必要能力之一。

3)SAM可以自动查找并掩盖图像中的所有对象。

4)SAM可以在预计算图像嵌入之后即时为任何提示生成分割掩码,从而允许与模型实时交互。

03 模型

论文指出,SAM是可提示分割模型,包括3部分:图像编码器、灵活提示编码器和快速掩码解码器SAM建立在Transformer视觉模型的基础上,并在实时性能方面进行了一定的权衡。

图像编码器(Image encoder): 受可扩展性和强大的预训练方法的启发,团队使用MAE预训练的视觉转换器,该转换器最低限度地适用于处理高分辨率输入。每输入1个图像,图像编码器就运行一次,并且可以在提示模型之前应用。

提示编码器(Prompt encoder): 包括两组提示--sparse ( 点、框、文本)和dense( 码 )通过位置编码来表示点和框,其中位置编码与每个提示类型的学习嵌入相结合,用CLIP的现成文本编码器表示自由格式文本。掩码等dense提示使用卷积嵌入,并与图像嵌入元素结合。

掩码解码器(Mask decoder): 掩码解码器有效地将图像嵌入、提示入和输出令牌映射到掩码该设计的灵感来源于对Transformer解码器块的修改。修改的解码器块在两个方向上使用提示自注意和交叉注意来更新所有嵌入。在运行两个块之后,对图像嵌入进行上采样,MLP将输出令牌映射到动态线性分类器,然后动态线性分类器计算每个图像位置的掩码前景概率。

04 数据引擎: 

论文提到,由于互联网上的分割掩码并不丰富,因此,MetaAI团队构建了一个数据引擎来收集1.1B掩码数据集SA-1B,数据引擎分为3个阶段:模型辅助手动注释阶段、混合自动预测掩码和模型辅助注释的半自动阶段、全自动阶段。

阶段1一手动阶段: 数据集通过使用SAM收集,标注者使用SAM交互地注释图像,新的注释数据反过来更新SAM,实现了相互促进。在该方法下交互式地注释一个掩码约需要14秒与之前大规模分割数据收集工作相比Meta的方法比COCO完全手动基于多边形的掩码注释快6.5倍,比之前最大的数据注释工作快2倍,这正是基于SAM模型辅助的结果。

阶段2-半自动阶段:帮助增加掩码的多样性,提高模型分割任何图像的能力。

阶段3-全自动阶段: 完全自动的掩模创建使得数据集扩展。最终数据集包括了在约1100万受许可和保护隐私的图像上收集的超11亿个分割掩模,SA-1B比任何现有分割数据集的掩模数量多400倍经人工评估验证,其具有高质量和多样性,在某些情况下甚至与以前规模较小.手动注释的数据集的质量相当。

05 数据集

论文介绍了数据集SA-1B包含1100万张多样化、高分辨率、许可和隐私保护图像,以及使用数据引擎收集的1.1B高质量分割掩码,SA-1B数据集有助于帮助未来开发计算机视觉(CV基础模型。文章将SA-1B数据集与现有数据集进行比较,分析了各个掩码数据集的质量和特性。例如,下图展示了SA-1B数据集与现有最大分割数据集相比的标准化图像大小下的掩码中心分布情况:

每张图像的掩码数: 经过数据对比,文章得出结论,SA-1B比第二大的Open Images多11倍的图像和400倍的掩码,平均下来每张图像的掩码比Open Images多36倍在这方面最接近的数据集ADE20K,每张图像的掩码仍少3.5倍。SA-1B数据集在掩码数量上具备强大优势

掩码相对于图像大小: 论文通过计算掩码相对于图像的大小,即掩码面积除以图像面积的平方根,发现由于SA-1B数据集每个图像有更多的掩码,它因此也拥有更大比例的中小掩码。

掩码凹度: 为解释图像形状的复杂性,文章通过对比掩码凹度进行了分析。掩码凹度=1-(掩码面积/掩码凸包面积。由于形状复杂度与掩码大小相关,通过首先从分箱掩码大小进行分层抽样来控制数据集的掩码大小分布。观察到SA-1B掩码的凹度分布与其他数据集的凹度分布基本一致。

06 RAI分析

论文进行RAI分析( Responsible AI-负责任的人工智能),旨在调查使用SA-1B和SAM时潜在的公平议题和偏见情况。

跨区域代表性 : 论文发现SA-1B的图像来自多个国家的照片提供商,跨越多个地区认为SA-1B具有比以前分割数据集更多的图像数量和更好的跨地区代表性。

文章通过展示下图,表明世界上大多数国家的SA-1B图像超过了1000张,下图显示了图像最多的三个国家来自世界不同的地区,分别为俄罗斯、泰国和美国。

论文发现SA-1B数据集的图像跨越了多样化的地理和收入水平: 通过比较SA-1BCOCO和Open Images的地理和收入代表性,可以得出SA-1B在欧洲、亚洲和大洋洲以及中等收入国家/地区的图像比例要高得多。

所有数据集都没有充分代表非洲和低收入国家。而在SA-1B中,包括非洲在内的所有地区至少有2800万个掩码比之前任何数据集的掩码总数多10倍。

文章分析了模型在人们的外表性别呈现、肤色外观和预期年龄范围等方面的潜在偏见,发现SAM在不同群体之间的表现相似,认为这将有助于促进公平,以便在实际应用场景中使用。

07 零样本传输实验

论文展示了来自23个不同分割数据集的用于评估SAM零样本传输能力的samples : 结果表明SAM在23个数据集样本中有167高达近47IoU产生了更高的结果,文章指出,最相关SAM3个掩码是通过将它们与地面实况进行比较来选择的而不是选择最有置信的掩码,这表明歧义对自动评估的影响,通过oracle执行歧义消解,SAM在所有数据集上都优于RITM。

08 讨论

1.基础模型(Foundation models)方面,论文讨论了如下几点 :

  • 自机器学习早期以来,预训练模型已适应下游任务。近年来,随着对规模的日益重视,这种范式变得越来越重要并且此类模型最近被重新命名为基础模型,即“在大规模广泛数据上训练并适应广泛下游务”的模型。MetaA的工作与基础模型有很好的相关性,尽管图像分割的基础模型是一个有限的范围,因为它只代表了计算机视觉中重要却一小部分的子集。

  • SAM模型经过了自监督技术初始化,其绝大多数能力来自大规模监督训练,在数据引擎可以扩展可用注释的情况下SAM模型的监督训练提供了一个有效的解决方案。

2.组合/合成(Compositionality)方面

文章指出经过预训练的模型可以提供新能力,甚至超出训练时的想象。一个著名的例子是CLIP如何在更大的系统中用作组件,如DALL·E。MetaAI的目标是通寸SAM使合成变得简单,通过要求SAM预测各种分割提示的有效掩码来实现这一点。

SAM和其他组件之间可以创建一个可靠的接口。如:MCC可以使用SAM来分割感兴趣的对象、实现对看不见的对象的强泛化,以便从单个RGB-D图像进行3D重建;SAM可以通过可穿戴设备检测到的注视点来提示,从而启用新的应用程序。由于SAM能够推广到以自我为中心的图像等新领域,因此此类系统无需额外培训即可工作。

3.在局限方面,文章认为SAM模型总体表现良好,但可以更完美

  • 有时会产生幻觉,或者不会清晰地产生边界;

  • SAM是为通用性和使用广度设计的,而不是为高IoU交互式分割而设计的;

  • SAM可以实时处理提示,但在使用重型图像编码器时,SAM的整体性能并不是实时的;

  • 对text-to-mask任务的尝试是探索性的,并不完全可靠,需要更多努力使其改进;

  • SAM可以执行许多任务,但尚不清楚如何设计实现语义和全景分割的简单提示;

  • 在特定领域,其他工具的表现可能优于SAM。

经过以上分析,论文得出以下结论:

结论一: Segment Anything项目试图将图像分割提升到基础模型时代,主要是得益于新任务( 可提示分割 )、模型 (SAM) 和数据集(SA-1B)。

结论二: SAM是否达到基础模型的地位还有待观察它在社区中的使用情况,无论该项目的前景如何,超过1B的掩码以及可提示的分割模型都将有助于未来为其铺平道路。

4. 对当下的启发

根据以下Demo,我们可以发现,通过在图像中指定要分割的内容提示,SAM可以实现各种分割任务,且无需额外的训练、做到零样本泛化,即SAM学会了辨别物体、具备图像理解力、对不熟悉的图像和物体能进行零样本概括,这一通用特性使得SAM模型在有关领域的推广应用成为可能。

我们认为,SAM模型有望将NLP领域的Prompt范式延展到计算机视觉(CV)领域,在SA-B强大分割数据集的支撑下,通过各种形式的提示对图像下达指令,无需额外训练即可自动完成分割任务。SAM模型有望进一步推动夸视觉模态的发展。

从应用角度看,我们认为SAM模型将作为效率提升的工具,解锁数字大脑视觉区,赋能自动驾驶医疗健康、安防监控、游戏娱乐、农业科技等领域,跨视觉模态和相关场景有望从中受益。

文章来源:西南证券

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/20024.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Simulink 和 Gazebo联合仿真控制机械臂【Matlab R2022a】

逛 B 站,偶然发现一个 up 主上传的视频,可以实现 Simulink 中搭建机器人的控制器设计,对运行在虚拟机中 Gazebo 中的机械臂进行控制,链接:三关节机械臂Gazebo-Simulink联合仿真,这让我很感兴趣,…

60岁的机器视觉工程师,你还在敲代码?不想做机器视觉工程师,还可以做什么?机器视觉工程师职业生命线有多长​?

如果按程序员参加工作时间为22岁计算,平均退役年龄为35岁计算的话,程序员的职业寿命大概为14年。为什么程序员的职业生命线如此短暂呢?大致有以下几点—— 1、编程技术层出不穷,迭代速度非常快,这时候就需要我们不断的学习,不断地保持学习能力,当随着年龄的增长我们的学…

K8S系列之污点和容忍度详细分析

架构图 本篇文档主要介绍污点和容忍度的关系。 污点和容忍度 污点顾名思义就是脏的东西,给节点添加污点来限制pod调度到该节点上,如果pod可以容忍这种污点就可以被调度到有污点的节点上,如果不能容忍就不能被调度到该节点上。 污点作用于节…

Java版本企业电子招采系统源码——信息数智化招采系统

信息数智化招采系统 服务框架:Spring Cloud、Spring Boot2、Mybatis、OAuth2、Security 前端架构:VUE、Uniapp、Layui、Bootstrap、H5、CSS3 涉及技术:Eureka、Config、Zuul、OAuth2、Security、OSS、Turbine、Zipkin、Feign、Monitor、Stre…

Nginx实现负载均衡

张三开发了一个分享文学作品的网站,刚开始入驻的作者不多,可谓是人烟稀少。但入驻的作者们信念坚定,孜孜不倦地更新着自己的作品,功夫不负有心人,作品迎来了爆发式的阅读增长量,终于,大访问量使…

YooAsset | Unity资源管理方案

跳转官方仓库地址 一、说明 可空包、可首包DLC、可满足限制包体的需求、可玩家自己制作MOD上传到服务器、可分工程构建;支持内置渲染管线、可编程渲染管线;支持完整路径、可寻址资源定位;基于标签打包,自动分析冗余,基…

有效和无效的帮助中心区别在哪?如何设计有效的帮助中心?

帮助中心就是一个丰富的知识库,可以对企业的潜在客户进行引导。不仅能够提升用户的使用体验还能为企业塑造更加专业的品牌形象,在使用过程中为用户提供帮助。帮助中心的目的就是为了解决用户在使用过程中遇到的困难,同时为用户的使用提供引导…

《操作系统》——计算机系统概述

前言: 在之前的【Linux】学习中,我们已经对常见指令已经开发工具等进行了详细的了解。紧接着,我们将要学习的便是关于【Linux进程】的基本知识。但是为了帮助大家更好的理解相关的知识概念,我先带领大家来学习关于《操作系统》这…

Kali工具集简介

Kali Linux提供了数种经过定制的专门为渗透测试设计的工具。工具都会按下图中下拉选单所示的方式按组分类聚合。了解工具是做渗透测试第一个认知。 口Information Gathering(信息收集) 这些都是侦察工具,用来收集目标网络和设备的数据。在这类工具中,从找出设备的工具到查看使…

李薇:大模型时代的数据变革

Datawhale干货 作者:李薇,上海人工智能实验室 前言 今天,我将向那些希望深入了解大模型的同学们,分享一些关于大模型时代的数据变革的知识。作为上海人工智能实验室OpenDataLab的产品主管,我会介绍我们在开放数据和大…

Android9.0 Charles 模拟器抓包

目录 只想做条安静的咸鱼,混吃等死又一天 一、下载并安装配置Charles 二、下载安装Postern 三、测试抓包 一、下载并安装配置Charles 1.Charles下载网址👇 Charles Web Debugging Proxy • HTTP Monitor / HTTP Proxy / HTTPS & SSL Proxy / Rev…

Python命名空间和作用域

命名空间定义了在某个作用域内变量名和绑定值之间的对应关系,命名空间是键值对的集合,变量名与值是一一对应关系。作用域定义了命名空间中的变量能够在多大范围内起作用。 命名空间在python解释器中是以字典的形式存在的,是以一种可以看得见…

vue项目打包成桌面应用并修改图标

目录 1. 打包为桌面应用 2.修改图标 1. 打包为桌面应用 1.在vux项目的终端执行打包 npm run build 2.会在项目文件夹里面出现一个dist文件夹 里面有这几个文件组成 3.在这里需要添加一个 package.json 文件 package.json 内容 {"name": "鼠标放图标上面的提…

【Linux】进程控制(文件操作符收尾+重定向)

上一回进程与文件系统我们主要看了很多文件描述符的知识 1.如何理解一切皆文件? 每个设备被打开时,OS给每个文件创建一个自己的struct file 里面填充自己的属性以及自己的缓冲区,其中还有函数指针,里面保存函数地址,通…

股票量价关系基础知识3

成交量变化的表现形式 成交量变化的表现形式主要有以下几种 一、缩量 一般界定当日成交量低于前一交易日成交量10%以上为缩量。 缩量往往发生在上升途中的回调末期、上涨末期以及股价下跌的中后期。一般下跌趋势中的缩量阶段,往往意味着股价仍未见底,不能…

DOM事件模型与事件委托

事件 JS与HTML之间的交互通过事件实现。 事件就是文档或浏览器窗口中发生的一些特定的交互瞬间。 可以使用监听器来预定事件,以便事件发生时执行相应的代码。这种在传统软件工程中被称为观察者模式 事件流 事件流描述的是从页面中接受事件的顺序 事件冒泡 微软…

程序员的下一个风口

面对近一年的裁员潮,以及 GPT 出现带来的 AI 颠覆潮流,各种话题出现:「前端已死」、「后端已死」、「Copy/Paste 程序员将被 AI 取代」。程序员行业是否还有发展空间? 这一两年的就业机会是因为经济衰落周期内造成的,不…

MATLAB 常用数学函数和数组和字符串、元胞数组和结构体,MATLAB 编程,关系运算符和逻辑变量

目录 MATLAB 零基础学习 简介 使用平台 一、MATLAB 界面 二、基础操作 使用方法 常用数学函数 初等函数 三角函数 指数和对数 复数 标点符号 常用操作 三、文件类型 数组 一、数组基础知识 二、数组创建与操作 创建 数组操作 字符串数组 字符串、元胞数组…

移动互联网市场是不需要Android 开发了吗?

就近有不少朋友在吐槽:如今Android工作真的难找!从年初找到了现在,是市场不需要Android 开发人才了,人都迷茫了,是不是应该考虑转行了? 其实这种情况往年也是有的,但是今年显得的更严重一些。我…

在数据化知识经济的时代,你该学会如何经营好自己的知识管理

在当今的数据化知识经济时代,知识管理已经越来越成为了一个必备的技能。在这个竞争激烈的时代,拥有良好的知识管理能力,可以帮助我们更好地应对各种挑战和机遇。 如何经营好自己的知识管理 一、认识知识管理的重要性 知识管理是指通过系统…