论文阅读：Segment Anything之阅读笔记

论文阅读：Segment Anything之阅读笔记

article2025/2/20 8:00:00/文章来源:https://blog.csdn.net/shiwanghualuo/article/details/131551036

目录

- - 引言
  - 整体结构介绍
  - 论文问答
  - - 代码仓库中，模型哪部分转换为了ONNX格式？以及如何转的？
    - Mask decoder部分 Transformer decoder block?
    - 如何整合image_embedding，image_pe, sparse_prompt_embedding和dense_prompt_embedding的？
    - points, boxes, text和masks四种类型prompt如何嵌入到网络中？
    - 什么样的任务具有zero-shot泛化能力？

引言

论文：Segment Anything是Meta出的图像语义分割的算法。这个算法因其强大的zero-shot泛化能力让人惊艳，这不抽空拿来学习了一下。
该算法的代码写得很清楚、简洁和规范，读来让人赏心悦目。推荐去看源码，很有意思。
本篇文章，将以问答形式来解读阅读过程中遇到的困惑，想来这种方式效率更高一些。
PDF | Code

整体结构介绍

在这里插入图片描述

整体分为三大部分：image encoder、prompt encoder和mask decoder。下图看的更加清楚一些，也是来自论文。

论文问答

代码仓库中，模型哪部分转换为了ONNX格式？以及如何转的？

mask_decoder部分做了转onnx格式
直接采用torch.onnx.export函数接口转的。因为没有采用transformer函数库，因为转换较为简单。
- 先基于torch构建整个部分模型，构建模型输入。
- 调用torch.onnx.export函数来转换

Mask decoder部分 Transformer decoder block?

该部分采用的动态mask预测头。
在两个方向上（prompt-to-image embedding 和相反的）使用了prompt self-attention和cross-attention来达到更新所有embedding的目的。

如何整合image_embedding，image_pe, sparse_prompt_embedding和dense_prompt_embedding的？

通过mask decoder这一部分来做的。采用的是修改过的Transformer decoder block.

points, boxes, text和masks四种类型prompt如何嵌入到网络中？

points, boxes, text在论文中称为sparse prompt。masks类型被称为dense prompt
points和boxes 是以positional encodings（位置编码）和每个提示类型的学习嵌入来表示的。
text是来自CLIP的text encoder表示的。从demo中并没有看到text输入的prompt，从issue #93中验证了这点
mask是使用卷积嵌入，并与图像embedding逐元素求和

什么样的任务具有zero-shot泛化能力？

模型以promptable的方式训练得到，因此具备zero-shot的泛化能力

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/34866.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

ue4：Dota总结—HUD篇

ue4：Dota总结—HUD篇

1.绘制ui： DrawMoney： DrawPower： 点击ui响应事件： 点击响应显示对应的模型： 点击ui拖动模型跟随鼠标移动： 显示ui：PlayerContrler：

阅读更多...

内网IP怎么用域名让外网访问，域名动态解析和静态区别？

内网IP怎么用域名让外网访问，域名动态解析和静态区别？

域名解析是将域名与公网IP进行对应关系，实现访问域名即访问到对应IP应用的方式。域名解析分静态域名解析和动态域名解析的区别，它们的区别在哪？内网IP服务器怎么用域名让外网连接访问？这些都是需要我们有所了解掌握的。这里不但…

阅读更多...

如何基于GeoToolKit/INT实现矢量流线的聚集动画效果示例

如何基于GeoToolKit/INT实现矢量流线的聚集动画效果示例

继续在上一篇文章的基础上，利用相同的数据处理方法统一了不同年代地层的数据格式（目前js解析支持的格式有ZMap、TS、XYZ和XYZA等），本文主要基于GeoToolKit/INT组件，针对地质研究经常在二维等值线基础上模拟计算地层中物…

阅读更多...

Quiz 14_2-2: Using Web Services | Python for Everybody 配套练习_解题记录

Quiz 14_2-2: Using Web Services | Python for Everybody 配套练习_解题记录

文章目录 Python for Everybody课程简介Quiz 14_2-2: Using Web Services单选题（1-15）操作题Autograder 1: Extract Data from JSONAutograder 2: Calling a JSON API Python for Everybody 课程简介 Python for Everybody 零基础程序设计（P…

阅读更多...

NSS [NSSCTF 2022 Spring Recruit]ezgame

NSS [NSSCTF 2022 Spring Recruit]ezgame

NSS [NSSCTF 2022 Spring Recruit]ezgame 前端小游戏，乐。

阅读更多...

Spring源码整体脉络介绍及源码编译

Spring源码整体脉络介绍及源码编译

需完成的任务类------------------------------------------BeanFactory----------------------------------------->Bean【BeanFactory调用getBean()生产出来的】 BeanFactory Spring顶层核心接口，使用了简单工厂模式【根据名字，生产出不同的Bean…

阅读更多...

C#：AES的加密解密，用于明文加密

C#：AES的加密解密，用于明文加密

大白话理解：将明眼能看到的字符给用另一种读不懂的语言给翻译，就像是摩斯密码……就像base64加密，都有异曲同工之妙。建一个新的类（这里放了aes加密解密的方法） public static class AesPassword{/// <summary&g…

阅读更多...

大屏项目也不难

大屏项目也不难

项目环境搭建使用create-vue初始化项目 npm init vuelatest准备utils模块业务背景：大屏项目属于后台项目的一个子项目，用户的token是共享的后台项目 - token - cookie 大屏项目要以同样的方式把token获取到，然后拼接到axios的请求头中…

阅读更多...

rain-nowcasting-using-deep-learning github：使用深度学习进行临近降水预报

rain-nowcasting-using-deep-learning github：使用深度学习进行临近降水预报

来源 github地址是什么本资料库旨在阐述 "在应用于降雨预报的深度学习模型中合并雷达雨量图像和风速预测 "（ “Merging radar rain images and wind predictions in a deep learning model applied to rain nowcasting”）一文中提出的深度…

阅读更多...

群晖NAS搭建WebDV服务手机ES文件浏览器远程访问

群晖NAS搭建WebDV服务手机ES文件浏览器远程访问

文章目录 1. 安装启用WebDAV2. 安装cpolar3. 配置公网访问地址4. 公网测试连接5. 固定连接公网地址转载自cpolar极点云文章：群晖NAS搭建WebDAV服务手机ES文件浏览器远程访问有时候我们想通过移动设备访问群晖NAS 中的文件,以满足特殊需求,我们在群辉中开启WebDav服…

阅读更多...

蓝桥杯专题-试题版含答案-【字母统计】【计算球体积】【16进制的简单运算】【C小加随机数】

蓝桥杯专题-试题版含答案-【字母统计】【计算球体积】【16进制的简单运算】【C小加随机数】

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例点击跳转>软考全系列点击跳转>蓝桥系列 👉关于作者专注于Android/Unity和各种游…

阅读更多...

JUC--CompletableFuture下

JUC--CompletableFuture下

对计算速度进行选用 import java.util.concurrent.CompletableFuture; import java.util.concurrent.TimeUnit;public class Test4 {public static void main(String[] args) {CompletableFuture<String> a CompletableFuture.supplyAsync(() -> {try { TimeUnit.SE…

阅读更多...

详解JAVA Socket

详解JAVA Socket

目录 1.概述 2.使用 3.使用场景 3.1.web server中的网络通信 3.2.长连接 3.3.性能问题 1.概述什么是网络通信： 就像打电话一样，两点间要通信，两点间就必须有连接，为了实现任意两个节点之间的通信，我们就必须采…

阅读更多...

第三十九章Java成员方法的声明和调用

第三十九章Java成员方法的声明和调用

声明成员方法可以定义类的行为，行为表示一个对象能够做的事情或者能够从一个对象取得的信息。类的各种功能操作都是用方法来实现的，属性只不过提供了相应的数据。一个完整的方法通常包括方法名称、方法主体、方法参数和方法返回值类型，其结构…

阅读更多...

C# PaddleInference 文字检测（只检测不识别）

C# PaddleInference 文字检测（只检测不识别）

效果项目 Demo下载代码 using OpenCvSharp.Extensions; using OpenCvSharp; using Sdcb.PaddleInference.Native; using Sdcb.PaddleInference; using System; using System.Collections.Generic; using System.Data; using System.Drawing; using System.Linq; using Sys…

阅读更多...

phar协议文件包含

phar协议文件包含

实验目的通过本实验，了解php封装伪协议，掌握phar协议文件包含的用法实验环境操作机：kali 靶机：Windows 2007 实验地址：http://靶机ip/exp/include2/phar/phar1/ 用户名：college 密码：360C…

阅读更多...

Vue ：在 VSCode 中安装 yarn 并用 yarn 工具来控制 Vue 项目的详细过程

Vue ：在 VSCode 中安装 yarn 并用 yarn 工具来控制 Vue 项目的详细过程

Ⅰ、 Yarn 工具简介： 1、什么是 yarn 工具: Yarn 是 facebook 发布的一款取代 npm 的资源包管理工具，是一个快速、可靠、安全的依赖管理工具，一款新的 JavaScript 资源包管理工具(吐槽下：最大的弊端是，要通过 npm 来…

阅读更多...

在blender中使用python程序化建模

在blender中使用python程序化建模

blender中，所有可以在Blender软件中的手动操作，基本都可以通过Python API 完成那么就可以用这个完成程序化生成下面我给出一个简单的方块建模程序： 在scripting中，可以添加file，然后向场景中心放置一个正方体首…

阅读更多...

RK3588平台开发系列讲解（Camera篇）OV569摄像头调试

RK3588平台开发系列讲解（Camera篇）OV569摄像头调试

文章目录一、摄像头识别检测二、查看摄像头支持的格式三、摄像头采集格式查询四、摄像头采集格式查询沉淀、分享、成长，让自己和他人都能有所收获！😄 📢本篇章主要讲解OV569摄像头调试。 OV5695 是一种图像传感器，用于摄像头设备。要进行 OV5695 摄像头的调试，通常涉…

阅读更多...

100种思维模型之能力圈思维模型-91

100种思维模型之能力圈思维模型-91

芒格说： “ 一个人在一生中可以真正得到的真见卓识仍然非常有限，所以正确的决策必须局限在自己的 ‘ 能力圈’ 以内。 ” 巴菲特说： “对你的能力圈来说，最重要的不是能力圈的范围大小，而是你如何能够确定能…

阅读更多...

最新文章