【PaperReading】4. TAP

Category

Content

论文题目

Tokenize Anything via Prompting

作者

Ting Pan, Lulu Tang, Xinlong Wang, Shiguang Shan (Beijing Academy of Artificial Intelligence)

发表年份

2023

摘要

提出了一个统一的可提示模型,能够同时对任何事物进行分割、识别和描述。与SAM不同,我们的目标是通过视觉提示在野外构建一个多功能的区域表示。为此,我们使用大量分割掩码(如SA-1B掩码)和来自预训练CLIP模型的语义先验(拥有50亿参数)训练了一个通用模型。

具体而言,通过为每个掩码token添加一个语义token来构建一个可提示的图像解码器。语义token负责在预定义的概念空间中学习语义先验。通过对掩码token上的分割和语义token上的概念预测进行联合优化,模型表现出强大的区域识别和定位能力。例如,一个额外的3800万参数的因果文本解码器从零开始训练,在Visual Genome区域描述任务中创下了150.7的CIDEr分数新纪录。我们认为这个模型可以成为一个多功能的区域级图像tokenizer,能够为广泛的感知任务编码通用的区域上下文。代码和模型可在以下地址获取:https://github.com/baaivision/tokenize-anything。

引言

视觉感知的一个关键目标是有效地定位和识别任意感兴趣区域。它需要一个能够理解区域上下文并同时执行分割、识别和描述等感知任务的单一视觉模型。然而,现有模型通常只专注于定位类不敏感的掩码(例如SAM)或仅提取视觉语义(例如CLIP及其区域级变体)。特别是SAM开发了一个可以通过提示分割任何事物的分割基础模型,使得像素级定位任务具有强大的泛化能力。另一方面,CLIP通过在网规模的图像-文本对上进行对比学习,训练了一个识别基础模型,展示了在识别任务中强大的零样本能力。因此,从CLIP模型中学习语义先验是实现全面视觉感知的有希望的途径。

主要内容

论文详细介绍了如何构建一个能够高效实现分割、识别和描述任何事物的可提示模型。这是通过在可提示分割器内预测CLIP先验以及扩展模型范围来包含描述生成能力来实现的。文章主要关注在一个可提示分割模型SAM中对视觉和语言进行对齐,从而增强模型的区域级语义感知能力。与依赖于精心收集或近似的区域-文本数据的先前方法不同,作者的方法使用来自SA-1B的详尽分割数据和CLIP对掩码和语言进行对齐。模型在人工策划的概念空间中使用现成的CLIP嵌入,并在SAM的框架内进行预训练。

实验

在“实验”部分,作者详细介绍了他们如何在不同的数据集和任务上测试TAP模型。他们使用了SemanticSA-1B数据集进行零样本分割和区域级描述任务的实验。这些实验旨在评估模型在处理各种视觉和语言任务时的效果,包括图像分割、对象识别和图像描述。作者还对模型在各种复杂场景下的性能进行了评估,这包括不同类型的图像和多样化的描述任务。实验结果表明,TAP模型在所有测试任务上均表现出色,尤其是在零样本学习和区域级描述生成方面,显示了其卓越的适应性和灵活性。这些实验结果强调了模型的有效性和广泛的应用潜力。

结论

视觉提示可以促进超越简单分割的更广泛任务范围。通过在图像级CLIP中引入区域语义意识,SAM得到了增强,而不会损害掩码AP。此外,诸如词汇概念空间这样的正交空间对于有效学习CLIP先验至关重要。最后,他们强调,带有视觉提示的TAP模型充当了一个多功能的、位置感知的图像tokenizer,其中token化的区域特征可以直接用于提示因果语言建模。

阅读心得

就是在SAM架构上加上了text_token使得原来基于mask训练的SAM,现在也要基于text的描述进行训练。

亮点:训练了一个可用于VLM的基座模型,为下游任务提供一个vision-text对齐的SAM模型。

这个想法我们以前也提到过(下图中"Mask Decoder Lightly Adapt"部分): 但是苦于训练不动,放弃了。

https://aibee.feishu.cn/sync/DrsRdXCpbsfwU0bwcJ3cVxmdnIb

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/315060.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

使用postman做接口测试(一)

如何执行HTTP接口测试。包括如下三步: 构造一条符合要求的HTTP请求消息;发给我,我给你回响应;你读取HTTP响应,检查响应内容是否正确。 今天我们就讲,如何使用postman发送符合要求的HTTP请求。 how-如何安…

大创项目推荐 深度学习火车票识别系统

文章目录 0 前言1 课题意义课题难点: 2 实现方法2.1 图像预处理2.2 字符分割2.3 字符识别部分实现代码 3 实现效果4 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 图像识别 火车票识别系统 该项目较为新颖,适…

在机械行业中,直线导轨和弧形导轨哪个应用范围更广泛?

弧形导轨和直线导轨是两种常见的导轨类型,直线导轨主要被用于高精度或快速直线往复运动场所,而弧形导轨是一种专门设计用于曲线运动的导轨系统,那么在机械行业中,直线导轨和弧形导轨哪个应用范围更加广泛呢? 直线导轨主…

GPT2:Language Models are Unsupervised Multitask Learners

目录 一、背景与动机 二、卖点与创新 三、几个问题 四、具体是如何做的 1、更多、优质的数据,更大的模型 2、大数据量,大模型使得zero-shot成为可能 3、使用prompt做下游任务 五、一些资料 一、背景与动机 基于 Transformer 解码器的 GPT-1 证明…

数据库创建表并插入数据练习题

一、创建表的要求 创建一个英雄表(hero) 主键 name nickname address groups email telphone 二、 操作步骤 1.登录MySQL [rootlocalhost ~]# systemctl start mysqld [rootlocalhost ~]# mysql -uroot -p Enter password: Welcome to the MySQL monitor. Commands end with…

UVa1308/LA2572 Viva Confetti

题目链接 本题是2002年ICPC亚洲区域赛金沢(日本)赛区的H题 题意 我已经把n个圆盘依次放到了桌面上。现按照放置顺序依次给出各个圆盘的圆心位置和半径,问最后有多少圆盘可见?如下图所示。 分析 《训练指南》的题解: 题目说“保证在对输入数据…

Unity网络通讯学习

---部分截图来自 siki学院Unity网络通讯课程 Socket 网络上的两个程序通过一个双向的通信连接实现数据交换,这个连接的一端称为一个 Socket ,Socket 包含了网络通信必须的五种信息 Socket 例子{ 协议: TCP 本地: IP &#xff…

Hive数据定义(1)

hive数据定义是hive的基础知识,所包含的知识点有:数据仓库的创建、数据仓库的查询、数据仓库的修改、数据仓库的删除、表的创建、表的删除、表的修改、内部表、外部表、分区表、桶表、表的修改、视图。本篇文章先介绍:数据仓库的创建、数据仓…

【国产之光】开年尝鲜——优秀的AI编码助手 Fitten Code

文章目录 前言1. 工具准备1.0 事先说明1.1 VSCode1.2 Fitten Code1.3 GitHub Copilot 2. 使用测评2.1 需求理解2.2 上下文理解 3. 总结推荐链接 开年尝鲜高质量国产AI编码助手——FittenCode 前言 2024年刚刚开局,清华大学 与 非十科技 就发布了全新的 VSCode AI…

Docker 介绍 及 支持的操作系统

Docker组成: Docker主机(Host): 一个物理机或虚拟机, 用于运行Docker服务进程和容器, 也成为宿主机, node节点。 Docker服务器端(Server): Docker守护进程, 运行Docker容器。 Docker客户端(Client): 客户端使用docker命令或其他工…

搭建LNMP网站平台并部署Web应用

本章主要介绍: 安装Nginx安装MySQL安装PHP在LNMP平台中部署 Web 应用 构建LNMP网站平台就像构建LAMP平台一样,构建LNMP平台也需要Linux服务器,MySQL数据库,PHP解析环境,区别主要在Nginx 与 PHP的协作配置上&#xff0…

基于SPI的插件式开发实现方案之@AutoService+ServiceLoader介绍及Dolphinscheduler中的实际应用

1.插件化开发概述 插件化开发模式正在很多编程语言或技术框架中得以广泛的应用实践,比如大家熟悉的jenkins,docker可视化管理平台rancher,以及日常编码使用的编辑器idea,vscode等。 实现服务模块之间解耦的方式有很多&#xff0…

代码随想录二刷 |二叉树 | 二叉搜索树的最小绝对差

代码随想录二刷 |二叉树 | 二叉搜索树的最小绝对差 题目描述解题思路 & 代码实现递归法迭代法 题目描述 530.二叉搜索树的最小绝对差 给你一棵所有节点为非负值的二叉搜索树,请你计算树中任意两节点的差的绝对值的最小值。 示例&#…

10款热门的企业报表工具软件,看看哪款最适合?

1. Microsoft Office Excel:这款软件一般比较简单,适合处理小量数据,常被用来制作报表。 添加图片注释,不超过 140 字(可选) 2. VeryReport:这是一款由纯Java编写的报表软件,兼具数…

[易语言]使用易语言部署工业级人脸检测模型

【框架地址】 https://github.com/ShiqiYu/libfacedetection 【算法介绍】 Libfacedetection是一个开源的计算机视觉库,主要用于实时的人脸检测。它利用深度学习技术,特别是卷积神经网络(CNN),实现了高精度的脸部定位…

知识库系统搭建不用愁,有这些工具就够了

对于企业来说,知识库不仅是存储和管理知识的出色工具,更是建立有效知识共享和团队合作的有力助手。好的知识库工具可以实现知识的分类、检索和分享,提升工程效率,降低内部沟通成本。对于追求效率的你,下面介绍的三款知…

每天刷两道题——第十四天

1.1矩阵置零 给定一个 m x n 的矩阵,如果一个元素为 0 ,则将其所在行和列的所有元素都设为 0 。请使用原地算法。 输入:matrix [[0,1,2,0],[3,4,5,2],[1,3,1,5]] 输出:[[0,0,0,0],[0,4,5,0],[0,3,1,0]] 原地算法(…

Jetson_yolov8_解决模型导出.engine遇到的问题、使用gpu版本的torch和torchvision、INT8 FP16量化加快推理

1、前情提要 英伟达Jetson搭建Yolov8环境过程中遇到的各种报错解决(涉及numpy、scipy、torchvision等)以及直观体验使用Yolov8目标检测的过程(CLI命令行操作、无需代码)-CSDN博客和YOLOv8_测试yolov8n.pt,yolov8m.pt训…

Java十大经典算法—KMP

字符串匹配问题: 1.暴力匹配 public class ViolenceMatch {public static void main(String[] args) {String str1 "硅硅谷 尚硅谷你尚硅 尚硅谷你尚硅谷你尚硅你好";String str2 "尚硅谷你尚硅你好";int index violenceMatch(str1, str2);S…

十二、QProgressBar的简单使用与样式优化(Qt5 GUI系列)

目录 一、设计需求 二、实现代码 三、代码解析 四、总结 五、扩展(自定义QProgressBar样式) 一、设计需求 在很多应用程序中,在执行费时操作时都会展示一个进度条来展示操作进行的进度。常见的场景,如:拷贝操作、安装操作以及卸载操作。…