RAM++(recognize anything++)—— 论文详解

一、概述

1、是什么

    RAM++(RAM plus plus)论文全称 《Open-Set Image Tagging with Multi-Grained Text Supervision》。区别于图像领域常见的分类、检测、分割,他是标记任务——多标签分类任务(一张图片命中一个类别),区分于分类(一张图片命中一个类别)。然后他这里提到的Open-Set,需要注意,模型本身原始支持6449个标签(去掉同义词后4585个标签),但是可以通过GPT(后面会详细介绍)实现未知的标签(6449以外)识别。

    如下是原生支持的6449个标签(去掉同义词后4585个标签)的官方地址,需要注意其中英文和中文是一一对应的,都是4585组。

    原生支持的中文标签:https://github.com/xinyu1205/recognize-anything/blob/main/ram/data/ram_tag_list_chinese.txt

    原生支持的英文标签:https://github.com/xinyu1205/recognize-anything/blob/main/ram/data/ram_tag_list.txt    

2、亮点

1)集成图片-标记(属性识别)-文本(整图识别)到一个统一的对齐框架中,实现了强大的图片标记能力和Open set识别能力。

2)第一个集成了LLM的知识到图像Tag 的训练阶段,提升了模型推理阶段Open set 的能力。

3)在三个测试集(OpenImages, ImageNet, HICO)上超过了RAM 和 Tag2Text 以及 CLIP,并且做了很多消融实验证明这种架构的高效性;

-)同RAM:可较低成本复现,使用的都是开源和免人工标记的数据集(有部分自己标注的数据),最强版本的RAM(14M)也只需要8卡A100训练3天;

-)同RAM:灵活并且可以满足各种应用场景:可以单独使用作为标记系统;也可以结合Grounding DINO 和SAM 多标签分割。

3、对比RAM的提升

* 文本不再用可学习的query,改成了GPT写的句子,然后用CLIP 文本编码器编码(训练&测试)

* 整个句子的损失不在是生成损失,变为了ASL损失,整个模型进行了精简。

RAM 的Image Tag recognize decoder  和 RAM ++ 的alignment decoder 几乎是参数量、结构啥相同。

PS

*这篇来自OPPO的论文,写的相对真的很详细,有任何细节疑问可以参考论文

*论文中不含的数据部分细节需要配合RAM论文《Recognize Anything: A Strong Image Tagging Model》

*论文中不含的其余细节也在本博客末尾写到作为后续待解决项

二、模型

    1、整体模型结构

    包括三个部分:Image encoder、Text encoder、 alignment decoder,如下图。

    * Image encoder 是 swin transformer, 这里作者最终用的是swin-base,RAM 最终用的swin-large,并且作者也做了消融实验。参数是在ImageNet 上pre-train过的然后参数会再训练中被更新。 

    *Text encoder 是CLIP 的 Text encoder, 权重也是CLIP 的原始权重并且在整个RAM ++ 的pre-train 和fine tune阶段参数不更新。

    *alignment decoder 是 2层的transformer,权重对于文本和Tag 是共享的,里面的cross attention的query 是整个句子的CLIP 编码(对于图片的描述是一个句子,对于Tag,后面会讲,是利用GPT讲单个词汇如cat 描述成了句子)value 和 key 是Image encoder 的编码结果。

        

        2、alignment decoder 注意点

        虽然对于整句文本和Tag alignment decoder 是共享参数,但是由于Tag 的增广问题,就是作者一个Tag 生成了50个句子,那么怎么处理这50个句子,作者加了一个自动学习权重的子模块来给每个句子增加权重,然后再正常操作,具体来讲,可以参考右边的论文段落:

        *将Tag 用GPT生成50个句子的文本编码器输出经过一个全连接层投射到指定维度(这样才能和视觉特征点乘得到一个标量数字);

        *将图像编码器输出的全局特征经过一个全连接层投射到指定维度(这样才能和文本特征点乘得到一个标量数字);

        *将上述投射后的1个图像特征与50个文本特征点乘得到50个数字,经过一个可学习的缩放系数t 后,通过计算sortmax归一化;

        *将上一步归一化的50个值作为权重分别加权到50个未投影的文本编码器输出上,并求和得到一个未投影的文本编码特征值;

        * 此时的文本编码值作为query,图像编码器的value、key 来正常的经过两层的transformer。

        

三、数据

    RAM++ 的数据部分和RAM是几乎相同的,唯一不同是对于属性的处理,见后面数据清洗部分。数据都是三元组的形式:图像、属性、整图描述,格式可以参考官方链接如下:

GitHub - xinyu1205/recognize-anything: Open-source and strong foundation image recognition models.

    

    1、数据标签

     见RAM相关部分

    

    2、数据构成

    见RAM相关部分

    

   3、数据清洗

    见RAM相关部分

    不同的点是Tag的处理。

    RAM:训练阶段直接将属性作为了可学习的参数表示。推理阶段支持的类目直接输出结果,不支持的类目是使用一些作者定义的模板将类目单词组成很多句子然后用CLIP 文本编码器编码,然后进行求平均来当做这个单词的特征替代可学习参数,这里说一下另一点就是在训练过程中作者也特别实用了CLIP 的image encoder 进行蒸馏 RAM 的image encoder ,这其实相当于为这里的open set 使用CLIP Text encoder 作了文本和图片的特征对齐,作者的实验也显示提高了模型的性能。总结就是对于支持的类别训练和推理时一致的,对于不支持的类别训练和推理是有gap的,并且支持类别和自定义二选一。CLIP模板:https://github.com/xinyu1205/recognize-anything/blob/main/ram/utils/openset_utils.py#L24

    RAM++ :训练阶段是通过GPT对每个属性生成50个句子,然后用CLIP文本编码器编码成50条特征然后加权成1条特征。推理阶段支持的类别一样,不支持的类别操作相同只不过需要你自己再去重新调用GPT生成一次描述,而且同样存在支持类别和自定义二选一问题。prompt如下:

llm_prompts = [ f"Describe concisely what a(n) {tag} looks like:", \

                f"How can you identify a(n) {tag} concisely?", \

                f"What does a(n) {tag} look like concisely?",\

                f"What are the identifying characteristics of a(n) {tag}:", \

                f"Please provide a concise description of the visual characteristics of {tag}:"]

    4、消融结果

    见RAM相关部分

四、策略

    1、训练过程

    数据同RAM(除了Tag 产生部分),使用的是RAM的过程清洗出的数据。

    如上模型结构图,还要注意Image encoder和alignment decoder 更新权重,tex encoder 冻结权重,Tag 的GPT 增强部分是离线处理,其余是在线处理。

    细节可以参考论文的“ More Implementation Details ”章节,分为 Pre-traian 和 finetune 两步:

    1) pre-train

    epoch=5、bs=720、AdamW、weight decay=0.05、Image size=224 × 224、learning rate warmed-up 到 1e−4  3000 iterations 然后 linear decay= 0.9

    2) Finetune

    epoch=1、Image size=384 × 384、learning rate= 5e−6、并且使用了CLIP 的图像编码器进行蒸馏图像特征(充分利用于原始的图像文本对齐属性)

    PS: bs 、优化器等论文没有写

    Pre-traian 和 finetune 步骤:GitHub - xinyu1205/recognize-anything: Open-source and strong foundation image recognition models.

    Pre-traian 配置参数:https://github.com/xinyu1205/recognize-anything/blob/main/ram/configs/pretrain.yaml

    finetune 配置参数:https://github.com/xinyu1205/recognize-anything/blob/main/ram/configs/finetune.yaml

    PS:如果默认类目不支持,需要生成你自己的描述。 并且需要修改标签列表和类别数等。

    2、推理过程

    没有左侧的Text encoder 分支,Tag 的GPT 增强部分是离线处理。

    推理分两种情况:模型支持的属性类别和不支持的。

    1)模型支持的属性

    可以先查看自己想要的类目是否支持,然后调取接口即可。

    中文支持标签: https://github.com/xinyu1205/recognize-anything/blob/main/ram/data/ram_tag_list_chinese.txt

    英文支持标签: https://github.com/xinyu1205/recognize-anything/blob/main/ram/data/ram_tag_list.txt

    调用方法:GitHub - xinyu1205/recognize-anything: Open-source and strong foundation image recognition models.

    

    2)模型不支持的属性

    这时候就需要你调用GPT3.5 turbo来生成你需要的属性对应的文本描述。然后用生成的描述来推理。分两步:

    Step1:调用GPT3.5 turbo来生成你需要的属性对应的文本描述

    Step2:用生成的描述来推理

    PS:

    * 你需要有GPT账号,建议3.5turbo,因为RAM++ 的训练描述也是GPT 3.5turbo生成,生成的其实就是50条描述,具体见后面数据章节。

    * 默认你自定义Tag 和本来支持的Tag 不能同时输出,所以要么你输出两遍,要么把想要的所有Tag 都要重新描述(或者摘出来作者已有Tag 的描述)

    * 官方的过程是反的:GitHub - xinyu1205/recognize-anything: Open-source and strong foundation image recognition models.

    * 修改支持的类别本身就是一个字符串列表,自己在这个位置直接改为一个字符串列表就可以:

    https://github.com/xinyu1205/recognize-anything/blob/main/generate_tag_des_llm.py#L56 

    categories = openimages_rare_unseen  改为 categories = [‘第一个属性’, ‘第二个属性’, '第三个属性']

    

    3、消融对比

    1)tag 描述

        GPT3.5 turbo 好于GPT3;使用5个prompt * 每个生成10个描述 好于 直接让GPT生成50个。

    

    2)模型&数据

    *在4M未经过RAM 的data engine 清洗的数据上,在支持的类别上几乎等价,重点是不支持的类别上RAM++ 提升大。

    *data engine 也主要是提升了开放集合上的表现

    *在RAM++ 上,更大的swin-L 对比swin-B 却没有碾压性提升(支持类别提高,不支持类别反而降低)

    *alignment decoder 深度越深反而越差。

    

    3)loss消融

    显示ASL最好,但是其实ASL本身是很难调节的,并且官方也是建议逐步进化到ASL。

五、结果

1、识别能力

        RAM++ 在支持的4K类别和开放类别上都是最优,但是对于细粒度识别(Image Net和开放类别上均比不过监督学习的模型)。

2、分割能力

可以结合grounding dino 和 SAM, 分割一切,当然由于识别能力强,分割也就强于Tag2Text和RAM。

3、图文检索能力(文本检索图像)

综合推理速度和精召,CLIP任然最好;具有性价比的是RAM++;BLIP最好但是最慢。

六、使用方法

无法链接hugging face:

1、离线下载

下载如下图,并保存到一个目录下如“bert_base_uncased”:https://huggingface.co/bert-base-uncased/tree/main

2、指定目录

修改 recognize-anything/ram/models/utils.py

3、运行

TRANSFORMERS_OFFLINE=1 python inference_ram.py --image images/1641173_2291260800.jpg --pretrained pretrained/ram_swin_large_14m.pth

七、待解决

1、聚类的内容是什么?图像特征?

八、参考链接

GitHub - xinyu1205/recognize-anything: Open-source and strong foundation image recognition models.

pre-train 和 finetune 阶段,swin-transformer、CLIP text encoder和 tag embedding 都反传梯度吗,学习率也都是相同的吗? · Issue #124 · xinyu1205/recognize-anything · GitHub

https://arxiv.org/pdf/2310.15200.pdf

https://arxiv.org/pdf/2306.03514.pdf

RAM(recognize anything)—— 论文详解-CSDN博客

ASL: 多标签分类之非对称损失-Asymmetric Loss_asl loss-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/206453.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

hutool的bug之 DateUtil.endOfDay(DateUtil.date())

hutool 工具类DateUtil 使用时谨慎 DateUtil.endOfDay 得到的时间保存到数据时会增加一秒 首先比较下时间的long值: 这样就很明显的看出来,hutool工具类的date是毫秒位多了.999,保存到mysql 的时候,MySQL数据库对于毫秒大于500的数据进行…

基于B/S架构的医院一体化电子病历编辑器源码

电子病历在线制作、管理和使用的一体化电子病历解决方案,通过一体化的设计,提供对住院病人的电子病历书写、保存、修改、打印等功能。电子病历系统将临床医护需要的诊疗资料以符合临床思维的方法展示。建立以病人为中心,以临床诊疗信息为主线…

基于51单片机的电子时钟设计

1.设计任务 利用AT89C51单片机为核心控制元件,设计一个简易的数字时钟,设计的系统实用性强、操作简单,实现了智能化、数字化。 它可以对年、月、日、时、分、秒进行计时,而且DS1302的使用寿命长,误差小。对于数字电子…

qt-C++笔记之点击按钮弹出文件资源管理器选择文件后把文件路径赋值给一个QString

qt-C笔记之点击按钮弹出文件资源管理器选择文件后把文件路径赋值给一个QString code review! 文章目录 qt-C笔记之点击按钮弹出文件资源管理器选择文件后把文件路径赋值给一个QString1.运行2.main.cpp3.qt_FileDialog.pro4.QFileDialog类详解 1.运行 2.main.cpp 代码 #inclu…

loading...字符变化动画

公司业务一个简单的需求loading...文字动画,不想用js实现,问过GPT后学习了css写法 效果预览 代码实现 keyframes text-change {0% { content: "."; }33% { content: ".."; }66% { content: "..."; }}.text_loading_anima…

⭐ Unity 里让 Shader 动画在 Scene 面板被持续刷新

写 Unity Shader的时候,只有播放状态下的 Game 面板能看到Shader 顺畅的动态效果,不方便。 想要带有动态效果的 Shader 在 Scene 面板持续更新动画,只需要打开一个开关就能让 Scene 持续刷新动画了。 感谢大家的观看,您的点赞和关…

使用Golang构建高性能网络爬虫

目录 一、Golang的特点 二、构建网络爬虫的步骤 三、关键技术和注意事项 使用协程进行并发处理 使用通道进行协程间的通信 合理控制并发数和处理速度 遵守网站使用协议和法律法规 防止被网站封禁或限制访问 优化网页解析和数据处理 异常处理和错误处理 日志记录和监控…

shell编程系列(7)-使用wc进行文本统计

文章目录 前言wc命令的使用wc命令的参数说明:统计字数统计行数打印文本行号 结语 前言 统计功能也是我们在shell编程中经常碰到的一个需求,wc命令可以适用于任何需要统计的数据,不只是统计文本,配合ls命令我们可以统计文件的个数…

英国人工智能初创公司Stability AI面临卖身压力;深度学习中的检索增强生成简介

🦉 AI新闻 🚀 英国人工智能初创公司Stability AI面临卖身压力 摘要:多位知情人士透露,英国人工智能初创公司Stability AI正寻求出售公司,因为投资者对其财务状况的压力越来越大。管理层最近几周一直将自己标榜为收购…

ArkTS-日期滑动选择器弹窗

日期滑动选择器弹窗 根据指定的日期范围创建日期滑动选择器,展示在弹窗上。 示例 lunar: 接受一个boolean值,日期是否显示为农历。 Entry Component struct DatePickerDialogExample {selectedDate: Date new Date("2010-1-1")Sta…

2023年亚太杯数学建模A题——深度学习苹果图像识别(

Image Recognition for Fruit-Picking Robots 水果采摘机器人的图像识别功能 问题 1:计数苹果 根据附件 1 中提供的可收获苹果的图像数据集,提取图像特征,建立数学模型,计算每幅图像中的苹果数量,并绘制附件 1 中所有…

(四)基于高尔夫优化算法GOA求解无人机三维路径规划研究(MATLAB代码)

一、无人机模型简介: 单个无人机三维路径规划问题及其建模_IT猿手的博客-CSDN博客 参考文献: [1]胡观凯,钟建华,李永正,黎万洪.基于IPSO-GA算法的无人机三维路径规划[J].现代电子技术,2023,46(07):115-120 二、高尔夫优化算法GOA简介 高尔夫优化算法…

和鲸科技与国科环宇建立战略合作伙伴关系,以软硬件一体化解决方案促进科技创新

近日,在国科环宇土星云算力服务器产品发布会暨合作伙伴年度会上,和鲸科技与国科环宇正式完成战略伙伴签约仪式,宣布达成战略合作伙伴关系。未来,双方将深化合作,充分发挥在产品和市场方面的互补优势,为企事…

【广州华锐互动】节约用水VR互动教育:身临其境体验水资源的珍贵!

随着技术的不断发展,虚拟现实(VR)技术在许多领域得到了广泛应用。在节水宣传教育方面,VR技术也展现出了其独特的优势。与传统宣传教育方式相比,节约用水VR互动教育具有更加沉浸式、互动性和实践性的特点,能…

UWB高精度定位系统源码,支持零维、一维、二维等多种定位方式

智慧工厂人员定位系统源码,UWB高精度定位系统源码 技术架构:java spring boot vue mysql单体服务 硬件(UWB定位基站、卡牌) 定位能力:支持零维、一维、二维等多种定位方式,满足各种不同的定位需求&#xf…

指数退避和抖动

目录 引入 OCC 添加退避机制 添加抖动机制 小结 引入 OCC 乐观并发控制(Optimistic Concurrency Control,OCC)是一种既能保证多个写入者安全地修改单个对象又能避免丢失写入的古老方法OCC具有三个优点:只要底层存储可用&#…

Linux 常用命令集

1、根据端口查询进程号: netstat -nlp | grep 10050 或者使用 lsof -i:10050 2、查询所有服务进程号:top 3、根据进程号查询服务路径 ll /proc/28145/cwd 4、同步网络时间 yum install -y ntpdate ntpdate ntp.aliyun.com 设置定时任务 更新时间 * * * *…

Day46力扣打卡

最近一直在做以前的题,刷题量都没有怎么增长,感觉自己算法一直不太行,但也只能菜就多练了。 打卡记录 由子序列构造的最长回文串的长度(区间DP) 链接 第二次刷这道题,相比上回思路来的很快,但…

VS Code C++可视化调试配置Natvis,查看Qt、STL变量内容

VS Code C可视化调试配置Natvis 使用GlobalVisualizersDirectory Windows下 C:\Users\YourName\.vscode\extensions\ms-vscode.cpptools-1.18.5-win32-x64\debugAdapters\vsdbg\bin\Visualizers\Linux下 ~\.vscode\extensions\ms-vscode.cpptools-1.18.5-win32-x64\debugAd…

PCB布线为什么不能走直角或锐角-笔记

PCB布线为什么不能走直角或锐角-笔记 摘要一.PCB走线在直角转弯的地方,信号前后部分相互影响这几个理由我们来一一分析一下传输线的直角带来的寄生电容从阻抗的角度来看直角的尖角产生放电或者电磁辐射走线直角的工艺问题 摘要 有一定熟悉画过PCB板的人或者PCB教学…