t-rex2开放集目标检测

论文链接:http://arxiv.org/abs/2403.14610v1

项目链接:https://github.com/IDEA-Research/T-Rex

这篇文章的工作是基于t-rex1的工作继续做的,核心亮点:

  1. 是支持图片/文本两种模态的prompt进行输入,甚至进一步利用两种模态的组合来达到检测和检索的目的,比如文本检索目标、以图搜图或者两个组合的方式
  2. 还有一个非常关键的地方,t-rex2开放了一个负样本抑制的方法,这个极大的缓解了开集目标检测器中使用clip作为head导致的分类器出问题从而有大量误检的情况

可以作为zero-shot的检测器或者一些快速数据集生成的data-engine方式

1、核心框架

text-cv的双模态通用框架还是同时对文本和图像做编码,如文中所说,text依旧使用clip做文本编码,图像上用的是deformable detr(DETR的升级版本),将单/多个图像转换为视觉embedding,然后进一步的利用了一个文本\图像对齐的模块来显示对齐,因此网络能够从文本和图像中互相学习到对方的feature,然后持续地提高相互的能力,该方法适用于4(3)种工作流:

  1. 交互式视觉prompt,类似于SAM,可以理解为框选一个目标后找到同一类目标(跨多个图像来框选也可以)
  2. 文本prompt,类似于clip或者glip/groundingdino的输入方式
  3. 混合prompt输入,结合文本和图像一起做inference

t-rex2模型框架:

如上图框架所示,一句话总结流程,分别对视觉和文本做特征提取, 视觉上结合backbone做视觉编码、输入prompt做位置编码、初始化向量concat(全局注意力+特征聚合)、交叉注意力得到最终的特征提取,然后结合DINO系系列的box预测方式得到各个roi的坐标,利用clip的方式预测出label(训练和完整的inference代码似乎没有开源出来,只能看论文上的工作去猜了,源码更新后再把本文完善下);

框架支持同时对visual和text prompts进行encoder:

对于visual prompt,对于给定的归一化的坐标或者box位置4维坐标,文中提到继承于DETR依旧使用正余弦编码将其编码为位置embedding,然后使用一个线性层将其进行变换(物理意义上可能是一次特征提取?),其中B代表box的prompt,P代表point的prompt,如下图中的1式和2式所示,进一步地,此时文中初始化了一个可学习的embedding(这里特别像DETR系列后续的工作,初始化一个embedding作为类似于anchor或者其他作用)C并广播到K维度,C`是来自其他所有视觉输入的一个聚合向量,然后将C+C`的值相加后然后与第一步提取的位置向量进行通道上的concat(我听下来理解这段是将C广播得到C`,然后将B全局提取得到B`,然后做concat,具体还得看代码理解下),paper写的太复杂了,最后使用交叉注意力后在各个FPN层的特征中得到query,从框架上可以看到这些query物理意义上应该是自注意力到各个层关注的roi部分,然后如5式做自注意力的特征提取,这样保证提取出来的query应该是结合视觉prompt得到的(在前向做inference时是不是会因为不同的输入promp导致每一次inference的特征不一样)

对于text prompt,使用clip将其进行编码,此处略过,文章也没提,有兴趣的同学直接参照clip进行理解就好了;

BOX解码器:最后就是box解码器了,参照DINO以及他们实验室的工作,将传统检测的anchor作为query初始化,然后与grounding-dino一样是直接预测出各层目标的x、y、w、h,将解码器预测出的值得到Qdec,得到最后的box坐标:

类别估计就是使用clip的方式做predict了,毕竟开集检测应该都是这个套路(晚点还得看看代码确认下)

     文中提到了对每一个视觉目标和文本目标做对齐,类似于一个相互蒸馏的过程:

训练过程(损失函数):

损失函数分为5部分,对于框,使用L1+GIOU作为损失函数,对于分类,使用clip的logits和直接提取的logits计算相似性,还有一个是align对齐,L-DINO应该是文中提及的DINO中的加入噪声训练的部分,文中这里有一个细节,就是使用DETCLIP的方式,对于图片正样本边界以外的数据,随机进行负样本采集,这应该是一种很好的负样本抑制策略

输入的处理:

如果是多个输入,则对其求均值,如果结合文本,则是(视觉+文本)/2就可以了:

2、其他细节

训练集的维护:当前各种多模态模型的关键是数据集如何从各种乱七八糟来源上获取,本文也提到了,还未看,略过

结果对标:

其他细节进一步读paper再来改正和补充

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/485165.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

配置git公钥

电脑重置重新配置公钥记录一下供自己观看 打开git bash 输入生成ssh公钥命令 ssh-keygen -t rsa -C your-email 一直回车直到出现 输入查看公钥命令 cat ~/.ssh/id_rsa.pub 复制公钥,打开git设置,找到ssh公钥添加(标题随便命名) 配置完后就可以正常使…

【DataWhale学习】灵境Agent开发——Agent介绍

【DataWhale学习】灵境Agent开发——Agent介绍 ​ 这次我参加了 DataWhale 的灵境Agent开发者训练营,第一次开发了一款属于自己的Agent,整体体验下来,操作还是非常方便的。灵境Agent和Coze上面创建的bot差不多,零代码开发可以仅仅…

QT常见布局器使用

布局简介 为什么要布局?通过布局拖动不影响鼠标拖动窗口的效果等优点.QT设计器布局比较固定,不方便后期修改和维护;在Qt里面布局分为四个大类 : 盒子布局:QBoxLayout 网格布局:QGridLayout 表单布局&am…

双指针(滑动窗口)-算法刷题

一.移动零(. - 力扣(LeetCode)) 算法思想 : 设置两个指针left,right,将数组分为三块[0,left]为不为0的元素,[left1,right-1]为0元素,[right,num.size()-1]为未扫描的区域&#xff0c…

Notepad++ 如何调整显示字面大小

在 Notepad 上,可以使用 ctrl 加上鼠标的左键来滚动来进行调整。 如何恢复默 可以使用 Ctrl 加数字键盘上的 / 键 来恢复默认设置。 当然也可以通过菜单栏上 view 菜单下的 Zoom 选项。 上面的界面中可以看到我们的在 Notepad 中使用的选项。 Notepad 如何调整显示…

stm32知识总结--简单复习各部件

目录 内部结构 部件介绍 配置步骤 之前学了很多部件,配置了很多参数,但是没有很系统地把他们连接在一起,今天这个图里简洁描述了资源与资源之间的关系。 内部结构 部件介绍 黑框部分为CPU、内部有一个内核专门处理事件,所有的…

Android Studio 无法下载 gradle-7.3.3-bin.zip

下载新的Android Studio,然后创建新的工程时,出现报错:Could not install Gradle distribution from https://services.gradle.org/distributions/gradle-7.3.3-bin.zip 或者超时,我们可以复制:https://services.grad…

基于Google云原生工程师的kubernetes最佳实践(二)

目录 二、应用部署篇 为deployment打上丰富的label,以便selecting 使用sidecar容器部署agent、proxy等组件 使用init container处理依赖关系,而不要用sidecar 镜像tag使用版本号,不要用latest或空tag 为pod设置readiness和liveness探针 不要给所有服务都使用LoadBalance…

C++实现FFmpeg音视频实时拉流并播放

1.准备工作: 下载rtsp流媒体服务器rtsp-simple-server,安装go开发环境并编译 编译好后启动流媒体服务器 准备一个要推流的mp4视频文件,如db.mp4 使用ffmpeg开始推流 推流命令: ffmpeg -re -stream_loop -1 -i db.mp4 -c copy -rtsp_transport tcp -f rtsp rtsp://192.168.16…

笔记本和台式机主板内部结构分析

笔记本和态势机主板内存接口以及配件安装位置 笔记本主板 1 以thinkpad L-490为例,使用拆机小工具拆机,打开后面板,内部结构示意图如下 台式机主板 以技嘉-B660M-AORUS-PRO-AX型号主板为例 笔记本电脑和台式机电脑的相同之处 CPU:笔记本…

前端学习之css media查询、自定义字体、过度动画、css变换、动画、渐变、多列、字体图标

media查询 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>media查询</title><!-- media查询&#xff1a;根据设备类型不同&#xff1a;比如说打印机、屏幕不同而产生不一样效果格式&#x…

Web安全基础入门+信息收集篇

教程介绍 学习信息收集&#xff0c;针对域名信息,解析信息,网站信息,服务器信息等&#xff1b;学习端口扫描&#xff0c;针对端口进行服务探针,理解服务及端口对应关系&#xff1b;学习WEB扫描&#xff0c;主要针对敏感文件,安全漏洞,子域名信息等&#xff1b;学习信息收集方法…

海外媒体宣发:十大国外中文网站-大舍传媒

十大国外中文网站 1、欧洲时报 覆盖欧洲且较具影响力的华文媒体 国外中文新闻网站&#xff0c;欧洲时报文化传媒集团旗舰日报《欧洲时报》旗下官方网站&#xff0c;总部设在法国巴黎&#xff0c;创刊于1983年&#xff0c;现已成为唯一发行覆盖全欧、发行量最大、最具影响力的华…

每日一题 --- 两两交换链表中的节点[力扣][Go]

两两交换链表中的节点 题目&#xff1a;24. 两两交换链表中的节点 给你一个链表&#xff0c;两两交换其中相邻的节点&#xff0c;并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题&#xff08;即&#xff0c;只能进行节点交换&#xff09;。 示例 1&a…

算法打卡day15

今日任务&#xff1a; 1&#xff09;110.平衡二叉树 2&#xff09;257. 二叉树的所有路径 3&#xff09;404.左叶子之和 110.平衡二叉树 题目链接&#xff1a;110. 平衡二叉树 - 力扣&#xff08;LeetCode&#xff09; 给定一个二叉树&#xff0c;判断它是否是高度平衡的二叉树…

隐私计算实训营学习四:SecretFlow的安装和部署

文章目录 一、SecretFlow安装二、SecretFolw部署模式简介三、SecretFlow部署-仿真模式四、SecretFlow部署-生产模式 一、SecretFlow安装 SecretFlow运行要求&#xff1a; Python > 3.8操作系统&#xff1a;CentOS7、Anolis8、Ubuntu 18.04/20.04、macOS 11.1、WSL2资源&am…

共享打印机以及修复脱机状态打印机

title: 共享打印机以及修复脱机状态打印机 search: 2024-03-23 tags: “#共享打印机以及修复脱机状态打印机” 如何将打印机共享在局域网内 Tips&#xff1a;考虑将打印机共享&#xff0c;无非是要考虑两个问题&#xff0c;一个是将打印机作为外设的电脑怎么将打印机共享&…

随机密码生成器源码

源码简介 纯HTML&#xff0c;该去的已去掉&#xff0c;该简化的简化&#xff0c;最高支持32位混合随机密码生成 安装教程 纯HTML&#xff0c;直接将压缩包上传网站目录解压即可 首页截图 源码下载 随机密码生成器源码-小8源码屋源码简介 纯HTML&#xff0c;该去的已去掉&a…

阿里云4核16G服务器优惠价格26元1个月、149元半年

阿里云4核16G服务器优惠价格26.52元1个月、79.56元3个月、149.00元半年。2024年腾讯云服务器优惠价格表&#xff0c;一张表整理阿里云服务器最新报价&#xff0c;阿里云服务器网整理云服务器ECS和轻量应用服务器详细CPU内存、公网带宽和系统盘详细配置报价单&#xff0c;大家也…

Java学习笔记 | JavaSE基础语法05 | 方法

文章目录 0.前言1. 方法概述2. 方法的定义和调用2.1 无参数方法定义和调用2.2 带参数方法定义和调用1 带参数方法定义和调用2 形参和实参3 带参数方法练习 2.3 带返回值方法的定义和调用1 带返回值方法定义和调用2 带返回值方法练习13 带返回值方法练习24 带返回值方法练习3 3.…