【PaperReading- VLM】1. FERRET

CategoryContent
论文题目FERRET: REFER AND GROUND ANYTHING ANYWHERE AT ANY GRANULARITY
作者Haoxuan You (Columbia University), Haotian Zhang, Zhe Gan, Xianzhi Du, Bowen Zhang, Zirui Wang, Liangliang Cao (Apple AI/ML), Shih-Fu Chang (Columbia University), Yinfei Yang (Apple AI/ML)
发表年份2023
摘要介绍了Ferret,这是一个多模态大型语言模型(MLLM),能够理解图像中任何形状或粒度的空间引用,并准确地对开放词汇描述进行定位。它采用了一种混合区域表示,结合了离散坐标和连续特征,以及一个空间感知的视觉采样器。
引言探讨了如何在模型中实现空间理解,重点是引用和定位的能力。它解决了将这些能力与日常对话和推理整合的问题,灵感来源于人类的认知过程。
主要内容Ferret是一种新颖的引用和定位多模态大型语言模型,使用混合区域表示和空间感知视觉采样器,实现更普遍和精确的人机交互。为增强Ferret的能力,创建了一个名为GRIT的Instruct-tuning数据集,包含110万个样本,专注于空间知识,提升模型的鲁棒性。Ferret的贡献包括其用于精细引用和定位的新方法,创建GRIT数据集,以及引入Ferret-Bench,用于评估需要引用/定位知识和推理的任务。Ferret在GRIT数据集上进行训练,并在传统的引用和定位基准任务上进行评估,以及更复杂的多模态聊天任务。
实验Ferret的输入引用能力通过像引用对象分类这样的任务展示,评估模型对引用区域的理解。在输出定位方面,Ferret在视觉定位任务上进行了评估,如引用表达理解和短语定位,使用了如RefCOCO和Flickr30k实体等数据集。Ferret-Bench引入了新的多模态聊天任务,评估模型在对话中执行引用和定位动作的能力。
结论Ferret在一系列任务中表现出色,显著减少了对象幻觉,具有强大的空间理解和定位能力。
阅读心得在这里插入图片描述这篇论文主要亮点是开发了一个采样器,能够根据不同的提示,从mask区域的范围内采样出重要的点转化为该对象的feature,这种方式对提示的形状无限制,可以是点或者bbox或者随手画的曲线。另外,就是制作了相应的数据集。GRIT, 110万个样本。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/311892.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【java】Error:java: 无效的源发行版: 12,只需三步

运行项目报错 “Error:java: 无效的源发行版: 12” 先在file下的project Structure 下选择 Project 将 Project language level 选择版本 8 对应的。 然后点击右下角的Apply OK 再在file下的project Structure 下选择Moudels ,将该项目的Sources改为8. 然后点击右下角的Apply…

Logstash应用介绍

1.Logstash介绍 1.1 前世今生 Logstash 项目诞生于 2009 年 8 月 2 日。其作者是世界著名的运维工程师乔丹西塞(JordanSissel),乔丹西塞当时是著名虚拟主机托管商 DreamHost 的员工。 Logstash 动手很早,对比一下,scribed 诞生于 2008 年&am…

zabbix监控部署

目录 一、什么是zabbix? 二、zabbix监控原理 三、zabbix常见的五个程序 四、zabbix监控mysql实验 1、部署服务端 2、部署客户端 3、自定义监控内容 一、什么是zabbix? zabbix 是一个基于 Web 界面的提供分布式系统监视以及网络监视功能的企业级的…

Java应用实践课程设计——背诵单词助手

项目描述 该项目实现了一个简单的单词背诵小助手系统,包括管理员模块和用户模块。管理员可以对CET4表进行增加、删除、修改和查询等操作;用户可背诵CET4表中的单词,回顾已掌握和未掌握的单词。 数据库设计——words.sql

JVM加载class文件的原理机制

1、JVM 简介 JVM 是我们Javaer 的最基本功底了,刚开始学Java 的时候,一般都是从“Hello World ”开始的,然后会写个复杂点class ,然后再找一些开源框架,比如Spring ,Hibernate 等等,再然后就开发…

物联网通讯协议NB-lot和LoRa差异分析

像把大象装冰箱一样,物联网,万物互联也是要分步骤的。 一、感知层(信息获取层),即利用各种传感器等设备随时随地获取物体的信息; 二、网络层(信息传输层),通过各种电信网络与互联网的融合,将物体的信息实时准确地传递…

大数据 - Doris系列《三》- 数据表设计之表的基本概念

目录 🐶3.1 字段类型 🐶3.2 表的基本概念 3.2.1 Row & Column 3.2.2 分区与分桶 🥙3.2.2.1 Partition 1. Range 分区 2. List 分区 进阶:复合分区与单分区的选择 3.2.3 PROPERTIES 🥙3.2.3.1 分片副本数 &#x1f…

使用MySQL的过程中,有没有遇到过count()比较慢的情况?

count(*)的实现方式 MyISAM引擎把一个表的总行数存在了磁盘上,执行count(*)的时候直接返回这个数,效率很高; InnoDB引擎执行count(*)的时候,需要把数据一行一行地从引擎里面读出来,然后累积计数。 上述说明是在没有…

【MATLAB源码-第107期】基于matlab的OFDM系统在瑞利信道下功率分配仿真,使用注水算法。

操作环境: MATLAB 2022a 1、算法描述 在瑞利衰落信道下,OFDM(正交频分复用)系统的功率分配可以通过“注水算法”(water-filling algorithm)的方法来优化。这种算法的目的是在不同的子载波上分配不同的功…

蓝桥杯省赛无忧 STL 课件11 pair

01 pair的定义和结构 在C中&#xff0c;pair是一个模板类&#xff0c;用于表示一对值的组合&#xff0c;它位于头文件中。 pair类的定义如下: template<class T1,class T2>struct pair{T1 first;//第一个值T2 second;//第二个值// 构造函数pair();pair(const T1& X…

深度解析Cron表达式:精确控制任务调度的艺术

深度解析Cron表达式&#xff1a;精确控制任务调度的艺术 希望我们都可以满怀期待的路过每一个转角 去遇见 那个属于自己故事的开始 去追寻那个最真实的自己 去放下 去拿起 安然&#xff0c;自得&#xff0c;不受世俗牵绊… 导言 在计算机科学领域&#xff0c;任务调度是一项关…

MySQL安装部署-单机版

MySQL是关系型数据库&#xff0c;本文主要描述在操作系统Linux CentOS 7下安装MySQL Server 8.035单机版本。 https://dev.mysql.com/downloads/mysql/ 如上所示&#xff0c;从MySQL官方网站下载开源社区版本MySQL Server 8.035的最新稳定版本&#xff0c;该版本是对应Linux …

【排序算法】四、堆排序(C/C++)

「前言」文章内容是排序算法之堆排序的讲解。&#xff08;所有文章已经分类好&#xff0c;放心食用&#xff09; 「归属专栏」排序算法 「主页链接」个人主页 「笔者」枫叶先生(fy) 目录 堆排序1.1 原理1.2 堆的向下调整1.3 堆排序代码实现1.3 性质总结 堆排序 1.1 原理 概念介…

Mondo备份linux操作系统为iso镜像 —— 筑梦之路

简介 Mondo Rescue&#xff08;以下简称Mondo&#xff09;可以说是Linux 下的Ghost&#xff0c;它可以将你的系统像照相一样备份至磁带&#xff0c;CD-R&#xff0c;CD-RW&#xff0c;NFS或硬盘分区。Mondo广泛支援LVM&#xff0c;RAID&#xff0c;ext2, ext3, JFS, XFS,Reise…

平时执行很快的SQL语句,为什么会突然卡一下?

InnoDB在处理更新语句的时候&#xff0c;只做了写日志这一个磁盘操作&#xff0c;这个日志叫作redo log&#xff08;重做日志&#xff09;&#xff0c;在更新内存写完redo log后&#xff0c;就返回给客户端&#xff0c;本次更新成功。 把内存里的数据写入磁盘的过程&#xff0…

烟火检测AI边缘计算智能分析网关V4在安防项目中的应用及特点

一、行业背景 随着社会和经济的发展&#xff0c;公共安全和私人安全的需求都在不断增长。人们需要更高效、更准确的安防手段来保障生命财产安全&#xff0c;而人工智能技术正好可以提供这种可能性&#xff0c;通过智能监控、人脸识别、行为分析等手段&#xff0c;大大提高了安防…

JVM初识

什么是JVM&#xff1f; JVM全称是Java Virtual Machine&#xff0c;中文译名Java虚拟机。 JVM本质上是一个运行在计算机上的程序&#xff0c;他的职责是运行Java字节码文件。 JVM的功能 jvm的功能主要分为三部分&#xff1a; 解释和运行 对字节码文件中的指令&#xff0c;实…

【机器学习】模型调参工具:Hyperopt 使用指南

机器学习| 模型调参工具&#xff1a;Hyperopt 使用指南 前言1. Hyperopt是什么&#xff1f;2. Hyperopt的优缺点3. 如何使用 Hyperopt 进行调参3.1 安装 Hyperopt3.2 构建超参数空间3.3 定义目标函数3.4 运行 Hyperopt 优化3.5 获取最优超参数 4. XGB调参代码示例参考资料 前言…

idea编译报错(Maven项目)

idea编译报错 找不到符号 第一步&#xff1a;开启注解处理器 第二步&#xff1a;清理MVN&#xff0c;package并重新编译 第三步&#xff1a;重新导入项目&#xff1a;

SAP PP配置学习(五)

查找 四、 其它 设置 MM 过帐号码范围 定义凭证号码范围 OB52 打开期间 MMPV 开帐 &#xff08;下篇见&#xff09;