论文阅读——RemoteCLIP

RemoteCLIP: A Vision Language Foundation Model for Remote Sensing

摘要——通用基础模型在人工智能领域变得越来越重要。虽然自监督学习(SSL)和掩蔽图像建模(MIM)在构建此类遥感基础模型方面取得了有希望的结果,但这些模型主要学习低级别特征,需要注释数据进行微调,并且由于缺乏语言理解,不适用于检索和零样本应用。为了应对这些限制,我们提出了RemoteCLIP,这是第一个用于遥感的视觉语言基础模型,旨在学习具有丰富语义的健壮视觉特征,以及用于无缝下游应用的对齐文本嵌入。为了解决预训练数据的稀缺性,我们利用数据缩放,基于Box-To-Caption(B2C)和Mask-To-Box(M2B)转换转换异构注释,并进一步合并无人机图像,生成12倍大的预训练数据集。RemoteCLIP可应用于各种下游任务,包括零样本图像分类、线性探测、k-NN分类、少拍摄分类、图像-文本检索和对象计数。对16个数据集的评估,包括新引入的用于测试对象计数能力的RemoteCount基准测试,表明Remote CLIP在不同的模型规模上始终优于基线基础模型。令人印象深刻的是,RemoteCLIP在RSICD数据集上的平均召回率比以前的SoTA高9.14%,在RSICD数据集上高8.92%。对于零样本分类,我们的RemoteCLIP在12个下游数据集上的平均准确率高达6.39%,优于CLIP基线

主要介绍数据集生成过程。

框到文本描述(B2C)生成允许基于边界框注释和标签生成对象检测数据集的文本描述。

该方法采用基于规则的方法来生成描述图像中对象的五个不同的字幕,算法1概述了B2C方法。具体来说,前两个字幕是根据目标位置(边界框的中心点)生成的:第一个字幕描述图像中心的对象,而第二个字幕描述不位于中心的对象。这种区分提供了关于图像内对象的空间分布的附加上下文和信息。剩下的三个字幕是通过考虑图像中存在的不同对象类别的数量而生成的。将从边界框注释列表中选择随机对象,并相应地生成标题。如果一个对象的出现次数超过10次,则使用更通用的术语(例如“很多”、“很多”)而不是确切的数字,以增强标题的可读性和可变性。

也有mask到框,再框到描述。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/455107.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【JavaScript】面试手撕柯里化函数

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 ​💫个人格言: "如无必要,勿增实体" 文章目录 引入柯里化定义实现快速使用柯里化的作用提高自由度bind函数 参考资料 引入 上周…

目标跟踪SORT算法原理浅析

SORT算法 Simple Online and Realtime Tracking(SORT)是一个非常简单、有效、实用的多目标跟踪算法。在SORT中,仅仅通过IOU来进行匹配虽然速度非常快,但是ID switch依然非常严重。 SORT最大特点是基于Faster RCNN的目标检测方法,并利用卡尔…

跟着GPT学设计模式之桥接模式

说明 桥接模式,也叫作桥梁模式,英文是 Bridge Design Pattern。在 GoF 的《设计模式》一书中,桥接模式是这么定义的:“Decouple an abstraction from its implementation so that the two can vary independently。”翻译成中文就…

【Ubuntu-20.04】OpenCV-3.4.16的安装并对图片与视频处理

【Ubuntu-20.04】OpenCV-3.4.16的安装并对图片与视频处理 一、安装OpenCV-3.4.161.下载OpenCV-3.4.16安装包2.将安装包放到/home,并解压3.使用 cmake 安装 opencv4.配置环境5.查看 opencv 的版本信息 二、处理图片(一)创建文件夹 code &#…

深入理解Python中的面向对象编程(OOP)【第129篇—Scikit-learn的入门】

深入理解Python中的面向对象编程(OOP) 在Python编程领域中,面向对象编程(Object-Oriented Programming,简称OOP)是一种强大而灵活的编程范式,它允许开发者以对象为中心组织代码,使得…

错误: 找不到或无法加载主类 Hello.class

在运行这串代码 public class Hello{ public static void main(String[] args){ System.out.println("Hello world!"); } } 的时候出现报错:错误: 找不到或无法加载主类 Hello.class 入门级错误 1.公共类的文件名和类名不一致 hello.j…

2024国际数字体育科技与电子竞技博览会在深圳前海隆重召开

随着科技的飞速发展,数字体育与电子竞技日益成为全球关注的焦点。3月2日,由中国电子商会数字体育与电子竞技专业委员会指导、赛艾特会展(深圳)有限公司、深圳国合华鑫科技发展有限公司、通联(深圳)数字科技集团有限公司联合主办的2024国际数字体育科技与电子竞技博览会新闻发布…

面试题 --- jdbc执行流程、MyBatis执行流程、MyBatis拦截器配置流程

jdbc执行流程 1. 注册驱动 2. 创建数据库操作对象 3. 执行sql语句 4 .处理操作结果 5 .关闭连接释放资源 MyBatis 执行流程 Executor执行器、MappedStatement 对象、 StatementHandler 语句处理器 关系可以用以下步骤概括 用户通过 SqlSession 调用一个方法,Sq…

音视频开发之旅(75)- AI数字人进阶--GeneFace++

目录 1.效果展示和玩法场景 2.GeneFace原理学习 3.数据集准备以及训练的过程 5.遇到的问题与解决方案 6.参考资料 一、效果展示 AI数字人进阶--GeneFace(1) AI数字人进阶--GeneFace(2) 想象一下,一个专为你打造的…

DVWA 靶场搭建

文章目录 1 DVWA 简介2 DVWA 安装 1 DVWA 简介 DVWA(Damn Vulnerable Web App)是一个基于 “PHP MySQL” 搭建的Web应用程序,皆在为安全专业人员测试自己的专业技能和工具提供合法的环境,帮助Web开发者更好地理解Web应用安全防范…

fs模块 文件写入 之 异步写入与同步写入

一、fs模块介绍: fs(file system)模块是nodejs提供的用于访问本地文件系统的功能模块,它使得运行于nodejs环境下的JavaScript具备直接读写本地文件的能力。 fs模块是nodejs的核心模块之一,只要安装了nodejs&#xff…

华为配置OSPF的Stub区域示例

配置OSPF的Stub区域示例 组网图形 图1 配置OSPF Stub区域组网图 Stub区域简介配置注意事项组网需求配置思路操作步骤配置文件 Stub区域简介 Stub区域的ABR不传播它们接收到的自治系统外部路由,在Stub区域中路由器的路由表规模以及路由信息传递的数量都会大大减少…

【C++】string进一步介绍

个人主页 : zxctscl 如有转载请先通知 文章目录 1. 前言2. 迭代器2.1 反向迭代器2.2 const对象迭代器 3. Capacity3.1 size和length3.2 max_size3.3 capacity3.4 clear3.5 shrink_to_fit (了解即可)3.6 reserve3.7 resize 4. Element access4…

一台服务器部署两个独立的mysql实例

🍁博主简介: 🏅云计算领域优质创作者 🏅2022年CSDN新星计划python赛道第一名 🏅2022年CSDN原力计划优质作者 🏅阿里云ACE认证高级工程师 🏅阿里云开发者社区专…

STM32平替GD32有多方便

众所周知, GD32一直模仿STM32,从未被超越。 我最近公司使用的GD32E230C6T6 这款芯片有48个引脚。 属于小容量的芯片。 我有一个用STM32写的代码,之前是用的 STM32F103CB 这款芯片是中容量的。 不过在keil中,只需要这两步,就能使用原来的逻辑,几乎不用修改代码。 1. …

【Swing】Java Swing实现省市区选择编辑器

【Swing】Java Swing实现省市区选择编辑器 1.需求描述2.需求实现3.效果展示 系统:Win10 JDK:1.8.0_351 IDEA:2022.3.3 1.需求描述 在公司的一个 Swing 的项目上需要实现一个选择省市区的编辑器,这还是第一次做这种编辑器&#xf…

【数据结构】二叉树OJ题目

965. 单值二叉树 如果二叉树每个节点都具有相同的值,那么该二叉树就是单值二叉树。 只有给定的树是单值二叉树时,才返回 true;否则返回 false。 示例 1: 输入:[1,1,1,1,1,null,1] 输出:true示例 2&#x…

考研复试C语言篇

第一章 概述 1.1什么是程序 为了让计算机执行某些操作或解决某个问题而编写的一系列有序指令的合集。 1.4C语言的特点 代码级别的跨平台:由于标准的存在,使得几乎同样的C代码可用于多种操作系统,也适用于多种机型。使允许直接访问物理地址…

Java基础 - 9 - 集合进阶(一)

集合是一种容器,用来装数据的,类似于数组,但集合的大小可变,开发中非常常用 为了满足不同的业务场景需求,Java除了ArrayList还提供了很多不同特点的集合给我们选择 一. 集合的体系结构 集合可以分为两类:…

案例--某站视频爬取

众所周知,某站的视频是: 由视频和音频分开的。 所以我们进行获取,需要分别获得它的音频和视频数据,然后进行音视频合并。 这么多年了,某站还是老样子,只要加个防盗链就能绕过。(防止403&#xf…