(ICLR,2024)HarMA:高效的协同迁移学习与模态对齐遥感技术

文章目录

  • 相关资料
  • 摘要
  • 引言
  • 方法
    • 多模态门控适配器
    • 目标函数
  • 实验

相关资料

论文:Efficient Remote Sensing with Harmonized Transfer Learning and Modality Alignment

代码:https://github.com/seekerhuang/HarMA

摘要

随着视觉和语言预训练(VLP)的兴起,越来越多的下游任务采用了先预训练后微调的范式。尽管这一范式在各种多模态下游任务中展示了潜力,但在遥感领域的实施遇到了一些障碍。具体来说,同模态嵌入倾向于聚集在一起,阻碍了高效的迁移学习。为了解决这个问题,我们从统一的角度回顾了多模态迁移学习在下游任务中的目标,并基于三个不同的目标重新考虑了优化过程。我们提出了“Harmonized Transfer Learning and Modality Alignment (HarMA)”,一种方法,它同时满足任务约束模态对齐单模态统一对齐,同时通过参数高效的微调最小化训练开销。值得注意的是,HarMA无需外部数据进行训练,就在遥感领域的两个流行的多模态检索任务中实现了最先进的性能。我们的实验表明,HarMA仅使用最少的可调参数就能实现与完全微调模型相媲美甚至更优越的性能。由于其简单性,HarMA可以集成到几乎所有现有的多模态预训练模型中。我们希望这种方法能够促进大型模型在广泛的下游任务中的高效应用,同时显著降低资源消耗。

引言

先预训练后全面微调局限性:

  1. 全面微调一个大型模型极其昂贵且不可扩展
  2. 预训练模型已经在大型数据集上训练了很长时间,而在小型数据集上进行全面微调可能导致泛化能力降低或过拟合

参数高效微调局限性:

  1. 集中在单模态特征上。
  2. 在建模视觉-语言联合空间时忽视了潜在的语义不匹配

在这里插入图片描述
我们观察到,表现不佳的模型有时在其同模态嵌入内部表现出聚类现象。图1展示了在遥感图像-文本检索领域中两个性能不同的模型的最后一层嵌入的可视化;与左侧图像相比,右侧图像中的聚类现象更为明显。我们假设这可能归因于遥感图像的高类内和类间相似性,导致在建模低秩视觉-语言联合空间时出现语义混淆。
类似于人脑的信息处理方法,我们设计了一个带有迷你适配器的分层多模态适配器。该框架模仿人脑利用共享的小型区域处理来自视觉和语言刺激的神经冲动的策略。它通过分层共享多个迷你适配器,从低到高级别地建模视觉-语言语义空间。最后,我们引入了一个新的目标函数,以缓解同一模态内部特征的严重聚类。由于其简单性,该方法可以轻松集成到几乎所有现有的多模态框架中。

方法

在这里插入图片描述
我们提出的 HarMA 框架首先使用图像和文本编码器提取表示,类似于 CLIP。然后这些特征通过我们独特的多模态门控适配器进行处理以获得精炼的特征表示。与使用的简单线性层交互不同,我们采用了共享的迷你适配器作为整个适配器内的交互层。之后,我们使用对比学习目标和我们的自适应三元损失进行优化。

多模态门控适配器

在这里插入图片描述
在这个模块中,提取的特征 z I z^I zI z T z^T zT 首先被投影到低维嵌入中。不同的特征 z I z^I zI ( z T z^T zT) 在经过非线性激活和随后的 I-MSA 处理后,特征表达得到了进一步增强。I-MSA 及其后的 MM-MSA 共享参数。然后,这些特征被送入我们设计的多模态子适配器 (MMS-Adapter) 进行进一步交互,该模块的结构在图 3 的右侧显示。

多模态子适配器 (MMS-Adapter)类似于标准适配器,通过共享权重自注意力对齐多模态上下文表示。然而,这些对齐表示的直接后投影输出对图像-文本检索性能产生负面影响,可能是因为在特征的低维流形空间中的非对角线语义关键匹配。这与对比学习目标相矛盾。

为了解决这个问题,已经对齐的表示在 MSA 中进一步使用共享权重进行处理,从而减少模型参数并利用先前的模态知识。为了确保图像和文本之间的更细粒度的语义匹配,我们在 MGA 输出中引入了早期图像-文本匹配监督,显著减少了上述问题的发生。

最终,特征被重新投影回其原始维度,然后添加跳跃连接。最后一层初始化为零,以在训练的初始阶段保护预训练模型的性能。算法 1 概述了提出的方法。

在这里插入图片描述

算法1 多模态门控适配器(MGA)用于跨模态交互。
输入:分别来自图像和文本编码器的特征张量 Z I Z_I ZI Z T Z_T ZT
参数:权重矩阵 W 1 , W 2 , W i W_1, W_2, W_i W1,W2,Wi,偏置向量 b 1 , b 2 , b i b_1, b_2, b_i b1,b2,bi,以及可学习的门控参数 λ 1 , λ 2 \lambda_1, \lambda_2 λ1,λ2
输出:图像和文本的增强特征张量 f I e n d f_I^{end} fIend f T e n d f_T^{end} fTend
函数 σ ( ⋅ ) \sigma(·) σ() 是非线性激活函数(例如,GELU)
函数 MSA(·) 是多头自注意力机制
函数 MMSA(x) 是多模态子适配器机制,定义为: MMSA ( x ) = W i u p ( MSA ( σ ( W i d o w n x + b i d o w n ) ) ) + b i u p \text{MMSA}(x) = W_i^{up}(\text{MSA}(\sigma(W_i^{down}x + b_i^{down}))) + b_i^{up} MMSA(x)=Wiup(MSA(σ(Widownx+bidown)))+biup

对于特征张量集合 { Z I , Z T } \{Z_I, Z_T\} {ZI,ZT} 中的每个 Z Z Z 做如下操作:
f 1 = σ ( W 1 Z + b 1 ) f_1 = \sigma(W_1Z + b_1) f1=σ(W1Z+b1) # 处理图像和文本特征张量
f 2 = MSA ( f 1 ) f_2 = \text{MSA}(f_1) f2=MSA(f1)
f 3 = λ 1 MMSA ( f 2 ) + ( 1 − λ 1 ) f 2 f_3 = \lambda_1\text{MMSA}(f_2) + (1 - \lambda_1)f_2 f3=λ1MMSA(f2)+(1λ1)f2 # 应用带门控的多模态子适配器
f 4 = λ 2 MSA ( f 3 ) + ( 1 − λ 2 ) f 1 f_4 = \lambda_2\text{MSA}(f_3) + (1 - \lambda_2)f_1 f4=λ2MSA(f3)+(1λ2)f1
f e n d = ( W 2 f 4 + b 2 ) + Z f_{end} = (W_2f_4 + b_2) + Z fend=(W2f4+b2)+Z
结束循环
返回 f I e n d , f T e n d f_I^{end}, f_T^{end} fIend,fTend

解释:
算法1描述了一个用于增强图像和文本特征的多模态门控适配器(MGA)。这个过程旨在改善跨模态交互,即图像和文本之间的信息交流,以便于它们能够更好地联合表示。

  1. 输入:算法接收来自图像编码器和文本编码器的特征张量 Z I Z_I ZI Z T Z_T ZT

  2. 参数:包含权重矩阵、偏置向量和门控参数,这些参数将用于适配器中的不同处理步骤。

  3. 处理步骤

    • 首先,使用非线性激活函数(如GELU)处理特征张量。
    • 然后,应用多头自注意力机制(MSA)来增强特征表达。
    • 接着,通过多模态子适配器(MMSA)进一步处理特征,该适配器使用共享权重和门控机制来调整特征。
    • 门控机制允许模型选择性地结合来自不同模态的特征。
  4. 输出:最终,算法输出增强后的图像和文本特征张量 f I e n d f_I^{end} fIend f T e n d f_T^{end} fTend,这些张量可以用于后续的跨模态任务,如图像-文本检索。

  5. 目的:通过这种增强,模型能够更好地理解和关联图像和文本数据,从而在多模态任务中取得更好的性能。

目标函数

在多模态学习领域,当进行下游任务的迁移学习时,通常需要为不同任务定制目标函数,并对齐不同模态嵌入。我们最初可以定义应用于所有下游任务的多模态学习目标如下:
在这里插入图片描述
L t a s k i L^i_{task} Ltaski 表示第 i 个任务的任务损失, L a l i g n j k L^{jk}_{align} Lalignjk 表示不同模态对 (j, k) 之间的对齐损失。期望是针对每个任务的数据分布 D D D。θ* 表示迁移学习的目标参数。
然而,在遥感领域,我们观察到表现不佳的模型有时表现出同模态嵌入聚集在一起的现象,如图 1 所示。Wang & Isola (2020) 强调了来自同一分布的模态对齐的低均匀性可能会限制嵌入的可迁移性。为确保来自同一模态的嵌入均匀对齐而不过度聚集,应用于遥感下游任务的多模态学习统一目标可以定义为:
在这里插入图片描述

在这个方程中, L i n i L_{ini} Lini 表示初始优化目标(方程 1),由任务损失和对齐损失组成。 L u n i f o r m i L^i_{uniform} Luniformi 表示第 i 个模态的单模态均匀性损失, D ( θ , θ ∗ ) D(θ, θ*) D(θ,θ) 是原始和更新模型参数之间的成本度量,被限制为小于 δ。δ 是理想状态下的最小参数更新成本。

我们观察到现有的工作通常只探索一个或两个目标,大多数要么关注如何有效地微调参数以适应下游任务 (Jiang et al., 2022b; Jie & Deng, 2022; Yuan et al., 2023),要么关注模态对齐 (Chen et al., 2020; Ma et al., 2023; Pan et al., 2023a)。很少有工作能够同时满足上述公式中概述的三个要求。我们通过引入模仿人脑的适配器来满足高效迁移学习的需求。这促使我们提出问题:我们如何实现后两个目标——在不同模态之间实现高对齐的嵌入,同时防止同一模态内嵌入的过度聚集
我们提出了一种自适应三元损失,它自动挖掘并优化硬样本:
在这里插入图片描述
其中 s i j s_{ij} sij 是图像特征 i 和文本特征 j 之间的点积, w i w_i wi w j w_j wj 是样本 i 和 j 的权重,由不同样本的损失大小决定。
在这里插入图片描述
其中 γ 是一个超参数,用于调整权重的大小。这个损失函数的目标是将正样本的特征更紧密地聚集在一起,同时将正样本和负样本之间的特征分开。通过动态调整在硬样本和简单样本之间的关注点,我们的方法有效地满足了上述提出的另外两个目标。它不仅在细粒度层面上对齐了不同模态样本,还防止了同一模态样本之间的过度聚合,从而增强了模型的匹配能力。此外,按照 (Radford et al., 2021b) 的方法,我们使用对比学习目标来对齐图像和文本的语义特征。因此,总目标定义为:
在这里插入图片描述

实验

在这里插入图片描述
首先,如第一列所示,我们的方法在需要显著较少调整参数的情况下,超越了传统的最先进方法。其次,当使用CLIP(ViT-B-32)(Radford等人,2021a)作为主干时,我们的方法与完全微调方法相比具有竞争力甚至更优越的性能。具体来说,当与具有相似数量可调参数的方法匹配时,我们方法的平均召回率(MR)比CLIP-Adapter(Gao等人,2021)在RSICD上提高了约50%,在RSITMD上比UniAdapter(Lu等人,2023)提高了12.7%,并且在RSITMD上比UniAdapter提高了18.6%。值得注意的是,通过利用GeoRSCLIP的预训练权重,HarMA为遥感领域的两个流行的多模态检索任务建立了新的基准。它只修改了不到4%的总模型参数,超越了所有当前的参数高效微调方法,甚至在RSICD和RSITMD上超过了完全微调的GeoRSCLIP的图像-文本检索性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/675877.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

vscode快捷键英文单词对照表

今天想改我的vscode快捷键,unfoldall这条跟我其他的ide都不一样,我得挨个记……但是ctrlshiftp一打开快捷键 点击右侧齿轮进行快捷键录制,但是我这次点左边进去查看了一下unfoldall当前是什么 后来看到了……这些oem_5是什么鬼? {…

03-07Java自动化之JAVA基础之循环

JAVA基础之循环 一、for循环 1.1for循环的含义 for(初始化语句;条件判断;条件控制或–){ ​ //代码语句 } 1、首先执行初始话语句,给变量一个起始的值 2、条件判断进行判断,为true,执行循环体中的代码语句 ​ …

从零开始学习Linux(9)----文件系统

1.前言 1.铺垫 a.文件内容属性 b.访问文件之前,都得先打开,修改文件,都是通过执行代码的方式完成修改,文件必须被加载到内存中 c.谁打开文件?进程在打开文件 d.一个进程可以打开多少个文件呢?可以打开多个…

idea springboot woff/woff2/eot/ttf/svg等小图标不显示的问题 - 第515篇

历史文章(文章累计500) 《国内最全的Spring Boot系列之一》 《国内最全的Spring Boot系列之二》 《国内最全的Spring Boot系列之三》 《国内最全的Spring Boot系列之四》 《国内最全的Spring Boot系列之五》 《国内最全的Spring Boot系列之六》 《…

swiftUI使用VideoPlayer和AVPlayer播放视频

使用VideoPlayer包播放视频:https://github.com/wxxsw/VideoPlayer 提供一些可供测试的视频链接,不保证稳定可用哦: https://vfx.mtime.cn/Video/2019/06/15/mp4/190615103827358781.mp4https://clips.vorwaerts-gmbh.de/big_buck_bunny.mp…

基于ssh的实验室设备管理系统java项目实验室管理系统spring项目jsp项目

文章目录 实验室设备管理系统一、项目演示二、项目介绍三、系统部分功能截图四、部分代码展示五、底部获取项目源码(9.9¥带走) 实验室设备管理系统 一、项目演示 实验室设备管理系统 二、项目介绍 基于sshjsp的实验室设备管理系统 系统角色…

6-Django项目--分页模块化封装参数共存

目录 utils/page_data.py 分页模块化封装 在app当中创建一个python package 在当前包里面创建py文件 参数共存 完整代码 utils/page_data.py --包里创建py文件. # -*- coding:utf-8 -*- from django.utils.safestring import mark_safe from copy import deepcopyclass…

网线水晶头为什么要按标准线序打

网线接水晶头为什么要按照线序接? 减少串扰和增强信号质量: 双绞线的设计是为了减少信号间的串扰( Crosstalk),每一对线芯在传输过程中通过相互扭绞抵消外部电磁干扰。按照标准线序接线能够确保每一对线芯之间的信号传…

maridb10.4.30数据库数据迁移

1.新建数据存储文件夹,例如E:\maridb_data 2.修改原数据所在目录的my.ini文件,例如D:\Program Files\MariaDB 10.4\data\my.ini 3.剪切除my.ini文件外的其他所有文件到迁移目的地文件(E:\maridb_data) 结果如下: 原数据文件目录&#xff1a…

MySQL—约束—外键约束(基础)

一、引言 概念:外键用来让两张表的数据之间建立连接,从而保证数据的一致性和完整性。 举个例子: 提示说明:(有两张表) (1)员工表:emp id:主键、姓名、年龄、…

qt+ffmpeg 实现音视频播放(四)之音视频同步

在处理音视频数据时,解码音频的数据往往会比解码视频的数据比较慢,所以我们在播放音视频时,音频和视频的数据会出现渐渐对不上的情况。尤其在播放时间越长的时候,这种对不上的现象越明显。 为了解决这一问题,人们想出…

485通讯网关

在工业自动化与智能化的浪潮中,数据的传输与交互显得尤为重要。作为这一领域的核心设备,485通讯网关凭借其卓越的性能和广泛的应用场景,成为了连接不同设备、不同协议之间数据转换和传输的桥梁。在众多485通讯网关中,HiWoo Box以其…

MySQL报ERROR 2002 (HY000)解决

今天在连接客户服务器时MySQL的时候报: ERROR 2002 (HY000): Can’t connect to local MySQL server through socket ‘/tmp/mysql/mysql.sock’ (2) [rootXXX ~]# mysql -uroot -p Enter password: ERROR 2002 (HY000): Can’t connect to local MySQL server through socket…

SpringBoot邮件发送的安全性如何有效保障?

SpringBoot邮件发送服务如何集成?怎么优化邮件发送? Spring Boot作为一个流行的Java开发框架,提供了便捷的邮件发送功能,使得开发者可以轻松地集成邮件发送到他们的应用程序中。AokSend将探讨如何有效地保障Spring Boot邮件发送的…

linux驱动学习(四)之module

一、内核模块 内核模块是一种可以动态加载到操作系统内核中并扩展其功能的软件。它们允许在运行的操作系统内核中增加新的功能或驱动程序,而无需重新启动计算机。 在linux系统中,驱动程序是各自独立存在的,而且驱动程序中包含一个moudle&am…

抽屉式备忘录(共25041字)

Sing Me to Sleep <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>与妖为邻的备忘录</title&g…

【UE5.1 角色练习】09-物体抬升、抛出技能 - part1

前言 在上一篇&#xff08;【UE5.1 角色练习】08-传送技能&#xff09;的基础上继续实现控制物体抬升、抛出的功能。 效果 步骤 一、准备技能动画 1. 在项目设置中新建一个操作映射&#xff0c;这里命名为“Skill_GravityControl”&#xff0c;用按键4触发 2. 通过IK重定向…

ESP使用巴法云远程OTA(VScode + Platform io)

ESP使用巴法云远程OTA&#xff08;Platform&#xff09; 什么是OTA&#xff1a; OTA&#xff08;Over-the-AirTechnology&#xff09;即空中下载技术&#xff0c;是通过移动通信的空中接口实现对移动终端设备及SIM卡数据进行远程管理的技术。OTA升级是物联网&#xff08;IOT&am…

[深度学习]yolov10+deepsort+pyqt5实现目标追踪

YOLOv10DeepSORTPyQt5实现目标追踪系统 在现代智能监控系统中&#xff0c;目标追踪技术扮演着至关重要的角色。结合YOLOv10&#xff08;一种先进的实时目标检测算法&#xff09;与DeepSORT&#xff08;一种多目标追踪算法&#xff09;&#xff0c;并通过PyQt5构建用户界面&…

想要做好海外广告投放?建议这几点先了解清楚

在全球市场竞争日益激烈的今天&#xff0c;跨境电商和出海营销早已经成为了热门选择&#xff0c;随之而来海外广告的投放也受到众多人的青睐。无论是想要提升品牌知名度&#xff0c;还是实现销售增长&#xff0c;正确的广告投放都能事半功倍。错误的选择不仅浪费资源&#xff0…