(ISPRS,2021)具有遥感知识图谱的鲁棒深度对齐网络用于零样本和广义零样本遥感图像场景分类

文章目录

  • Robust deep alignment network with remote sensing knowledge graph for zero-shot and generalized zero-shot remote sensing image scene classification
    • 相关资料
    • 摘要
    • 引言
    • 遥感知识图谱的表示学习
      • 遥感知识图谱的构建
      • 实体和关系的语义表示学习
      • 创建遥感场景类别的语义表示
    • 鲁棒深度对齐网络用于零样本和广义零样本遥感图像场景分类
      • 零样本学习(ZSL)和广义零样本学习(GZSL)的定义
      • 潜在空间中的鲁棒深度对齐网络
        • 视觉特征和语义表示的重建
        • 跨模态特征重建(CMFR)
        • 视觉和语义分布匹配(VSDM)
        • 多类别分布分散(MCDD)
    • 实验
    • 实验

Robust deep alignment network with remote sensing knowledge graph for zero-shot and generalized zero-shot remote sensing image scene classification

相关资料

论文:Robust deep alignment network with remote sensing knowledge graph for zero-shot and generalized zero-shot remote sensing image scene classification - ScienceDirect

代码:kdy2021/SR-RSKG (github.com)

摘要

尽管深度学习已经彻底改变了遥感图像场景分类,但当前基于深度学习的方法高度依赖于预定场景类别的大量监督,并且对于超出预定场景类别的新类别表现不佳。实际上,随着涉及遥感图像场景新类别的新应用的出现,分类任务通常需要扩展,因此如何使深度学习模型具备识别训练阶段未预定场景类别之外的未见遥感图像场景的推理能力变得非常重要。本文充分利用遥感领域的特征,从头构建了一个新的遥感知识图谱(RSKG),以支持未见遥感图像场景的推理识别。为了提高面向遥感的场景类别的语义表示能力,本文提出通过遥感知识图谱的表示学习生成场景类别的语义表示(SR-RSKG)。为了追求视觉特征和语义表示之间鲁棒的跨模态匹配,本文提出了一种新型的深度对齐网络(DAN),并设计了一系列优化约束,可以同时解决零样本和广义零样本遥感图像场景分类问题。在多个公开数据集的集成遥感图像场景数据集上的广泛实验表明,所提出的SR-RSKG明显优于传统知识类型(例如,自然语言处理模型和手动注释的属性向量),并且在零样本和广义零样本遥感图像场景分类设置下,我们提出的DAN与现有最先进方法相比表现出更好的性能。构建的RSKG将与本文一起公开提供(https://github.com/kdy2021/SR-RSKG)。

引言

零样本学习(ZSL)近年来的发展为识别未见类别的样本提供了有希望的解决方案。通过利用包括看到和未见类别在内的类别的先验知识作为辅助信息,ZSL可以学习从看到类别的样本中识别未见类别的样本。通常,看到和未见类别的语义信息是人类的常识,这是普遍的,可以在训练和测试阶段使用,但是训练阶段不存在未见类别的图像样本。因此,如何表达语义是追求ZSL优越性能的关键

与计算机视觉领域相比,遥感领域的特点限制了ZSL和GZSL的发展:

  1. 遥感场景类别的名称通常具有领域特异性。如果直接利用通用自然语言处理模型(例如,Word2Vec)将遥感场景类别的名称映射为语义表示,那么这些语义表示就不能反映遥感类别的内在语义信息。
  2. 遥感图像场景通常具有大的类内差异和大的类间相似性,通常比计算机视觉领域的自然图像具有更复杂的外观。通常,在计算机视觉领域取得优异结果的ZSL和GZSL方法不能直接扩展到遥感领域的任务。总的来说,推动零样本和广义零样本遥感图像场景分类的发展值得更多的探索。

为了生成高质量的遥感场景类别的语义表示,本文基于人类专家的领域先验知识构建了一个新的遥感知识图谱(Remote Sensing Knowledge Graph, RSKG),其中RSKG充分考虑了遥感场景元素之间丰富的联系。据我们所知,本文首次提出通过遥感知识图谱的表示学习来计算遥感场景类别的语义表示(Semantic Representations of RS scene categories by representation learning of RSKG, SR-RSKG)。基于SR-RSKG,本文提出了一个新的深度对齐网络(Deep Alignment Network, DAN),并设计了一系列精心设计的约束条件,该网络可以在潜在空间中稳健地匹配视觉特征和语义表示,以解决零样本和广义零样本遥感图像场景分类问题。

遥感知识图谱的表示学习

遥感知识图谱的构建

在这里插入图片描述

为了支持零样本遥感图像场景分类,我们基于遥感场景元素构建了一个新的知识图谱(即RSKG)。值得注意的是,RS场景不仅仅是一系列对象的集合,它还包含了对象之间丰富的关系。结合遥感图像内容的特点以及地理空间关系的相关研究,我们定义了RSKG中的关系如下:

我们将关系分为两类:属性关系空间关系

  • 属性关系用于描述对象的特征或与其他对象的父子关系,可以进一步细分为数据关系和对象关系。数据关系包括形状、颜色、宽度、分布和高度;对象关系包括“拥有”、“组成部分”、“部分”和“成员”。

  • 空间关系主要描述空间中不同对象之间的位置关系,可以细分为位置关系拓扑关系模糊关系。位置关系包括“标出”、“停靠”、“停止”、“在上方”和“在上方”;拓扑关系包括“被包围”、“在…交叉”、“通过”、“遇见”、“连接”、“覆盖”、“包含”和“在内”;模糊关系包括“靠近”、“旁边”、“周围”和“沿着”。

在这里插入图片描述

当前版本的RSKG包含117个实体、26种关系和191个三元组

实体和关系的语义表示学习

在这里插入图片描述

对于知识图谱中的每个三元组(h, r, t),TransE模型假设头部实体向量加上关系向量大约等于尾部实体向量。然而,TransE模型无法处理知识图谱中出现的1-N或N-1等复杂关系。为了解决这个问题,我们推荐使用改进的表示学习模型TransH,它通过将关系建模为超平面上的平移操作来灵活处理复杂关系。

在TransH模型中,给定的嵌入向量ch和ct被映射到超平面上,通过计算 c h ⊥ = c h − w r ⊺ c h w r c_{h_⊥} = c_h − w^⊺_rc_hw_r ch=chwrchwr c t ⊥ = c t − w r ⊺ c t w r c_{t_⊥} = c_t − w^⊺_rc_tw_r ct=ctwrctwr,其中 w r w_r wr是超平面的法向量。然后,通过最小化目标函数来优化嵌入向量,目标函数定义为:

f r ( h , t ) = ∥ c h ⊥ + c r − c t ⊥ ∥ 2 2 f_r(h, t) = \| c_{h_⊥} + c_r - c_{t_⊥} \|^2_2 fr(h,t)=ch+crct22

通过最小化损失函数:

L T r a n s H = ∑ ( h , r , t ) ∈ Δ ∑ ( h ′ , r ′ , t ′ ) ∈ Δ ′ max ⁡ ( f r ( h , t ) + τ − f r ( h ′ , t ′ ) , 0 ) L_{TransH} = \sum_{(h,r,t) \in \Delta} \sum_{(h',r',t') \in \Delta'} \max(f_r(h, t) + \tau - f_r(h', t'), 0) LTransH=(h,r,t)Δ(h,r,t)Δmax(fr(h,t)+τfr(h,t),0)

其中Δ是正确三元组的集合,Δ’是错误的三元组集合,τ是正确三元组和错误三元组分数之间的最小间隔,通常设置为1。通过优化目标函数,我们可以获得SR-RSKG。

创建遥感场景类别的语义表示

在这里插入图片描述

为了全面评估零样本和广义零样本遥感图像场景分类的性能,我们采用了一个合并的数据集,该数据集整合了五个公共数据集:UCM、AID、NWPU-RESISC45、RSI-CB256和PatternNet。合并的遥感图像场景数据集由70个场景类别组成,每个类别包含800个图像场景,图像尺寸为256×256像素。如前所述,RSKG的构建考虑了尽可能多的遥感对象和场景类别的细节,因此RSKG中的实体通常涵盖了特定数据集中的场景类别。简而言之,特定任务中的场景类别可以在RSKG中找到相应的实体。

假设 Y = { y 1 , y 2 , . . . , y M } Y = \{y_1, y_2, ..., y_M\} Y={y1,y2,...,yM}表示遥感场景类别的标签集,其中 M M M表示数据集中场景类别的数量。对于每个标签 y i ∈ Y y_i \in Y yiY,RSKG中的实体与 y i y_i yi(即场景类别)有一一对应关系,我们将实体对应的语义表示记为 c i ∈ C c_i \in C ciC。值得注意的是,构建的RSKG中的实体不仅包括本文中采用的遥感场景分类数据集的场景类别,还包括其他可能的实体或同义词。因此,只要场景类别可以从RSKG中找到实体或同义词,其他遥感场景分类任务也可以灵活地使用RSKG。

鲁棒深度对齐网络用于零样本和广义零样本遥感图像场景分类

零样本学习(ZSL)和广义零样本学习(GZSL)的定义

ZSL任务的定义如下:设 D s = { ( x s i , y s i , c ( y s i ) ) ∣ i = 1 , 2 , . . . , N } D_s = \{ (x_s^i, y_s^i, c(y_s^i)) \mid i = 1, 2, ..., N \} Ds={(xsi,ysi,c(ysi))i=1,2,...,N}表示训练样本集(即已见样本)。具体来说, x s i ∈ X s x_s^i \in X_s xsiXs表示来自已见类别的第i个遥感图像场景的视觉图像特征,其中图像特征是由CNN模型提取的。 y s y_s ys表示来自已见类别的第i个遥感图像场景的标签, c ( y s ) ∈ C s c(y_s) \in C_s c(ys)Cs表示相应类别的语义表示(例如,SR-RSKG)。N表示训练样本的数量。同样,我们定义 X u , Y u , C u X_u, Y_u, C_u Xu,Yu,Cu为未见过的视觉图像特征、相应的标签和语义表示。众所周知,对于ZSL和GZSL,已见类别和未见类别是不相交的,即 Y s ∩ Y u = ∅ Y_s \cap Y_u = \emptyset YsYu=。给定训练数据集 D s D_s Ds { Y u , C u } \{Y_u, C_u\} {Yu,Cu},在传统的ZSL中,任务是学习一个分类器 F Z S L : X u → Y u F_{ZSL}: X_u \rightarrow Y_u FZSL:XuYu。在GZSL中,任务是学习一个分类器 F G Z S L : X s ∪ X u → Y s ∪ Y u F_{GZSL}: X_s \cup X_u \rightarrow Y_s \cup Y_u FGZSL:XsXuYsYu

潜在空间中的鲁棒深度对齐网络

在这里插入图片描述

我们不是从视觉空间到语义空间或从语义空间到视觉空间学习映射,而是在潜在空间中学习视觉特征和语义表示的映射,以便我们可以减轻ZSL中的中心性问题(hubness problem)并增强视觉-语义耦合。

首先,我们最小化视觉和语义表示的重建损失。然后,我们在隐藏空间中对齐视觉和语义的分布,这进一步在对齐视觉特征和语义表示的基础上分离了不同类别的特征分布,提高了ZSL任务的性能。

此外,该方法基于潜在空间映射和生成训练样本的方法来训练分类器,平衡了已见和未见类别的分类性能,因此在GZSL任务中也表现出色。值得注意的是,所提到的深度对齐网络本质上试图解决文献中存在的协调表示问题。

L = L V A E + α L C M F R + β L V S D M + γ L M C D D L = L_{VAE} + \alpha L_{CMFR} + \beta L_{VSDM} + \gamma L_{MCDD} L=LVAE+αLCMFR+βLVSDM+γLMCDD

其中 α、β 和 γ 分别是跨模态特征重建损失视觉和语义分布匹配损失以及多类别分布分散损失的权重因子。

视觉特征和语义表示的重建

由于我们提出的方法在潜在空间中学习视觉特征和语义表示的映射,我们首先需要确保每种模态在潜在空间中的表示能力。此外,为了最小化信息的丢失,应尽可能使用潜在向量重建原始数据。因此,我们遵循VAE网络的架构来学习视觉特征和语义表示的重建模型,将视觉特征和语义表示投影到潜在空间中。

在这里插入图片描述

跨模态特征重建(CMFR)

通过视觉特征和语义表示的重建,我们学习了潜在空间中视觉特征和语义表示的表示。接下来,我们需要在潜在空间中对齐它们的表示。我们从两个方面实现这一点。首先是跨模态特征重建(CMFR)。在这里,视觉特征和语义表示交叉输入到另一种模态的编码器中,跨模态特征重建的损失函数可以由公式(5)定义。

在这里插入图片描述

其中 N 表示训练样本的数量, x i x_i xi c i c_i ci分别表示同一类别的视觉特征和语义表示。

视觉和语义分布匹配(VSDM)

第二是视觉和语义分布匹配(VSDM)。视觉特征和语义表示在潜在空间中的分布由 μ ( v ) i , σ ( v ) i \mu(v)_i, \sigma(v)_i μ(v)i,σ(v)i μ ( a ) i , σ ( a ) i \mu(a)_i, \sigma(a)_i μ(a)i,σ(a)i确定。我们通过减少它们之间的距离,进一步匹配潜在空间中视觉特征和语义表示的分布,视觉和语义分布匹配的损失函数可以由公式(6)定义。

在这里插入图片描述

其中 N 表示训练样本的数量, μ ( v ) i \mu(v)_i μ(v)i σ ( v ) i \sigma(v)_i σ(v)i分别表示潜在空间中视觉特征分布的均值和标准差, μ ( a ) i \mu(a)_i μ(a)i σ ( a ) i \sigma(a)_i σ(a)i分别表示潜在空间中语义表示分布的均值和标准差。

多类别分布分散(MCDD)

正如我们之前提到的,遥感图像场景具有显著的类间相似性特征,这对分类任务非常不利。为此,我们增加了约束条件,使潜在空间中不同类别的分布更加分散,多类别分布分散的损失函数可以由公式(7)定义。

在这里插入图片描述

其中 V = [ μ ( a ) 1 , μ ( a ) 2 , . . . , μ ( a ) N ] ∈ R d × N [ \mu(a)_1, \mu(a)_2, ..., \mu(a)_N ] \in \mathbb{R}^{d \times N} [μ(a)1,μ(a)2,...,μ(a)N]Rd×N,H = ( N ⋅ P − W ) / N (N \cdot P - W) / N (NPW)/N,P ∈ R N × N \mathbb{R}^{N \times N} RN×N表示单位矩阵,W ∈ R N × N \mathbb{R}^{N \times N} RN×N表示所有元素都等于1的矩阵,I ∈ R d × d \mathbb{R}^{d \times d} Rd×d是单位矩阵。

实验

N × N N \times N N×N表示单位矩阵, W ∈ R N × N W ∈\mathbb{R}^{N \times N} WRN×N表示所有元素都等于1的矩阵, I ∈ R d × d I ∈\mathbb{R}^{d \times d} IRd×d是单位矩阵。

实验

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/843223.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【C#】计算两条直线的交点坐标

问题描述 计算两条直线的交点坐标,可以理解为给定坐标P1、P2、P3、P4,形成两条线,返回这两条直线的交点坐标? 注意区分:这两条线是否垂直、是否平行。 代码实现 斜率解释 斜率是数学中的一个概念,特别是…

TiDB实践—索引加速+分布式执行框架创建索引提升70+倍

作者: 数据源的TiDB学习之路 原文来源: https://tidb.net/blog/92d348c2 背景介绍 TiDB 采用在线异步变更的方式执行 DDL 语句,从而实现 DDL 语句的执行不会阻塞其他会话中的 DML 语句。按照是否需要操作 DDL 目标对象所包括的数据来划分…

QT样式美化 之 qss入门

样例一 *{font-size:13px;color:white;font-family:"宋体"; }CallWidget QLineEdit#telEdt {font-size:24px;}QMainWindow,QDialog{background: qlineargradient(x1: 0, y1: 0, x2: 0, y2: 1,stop: 0 #1B2534, stop: 0.4 #010101,stop: 0.5 #000101, stop: 1.0 #1F2B…

springboot项目中,yml文件乱码

项目场景: 在springboot项目的resource目录,新建yml文件,并且输入了中文,但是关闭idea,再打开,里面的中文乱码了 问题描述 原因分析: 编码设置相关 解决方案: 方案1&#xff0…

使用 XPath 定位 HTML 中的 img 标签

引言 随着互联网内容的日益丰富,网页数据的自动化处理变得愈发重要。图片作为网页中的重要组成部分,其获取和处理在许多应用场景中都显得至关重要。例如,在社交媒体分析、内容聚合平台、数据抓取工具等领域,图片的自动下载和处理…

Linux源码安装的Redis如何配置systemd管理并设置开机启动

文章目录 实验前提实验 实验前提 已完成源码安装并能正常启动redis /usr/local/bin/redis-server能正常启动redis 实验 vim /etc/systemd/system/redis.service内容如下: [unit] Descriptionredis-server Afternetwork.target[Service] Typeforking ExecStart/…

k8s集群 安装配置 Prometheus+grafana

k8s集群 安装配置 Prometheusgrafana k8s环境如下:机器规划: node-exporter组件安装和配置安装node-exporter通过node-exporter采集数据显示192.168.40.180主机cpu的使用情况显示192.168.40.180主机负载使用情况 Prometheus server安装和配置创建sa账号&…

[论文笔记] CT数据配比方法论——1、Motivation

我正在写这方面的论文,感兴趣的可以和我一起讨论!!!!!! Motivation 1、探测原有模型的配比: 配比 与 ppl, loss, bpw, benchmark等指标 之间的关系。 2、效果稳定的配比:配比 与 模型效果 之间的规律。 Experiments 1、主语言(什么语言作为主语言,几种主语言?…

Linux----Mplayer音视频库的移植

想要播放视频音乐就得移植相关库到板子上 Mplayer移植需要依赖以下源文件:(从官网获取或者网上) 1、zlib-1.2.3.tar.gz :通用的内存空间的压缩库。 2、libpng-1.2.57.tar.gz :png格式图片的压缩或解压库 3、Jpegsrc.v9b.tar.gz : jpeg格式图片的压…

docker应用:搭建云手机

简介:近来慵懒,身体懈怠良多,思来想去随手看点小攻略以宽慰不懈怠的心。云手机Cloudphone,就是将云计算技术运用于网络终端服务,通过云服务器实现云服务的手机。其实就是深度结合了网络服务的智能手机,这类…

初谈Linux信号-=-信号的产生

文章目录 概述从生活角度理解信号Linux中信号信号常见的处理方式理解信号的发送与保存 信号的产生core、term区别 概述 从生活角度理解信号 你在网上买了很多件商品,再等待不同商品快递的到来。但即便快递没有到来,你也知道快递来临时, 你该…

【IntelliJ IDEA】一篇文章集合所有IDEA的所有设置

IntelliJ IDEA 是一款功能强大的集成开发环境(IDE),其设置涵盖了多个方面,以满足不同开发者的需求和偏好。由于 IDEA 的设置相当复杂和详尽,这里无法在一篇简短的文章中详细介绍所有设置。然而,我可以提供一…

义务外贸wordpress独立站主题

健身器材wordpress网站模板 跑步机、椭圆机、划船机、动感单车、健身车、深蹲架、龙门架、健身器材wordpress网站模板。 https://www.jianzhanpress.com/?p4251 农业机械wordpress网站模板 植保机械、畜牧养殖机械、农机配件、土壤耕整机械、农业机械wordpress网站模板。 …

戴着苹果Vision Pro,如何吃花生米

6月底苹果Vision Pro国内开售,我早早到官网预订了一台。选择必要的配件,输入视力信息,定制符合自己视力的蔡司镜片。确实贵。把主要配件和镜片配齐,要3万6,比Pico、META的眼镜贵一个数量级。 Vision Pro出来后&#x…

复合翼无人机搭载自组网模块集群组网技术实现详解

复合翼无人机作为一种具备高效飞行和长航时特点的飞行器,在多个领域如军事侦察、环境监测、灾害救援等都有着广泛的应用。而为了实现复合翼无人机之间的高效通信,搭载自组网模块实现集群组网技术显得尤为重要。本文将详细介绍复合翼无人机搭载自组网模块…

Java实现随机题库-全站最呆瓜思想,保证你能学会

目录 Blue留言 : 学本篇文章之前所需掌握技能 推荐视频: 代码逻辑思想 步骤: 1、引入依赖 2、做一个excel表格 3、java实现从excel表中取数据 第一步:根据excel上面的字段名(如下图)&#xff0…

Boost搜索引擎项目相关介绍

Boost搜索引擎相关介绍: 首先,Boost库不具备搜索条件,所以我们这个项目借此实现搜索功能。 项目的核心就是以用户搜索的相关内容在目标数据中进行查找。 首先,我们面临的第一大难题就是目标数据,在这里目标数据就是Boo…

如何学习Spark:糙快猛的大数据之旅

作为一名大数据开发者,我深知学习Spark的重要性。今天,我想和大家分享一下我的Spark学习心得,希望能够帮助到正在学习或准备学习Spark的朋友们。 目录 Spark是什么?学习Spark的"糙快猛"之道1. 不要追求完美,在实践中学习2. 利用大模型作为24小时助教3. 根据自己的节…

51单片机学习(4)

一、串口通信 1.串口通信介绍 写完串口函数时进行模块化编程,模块化编程之后要对其进行注释,以便之后使用模块化函数,对模块化.c文件中的每一个函数进行注释。 注意:一个函数不能既在主函数又在中断函数中 模式1最常用&#xf…

《Towards Black-Box Membership Inference Attack for Diffusion Models》论文笔记

《Towards Black-Box Membership Inference Attack for Diffusion Models》 Abstract 识别艺术品是否用于训练扩散模型的挑战,重点是人工智能生成的艺术品中的成员推断攻击——copyright protection不需要访问内部模型组件的新型黑盒攻击方法展示了在评估 DALL-E …