面向多源异质遥感影像地物分类的自监督预训练方法

源自:测绘学报

作者:薛志祥, 余旭初, 刘景正, 杨国鹏, 刘冰, 余岸竹, 周嘉男, 金上鸿

近年来,深度学习改变了遥感图像处理的方法。由于标注高质量样本费时费力,标签样本数量不足的现实问题会严重影响深层神经网络模型的性能。为解决这一突出矛盾,本文提出了用于多源异质遥感影像地物分类的自监督预训练和微调分类方案,旨在缓解模型对于标签样本的严重依赖。具体来讲,生成式自监督学习模型由非对称的编码器-解码器结构组成,其中深度编码器从多源遥感数据中学习高阶关键特征,任务特定的解码器用于重建原始遥感影像。为提升特性表示能力,交叉注意力机制模型用于融合异源特征中的信息,进而从多源异质遥感影像中学习更多的互补信息。在微调分类阶段,预训练好的编码器作为无监督特征提取器,基于Transformer结构的轻量级分类器将学习到的特征与光谱信息结合并用于地物分类。这种自监督预训练方案能够从多源异质遥感影像中学习到刻画原始数据的高级关键特征,并且此过程不需要任何人工标注信息,从而缓解了对标签样本的依赖。与现有的分类范式相比,本文提出的自监督预训练和微调方案在多源遥感影像地物分类中能够取得更优的分类结果。

关键词

遥感, 多源异质数据, 预训练, 自监督学习, 土地覆盖分类

随着遥感技术的快速发展,同一观测场景中存在多种类型的遥感数据。被动式遥感技术可以获取地物的波谱反射特性,其得到的高光谱图像(HSI)、多光谱图像(MSI)和高空间分辨率图像(VHR)包含丰富的光谱和空间结构信息。主动遥感技术通过发射并接收电磁波的方式以探测目标场景,合成孔径雷达(SAR)及机载激光雷达(LiDAR)数据能够记录目标在特定波谱段的辐射特性,并且具有全天时和全天候的观测特点。多源遥感数据在表征内容上具有互补性和冗余性,在获取时间上具有很强的互补性,多源异质遥感数据融合旨在克服单一传感器在观测内容和获取时间上的局限性,综合利用多维度的观测信息对观测场景进行更加精准的解译,已成功应用于土地覆盖分类[1]和农作物精细分类[2]等领域。不同类型的遥感数据包含互补的地物信息,综合利用多源异质遥感影像进行地物分类具有重要意义[3]。

监督分类方法是遥感影像地物分类中常用的学习范式。早期的研究工作主要集中在图像分析技术上,如波段选择[4]、特征提取[5]和分类器设计[6]等方面。深度学习模型具有强大的特征提取能力,卷积神经网络(CNN)可以提取层次化的空间特征,1D CNN[7]、2D CNN[8]和3D CNN[9]模型成功应用于高光谱影像分类。为了更好地挖掘高光谱影像中的光谱序列信息,循环神经网络(RNN)[10]及Transformer结构[11]也用于地物分类任务。同时,注意力机制[12]、知识蒸馏[13]和多尺度学习[14]等机器学习策略旨在进一步提升分类性能。对于多源遥感影像协同分类,主要有高光谱和LiDAR数据分类[15]、高光谱和多光谱图像分类[16],以及高光谱图像和SAR影像协同分类[17]。这些模型都是数据驱动的方法,其分类精度严重依赖于标签样本的数量,因此解决标记样本稀缺性的难题是遥感影像分类领域的重要研究方向之一[18]。半监督学习范式同时利用标签样本和无标签样本进行分类,图卷积神经网络[19]和生成对抗网络[20]通过构图和样本生成的方式来同时利用标签样本和无标签样本,但是这些半监督分类方法在解决样本生成和大影像构图方面存在不足。深度小样例方法在大量预收集的标签样本上进行预训练,然后将训练好的特征提取器迁移至目标数据集进行特征提取[21]。这种预训练方案是监督学习方法,同样需要搜集大量的标签样本,并且不同数据集在光谱分辨率和空间分辨率方面存在很大的差异,因而其特征学习能力有限。

尽管目前的监督学习模型和半监督学习模型取得了较好效果,但这些方法仍然无法解决最突出的问题,即分类过程中存在大量的无标签多源遥感数据,但是有标签的样本数量有限。自监督学习利用数据的固有特性来学习高级关键特征,并将学习到的特征用于下游的分类识别任务,主要分为对比式和生成式两类方法[22]。对比学习通过比对样本增强后的视图,旨在学习到一个潜在特征空间,其中同类的样本聚集在一起,不同类别的样本相互分离,从而学习到兼具不变形和区分性的特征表示。对比学习已成功应用于高光谱影像分类[23]、遥感图像场景分类[24]、PolSAR地物分类[25]及遥感图像变化检测[26]等领域。这些对比学习模型通常使用CNN作为特征提取器,在长距离特征提取和异构特征处理方面存在局限性[27]。生成式自监督学习通过恢复人为破坏后的数据来达到特征学习的目的,其动机是如果模型可以从受损的数据中恢复到原始信号,这意味着模型学习到表征原始信号的关键特征。通过将整幅影像切分为若干子块,并使用视觉Transformer模型来获取影像的全局感受野,掩膜自编码器(MAE)[28]和SimMIM模型[29]能够从掩膜后的图像中学习到高级特征表示,这类方法在自然图像自监督学习领域取得较好的结果。此外,为了从视频数据和多模态数据中学习到有意义的特征,面向多维数据的自监督学习模型尝试在这些数据中进行自监督学习[30-32]。由于遥感影像在内容和结构上与自然图像存在较大差异,遥感图像覆盖的地物类型更加复杂,并且光谱特征和空间特征在结构上存在很大的不同,现有的自监督预训练和分类模型无法有效地利用多源遥感影像中的空间和光谱信息进行特征学习,造成其异构特征学习能力有限。

标注高质量的样本费时费力,使用自监督预训练的方法可以从大量无标记样本中进行特征学习,能够为解决标签样本不足的问题提供一种解决思路。本文提出一种多源遥感影像自监督预训练和微调分类方案,用于多源异质遥感影像的地物协同分类。即面向多源遥感影像的自监督学习模型由非对称的编码器和解码器组成,其中深层编码器利用掩膜后的局部遥感影像进行特征学习,对应每类遥感数据的浅层解码器用于重建原始影像,从而学习到刻画原始多源遥感数据的关键特征。为进一步提升特征的表示能力,采用交叉注意力机制对编码器提取的异质特征进行信息融合。在微调分类阶段,构建基于Transformer结构的轻量级分类器,利用预训练好的编码器作为特征提取器,将提取的特征与光谱特征进行融合并用于地物分类。与常用的监督、半监督和自监督学习方法相比,所提自监督预训练和微调分类方案具有更优的特征学习和分类性能。

1 本文方法

本文方法主要包括多源异质遥感影像自监督预训练和微调分类这两个阶段。在预训练过程中,以局部多源异质遥感影像(如HSI、DSM和VHR)作为处理单元进行特征学习,首先将每种影像在空间维度上划分为若干规则的子块,随机选取一部分的子块进行掩膜处理,未掩膜的影像子块进行特征嵌入,并将所有类型影像的嵌入特征进行堆叠并输入深层编码器进行特征学习;交叉注意力机制模型在学习到的异质特征之间进行信息交换和融合,以进一步提升特征表示能力;任务特定的解码器将每种影像对应的特征和掩膜数据重建为原始的遥感数据。在微调分类阶段,使用预训练好的编码器和交叉注意力机制模型作为无监督特征提取器,利用轻量级分类器将学习到的特征和光谱信息进行融合并分类。由于自监督预训练过程不需要任何人工标注信息,试验中使用所有的遥感数据进行自监督特征学习,在分类阶段,利用学习到的特征和对应的标签进行监督分类。

1.1 多源异质影像自监督预训练模型

由于多源遥感数据包含观测场景冗余且互补的信息,预训练过程直接对多源异质数据进行生成式自监督学习,如图 1所示。该学习模型采用非对称的编码器-解码器结构,编码器和解码器主要由Transformer结构组成,深层编码器结构利用多源遥感影像块进行特征学习,任务特定的解码器完成每类遥感数据的重建任务,交叉注意力机制模型进行异质特征的信息融合。

图片

图 1 多源异质遥感影像自监督预训练模型

以遥感图像中的每个像素为中心,裁剪空间大小为H×W的局部影像块作为自监督学习的处理单元。令xi∈RH×W×Bi表示第i种影像(如HSI、DSM和VHR)的样本,其中H、W和Bi分别代表样本的高度、宽度和波段个数。每种类型的局部影像划分为多个规则的影像子块,并使用大小为m的掩膜率随机对这些影像子块进行掩膜。对于每种类型的影像,未掩膜的影像子块经过线性变换得到对应的嵌入特征,将所有类型影像的嵌入特征进行堆叠作为编码器的输入,表示为Tv。每个掩膜的影像子块用一个可训练的向量来表示,该向量仅仅作为解码器中的占位符,表示为Tm。

自监督学习模型中的编码器由多层Transformer结构组成,用于从多源遥感影像的嵌入特征中提取高阶关键特征。如图 1所示,相对位置编码操作可以为堆叠后的嵌入特征提供位置关系信息,并为每种类型的嵌入特征添加类别特征,用于表示对应类型遥感影像的高级特征信息,然后将全部的嵌入特征输入深层编码器进行特征学习,可表示为

图片

在编码器进行特征学习之后,使用交叉注意力模块在异质特征之间进行信息融合,从而进一步提升特征的表示能力。如图 1所示,预训练模型中存在多个解码器,分别完成每种类型遥感数据的重建任务。每个解码器的输入是未掩膜的特征Tei及掩膜特征Tmi,同样使用位置编码操作为重建任务中的嵌入特征提供相对位置信息,每个解码器可以表示为

图片

式中,Tei和Tmi分别表示第i种遥感数据的未掩膜嵌入特征和掩膜特征。在每个编码器的最后一层,预测头在像素空间中重建原始遥感数据,模型使用全连接层(FC)作为预测头将Tdi中的类别特征Cdi投影为特征向量,该向量与输入样本的维数相同。然后通过矩阵变换操作,得到对应的预测图像子块

图片

重建目标函数计算原始遥感数据与重建数据在像素空间中的均方误差,对原始数据和重建后的数据进行归一化操作,然后计算掩膜区域的影像与重建后对应区域影像之间的损失,模型的总体损失函数为所有类型遥感数据的重建损失总和。本文提出的多源遥感数据自监督学习模型是对掩膜后的数据进行重建,通过深层编码器的特征学习和任务特定的解码操作以后,可以从人为破坏后的数据中学习到刻画原始多源异质遥感数据的高阶关键特征。由于自监督学习过程不需要任何的人工标注信息,在预训练任务中,使用所有的多源遥感数据样本进行自监督学习,将学习到的特征表示作为原始数据的表征,然后将其用于后续的地物分类任务。

1.2 网络结构

面向多源异质遥感影像的自监督学习模型主要由非对称的编码器-解码器结构组成,详细的网络结构如图 2所示。

图片

图 2 自监督学习模型网络结构

编码器的输入为多源遥感影像中未掩膜的特征嵌入,类别特征对应每种影像的特征信息。编码器由多个Transformer结构组成,Transformer结构主要包括多层感知机(MLP)和多头注意力(MHA)层。多头注意力机制旨在从异质特征中构建多个子空间来学习复杂的依赖关系,公式化表示为

图片

式中,Qi、Ki和Vi分别表示第i个头的查询矩阵、索引矩阵和值矩阵;h为头数量。此外,Transformer中还使用层归一化和残差连接结构,以利于模型的优化。

为了提升特征的表示能力,利用交叉注意力层在编码器之后进行异质特征的信息融合。如图 2所示,将来自一种类型的类别特征xcls1作为代理,与来自另一种类型的嵌入特征xpatch2连接,表示为

图片

对xcls1和xpatch2进行多头注意力机制运算,公式化表示为

图片

式中,Q、K和V分别表示交叉注意力操作中的查询矩阵、索引矩阵和值矩阵;C表示嵌入特征的维度。在交叉注意力模块中,同样采用层归一化和残差连接操作,公式化表示为

图片

在交叉注意力机制融合层中,成对的异质特征以内容感知的方式进行融合,进一步提升了异质特征的表示能力。经过交叉注意力机制融合后的特征与对应的掩膜特征相结合,输入对应的解码器结构进行重建。解码器由Transformer结构和全连接层组成,将每类遥感数据的类别特征转换到像素空间,然后经过矩阵变换操作,得到与原始遥感影像大小相同的重建数据。

1.3 微调分类模型

在预训练结束以后,训练好的编码器和交叉注意力层作为多源异质特征提取器,构造轻量级的分类器进行下游的地物分类任务,图 3为自监督预训练和微调分类方案。

图片

图 3 自监督预训练和微调分类模型

在微调阶段,交叉注意力层后的异质特征作为局部多源遥感影像的特征表示,构造一层Transformer结构和全连接层作为轻量级分类器。这些异质特征和对应的类别标签用于训练该分类模型,将每种类型的特征经过Transformer层后的类别特征进行堆叠,然后与对应的光谱信息进行连接,最后经过全连接层得到地物的类别。由于自监督预训练后学习到的特征具有更强的判别能力,使用少量的标签样本训练轻量级分类器进行监督分类可以得到更优的分类精度,从而缓解了监督分类模型对标记样本的严重依赖,为多源影像协同分类提供了新颖的解决方案。

2 试验与分析

2.1 试验数据

本文使用Berlin、Augsburg和Houston 2018这3组多源异质遥感数据集进行对比试验分析,这些基准数据集和对应的真实地物分布如图 4所示。

图片

图 4 3组基准遥感数据集的可视化显示

Berlin数据集包含德国柏林及周边地区的高光谱影像和对应的PolSAR数据,高光谱数据包含地物的几何空间信息和精细光谱特征,PolSAR通过多通道、多种极化组合的方式对目标场景进行探测,极化矩阵能够有效地刻画目标的物理属性和几何特性。该数据集中的高光谱数据包含244个波段,光谱覆盖范围在400~2500 nm之间,空间大小为380×2384像素,空间分辨率为30 m,该数据集的覆盖范围内共包含8类典型地物[1](图 4(a))。

Augsburg数据集覆盖德国奥格斯堡城市及周边地区的模拟星载高光谱图像、PolSAR及DSM数据,DSM包含观测场景的精确高程信息。该数据集中的高光谱数据包含188个波段,光谱覆盖范围在400~2500 nm之间,影像空间大小为332×485像素,空间分辨率为30 m,该数据集的覆盖范围内共有7种典型城市建筑物和农作物地物类型(图 4(b))。

Houston 2018数据集覆盖美国休斯敦大学街区场景,包含机载高光谱影像、DSM数据和VHR影像,其中高光谱数据包含48个波段,光谱范围在380~1050 nm之间,影像空间大小为601×2384像素,空间分辨率为1 m,DSM和VHR影像经过空间采样操作与高光谱的空间分辨率保持一致,该数据集为典型的城市街区场景,共包含20种典型城市地物(图 4(c))。

高光谱遥感可以获取观测场景丰富的光谱和空间信息,其在地物精细分类中具有独特优势,但是仅仅使用高光谱影像很难区分光谱特征相同或者相似但属于不同类型的地物,DSM数据包含观测场景的精确高程信息,通过联合使用HSI和DSM数据可以有效提升地物分类性能。PolSAR获取的极化散射矩阵包含地物的极化散射信息,由于不同地物的极化散射特性各异,可以使用PolSAR数据进行地物精细分类,并且PolSAR受天气的影响很小。HSI、DSM和PolSAR在观测内容和获取时间上具有较强的互补性,本文使用的3组数据集主要包含这3类遥感数据。

2.2 试验设置

试验硬件环境为Intel Xeon(R) Silver 4214处理器,196 GB内存,NVIDIA GeForce RTX 3090显卡,所提模型使用Python编程语言在PyTorch框架中实现。在预训练阶段,使用Adam算法来优化自监督学习模型,学习率和批大小分别设置为0.000 1和128。在Berlin数据集和Houston 2018数据集中,迭代次数设置为50;在Augsburg数据集中迭代次数设置为100。预训练过程中,首先将多源异质遥感影像进行空间采样操作,使不同影像保持相同的空间分辨率,使用IAPs[35]从DSM数据中提取3个属性特征进行自监督学习,对于PolSAR和VHR影像,分别使用原始的散射矩阵和3波段影像作为预训练模型的输入,由于高光谱影像波段数量众多,且波段间的冗余很大,为了从高光谱数据中提取信息的同时降低波段之间的冗余,试验中使用PCA提取高光谱影像的前9个波段进行自监督特征学习。为了保持不同类型的遥感数据在数据和内容上的均衡性,在进行预训练之前,对每种类型的遥感数据进行归一化,然后输入预训练模型进行特征学习。

由于预训练阶段不需要人工标注信息,在预训练过程中使用所有的样本进行自监督特征学习;在微调分类阶段,轻量级分类器利用学习到的特征和对应的标签进行监督学习,3组基准数据集上的训练集、验证集和测试集的划分情况见表 1—表 3。采用常用的分类评价指标,即总体分类精度(OA)、平均分类精度(AA)和Kappa系数来定量评估分类精度,还利用分类结果图进行视觉效果评价。

图片

表 1 Berlin数据集的样本信息

图片

表 2 Augsburg数据集的样本信息

图片

表 3 Houston 2018数据集的样本信息

2.3 对比试验分析

为了验证所提自监督预训练和微调分类方案的有效性和先进性,在对比试验中,选取常用的分类方法进行对比分析,包括经典的基于特征工程的监督和半监督方法、端到端的深度学习模型及基于特征学习的方法。基于特征工程的方法包括经典的SVM[33]、半监督SVM[34]及IAPs-SVM方法[35],深度神经网络方法包括长短时记忆网络(LSTM)[36]和空谱多尺度网络(ASSMN)[37]、多源影像分类模型SepDG[38]及代表性Transformer模型SpectralFormer[11],基于特征学习的方法为深度少样例方法(DFSL)[21]及深度多视角自监督学习方法(DMVL)[39]。对比方法中的一些模型是针对高光谱影像提出的,为了增强试验结果的公平性,将基准数据集中的多源遥感数据进行堆叠,然后进行地物分类,对比方法中的模型参数分别按照对应文章进行设置。不同分类方法在3组基准数据集上的分类结果见表 4—表 6。

图片

表 4 不同方法在Berlin数据集上的分类精度

图片

表 5 不同方法在Augsburg数据集上的分类精度

图片

表 6 不同方法在Houston 2018数据集上的分类精度

当使用相同数量的标记样本进行分类时,利用无标记样本的半监督学习和特征学习方法具有更优的分类性能。在基于特征工程的对比方法中,半监督分类方法TSVM在3组数据集上的总体分类精度要高于监督学习模型SVM,在Berlin数据集和Houston 2018数据集上的分类精度要优于IAPs方法,说明了无标签样本的联合使用能够提升地物分类性能。在监督深度神经网络方法中,由于ASSMN同时从光谱和空间维度提取多尺度特征进行联合分类,其对应的分类精度要明显优于其他两种深度神经网络方法。多源异质遥感数据包含丰富且互补的观测信息,基于迁移学习的DFSL在预先搜集的有标签的样本上进行预训练,然后将特征提取网络迁移到目标数据集上,由于该方法没有充分考虑多源遥感数据的特点,其得到的地物分类精度有限。基于对比学习的DMVL方法首先在数据集上进行自监督特征学习,能够从大量无标签样本中学习到有意义的特征表示,并使用学习到的特征进行分类,其分类精度要优于其他对比方法,说明了基于自监督特征学习的方法在遥感影像地物分类领域具有较大的优势和潜力,但它没有考虑多源异质遥感数据在内容和结构上的特点进行特征学习。

本文所提的面向多源遥感影像的自监督预训练和微调分类方案是一种有效的地物分类方法。在使用相同数量的标签样本进行分类时,所提分类方案在每类地物分类精度和主要评价系数方面能够取得更优的结果,在3组数据集上的总体分类精度分别达到了82.82%、83.74%和89.78%。对于Houston 2018数据集,现有的监督分类模型和基于特征学习的方法在该数据集上的分类精度普遍较低,而本文方法在该数据集上的分类精度有较大程度的提升,其原因在于所提分类方法能够有效地利用多源异质遥感数据中的丰富信息进行自监督特征学习,从大量的无标注样本中学习到表征原始数据的关键特征,然后利用提取的特征进行下游的地物分类。该分类范式为解决多源异质影像地物分类提供一种新颖的分类模式,能够有效地缓解深度神经网络方法对于标签样本的严重依赖。

除了上述定量分析以外,不同分类方法得到的分类结果图用于进行视觉评估,在3组基准数据集上的分类图如图 5—图 7所示,其中每种类别的地物使用不同的颜色进行标识,每组数据的真实地物分布图用于进行对比分析。同时使用标签样本和无标签样本的半监督分类方法TSVM的分类图中“类别噪声”要少于SVM方法对应的分类图,联合使用空间和光谱维度信息的ASSMN模型能够得到更加平滑的分类图,它的分类图要比LSTM和SepDG模型分类图的空间连续性更强,在Berlin数据集和Augsburg数据集上表现明显,原因在于空间和光谱信息可以提供互补的判别信息。本文提出的自监督预训练方法得到的分类图更加符合真实地物标记,表明了本文方法能够以自监督的方式从多源异质遥感影像中学习到判别能力更强的特征,在使用同样数量的标记样本情况下取得更优的分类效果。

图片

图 5 不同模型在Berlin数据集上的分类结果

图片

图 6 不同模型在Augsburg数据集上的分类结果

图片

图 7 不同模型在Houston 2018数据集上的分类结果

   

2.4 模型参数分析

本文模型中的部分超参数在很大程度上影响自监督特征学习能力,进而影响地物分类精度,本节分析这些超参数对于分类精度的影响。

(1) 网络结构。由于自监督学习模型采用非对称的编码器-解码器结构,不同的网络结构对应不同的特征学习性能。模型中编码器和解码器主要由Transformer结构组成,为其设置不同层数的Transformer,候选器分别设置为(6、8、10、12)和(1、2、3)。不同的自监督预训练网络结构在3组基准数据集上的总体分类精度如图 8所示。可以看出,较深的编码器和较浅的解码器结构搭配具有更高的分类精度,表明这种非对称的结构具有更强的自监督特征学习能力。根据试验结果,3组数据集对应的最优编码器-解码器结构分别为(8,2)、(12,3)和(8,2)。

图片

图 8 网络结构敏感性分析

(2) 掩膜率。在本文所提的生成式自监督学习模型中,使用大小为m的掩膜率对局部遥感影像进行掩膜处理,然后使用未掩膜的影像子块进行特征嵌入并输入编码器-解码器结构进行数据重建。模型中的掩膜率决定了输入编码器的子块数量,进而影响编码器对于图像的感受野范围。在3组基准数据集上使用不同掩膜率得到的总体分类精度如图 9所示,由试验结果可以观测到掩膜率对分类精度具有较大的影响,较大的掩膜率使模型只能使用很少的影像子块进行特征学习,其分类精度较低;较小的掩膜率对应更多的影像输入,但其自监督特征学习能力也较弱,其原因在于图像具有较大的空间冗余,使用较小的掩膜率很难使模型学习到刻画原始遥感数据的关键特征。适中的掩膜率使模型从适量的影像子块中学习到刻画原始影像的关键特征,3个数据集对应的最优的掩膜率分别为40%、50%和40%。

图片

图 9 掩膜率敏感性分析

(3) 邻域大小。由于模型使用局部多源遥感影像作为处理单元进行特征学习,影像的邻域大小影响编码器的空间感受野,进而影响特征学习和分类性能。在3组基准数据集上使用不同邻域大小的分类结果如图 10所示,分类精度随着邻域的增加而提升,因为大的影像块具有更大的感受野,但是过大的局部影像包含不相关的冗余信息同样会干扰特征学习和分类性能。同时邻域大小与影像空间分辨率也有关联,空间分辨率越高的图像对应的最优空间邻域更大,在Houston 2018数据集中,分类精度随着邻域大小的增加而逐步提升。

图片

图 10 邻域大小敏感性分析

(4) 模型复杂度分析。模型复杂度是评价模型的重要指标,包括空间复杂度和时间复杂度,试验中,使用模型参数的数量来衡量空间复杂度,用浮点计算量(FLOPs)来分析模型的时间复杂度,不同方法在3组基准数据集上的参数量和FLOPs见表 7。

图片

表 7 不同模型在3组数据集上的参数量和FLOPs比较

由于不同方法中批处理大小和迭代次数不同,对应的训练时间和测试时间不同,为了更好地进行比较分析,试验中每种方法的批处理大小设置为1,并将其对应的FLOPs作为时间复杂度评价指标。由表 7的统计结果可知,基于Transformer结构的分类模型对应的参数量和FLOPs要高于CNN分类模型,原因在于CNN具有局部连接和权重共享的特性,而Transformer结构建立长距离依赖关系,该模型具有更多的参数。在自监督学习模型中,一般采用深层的网络结构从大量的无标签数据中学习高阶特征表示,预训练模型对应的模型参数量和运算量一般较大,由于本文使用视觉Transformer模型进行自监督预训练,其对应的模型参数量要大于基于残差网络的DMVL模型,微调分类模型使用单层的Transformer模型和全连接层进行分类,其对应的模型参数量要远远小于预训练阶段的模型。自监督预训练方法使用深层的网络模型从大量的无标注样本中学习高阶关键特征,在预训练阶段需要较长的时间进行特征学习,由于学习到的特征更有利于下游的分类任务,在分类阶段使用轻量级的分类器可以达到更优的分类性能。

2.5 消融试验

由于自监督预训练模型利用多源异质遥感影像进行特征学习,然后使用学习到的特征代替原始的数据进行地物分类,为提升特征的表示能力,所提模型利用交叉注意力机制进行异质特征的信息融合。为验证自监督特征学习的有效性,试验中直接使用轻量级Transformer分类器对原始数据进行分类,同时,为证明交叉注意力机制对于特征增强的有效性,同样对交叉注意力层进行消融试验,消融试验结果见表 8。由表中的试验结果可知,直接使用原始数据得到的分类精度很低,原因在于轻量级分类器并不能从原始数据中提取有效的特征进行分类,而使用自监督特征学习的方法能够显著提升分类精度,证明了自监督预训练过程能够学习到刻画原始数据的关键特征。通过比较有无交叉注意力机制融合的试验结果,可以观察到使用交叉注意力层的特征学习方法在3组数据集的分类精度上均有提升,在Augsburg数据集上的提升最为明显,验证了交叉注意力机制在多源异质遥感影像的自监督学习中的有效性。

图片

表 8 3组数据集上的消融试验结果

3 结论

为缓解监督学习模型对标签样本的依赖并提升多源异质遥感影像地物协同分类的精度,本文提出了用于多源异质遥感影像地物分类的自监督预训练和微调分类方案。由于在同一观测场景中存在多源异质的遥感数据,这些数据中包含丰富且互补的地物信息,但是有限数量的标记样本并不能训练深层的网络模型进行地物分类,本文提出利用自监督预训练的方案从无标记样本中学习有利于下游分类任务的关键特征,从而缓解深度学习模型对于标记样本的严重依赖。面向多源遥感影像的自监督学习架构采用非对称的编码器-解码器结构从所有无标签样本中学习高级关键特征,利用Transformer结构进行特征学习和数据重建,并使用交叉注意力层在异质特征之间进行信息融合,以进一步提升特征表示能力。构建的轻量级分类模型利用学习到的特征和光谱信息进行地物分类,在使用相同数量的标记样本情况下,本文方法在基准数据集上得到更优的分类结果,验证了本文方法的有效性和先进性,为缓解深度学习模型对标签样本的依赖提供了有效的解决方案。

声明:公众号转载的文章及图片出于非商业性的教育和科研目的供大家参考和探讨,并不意味着支持其观点或证实其内容的真实性。版权归原作者所有,如转载稿涉及版权等问题,请立即联系我们删除。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/569342.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

将本地项目推送至gitlab仓库

1. gitlab上新建一个空白项目 gitlab上点击new project按钮,新建一个项目 新建空白项目 项目名称与本地新建项目名称相同,其余根据具体需要选择 2. 初始化本地仓库并commit项目 进入本地项目根目录下,右击 git bash here打开命令窗口 初始化…

MappedStatement解析流程

前言 之前写了一篇博文,介绍了mybatis的解析过程,其中mapper标签只演示了如何使用,这篇博文我们来探究mapper标签解析流程 源码解析 核心方法入口 引入mapper方式 使用相对于类路径的资源引用使用完全限定资源定位符(URL&…

“五之链”第十六期沙龙活动在呆马科技成功举办

2024年4月19日,由临沂呆码区块链网络科技有限公司(呆马科技)承办的第十六期“五之链”物流主题沙龙活动成功举办。此次活动邀请了政府相关部门、知名科研院所、物流企业等20余家单位参与,共同探讨物流数据要素流通与智能应用的发展…

新版ONENET(2024/4/24)通过view3.0可视化保姆级教程(一学就会)附效果图

⏩ 大家好哇!我是小光,想要成为系统架构师的嵌入式爱好者。 ⏩上一篇是STM32通过ESP8266连接最新版的ONENET,成功将数据上传之后,本篇文章使用ONENET的view3.0可视化对数据进行可视化做一个详细教程。 ⏩感谢你的阅读,…

AnaTraf网络流量分析仪:实时分析工具助您优化网络架构

导言: 在如今高度互联的数字时代,网络流量分析成为了企业和组织必备的工具之一。AnaTraf网络流量分析仪作为一款高性能的实时网络流量分析工具,不仅能够帮助用户进行全流量回溯分析、网络流量监控和网络性能分析,更可以快速排除网…

两天速通阿里

感觉这一周太梦幻了,就像一个梦,很不真实~~~ 感觉这个暑期,我的运气占了99成,实力只有百分之一 4.15上午 腾讯csig 腾讯云部门,面完秒进入复试状态 4.16下午 美团优选供应链部门,4.18上午发二面 4.17晚上 阿…

C#基础|属性Property之读写特性和经典总结

哈喽,你好,我是雷工。 本节学习属性特性——控制读写操作,以下为学习笔记。 01 只读属性 写法1:直接去掉set方法,可以在定义的时候初始化。 示例: public string CourseName{get;}“雷工笔记…

2024年学浪提取视频#小浪助手

2024年,学习视频已经成为人们获取知识和提升技能的重要途径,而学浪视频平台以其丰富多样的学习资源备受瞩目。然而,有时我们可能只需要其中的一小部分内容,而不想将整个视频都下载下来。在这个时候,小浪助手作为一款强…

软件无线电系列——Nyquist采样定理

本节目录 一、Nyquist采样定理 1、Nyquist采样定理的定义 2、Nyquist采样定理的证明本节内容 一、Nyquist采样定理 如果对某一时间连续信号进行采样,当采样速率达到一定数值时,就可以根据这些采样值准确地确定原信号。 1、Nyquist采样定理的定义 何为Ny…

这操作真牛!APT杜绝软件包被篡改

0x00 简介 我们介绍了传统包管理器、新型包管理器的工作方式,其中用了大篇幅介绍 APT 包管理器,但是没有对安全人员比较关心的软件包校验问题进行介绍 0x01 大众疑问环节 这部分主要是从常规 Linux 使用者的视角,提出一些平时工作过程中的…

到底什么是爬虫

1. 引言 在数据驱动的世界里,网络爬虫(Web Crawling)技术扮演着获取和处理网上数据的关键角色。无论是为了数据分析、机器学习项目的数据集构建还是简单地监测网页变化,学习如何创建一个基本的网页爬虫可以大大提升你的工作效率和…

万兆以太网MAC设计(7)ARP协议报文格式详解以及ARP层模块设计

文章目录 前言:1、ARP协议详解2、ARP工作机制 二、ARP_RX模块设计三、ARP_TX模块设计四、ARP_table模块5、仿真5.1、发送端5.2、接收端5.3、缓存表 总结 前言: 1、ARP协议详解 ARP数据格式: 硬件类型:表示硬件地址的类型。它的值为1表示以太…

postman接口自动化

1.基础知识 1.打开postman新建一个文件夹。 (建立每一部分文件夹可以更好的管理接口信息) 2.postman基本介绍 这里用到的是我自己的一个项目。 params:查询字符串,一般作为url的一部分。 authorization :鉴权&…

CentOS 7.9.2007 中Docker使用GPU

一、安装nvidia驱动 1.1,查看显卡驱动 # 查看显卡型号 lspci | grep -i nvidia 1.2,进入 PCI devices ,输入上一步查询到的 2204 1.3,进入 官方驱动 | NVIDIA,查询 Geforce RTX 3090 驱动并下载 1.4,禁用…

数据结构(C):时间复杂度和空间复杂度

目录 🚀 0.前言 🚀 1.为何会有时间复杂度和空间复杂度的概念 🚀 2.时间复杂度 2.1初步时间复杂度 2.2大O表示法 2.2.1.O(N*N) 2.2.2.O(N) 2.2.3.O(1) 2.3最坏情况…

Set A Light 3D Studio:轻松上手,打造专属3D作品!

set a light 3d studio mac版是mac上一款功能方面相当强大的3D摄影棚布光工具,可以帮助摄影行业的工作用户在进行3D室内拍摄的时候,完成对灯光的位置调整设置,只要运用该软件,支持对各种灯光的道具摆放位置,灯光的反射…

Pycharm远程连接实验室服务器Conda环境配置

如何配置Pycharm和远程服务器 这类博客较多,参考内容 https://blog.csdn.net/fengbao24/article/details/125515542 Python解释器选择(conda3) 1. Settings -> Add Interpreter -> On SSH 注意,这里的SSH需要在你把远程…

Python读写文本URL蓝牙WIFI自动连接电子名片位置坐标智能海报等NDEF标签

本示例使用的发卡器:https://item.taobao.com/item.htm?id615391857885&spma1z10.5-c.w4002-21818769070.11.60ad789erlonvk 近场通信(Near Field Communication,简称NFC),是一种新兴的技术&…

雨云 湖北十堰 8272CL 高防高性能云服务器测评

雨云 湖北十堰 高防云服务器,铂金8272CL高性能处理器,2核2G 10兆 400G防御,仅需60元/月;8核16G 20兆 400G高防,仅需170元/月,年付8折1632元/年(约136元/月)。 企业级纯NVME固态硬盘高…

javase__进阶 day18 多线程02

1. 线程池 1.1 线程状态介绍 当线程被创建并启动以后,它既不是一启动就进入了执行状态,也不是一直处于执行状态。线程对象在不同的时期有不同的状态。那么Java中的线程存在哪几种状态呢?Java中的线程 状态被定义在了java.lang.Thread.Stat…