SpectralMamba:用于高光谱图像分类的高效 Mamba
- 摘要
- Introduction
- Methodology
- Preliminaries
- SpectralMamba: Overview
- SpectralMamba: Key Components
- B1 Piece-wise Sequential Scanning
- Iii-B2 Gated Spatial-Spectral Merging
SpectralMamba: Efficient Mamba for Hyperspectral Image Classification
摘要
递归神经网络和Transformer最近在光谱成像(HS)的大多数应用中占据主导地位,这归功于它们能够从光谱序列中捕捉长距离依赖关系。
然而,尽管这些序列架构取得了成功,但由并行化困难或计算上过于昂贵的注意力所引起的不可忽视的低效率仍然限制了它们的实用性,特别是在遥感场景中的大规模观测。
为了解决这个问题,作者提出了SpectralMamba——一种新颖的状态空间模型融合的高效深度学习框架,用于HS图像分类。SpectralMamba在两个层面上简化但对HS数据动态的建模是充分足够的。
首先,在空间-光谱空间中,通过有效的卷积学习动态 Mask ,同时编码空间规则性和光谱特殊性,从而降低在判别性表示学习中的光谱可变性和混淆。
其次,合并的光谱可以在隐藏状态空间中高效地操作,所有参数都依赖于输入学习,产生选择性的聚焦响应,而无需依赖冗余的注意力或不可并行的递归。
为了进一步探索计算缩小的空间,作者之间采用了一种分段扫描机制,将近似连续的光谱转换成长度压缩的序列,同时保持数百个波段之间的短期和长期上下文轮廓。通过在由卫星、飞机和无人机搭载的成像器获取的四个基准HS数据集上的大量实验,SpectralMamba在性能和效率方面出人意料地创造了双赢的局面。
Introduction
高光谱(HS)成像技术的迅速发展显著增强了人类观察现实世界的能力,细节和深度都得到了提升[1]。与传统摄影仅在有限的几个宽光谱带内获取图像不同,高光谱成像系统通过测量每个像素的能量光谱,前所未有的同时实现了空间和光谱信息的捕获。生成的三维(3-D)高光谱数据立方体包含了每个空间分辨率元素的近乎连续的光谱轮廓,从而使得对成像内容的量化、识别和认定的准确性得到提高。得益于航空航天和仪器技术的最新进展[2],高光谱成像已逐渐成为遥感(RS)不可或缺的工具。在其广泛的应用中,高光谱图像分类在从环境监测、城市规划到军事科学等众多领域引起了广泛关注,展示了其潜在的普遍性和交叉重要性[3, 4]。
在遥感中,高光谱图像分类的主要目标是利用与每个像素相关联的详细光谱特征,准确识别图像内感兴趣的各种土地覆盖或土地利用类型[5]。尽管高光谱成像能够捕获数百个窄波长带(通常从可见光谱到近红外区域),为不同材料的光谱特性提供深入的表征,但在其实际应用中仍存在两个长期挑战。
维度灾难,也称为休斯现象,在处理高光谱图像分类时常常遇到,当观察到的光谱带越来越多时,分类精度最初会上升,但达到一定数量的波段后,精度会急剧下降。这个问题的根本原因在于,随着维度的扩展,特征空间体积呈指数增长,使得高光谱数据的计算处理和有效分析变得越来越负担沉重和具有挑战性。
光谱变异性和光谱混淆是高光谱数据中经常出现的另外两种现象。前者指的是同一种材料在不同条件下(如光照变化、大气效应或固有变异)显示不同的光谱特性,而后者是指不同材料表现出相似的光谱轮廓。
此外,与这些高光谱数据分析挑战伴随出现的还有其他一些问题,如标记训练样本的有限可用性,以及具有复杂分布的不可避免的传感器噪声,这使得仅基于光谱反射率精确区分地面目标变得更加困难。
为了应对这些挑战,研究行人在过去几十年中投入了大量精力,开发不断进步的维度降低和特征提取技术,以实现对高光谱图像的精确像素级识别。在早期阶段,研究行人探讨了统计方法的适用性,如主成分分析、独立成分分析、核方法[9]和线性判别分析,以及包括子空间学习、流形学习、集成方法和主动学习策略在内的机器学习和启发式技术,以有效地处理和分析高光谱数据。在此期间,像最近邻、决策树和支持向量机这样的浅层机器学习模型作为补充这些特征提取方法的有效的后端分类器而变得普遍。
随着过去十年深度学习(DL)在众多研究领域广泛应用,遥感社区也采纳了这一强大的学习范式来进行高光谱(HS)数据分析,利用其直接从数据中学习表示的能力,从而减轻了传统方法中由于数学建模不足而固有的认知偏差。在用于HS图像分类的各种DL架构中,卷积神经网络(CNN)长期以来一直占据着至高无上的地位。
得益于通过平移不变卷积的局部接收能力,典型的CNN成功地在端到端训练中实现了层次特征提取和语义抽象,从输入-目标对中学习。然而,尽管这个系列的模型擅长利用局部上下文信息,它们固有的局部连接性和权重共享不可避免地限制了在数据序列内部及跨序列的长距离相关性及动态的建模。
在这种情况下,序列模型,如循环神经网络(RNNs)和Transformers,因其在处理序列数据方面的有效性而受到关注。通过将HS光谱有序地展开成一条长序列,RNNs和Transformers本质上分别通过循环状态建模和注意力机制捕获长-短期的光谱指纹。此外,这些序列模型已被广泛证明在处理复杂遥感场景下的非线性数据动态方面比CNN更为胜任。
尽管有这些优点,它们本质上分别存在并行训练困难和繁重的成对乘法计算负担。尽管已经付出了巨大的努力来应对这些问题,但到目前为止,这些变体中的大多数在追求提高表示以实现准确性的突破时,网络结构或工作流程似乎越来越复杂,似乎已经达到了一个无法避免在性能与计算效率之间权衡的平台期。
幸运的是,状态空间模型(SSM)的最新进展使其得到广泛应用,并为序列性建模提供了一条新途径。基于来自控制理论的经典SSM理论基础和强大的现代DL优势,新兴的深度SSM首次允许在数万个时间步长上高效地进行非常长距离依赖的学习,并在各个领域越来越多地占据主导地位。然而,现有的SSM通常是为低维序列(如音频和语言)的因果学习而设计的,它们在处理如HS图像这样的高维视觉数据的实用性尚未充分探索。因此,在这项工作中,作者通过深入研究其特性,挖掘将SSM定制为HS数据的潜力。
更具体地说,作者提出了SpectralMamba——一个高效且有效的集成了SSM的DL框架,用于基于像素级和块级输入的HS图像分类。SpectralMamba利用在空间-光谱特征空间和隐藏状态空间中简化但充分地建模HS数据动态,从而减轻了光谱可变性和光谱混淆造成的影响。通过定制的扫描策略进一步减少了由参数大小和计算引起的底层计算开销,该策略可以增强序列表示,同时保持HS数据的局部光谱指纹。本文的主要贡献可以概括如下。
作者提出了一种基于SSM的新型 Backbone 网络,名为SpectralMamba,该网络从序列建模的角度进一步提高了对性能友好且计算效率高的高光谱图像分类。据作者所知,这是首次很好地将深度SSM适用于高光谱数据及其分析的工作。
针对高光谱数据的高维度、光谱可变性和混淆问题,作者提出了分段序列扫描(PSS)和门控空间-光谱融合(GSSM)的策略,以充分编码潜在的空间规律性和光谱独特性,通过完全轻量级的架构,产生更鲁棒的判别性表示。
通过在来自卫星、飞机和无人机平台的四个基准高光谱数据集上的广泛实验比较,作者的SpectralMamba在一般最小的计算资源成本下(如图1所示),显著优于具有经典 Backbone 的代表性竞争方法。消融研究进一步验证了作者关键组件的有效性,例如PSS在提高OA大约4%的同时,比作者的 Baseline 减少了60%的参数和40%的计算量。
图1。在四个基准数据集上,SpectralMamba和经典网络架构在高光谱图像分类性能指标(OA)和平均效率指标(参数数量和mac)方面的实验结果的雷达图。为了更好地显示它们的差异,我们将参数数和mac的最低值设置为100分的基础分数,并在mac -轴上定制一个以10为基数的对数刻度。根据图表,我们的SpectralMamba在大多数指标上都明显优于其竞争对手,展示了其作为高光谱数据分析的新型高效深度学习框架的巨大潜力。
本文的其余部分组织如下。第二节介绍状态空间模型的初步元素,详细阐述作者的SpectralMamba及其方法分析。第三节详细说明实验,包括数据集和实施的描述,性能和计算成本的评价,比较结果和分析,以及消融研究。最后,第四节总结这项工作,并指出可能的未来方向。
Methodology
Preliminaries
Ii-A1 State Space Model
受到经典SSMs 和现代深度学习进展的启发,尤其是CNNs、RNNs和Transformers,结构化状态空间序列模型(S4)最近出现并引起了相当大的关注,用于建模序列数据。这类模型通常源于一个连续时间系统,该系统通过一个隐含的潜在状态
h
(
t
)
∈
R
N
h(t)∈ \mathbb{R}^N
h(t)∈RN将一个输入函数或序列
c
(
t
)
∈
R
M
c(t)∈ \mathbb{R}^M
c(t)∈RM映射到一个输出响应信号
y
(
t
)
∈
R
O
y(t)∈ \mathbb{R}^O
y(t)∈RO,可以用以下常微分方程组进行数学公式化:
h
′
(
t
)
=
A
h
(
t
)
+
B
a
(
t
)
,
y
(
t
)
=
C
h
(
t
)
+
D
e
(
t
)
,
h'(t) = Ah(t) + Ba(t), \quad y(t) = Ch(t) + De(t),
h′(t)=Ah(t)+Ba(t),y(t)=Ch(t)+De(t),
其中
A
∈
R
N
×
N
A \in \mathbb{R}^{N \times N}
A∈RN×N和
C
∈
R
O
×
N
C \in \mathbb{R}^{O \times N}
C∈RO×N控制当前状态随时间演变并转换到输出,
B
∈
R
N
×
M
B \in \mathbb{R}^{N \times M}
B∈RN×M和
D
∈
R
O
×
M
D \in \mathbb{R}^{O \times M}
D∈RO×M分别描述输入如何影响状态和输出。在这里,作者考虑单输入单输出系统的情况,其中
O
=
M
=
1
O = M = 1
O=M=1,并通过将
D
a
(
t
)
D a(t)
Da(t)项作为跳过连接来省略它,正如S4模型所做的。
li-A2 Discretization
将SSMs应用于诸如语言、音频和图像等离散信号的第一步,是将系统参数转换为它们的“离散化”对应形式。常用的离散化方法是零阶保持规则,通过该规则,重新参数化的形式如下,
A
=
exp
(
A
A
)
,
B
=
(
Δ
A
)
−
1
(
A
−
I
)
(
A
B
)
≈
(
A
A
)
−
1
(
A
A
)
(
A
B
)
(
4
)
=
A
B
A= \exp(AA), B = (\Delta A)^{-1}(A- I)(AB) \approx (AA)^{-1}(AA)(AB)(4)=AB
A=exp(AA),B=(ΔA)−1(A−I)(AB)≈(AA)−1(AA)(AB)(4)=AB,
其中使用了中的第一阶泰勒级数近似。时间尺度参数
Δ
\Delta
Δ表示采样步长,即
a
k
=
a
(
k
Δ
)
a_k = a(k\Delta)
ak=a(kΔ),在演变过程中它还平衡了状态和当前输入。然后,离散SSM可以形成以下递归表示,
h
k
=
A
h
k
−
1
+
B
n
k
,
y
k
=
C
h
k
.
,
h_k = Ah_{k-1} + Bn_k, \quad y_k = Ch_k.,
hk=Ahk−1+Bnk,yk=Chk.,
这可以类似于RNNs进行计算。为了更好地适应GPU加速以高效训练,S4还展开了上述线性递归,得到其全局卷积表示为
y
=
X
∗
k
,
y = X * k,
y=X∗k,
其中
K
=
(
C
B
,
C
A
B
,
.
.
.
,
C
A
B
)
K=(CB,CAB,... ,CAB)
K=(CB,CAB,...,CAB)表示SSM卷积核,
L
L
L是输入序列的长度。
Ii-A3 Mamba
除了线性特性之外,上述系统的另一个简化假设是时间不变性,即所有系统参数都被定义为与时间无关。最近,一类新型选择性的SSM(S6)通过将参数化为输入的函数,打破了这一限制,从而赋予了SSM额外的选择能力,以关注重要的或忽略不重要的部分。作为一种常见的做法,一个简化的神经网络架构由线性层、卷积层、残差连接、非线性变换以及最重要的S6 Kernel 共同组成Mamba块。还提出了一个硬件感知优化以保障其高效的实现
SpectralMamba: Overview
为了突破基于卷积神经网络(CNN)、循环神经网络(RNN)或Transformer骨架的现有方法在性能和效率上的瓶颈,作者提出了SpectralMamba,这是一个融合了Mamba-S6模型的深度学习解决方案,用于处理高光谱图像分类问题。SpectralMamba的关键在于它通过在空间-光谱空间中进行门控光谱融合同时对高光谱数据动态进行建模,并通过最小化参数化的网络架构在隐藏状态空间中进行选择性序列学习。此外,作者提出了一种针对高光谱数据量身定制的全新序列扫描策略,通过将数百个波段的光谱分解为片段,使得框架更具计算友好性。通过跳过空间-光谱编码主干,块状的SpectralMamba也可以灵活地转变为像素级的对应版本。
图2展示了作者提出的SpectralMamba的工作原理,详细的网络架构及其数据流在图3中展示。
SpectralMamba: Key Components
让作者用一维向量 x p i e l = [ π a r e l , … , ξ a e l ] ∈ R 1 × L x_{piel} = [\pi_{arel}, \ldots , \xi_{ael}] \in \mathbb{R}^{1 \times L} xpiel=[πarel,…,ξael]∈R1×L来表示给定的高光谱图像中的一个像素,其中 L L L是光谱的波段数。作者在光谱域内考虑状态空间建模,即作者的目标是找到一个定义良好的S6模型来得到其输出响应$y_{piel} \in \mathbb{R}^{n} 。然而,简单地将每个波段的反射率值视为表示可能会限制对序列模式的挖掘。因此,作者通过一个因子扩展模型维度,在作者的情况下是 。然而,简单地将每个波段的反射率值视为表示可能会限制对序列模式的挖掘。因此,作者通过一个因子扩展模型维度,在作者的情况下是 。然而,简单地将每个波段的反射率值视为表示可能会限制对序列模式的挖掘。因此,作者通过一个因子扩展模型维度,在作者的情况下是E=8$,以增大状态空间的大小。
正如图3中的核心架构部分所示,为高光谱数据设计的Mamba块包含三个流。它的主流包括输入和扩展状态空间中的两个不同的LayerNorm层,用于扩展、保持和压缩特征维度的三个线性层,一个SiLU非线性激活函数,以及S6块。另外两个流是跳跃连接和一个类似激励的乘法,用于自适应地跨层转换原始信息。请注意,跳跃连接和非线性的使用对于稳定训练和快速收敛至关重要,而实际性能似乎对归一化和激活函数的选择不太敏感。
B1 Piece-wise Sequential Scanning
上述状态空间建模通过一种输入依赖的参数化方式,能够关注或忘记特定波长处的特征。当将其应用于具有数百个近乎连续波段的HS数据时,其高光谱冗余驱使作者重新思考输入方式。与最近在考虑自然图像处理中的空间多方向扫描来修改Mamba的努力不同,作者提出了一种沿着光谱维度的新颖的分段顺序扫描(PSS),以充分利用不同类型地面目标的反射特性。
具体来说,作者可以将PSS模块公式化为
其中
S
,
x
i
z
e
l
=
[
ξ
a
e
T
,
…
,
ξ
p
e
T
]
T
∈
R
C
×
1
S, x_{izel} = [\xi_{ae}^T,\ldots,\xi_{pe}^T]^T \in \mathbb{R}^{C \times 1}
S,xizel=[ξaeT,…,ξpeT]T∈RC×1 从原始光谱
x
i
e
l
x_{iel}
xiel 中扫描连续片段,对于
r
=
1
,
…
,
R
r = 1, \ldots, R
r=1,…,R,而
R
R
R是长度为
C
C
C的片段数。这也类似于在每个序列位置的特征丰富时的重采样。
在应用PSS之前,作者的Mamba块相应的输出从1-D的 长度向量转变为形状为 的2-D输出。然后,作者在常见的基于softmax的分类头之前增加了一个预层,最终得到 长度的分类逻辑值。
Iii-B2 Gated Spatial-Spectral Merging
在判别性表示学习中考虑空间信息至关重要。然而,传统的空间-光谱特征提取方法通常使用固定的卷积核平等对待每个 Patch 。受到S6模型启发,该模型以输入依赖的方式沿着序列学习交互作用,作者提出通过引入动态门控函数来进一步提高内容感知性,以实现自适应的空间光谱嵌入。在提出的门控空间-光谱合并(GSSM)方法中,作者可以用以下计算出的合并光谱替换方程(8)中的,
其中是sigmoid激活函数,表示由深度卷积(DW)和点卷积(PW)组成的复合函数,表示沿着空间维度的爱因斯坦求和,将形状为的两个张量组合成一个长度为的一维向量。通过GSSM,作者希望自适应地编码中心像素与其邻域之间的语义关系,在学习更具判别性的“光谱”的同时,减弱光谱的变异性和混淆效应。
SpectralMamba: Method Analysis
直接将SSM扩展到HS数据的应用并非易事。在SSM的见解和HS数据结构先验知识的基础上,作者提出的SpectralMamba为解决HS图像密集预测应用提供了一个可行的基于SSM的 Baseline 。所提出的PSS策略不仅使模型能够揭示光谱剖面的局部特性,而且通过缩小核心操作网络的宽度进一步提高了效率。
此外,GSSM模块是基于观察到的中心像素与其邻近像素之间的语义关系通常在场景中空间上和光谱上有所变化而设计的。广泛存在的混合像素现象对于局部 Patch 内的像素也可能不同,特别是对于那些位于边界上的像素。作者希望通过轻量级的 Mask 学习器高效地捕捉这种高度空间-光谱可变性的HS数据动态,从而产生具有更高鉴别能力的合并光谱,以供后续在状态空间中的顺序学习。
作者提出的SpectralMamba与相关工作的联系也值得关注。一方面,尽管CasRNN——一个基于RNN的HS图像分类代表——通过从相邻光谱带到非相邻光谱带的分层学习考虑了类似的光谱冗余问题,但它们不可并行的递归特性仍然在追求稳定训练的过程中积累了计算和参数[23]。此外,传统Transformer中不可承受的二次复杂度自我关注机制,随着所谓的组嵌入中考虑的邻近光谱带数量的增加,显著增加了计算负担[24]。
相比之下,作者SpectralMamba中的提出的PSS完美地与S6中的状态演化高效特征选择相匹配,同时保留局部光谱模式并增大序列的特征维度,进而提高计算效率。更重要的是,作者的实践验证了非重叠扫描,即,在较低的计算开销下足以产生有希望的性能。
另一方面,与针对自然图像的传统门控卷积[25]不同,作者的GSSM提供了一个轻量级的门控机制,捕捉高度空间-光谱可变性的HS数据动态。它不仅适合于保持光谱顺序性设置,而且通过有效的空间-光谱校正补充了后续在状态空间中的内容感知学习。在下面的实验部分,作者将展示SpectralMamba如何通过增强对HS数据的解释效力来超越这些前辈,同时保持高效率,计算资源需求低。