【SITS_CC】卫星图像时间序列的变化字幕（IEEE GRSL）

摘要

Satellite images time series (SITS) 提供了一种有效的方法来同时获取地球上观测区域的时间和空间信息。然而，传统的遥感CD方法的输出是二进制图或语义变化图，往往难以被最终用户解释，传统的遥感图像变化字幕方法只能描述双时图像。
提出了SITS_CC，它不仅识别了SITS中的变化区域，而且用自然语言描述变化。不幸的是，无可用的SITS训练数据集。为了解决这些问题，本文只利用双时态遥感图像变化字幕训练数据，而不是SITS_CC训练数据。在实际测试数据集上的实验结果证明了该方法的有效性，在所有指标上都取得了更好的性能。所观察到的改善幅度超过了20%。
论文链接：Change Captioning for Satellite Images Time Series | IEEE Journals & Magazine | IEEE Xplore
代码链接：GitHub - Crueyl123/SITSCC: SITSCC:Change Caption for Satellite Images Time Series

动机

之前的相关工作都没有涉及到SITS的变化字幕。本文提出一种新的SITS的变化字幕方法，目前，缺乏SITS变化字幕的训练数据集，并且对注释一个这样的数据集耗时耗力。因此，关键问题是如何在一个新的框架下完成本文的任务。

目前只有少量可用的双时态遥感图像变化字幕，SITS变化字幕任务通常是指描述几个到几十个图像之间的变化。因此，第二个问题是如何利用SITS中的时间依赖相关性来增强生成的变化字幕的逻辑性。

基于广泛的实验观察，对SITS变化描述与时间项严重纠缠，并构成明显的时间依赖特征。提供了一个明确的方向，使用现有相邻图像之间的变化字幕来训练本文的模型，然后，通过特殊的时间依赖相关正则化，合并非相邻的时间信息，并在SITS中保持时间特征。

方法

SITS_CC网络结构如下：

A. Feature Extractor
- 利用CNNs提取抽象特征，以保留SITS中包含的光谱空间信息。
- 使用改进的ResNet-101架构作为从SITS中提取图像特征的骨干，通过调整池化层，可以保留大部分图像信息，同时适应不同的输入大小，从而确保后续处理的空间大小保持一致。输出表示为Fi (i = 0, 1, 2, . . . )。
B. Temporal Encoder
- 使用时间编码器模块进行位置嵌入和特征融合（FF）。
- 1) Position Embedding
  - 使用二维位置嵌入给模型纳入空间信息，增强模型对 SITS数据的时空理解。
  - 在字幕解码器中使用正弦和余弦函数对词序列进行位置嵌入。
  - 为此，在三个位置重塑特征：
    - 来自CNN主干的特征图在进行特征处理前被重新排列为：(H,W,d) →(H×W,d);
    - 将CNN主干输出序列 F i (i = 0, 1, 2, . . . )重新排列为：(H×W,d)→(H,W,d)
    - 在输入transformer解码器之前，重新排列为：(H,W,d) →(H×W,d)
  - 位置嵌入表示如下： ${F}'_i=F_i+F_{pos}$
- 2) Differential Representation
  - SITS图像通常由几张甚至几十张图像组成。这些图像之间的变化往往是不连续的，相邻图像之间可能存在显著差异，影响了整体分析。此外，由于训练数据集只包含成对的双时态遥感图像，最初的重点是如何捕获相邻图像之间的差异。
  - DR模块产生差异表示 $F_{dif|t_i}(i=0,1,2,...)$ 捕捉和识别图像在多个时间上的多个变化。为了捕获相邻图像之间的差异，探索三种方法生成 $F_{dif|t_i}(i=0,1,2,...)$ ：
    - 作差：降低了图像特征的独特性。
    - 作差加绝对值：忽略了图像之间的时间序列特征。
    - $F_{dif|t_i}=RELU(Conv([F_{t_{i+1}}-F_{t_i};F_{t_i}]))$ ：本文使用这种方法改善前两种方法的不足之处。
- 3) Feature Fusion
  - 获得差异特征之后，使用FF模块来获得更好的高级语义特征表示，揭示多个变化。
  - 用交叉注意力机制代替transformer编码层种的自注意力机制，使得FF模块有效的捕获和结合不同的差异特征，同时保持跨空间和时间维度的上下文信息。Q来自单一时态图像特征，K和V来自差异特征。
  - 为了融合这些不同的增强的差异特征Feni（i = 0,1,2，……）来获得对SITS变化的描述，提出了三种融合策略：
    - 直接相加：根据观察在同一地方的变化倾向于遵循固定的趋势，如扩张或消失。但是，当 SITS相同空间位置变化表现出周期性时，该方法就不适用。例如图3(a)，草地在时间t1和t2之间逐渐消失，在t3和t4之间逐渐恢复。当采用此策略，这组SITS数据的输出不涉及任何变化，与事实相反。即采用此方法时，中间变化过程会被抵消。
    - 直接连接：对频繁变化的情况表现良好，因为它考虑了跨整个时间序列的变化，并充分利用了时间信息。但是如图3(b)，在SITS数据上不可行，在t0-t3图像没有变化，但在t3和t4的最后一幅图像出现了显著变化，很明显，这种融合策略生成的输出句子不能正确描述时间t3和t4之间某些建筑物的外观。这一缺陷源于这种策略对 SITS内的所有图像不加选择地处理，可能忽略了某些重大变化。
    - 按时间顺序按比例连接：例如图3用绿色标记输出句子，表明该策略是有效的。具体策略如下：如果在ti和ti+1的两个相邻图像之间没有检测到显著变化，则变化的特征信息按比例减少，然后连接到下一个重要特征信息。这种策略保证了来自之前和后续图像的特征信息的保留，同时促进了差异信息的获取。如图3所示，策略3有效地缓解了前两种策略所造成的缺陷。
C. Caption Decoder
-  使用标准的transformer解码器对结果进行解码和输出，以生成描述的句子。

实验

Experimental Data

训练集和验证集：使用LEVIR-CC数据集中的训练集和验证集。具体来说，复制一组双时态图像，获得四张图像，类似一组SITS。输出包含三种类型的句子：unchanged, change description, and unchanged。
测试集：测试数据集由从Google Earth中提取的150个SITS组成。每个SITS包含5张图像，每张图像大小为512×512像素。这些SITS的时间跨度为15-25年，主要场景包括草地、居民区等，由一个专家对每个SITS序列标注一个注释句子，这个句子总结了在现场中发生的人类活动所引起的主要变化，作为参考句子，用于评价。