OpenEarthMap由220万段5000张航拍和卫星图像组成,覆盖6大洲44个国家97个地区,在0.25-0.5m的地面采样距离上人工标注8类土地覆盖标签。我们提供8类标注:裸地、牧场、已开发空间、道路、树木、水、农业用地和建筑。类选择与现有的具有亚米GSD的产品和基准数据集(如LoveDA[49]和DeepGlobe[12])一致。该数据集可在https: //open-earth-map.org上获得。
图像来源
我们的策略是尽可能多地重用现有基准数据集的图像,并手动标注新的土地覆盖标签。我们选择了xBD[16]、Inria[30]、Open Cities AI[33]、SpaceNet[47]、Landcover。ai[3]、AIRS[8]、GeoNRW[1]、HTCD[38]等数据集,基于源图像可再分发、地面采样距离(GSD)等于或小于0.5m、图像具有地理坐标信息的条件。如果有足够多的区域图像,我们以省或城市的尺度定义该区域,我们以1024×1024像素的大小采样该区域的50-70张图像。我们采用的每个数据集中的图像数量是根据拍摄图像的大陆和国家的多样性和平衡来确定的。对于现有数据集未覆盖的国家和地区,收集了这些国家或地区公开的航空图像,以减轻区域差距,这是大多数现有基准数据集存在的问题。开放数据下载自OpenAerialMap[34]和地理空间机构[15,32]。有关归属的更多细节,请参阅附录。
除了这种地理多样性之外,我们的数据集还包括从不同平台(包括卫星、飞机和无人机)拍摄的混合图像。对于GSD小于0.25m的高分辨率图像,我们将图像重新采样到0.3m或0.5m,以考虑捕获区域的物体大小和视觉可解释性。基本上,每个区域的图像都是通过随机抽样和人工检查相结合的方式选择的。此外,如果源基准数据集中特定区域的图像数量非常大,我们使用顺序标记的数据(例如,每10张图像)和另一个回归模型训练分割模型来估计损失。然后,我们添加具有高预测损失值的图像,因为用可用标签训练的模型更难分割它们。
其他数据集介绍
OpenSentinelMap[20]的特点是利用Sentinel-2和OpenStreetMap的开放数据对全球进行全面覆盖,而DynamicEarthNet[44]则在高时间分辨率方面具有优势。OpenEarthMap在提供亚米级别的空间详细注释方面更进一步。与LoveDA[49]和DeepGlobe[12]进行了更详细的比较,它们的分辨率和类定义与OpenEarthMap相似。图4a显示了三个数据集的类比例的比较。需要注意的是,LoveDA不包括牧场,而在DeepGlobe的土地覆盖分类数据集中,建筑物和道路被包括在城市类别中。在OpenEarthMap中不存在主导职业,职业比例相对平衡。单幅图像中段数的归一化直方图如图4b所示。在图像大小方面,LoveDA与OpenEarthMap相同(1024×1024像素),而DeepGlobe更大(2448×2448像素)。OpenEarthMap的直方图有一个非常长的尾巴,在OpenEarthMap的每个图像中显示的片段数量比其他数据集大得多。OpeneEarthMap的空间细节标注体现在第5节和第6节中介绍的跨数据集评估和训练模型的样本外预测结果中。