SpectralGPT: Spectral Foundation Model 论文翻译3

遥感领域的通用大模型 2023.11.13在CVPR发表

原文地址:[2311.07113] SpectralGPT: Spectral Foundation Model (arxiv.org)

E.消融研究

image-20231205160804763

在预训练阶段,我们对可能影响下游任务表现的各种因素进行了全面研究。这些因素包括掩蔽比、ViT patch大小、数据规模、重建目标、解码器深度、模型尺寸。为了对预训练模型进行更严格的评估,我们在BigEarthNet多标签分类数据集上对所有消融模型进行微调,只使用训练集的10%子集,这是一个更艰巨的挑战,使用mAP测量进行评估。我们选择ViT-B作为主干模型,保证了实验间的一致性。除了涉及数据规模和训练计划长度的缩减外,所有模型都在fMoW-S2数据集上进行了200 epoch的预训练。这个全面的评估框架使我们能够更深入地了解这些因素对模型性能的影响。

1)token大小:表V(a)图8(a)提供了token大小对模型性能影响的重要见解,一致表明较大的patch大小会导致模型性能降低,这与先前的研究结果一致[30]。这种现象可以归因于ViT架构的内在特征。对于较大的令牌大小,例如16 x 16,每个图像包含较少的令牌,从而导致随着模型通过其更深层的进展,细粒度空间信息的减少。因此,空间细节的减少会对模型的整体性能产生负面影响。然而,值得注意的是,无论token大小设置如何,预训练模型始终增强mAP,强调其在各种配置中提高性能的能力。值得注意的是,尽管输入图像的大小为96 × 96或128 × 128,但标记大小为8 × 8时的识别性能明显优于16 × 16,强调了预训练模型的多功能性和有效性。

2)数据规模:表V(b)和图8(b)针对预训练数据在我们研究中的影响进行了综合分析。我们使用两个数据集(即fMoW-S2, BigEarthNet)进行预训练,同时保持标准输入图像大小为96 × 96。为了更深入地研究这种比较,我们最初专门在fMoW-S2上预训练模型,然后在BigEarthNet上无缝地继续预训练,没有任何中间的微调步骤。我们的预训练数据集包括fMoW-S2的广泛训练集,其中包括来自世界各地的令人印象深刻的712,874张图像,以及BigEarthNet的训练集,其中包括欧洲地区的351,496张图像,其中不包括受雪,云或云阴影影响的图像。

表V(b)中的分析强调了数据规模和分布对模型预训练的实质性影响。在与下游任务相同的数据集上预训练的模型始终表现出优异的性能,突出了数据集一致性在有效迁移学习中的关键作用。此外,fMoW-S2在预训练方面优于BigEarthNet,主要是由于其更大的数据集和更广泛的地理覆盖。有趣的是,持续预训练的概念,结合了两个数据集,导致模型具有更高的mAP分数。这种改进可以部分归因于fMoWS2预训练期间的96 × 96图像到BigEarthNet预训练期间的128 × 128图像的过渡,强调了增加图像大小对整体模型效率的有益影响。在与下游任务相同的数据集上预训练的模型始终表现出优异的性能,突出了数据集一致性在有效迁移学习中的关键作用。此外,fMoW-S2在预训练方面优于BigEarthNet,主要是由于其更大的数据集和更广泛的地理覆盖。有趣的是,持续预训练的概念,结合了两个数据集,导致模型具有更高的mAP分数。这种改进可以部分归因于fMoWS2预训练期间的96 × 96图像到BigEarthNet预训练期间的128 × 128图像的过渡,强调了增加图像大小对整体模型效率的有益影响

3)掩蔽比:表V©和图8©揭示了掩蔽比的影响,揭示了一个值得注意的趋势,即掩蔽比越高,模型性能越好。与传统的75%的掩模率不同,我们发现多光谱图像的最佳掩模率为90%。这一观察结果与[29]中提出的假设相一致,即MIM方法中的掩蔽比与数据中的信息冗余复杂相关。多光谱图像本身具有更大的信息冗余,其光谱带之间具有很强的相关性。因此,更高的掩蔽比对于模型有效地从这些图像中学习有意义的表示是必不可少的。此外,90%的掩蔽率显著提高了预训练阶段的效率,降低了记忆复杂度加快训练时间,为模型开发提供实际优势。

4)重建目标:表V(d)和图8(d)对多光谱图像背景下重建目标对归一化、标准化数据和未归一化、标准化的原始数据的影响进行了深入分析。规范化(将所有数据缩放到[0,1]范围)标准化(将数据转换为均值为0和标准差为1)是两个研究的目标。值得注意的是,结果显示归一化和标准化重建目标之间的模型性能差异很小,主要是因为这两个目标都属于像素级数据转换。然而,在原始数据上进行预训练的模型的性能要比具有归一化重建目标的模型差得多。我们将这种现象归因于多光谱图像的特性。光谱值通常数值较大,且在不同频带之间变化,因此在原始数据上预训练的模型可能需要较长的保持时间才能收敛并显示出与在规范化和标准化数据上预训练的模型相同的性能。我们的观点表明,在特定的表示空间中使用更具语义意义的目标可能会提高模型的性能

5)解码器深度:表V(e)和图8(e)考察了解码器深度对模型性能的影响,遵循MIM方法的原则,其中预训练的编码器作为下游任务的骨干,同时丢弃解码器组件。值得注意的是,结果表明浅解码器配置不适合光谱模型预训练。这一观察结果与假设相一致,即光谱图像具有高维和复杂性的特征,需要具有增强容量的解码器,这与该领域的先前发现一致[29]。

6)模型大小:表VI和图8(f)对ViT-B和Vit-L的微调结果进行了定量和定性的对比分析,揭示了令人信服的见解。列出了macro-mAP和micro-mAP,以综合评价模型的性能。具有12个transformer层和8600万个参数的ViT-B在采用该方法时表现出了有希望的性能提升,实现了mAP(微)为85.41,比从头开始训练的ViT-B高出5.26。另一方面,具有24层3.07亿个参数的ViT-L明显优于ViT-B, mAP(micro)为86.92,明显超过从头训练的模型4.44。此外,ViT-B共有32层,6.32亿个参数,极大地提高了BigEarthNet上神经网络的性能,mAP(micro)为89.23。值得注意的是,尽管我们的模型只对10%的下游训练数据进行了微调,但使用SpectralGPT+预训练权值的ViT-H模型击败了所有使用整个训练集训练的模型,SOTA mAP(micro)为91.39。这些结果强调了适当的预训练策略的关键作用,并表明更大的ViT模型能够学习更复杂的图像表示,使它们非常适合要求更高精度的任务

7)预训练计划:在图8(g)中,我们展示了不同预训练时期训练的模型的微调结果,分别使用macro-mAP和micro-mAP指标进行评估。值得注意的是,与从头开始训练的模型相比,仅预训练50次的模型表现出显著的性能提升。图中观察到的趋势表明,模型继续受益于更长的预训练时期,这表明延长的训练可以进一步提高性能。此外,表VI中的结果强化了这一发现,因为与ViT-B相比,ViT-L和ViT-H始终获得更高的mAP,突出了扩展预训练和更大模型架构的有效性

image-20231205163103244

F.目视比较和地理特征可恢复性

image-20231205164306886

以不同的掩蔽比(即50%、75%、90%和95%)作为输入,图9直观地展示了使用SatMAE和我们的SpectralGPT获得的图像重建结果。不出所料,随着掩蔽比的增加,重建图像与原始图像的偏差越大。然而,值得强调的是,所提出的SpectralGPT在光谱图像重建性能方面明显优于SatMAE,特别是在保留视觉结构和纹理细节方面。具体来说,当使用50%的可见斑块时,SatMAE的重建结果与使用SpectralGPT的结果相当,尽管SatMAE结果中的某些细节略有模糊。随着掩模比例的增加(例如,从75%的掩模增加到90%,再增加到95%),SatMAE的重建性能大幅下降。相比之下,我们的SpectralGPT表现出优越的重建能力(参见SatMAE)。即使掩蔽率超过90%,关键结构和形状组件仍然保留在视觉中,这表明我们的模型具有强大的学习、推理和泛化能力

image-20231205164715125

除了关于掩蔽比的深入讨论和灵敏度分析外,我们还通过仅使用10%的可见斑块,其余部分被掩盖,对光谱重建能力进行了更广泛的调查。这些研究利用各种光谱波段组合,优先考虑地理特征的表示。如图10所示,我们展示了八种不同波段组合的可视化。这些可视化效果清楚地突出了我们提出的SpectralGPT的显著优势(更接近生成的原始图像)特别是在波段频谱重建能力及其在EO任务背景下的应用价值方面。在我们的研究中,我们确定了与实际应用中的观测目标相对应的八个地质特征,详见表七。此外,使用SatMAE和SpectralGPT获得的地质特征在视觉上存在明显差异。这些明显的视觉差异可归因于与我们更强大的SpectralGPT相比,SatMAE相对有限的重建和推理能力造成的光谱退化。

image-20231205164405239

结论

基础模型的爆炸性发展代表了深度学习出现后的重大技术革命。目前,各个行业正在见证技术和应用进步的重大飞跃,这在很大程度上是由基础模型的出现所推动的。RS领域也不例外,有许多EO应用程序,获得了显著的好处。光谱成像因其能够提供对观测物体和材料组成的丰富见解而获得了EO的认可,使其成为一项具有巨大潜力的变革性技术,可以应对全球挑战并重塑各个行业。然而,来自各种RS平台的光谱数据的不断扩大的可用性无疑带来了巨大的挑战。目前迫切需要开发专门为光谱遥感数据设计的基础模型。为了充分释放和利用光谱遥感数据的潜力,必须克服和解决几个具有挑战性的障碍。这包括有效处理和利用来自不同来源的各种RS光谱大数据从复杂的空间-光谱混合信息中提取有意义的知识表示以及解决相邻光谱相关建模的光谱退化问题

为了应对这些挑战,我们提出了SpectralGPT,这是一个定制的光谱RS基础模型,具有新颖的3D GPT架构。凭借其创新的3D GPT架构,超过100万张光谱图像和超过6亿个参数的训练,SpectralGPT赋予光谱RS大数据的智能处理能力。SpectralGPT可以灵活地处理大小、分辨率、时间变化率和地理覆盖范围方面的各种输入。这种3D掩蔽策略可以有效地从空间光谱耦合令牌中提取信息。此外,创新的多目标重建能够捕获序列保持的光谱特征-。特性,同时减少频谱退化。值得注意的是,我们的渐进式训练模式增强了基础模型的能力,超越了性能上的过渡点。SpectralGPT取得的这些突破使光谱RS大数据的访问更加大众化,使其更容易获得,更符合大规模EO应用的成本效益。

我们的研究还包括对基于mae的预训练基础模型的综合评估,重点是光谱重建能力。我们系统地评估了模型的性能,输入范围从50%到低至5%的可见标记。这种广泛的分析使我们能够衡量他们在光谱重建和推断方面的熟练程度,特别是在地理领域,如农业领域、自然、海洋学、地质学和植被。利用SatMAE和SpectralGPT对重建光谱图像的波段组合进行可视化,证明了后者在实际EO任务和Geo-field应用中的潜力。

展望未来,我们的研究将追求几个目标。我们计划扩大用于训练的RS数据的数量和多样性,包括各种模式、分辨率、时间序列和图像大小。这种丰富将增强RS基础模型的鲁棒性。此外,我们的目标是通过整合更广泛的下游任务来扩展SpectralGPT的能力。这将使SpectralGPT成为一种通用的人工智能模型,具有更好的泛化能力,非常适合各种EO和地球科学应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/222768.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

matplotlib学习

显示两个figure 坐标上刻度修改 plt.xlim() 下标范围 plt.xticks() 替换新的下标 图例显示 散点图 subplot多合一显示

LDAP协议和AD活动目录的讲解

目录 LDAP协议 LDAP基本概念 LDAP目录的数据结构 LDAP交互过程以及相关报文 AD(Active Directory) AD基本概念 AD域与工作组、本地组的区别 AD DS(AD域服务) 信任关系 组策略和安全组 LDAP协议 LDAP基本概念 LDAP&…

2023年【高压电工】考试报名及高压电工试题及解析

题库来源:安全生产模拟考试一点通公众号小程序 高压电工考试报名考前必练!安全生产模拟考试一点通每个月更新高压电工试题及解析题目及答案!多做几遍,其实通过高压电工理论考试很简单。 1、【单选题】 12m电杆埋设深度宜()。&…

每天一点python——day88

#每天一点Python——88 #编程两大思想【面向过程与面向对象】 #如图: 面向过程的线性思维: 类似于做菜一步步的来,先怎么样怎么样,再怎么样 如果不一步步的来,例如先炒菜再点火,这样是做不好的 面向对象&a…

MySQL系列(一):索引篇

为什么是B树? 我们推导下,首先看下用哈希表做索引,是否可以满足需求。如果我们用哈希建了索引,那么对于如下这种SQL,通过哈希,可以快速检索出数据: select * from t_user_info where id1;但是这…

十年前端之离别的旋律

在一家名叫“梦想家”的小公司里,有一个普通的程序员,他的名字叫做小帅。每天默默地坐在角落里,默默地写着代码,默默地为公司付出。他的眼睛里总是充满了对工作的热爱和对生活的热情,但他的内心却隐藏着一个秘密&#…

R语言学习

Part1阶段1:入门基础 1安装R和RStudio: 下载并安装R:https://cran.r-project.org/ 下载并安装RStudio:https://www.rstudio.com/products/rstudio/download/ 2Hello World: 学习如何在R中输出"Hello, World!"…

Vue2、Vue3的Diff算法比较

前言 diff算法是vue更新dom前,比较新旧vdom的一种优化方式 特点: 只会在同一级比较 从两边往中间收拢 差别 vue2 和 vue3的差别在于处理完头尾节点后,对设于节点的处理方式vue2 是遍历旧节点,将旧节点映射到map里&#xff0…

npm : 无法加载文件 D:\nodejs\node_global\npm.ps1,因为在此系统上禁止运行脚本。

今天在使用vscode下载项目的依赖时,输入 pnmp install,结果报错: npm : 无法加载文件 D:\nodejs\node_global\npm.ps1,因为在此系统上禁止运行脚本。原因: 因为在此系统上禁止运行脚本,也就是说没有权限,查一下&#…

每天一点python——day87

#每天一点Python——87 #Pycharm程序调试 #例&#xff1a;【我想输出1-10】 i1 while i<10:print(i) #会一直输出1{我想输出一到十&#xff0c;但是他一直输出1}【如果想找到问题出现在什么地方&#xff1a;就需要一步步调试】 #那么怎么调试呢 #前面声明是没有错的&#x…

Java——面试:异常处理所用到的关键字有哪些?具体有什么作用?

1.异常处理所用到的关键字有哪些&#xff1f; Java异常处理所使用的到的关键字有&#xff1a;try、catch、finally、throw、throws五个 2.具体有什么作用&#xff1f; try&#xff1a;用于捕获异常&#xff0c;后面必须跟一个或多个catch块或者一个finally块&#xff1b;捕获到…

AdaBoost 详解

AdaBoost Boosting Boosting 是指&#xff0c;仅通过训练精度比随机猜想&#xff08;50%&#xff09;稍高的学习器&#xff0c;通过集成的方式过建出强学习器。 其中boosting中最有名的是AdaBoost算法。AdaBoost是英文"Adaptive Boosting"&#xff08;自适应增强&…

祸害了人民3年的新冠消失了,但有些奇怪现象,让人百思不得其解

真是没想到啊&#xff0c;祸害我们3年的新冠病毒突然就消失了&#xff0c;但是紧接着呢&#xff0c;却有一个非常奇怪的现象出现了&#xff0c;真的是令人百思不得其解&#xff01; 新冠病毒&#xff0c;于2020年的开始&#xff0c;可以说根本就没有任何缓冲期&#xff0c;一开…

微信小程序基础bug

1.苹果11手机小程序请求数据不显示 设置-》隐私-》分析与改进-》开启 ”与开发者共享“ 2.<navigator>组件回退delta不成功 tabBar 页面是不能实现后退的效果的. 因为, 当我们跳转到 tabBar 页面&#xff0c;会关闭其他所有非tabBar 页面,所以当处于 tabBar 页面时, 无…

redhat修改root密码

系统环境 redhat版本redhat7.6 1.在当前界面按e键进入进行编辑 2.在rhgb quite 后面加入 rd.break&#xff0c;按住ctrlx使用更改的参数引导系统 3. 挂载文件系统 3.1 进入此界面后挂载文件 mount -o remount,rw /sysroot4. 更改系统文件的root chroot /sysroot5. 修改密码…

IDEA Maven 配置国内源

基本步骤 分别设置下图的两个&#xff0c;一个是对当前项目的设置&#xff0c;一个是对以后创建的项目设置&#xff0c;这样以后就不用重新配置了。 将下面的两个勾选上 注意&#xff0c;两个地方&#xff0c;Settings 和 Settings for New Projects 的勾都要勾上。 前往 User…

【技术分享】ORACLE数据库相关操作

【赠送】IT技术视频教程&#xff0c;白拿不谢&#xff01;思科、华为、红帽、数据库、云计算等等https://xmws-it.blog.csdn.net/article/details/117297837?spm1001.2014.3001.5502[欢迎关注微信公众号&#xff1a;厦门微思网络] -- 截断表 TRUNCATE TABLE TABLE_NAME; -- …

排序:直接插入排序希尔排序

目录 排序&#xff1a; 概念&#xff1a; 直接插入排序&#xff1a; 代码的实现&#xff1a; 代码解析&#xff1a; 总结&#xff1a; 希尔排序&#xff1a; 代码实现&#xff1a; 预排序&#xff1a; 代码优化&#xff1a; gap 的 本质 &#xff1a; 直接…

电子版简历模板精选5篇

电子版简历模板模板下载&#xff08;可在线编辑制作&#xff09;&#xff1a;做好简历&#xff0c;来幻主简历。 电子版简历1&#xff1a; 求职意向 求职类型&#xff1a;全职 意向岗位&#xff1a;ERP咨询顾问 意向城市&#xff1a;北京市 薪资要求&#xff1a;…

【微信小程序开发】学习小程序的模块化开发(自定义组件和分包加载)

前言 模块化开发是一种将复杂的应用程序分解为一系列独立的模块&#xff0c;每个模块负责完成特定的功能的开发方式。模块化开发可以提高代码的可维护性和可复用性&#xff0c;使开发过程更加高效和灵活。 文章目录 前言模块化开发的重要性和优势自定义组件自定义组件的概念和作…