西安交大曹相湧、孟德宇教授团队最新成果┆HSIGene: 一个用于高光谱图像生成的基础模型(含详细视频解读)

目录

论文简介

1. 团队介绍

2. 研究背景及主要贡献

3. 方法

4. 实验及结果

5. 总结与展望 

6. 论文介绍视频 

参考文献


论文简介

本推文详细介绍了一篇西安交通大学孟德宇教授与曹相湧副教授团队最新论文《HSIGene: A Foundation Model For Hyperspectral Image Generation》,该论文目前发布在Arxiv平台。该论文的第一作者为电子与信息学部研究生庞立,通讯作者为曹相湧副教授。在本研究中,为了解决高光谱图像稀缺的问题,该研究提出了一个支持多条件可控的高光谱图像生成模型HSIGene,并提出了一种基于空间超分的数据增强方法。相比于已有的高光谱生成模型,模型参数量更大(参数量达到十亿级),支持的可控条件更多(共支持6类条件生成)。实验表明,该模型能够同时支持无条件、单条件和多条件可控生成,能够生成大量与真实图像相当的高光谱图像,并且在高光谱图像去噪和高光谱图像超分两个任务上验证了生成图像对于下游任务提升的有效性,展示了所提出模型在高光谱应用中的巨大潜力。相关的代码、模型均已开源。

本推文由庞立撰写,审校为曹相湧老师。

论文链接:https://arxiv.org/abs/2409.12470

代码链接:https://github.com/LiPang/HSIGene

1. 团队介绍

团队负责人孟德宇教授一直从事机器学习和计算机视觉的基础方法研究,曹相湧副教授一直从事底层视觉处理,遥感图像解译,生成式大模型等相关研究,近年来代表性的研究工作包括:基于噪声建模的图像处理新方法论[1-6]、基于生成式模型的图像处理方法论[7-9]、遥感变化检测任务大模型[10-11]及工具包OpenCD[12]、多条件可控生成式遥感大模型CRS-Diff[13]和本文所介绍的高光谱生成式基础大模型HSIGene[14]。

2. 研究背景及主要贡献

高光谱图像(HSI)在农业、环境监测等领域具有重要作用。然而,由于获取成本高昂,高光谱图像的数量有限,这限制了深度学习技术在高光谱图像处理任务中的应用。为了解决这一问题,本论文提出了一个支持多条件可控的高光谱生成模型HSIGene。具体来说,HSIGene基于隐扩散模型学习高光谱图像的条件分布,从而实现给定条件下进行随机采样能够生成相应的高光谱图像。为了增强训练样本的空间多样性,本论文提出了个基于空间超分的数据增强策略,通过对真实图像进行空间超分并进行裁剪,从而扩充训练数据量,增强模型的泛化性能。考虑到真实高分辨率的高光谱图像是未知的,为了提升增强数据的感知质量,本论文提出了一个两阶段的超分方法来提升图像质量。首先收集大量与高光谱图像内容相似的高分辨遥感RGB图像,训练遥感RGB图像超分扩散模型,并使用该模型对高光谱的RGB波段进行超分。然后训练一个RGB波段引导的高光谱超分网络,使用之前得到的高分辨率RGB波段作为引导条件,处理得到超分后的高光谱图像,提升图像质量。实验表明,该模型相比于已有模型能够生成更加真实的高光谱图像,使用数据增强训练的模型生成的图像与给定条件具有更高的契合度,证实了本文方法在高光谱生成领域的有效性。

论文的主要贡献如下:

(1)提出了一个可控高光谱图像生成模型HSIGene,该模型首次支持多条件可控的高光谱生成,并且相比于已有高光谱生成模型参数量最大(模型参数达到十亿级)。

(2)设计了一种新的高光谱数据增强方式,通过空间超分来增强数据的多样性,从而增强模型的泛化性。

(3)为了提升增强数据的空间质量,提出了一种两阶段的空间超分方法,使用扩散模型对高光谱的RGB波段进行超分,然后以高质量的RGB波段为条件实现高光谱超分。

(4)在去噪和超分两个下游任务上验证了生成的高光谱图像有助于下游任务性能的提升,证明了生成图像具有较高的可靠性和真实性

3. 方法

1)训练数据构建

为了构建高质量的训练集数据,本文使用了包括Xiongan, Chikusei, DFC2013, DFC2018和Heihe在内的五个数据集,裁剪为大量长宽为256的训练图像来训练高光谱生成网络。此外,使用图像的RGB波段来生成控制条件,例如图像分割图Segmentation,图像轮廓图Sketch,图像的内容编码特征等。

表1训练数据详细信息

2)高光谱图像生成网络架构

HSIGene图像生成网络基于隐扩散模型进行实现,由变分自编码器、UNet网络和ControlNet三个部分组成。变分自编码器将图像映射到隐空间中,从而有助于扩散模型的高效采样,ControlNet对输入条件进行编码,并将编码后的特征输入到UNet网络中从而实现引导生成。

3)训练数据增强

 图1 数据超分框架

为了增强训练集的多样性,提升生成模型的泛化性能,提出了一种基于空间超分的数据增强方法,如图1所示。基于两阶段的超分对真实高光谱图像进行上采样,然后对上采样后的图像进行裁剪从而扩充数据集。由于高光谱图像包含丰富的地物信息,因此该方法得到的增强数据仍然具有丰富的纹理结构。考虑到真实的高分辨高光谱图像是未知的,提出了两阶段的高光谱超分模型。如图1所示,首先使用生成式大模型对高光谱图像的RGB波段进行超分,获取高分辨率的RGB波段,然后以RGB波段作为引导信息引导高光谱图像的超分,从而获得空间质量较高的高光谱图像。为了有效实现高光谱引导超分,设计了一个矩形互注意力模块,实现RGB引导信息的有效提取融合,提升超分质量。

4. 实验及结果

1)实验细节

对于高光谱生成模型训练,对Xiongan, Chikusei, DFC2013, DFC2018和Heihe五个数据集以128为步长进行裁剪,得到7k长宽为256的图像块。此外使用本文提出的数据增强方法进行增强得到总共40k个长宽为256训练图像块。论文提出的生成模型使用Pytorch实现,在NVIDIA RTX A100进行相关实验。使用Adam优化器训练网络,学习率为1e-5,训练迭代数为100k,训练批次大小为16。评价指标包括IS、FID、NIQE、PI、BRISQUE等。

2)实验结果

表2 相比于现有高光谱生成方法的图像生成性能比较

 

为了证明HSIGene的高光谱生成性能,与已有高光谱图像生成模型UBF和UnmixDiff进行比较,评估无条件生成1k张高光谱图像的质量,来比较不同生成模型的性能。结果如表2所示,HSIGene在图像质量和光谱真实性上优于其他方法。

 图 2 单条件生成高光谱可视化

给定单个条件下生成的高光谱图像如图2所示,可以看出,本论文提出模型能够实现高质量的高光谱图像生成,且生成图像与给定条件具有较好的一致性。

 图 3 多条件生成高光谱可视化

给定多个条件的高光谱图像生成结果如图3所示,在给定更多条件时可以生成语义和结构信息更为准确的图像。

  4 生成光谱曲线比较

生成高光谱曲线与真实高光谱曲线如图4所示,可以看出生成的光谱曲线与真实曲线具有较好的一致性。

 表 3 高光谱去噪任务性能比较

 表 4 高光谱图像超分任务性能比较

在去噪和超分两个下游任务上,使用Xiongan数据集训练模型,并使用本文模型生成额外训练数据,在Xiongan和HanChuan数据集上进行测试。结果如表3和表4所示,可以看出本文模型可以有效扩充训练数据,提升下游任务性能,增强模型泛化能力。

5. 总结与展望 

论文提出了一个可控高光谱生成模型HSIGene,能够实现给定多个条件下的高光谱图像生成。为了增强训练数据集的空间多样性,提出了一种基于空间超分辨率的数据增强方法,并设计了一个两阶段的超分辨率方法来提高增强图像的感知质量。实验表明,模型能够生成较为逼真的高光谱图像,本文提出的数据增强方法能够在有效保证光谱真实性的情况下增强模型的泛化能力,提升模型可控生成性能。在去噪和超分两个任务上证明了该模型能够提供大量高质量的数据,显著提高下游任务的性能。综上所述,本文提出的HSIGene能够生成质量较高的高光谱图像,本论文的研究对推动高光谱图像的应用和发展有着重要的意义。

6. 论文介绍视频 

高光谱图像生成论文解读

参考文献

[1] Xiangyong Cao, Yang Chen, Qian Zhao, Deyu Meng*, Yao Wang, Dong Wang, Zongben Xu. Low-rank matrix factorization under general mixture noise distributions. ICCV, 2015.

[2] Xiangyong Cao, Qian Zhao, Deyu Meng*, Yang Chen, Zongben Xu. Robust Low-Rank Matrix Factorization Under General Mixture Noise Distributions. TIP, 2016.

[3] Yang Chen, Xiangyong Cao, Qian Zhao, Deyu Meng*, Zongben Xu. Denoising hyperspectral image with non-iid noise structure. TCYB, 2017.

[4] Zongsheng Yue, Hongwei Yong, Deyu Meng*, Qian Zhao, Yee Leung, Lei Zhang. Robust Multi-view Subspace Learning with Non-independently and Non-identically Distributed Complex Noise. TNNLS, 2019.

[5] Xiangyu Rui, Xiangyong Cao, Qi Xie, Zongsheng Yue, Qian Zhao, Deyu Meng*. Learning An Explicit Weighting Scheme for Adapting Complex HSI Noise. CVPR, 2021.

[6] Xiangyu Rui, Xiangyong Cao*, Jun Shu, Qian Zhao, Deyu Meng*. A Hyper-weight Network for Hyperspectral Image Denoising. arXiv:2301.06081.

[7] Gang Yang, Xiangyong Cao*, Wenzhe Xiao, Man Zhou, Aiping Liu*, Xun Chen, Deyu Meng.  PanFlowNet: A Flow-Based Deep Network for Pan-sharpening. ICCV, 2023.

[8] Xiangyu Rui, Xiangyong Cao*, Li Pang, Zongsheng Yue, Deyu Meng*. Unsupervised Hyperspectral Pansharpening via Low-rank Diffusion Models. Information Fusion, 2024.

[9] Li Pang+, Xiangyu Rui+, Long Cui, Hongzhong Wang, Deyu Meng, Xiangyong Cao*. HIR-Diff: Unsupervised Hyperspectral Image Restoration Via Improved Diffusion Models. CVPR, 2024. (+co-first author)

[10] Kaiyu Li, Xiangyong Cao*, Deyu Meng. A New Learning Paradigm for Foundation Model-based Remote Sensing Change Detection. TGRS, 2024.

[11] Kaiyu Li, Xiangyong Cao*, Yupeng Deng, Junmin Liu, Deyu Meng, Zhi Wang. SemiCD-VL: Visual-Language Model Guidance Makes Better Semi-supervised Change Detector. arXiv:2405.04788.

[12] Kaiyu Li+, Jiawei Jiang+, Andrea Codegoni+, Chengxi Han+, Yupeng Deng+, Keyan Chen+, Zhuo Zheng+, Hao Chen+, Zhengxia Zou, Zhenwei Shi, Sheng Fang, Deyu Meng, Zhi Wang, Xiangyong Cao. Open-CD: A Comprehensive Toolbox for Change Detection. arXiv:2407.15317. (+co-first author)

[13] Datao Tang, Xiangyong Cao*, Xingsong Hou, Zhongyuan Jiang, Junmin Liu, Deyu Meng. CRS-Diff: Controllable Generative Remote Sensing Foundation Model. TGRS, 2024.

[14] Li Pang, Datao Tang, Shuang Xu, Deyu Meng, Xiangyong Cao*. HSIGene: A Foundation Model For Hyperspectral Image Generation. arXiv:2409.12470.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/883008.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

微信小程序报名表怎么弄_轻松打造高效便捷的互动新体验

在当今数字化时代,便捷与高效成为了我们日常生活中不可或缺的一部分。无论是企业活动、社团招新,还是日常办公统计,一个优秀的报名工具都能极大地提升我们的工作效率和用户体验。今天,就让我们一起探索如何通过微信小程序报名表&a…

Growthly Quest 增长工具:助力 Web3 项目实现数据驱动的增长

作者:Stella L (stellafootprint.network) 在瞬息万变的 Web3 领域,众多项目在用户吸引、参与和留存方面遭遇重重难关。Footprint Analytics 推出 Growthly,作为应对这些挑战的全方位解决方案,其中创新性的 Quest(任务…

如何确定SAP 某些凭证或者单号的号码编码范围的 OBJECT 是什么?

在SAP的运维或者项目实施中,有时会如何确定SAP 某些凭证或者单号的号码 OBJECT 是什么? 一般一下常用的可以通过事务代码 例如: XDN1 Create Number Ranges for Customer Accounts,定义客户编码FBN1查看维护会计凭证号范围 我…

Java开发:文件上传和下载

一、文件上传 使用MultipartFile 类型接收参数; 调用上传有两种方式: 方式一:使用curl命令 curl -F "file/data/filename.txt" http://localhost:8080/upload --verbose方式二:使用html,写一个form表单&…

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-21

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-21 1. AIvril: AI-Driven RTL Generation With Verification In-The-Loop Authors: Mubashir ul Islam, Humza Sami, Pierre-Emmanuel Gaillardon, and Valerio Tenace AIVRIL: 人工智能驱动的RTL生成与验证内…

问题:机器字长为n位的二进制数可以用补码来表示()个不同的有符号定点整数。

一、概念 概念:无论原码、反码、补码,n位二进制数可以表示2^n个数值 二、从范围证明 有符号的情况下,表格如下: 其中,原码、反码含有-0、0 , 而补码不划分0 由此,可知: ① 原码…

Pygame中Sprite实现逃亡游戏3

在《Pygame中Sprite实现逃亡游戏2》中实现了飞龙和飞火的显示。接下来实现玩家跳跃效果,如图1所示。 图1 玩家跳跃效果 1 按键响应 当玩家按下键盘中空格按键后,游戏中的玩家就会跳跃,用于躲避飞火。在while True循环判断按键的代码中&…

使用SoapUI、Postman工具调用Webservice方法

SoapUI工具更适合调用Webservice使用。 1.使用SoapUI工具调用Webservice 创建“New SOAP Project” 自行定义一个项目名称,输入wsdl地址: 在左侧列表找到方法名,双击“Request 1”, 在请求数据中,添加对应的参数,然…

ESP8266/01s模块烧录MQTT AT固件篇

(代码完美实现)stm32 新版 onenet mqtt物联网(保姆级教程) 地址: (代码完美实现)stm32 新版 onenet mqtt物联网(保姆级教程)https://blog.csdn.net/Wang2869902214/article/details/142501323 乐鑫ESP8266/安信可…

Linux-L12-更改文件的拥有者

更改文件的拥有者 背景改变单个文件的拥有者改变目录及其子目录和文件的拥有者:改变文件的拥有组:同时改变文件的拥有者和拥有组:使用引用文件的拥有者和组 背景 文件被更改了无法访问,总是显示access deny… 在Linux系统中&…

await命令使用注意点

第一点,前面已经说过,await 命令后面的 Promise 对象,运行结果可能是 rejected,所以最好把 await 命令放在 try...catch 代码块中 第二点,多个 await 命令后面的异步操作,如果不存在继发关系,最…

程序员转型攻略:数据分析师、AI大模型工程师、产品经理、云计算工程师,哪个更适合你?

先给结论再说理由:数据分析师、AI大模型工程师、产品经理和云计算工程师。 这些领域不仅因应了当前技术发展的趋势,也为程序员提供了转型的广阔舞台和职业发展的新机遇。 一起来看看吧! 数据分析师:数据驱动决策的关键 程序员…

48岁阿姨遇上AI,半年变现30万,AI时代,如何用AI来增加副业收入

近两年疫情反复冲击经济,大小企业纷纷裁员降薪,搞得很多打工人人心惶惶。大多数人上班工资不多,还得看公司脸色,所以不少人都开始尝试做副业,增加一份经济来源。 而随着AI技术的崛起,又给普通人带来新机遇…

初探shell与bash使用指南

文章目录 一、shell二、bash第一步、新建脚本第二步、添加权限第三步、执行bash脚本 在日常开发中,经常使用到Linux服务器相关知识,输入命令获取想要的结果,本篇介绍shell 与 bash的相关知识。 一、shell 是命令行解释器,接收用户…

DAMODEL丹摩智算平台实践CogVideoX

文章目录 前言 一、平台账号注册并登录 二、部署CogVideoX (一)简介 (二)部署 1. 创建实例 2. 配置环境和依赖 3.预制模型与配置文件 三、开始运行 总结 前言 该文章主要记录DAMODEL丹摩智算平台实践过程与心得体会&…

GreenPlum与PostgreSQL数据库

*** Greenplum*** 是一款开源数据仓库。基于开源的PostgreSQL改造,主要用来处理大规模数据分析任务,相比Hadoop,Greenplum更适合做大数据的存储、计算和分析引擎 它本质上是多个PostgreSQL面向磁盘的数据库实例一起工作形成的一个紧密结合的数…

伊犁云计算22-1 rhel8 dhcp 配置

1 局域网搭建 2 yum 配置 这个参考前面 不说 3 dnf 安装dhcp 好我们废话不说开始安装。理论看书去 进入 dhcp.conf 配置 重启dhcpd 不能报错!!!! 我们在客户机上做测试 全局的dhcp关闭 很明显我们的客户机获取到192.16…

yolov8环境安装

yolov8 git地址 https://github.com/ultralytics/ultralytics/tree/main 我的电脑显卡配置 nvidia-smi cuda11.8下载 https://developer.nvidia.com/cuda-11-8-0-download-archive?target_osWindows&target_archx86_64&target_version10&target_typeexe_local …

零基础转行学网络安全怎么样?能找到什么样的工作?

网络安全对于现代社会来说变得越来越重要,但是很多人对于网络安全的知识却知之甚少。那么,零基础小白可以学网络安全吗?答案是肯定的。 零基础转行学习网络安全是完全可行的,但需要明确的是,网络安全是一个既广泛又深入…

业务数据批量插入数据库实践

业务数据如何存储一直以来都是项目开发中的一个比较重要的话题。我们要从资源的利用率,业务场景和技术实现多个方面考虑存储的问题。“抛开业务谈技术就是耍流氓”,所有技术架构都要站在实际的业务场景中分析。比如个人端的产品,这种就属于读…