Non-aligned Supervision for Real Image Dehazing

原文链接:https://www.semanticscholar.org/paper/Non-aligned-supervision-for-Real-Image-Dehazing-Fan-Guo/7595d39e71ae58343e8728fc1af0e18ffe38218b

数据集:https://www.cityscapes-dataset.com/

真实的图像去雾的非对准监督

摘要

由于天气条件的不可预测性,导致模糊图像和清晰图像对的不对齐,从真实世界图像中去除雾霾是一项挑战。本文提出了一种创新的去雾框架,该框架在非对齐监督下运行。该框架基于大气散射模型,由三个相互连接的网络组成:去雾,空气光和传输网络。特别地,我们探索了一种非对齐场景,即利用与输入模糊图像不对齐的清晰参考图像来监督去雾网络。为了实现这一点,我们提出了一种多尺度参考损失,它比较了参考图像和去雾输出之间的特征表示。我们的场景使得在现实环境中收集模糊/清晰图像对变得更容易,即使在未对准和移位视图的条件下。为了展示我们的场景的有效性,我们收集了一个新的模糊数据集,包括415个由移动的手机在农村和城市拍摄的图像对,称为“Phone-Hazy”。此外,我们引入了一个基于均值和方差的自注意网络来建模真实的无限空气光,使用暗通道先验作为位置指导。此外,一个通道注意力网络被用来估计三通道传输。实验结果表明,我们的框架优于现有的国家的最先进的技术在现实世界的图像去雾任务的上级性能。电话-Hazy和代码将在www.example.com上提供https://fanjunkai1.github.io/projectpage/NSDNet/index.html。

关键词:图像去雾,非对齐监控,真实的雾数据集,大气散射模型

1引言

        模糊是捕获退化图像的主要限制因素(例如,有限的可见度,低对比度),导致许多计算机视觉应用的性能不佳,例如物体检测[8],场景识别[9],深度估计[10],语义分割[11]和自动驾驶[12]。因此,图像去雾,在过去的十年里,从模糊输入中恢复清晰图像的方法受到了越来越多的关注[4,13-15]。模糊过程通常被建模为大气散射。

其中x表示像素位置,I(x)是输入模糊图像,J(x)是恢复的场景辐射,A∞是无限空气光,d(x)是透射图,d(x)和β(λ)表示场景深度和具有光的波长λ的散射系数,遵循大气散射模型,大多数深度学习方法[2,16-20]利用广泛采用的基于CNN的网络[21,22]来构建去雾、空气光、传输网络,以从输入的模糊图像I估计J、A∞和t,如等式(1)中所概述的。考虑到模糊和清晰图像对之间的关系,这些方法可以被广泛地分类为成对和非成对方法。然而,尽管这些方法有希望的结果,但是这些方法仍然遇到三个显著的挑战。

        首先,大多数配对方法[5,23-25]采用监督设置内的对齐的模糊/清晰图像对来训练去雾网络,然后通过域自适应恢复真实的模糊图像。用于训练的对齐图像对通常是综合生成的,利用等式(1)中描述的大气散射模型将清晰图像转换为模糊图像。尽管如此,当应用于真实世界的模糊图像时,由于合成和真实模糊图像域之间的固有分歧,这产生了低于标准的结果,例如图1中的DAD模型([5])。此外,从真实世界的场景中收集大量完全对准的模糊/清晰图像对是不可行的。这主要是因为这些图像通常是在不同的时间、天气条件和相机视角下拍摄的,导致像素错位和视图偏移。

        其次,未配对方法[2,3,6,16]依赖于未配对的清晰/模糊图像集来训练去雾网络。虽然收集未配对图像相对不复杂,但它们是从不同的分布或场景中绘制的。因此,训练变得具有挑战性,并且去雾结果受到影响,如RefineNet([2]),CDD-GAN([6]),和D4([3]),如图1所示。

        第三,上述方法通常假设空气光A∞为恒定值。然而,A∞由于实际场景中散射颗粒的大小和光波长的差异而变化([26,27])。因此,固定的A∞无法捕获这些变化,导致去雾效果不理想。

        为了解决这些问题,我们开发了一个不结盟的监督框架,其中包括去雾,无限的空气光,和植根于大气散射模型的传输网络。

        图 1:CVPRws 2021 [1] 和我们的 Phone-Hazy 对真实世界图像的去噪结果。与最先进的方法 RefineNet [2]、D4 [3]、PSD [4]、DAD [5]、CDD-GAN [6] 和 RIDCP [7] 相比,我们的方法能生成更清晰的结果。

        一个重要的想法是利用非对齐的清晰图像来监督去雾网络。这样,与雾霾图像不完全对齐的清晰图像就可以用于训练,从而产生两个有价值的好处。与配对方法不同,我们的方法不仅放宽了严格的对齐限制,而且在更宽松的条件下更容易从同一场景中收集非对齐图像对。与非配对方法相比,我们的方法减少了朦胧图像和清晰图像分布之间的差异,使模型易于学习。此外,我们还引入了多尺度参考损失,将对抗损失和上下文损失相结合,利用多尺度非对齐图像对优化去毛刺网络。

        另一种观点认为 A∞ 是一种非均匀映射。为了更有效地模拟朦胧图像中的 A∞,我们结合暗通道先验(DCP)[28] 和朦胧图像,提出了一种均值和方差自注意(mvSA)网络。mvSA 能够捕捉朦胧特征的平均值,并预测波长效应和散射粒子等因素引起的波动,从而突出朦胧特征。与 DCP 和传统的自我关注(SA)相比,我们的 mvSA 网络能更精确地限制无限气光的范围。总的来说,我们的贡献总结如下:

        如图 2 所示,我们提出了一种新颖的非对齐监督框架,用于有效地对真实世界的图像进行去噪处理。通过将清晰的非对齐参考图像纳入去毛刺网络监督,我们有效地减轻了通常与朦胧/清晰图像对相关的严格对齐前提条件。据我们所知,我们是在真实世界场景中探索用于单幅图像去毛刺的非对齐监督的先驱。

        图 2:以大气散射模型为基础的非对齐监督框架的整体流程,用于真实图像的去噪。该框架由以下重要部分组成:用于去毛刺图像 J 的生成器网络、用于气光图 A∞ 的 mvSA 网络和用于传输图 t 的信道关注网络。另一个重要部分是 mvSA 网络,通过使用真实场景中的暗通道先验来有效估计 A∞。请注意,我们的框架有别于传统的有监督去毛刺模型,因为它无需对齐地面实况即可运行。

        我们提出了一种均值和方差自我注意网络(mvSA),它利用暗通道先验作为位置引导,以更好地模拟无限气流。我们的实验结果也证实了它的有效性。-

        我们提供了一个真实世界的雾霾数据集,其中包括 415 对不对齐的雾霾/清晰图像对,这些图像是使用 iPhone XR 在不同的真实场景(即乡村和城市道路)中手动收集的。

      2 相关工作

        在此,我们主要回顾两类方法:基于先验的去雾方法和基于学习的去雾方法。

        基于先验的去雾霾方法依赖于大气散射理论[26],并采用基于经验观察的人工先验。这些先验主要包括对比度最大化[29]、暗通道先验(DCP)[28]、颜色衰减先验[30]、色线先验[31]和非局部先验[32]。这些方法虽然在一般情况下有效,但在复杂的真实世界场景中可能会产生次优结果,特别是在天空区域,由于 DCP 依赖于特定场景和假设的先验,因此在天空区域难以奏效。

        基于学习的方法使用深度神经网络来学习大气散射模型的参数(即无限空气光 A∞、传输图 t(x) 和无霾 J(x))或朦胧图像与清晰图像之间的映射。对于前者,许多研究[17-20, 33-39]侧重于使用 CNN 或 GAN 直接估计 t(x) 和 A∞。Mondal 等人[35] 提出气光是非均匀的,并将其定义为 A∞(λ)(1-t(x)),而我们的无限气光只指 A∞。由于在真实场景中很难获得 t(x) 和 A∞ 的地面真实值,这些方法很难取得良好的效果。为了提高 A∞ 和 t(x)的精度,一些方法[40- 43]采用了迭代优化的方法来获得它们的最优值,但收益有限。后者主要依靠设计各种网络模块来有效提取特征,而没有利用大气散射模型。其中大多数研究[44-50]以 GAN 变体为基础构建去噪模型,并引入感知损失[51]作为约束条件。部分 GAN 变体主要利用多尺度和注意机制(如通道注意、空间注意)来有效提取朦胧特征,如[45, 46]。此外,类似的网络架构设计思路也出现在基于 CNN 的去噪网络中 [13, 18, 52-56]。最近,视觉变换器(ViT)被用来设计不同的结构,以提高去毛刺性能[57-60]。上述工作主要是城市景观[62])。然而,由于深度有限和图像质量下降,去雾效果并不理想,导致出现域间隙,缺乏真正的朦胧/清晰图像对。

        为解决这一问题,一些研究提出了针对真实世界的域自适应和非配对去毛刺模型。这些模型主要建立在 CycleGAN [63] 的框架上,如 Cycle-Dehaze [64]、DAD [5] 和 D4。Chen 等人[4]提出了一种在合成数据集上预训练并在具有物理先验的真实数据上微调的去毛刺框架。同样,Wu 等人[7] 通过使用高质量的编码本先验,提高了微调后的图像质量。Yang等人[16]采用深度网络分别估计A∞、t(x)和J(x)来重建灰度图像,并通过使用未配对的灰度/清晰图像来约束去雾结果,类似的工作包括[2]。这两种方法在实际应用中效果都不理想,主要原因是样本分布不同。与域自适应和非配对监督相比,我们的非配对监督具有更强的约束性。与上述方法不同的是,我们的方法通过在成对的真实雾霾数据集上进行训练,并从非对齐参考图像中提取有效特征,从而超越了以往的去毛刺模型。此外,我们还重新定义了 A∞(即非均匀图),并提出了一种新型网络(mvSA),可在真实世界场景中更准确地估计 A∞。

3 方法

        在本节中,我们提出了一种非对齐监督去毛刺框架,即从输入的模糊图像中构建三个去毛刺、透光和传输网络(称为 NSDNet),如图 2 所示。我们的主要想法是探索一种非对齐监督设置,即通过使用清晰且非对齐的参考图像来监督训练去雾网络。另一种我们的想法是构建一个均值和方差自注意(mvSA)网络,通过使用暗信道先验[28]来预测更好的空气光 A∞。

        在展示它们之前,我们首先给出去噪网络和传输网络。去雾网络旨在直接从输入的雾霾图像生成无雾霾图像。如图 2 所示,我们使用 DCP 方法 [28] 计算粗略的无雾霾图像。然后将其输入去噪网络,该网络是 CycleGAN 的生成器网络[63]。

        如图 2 所示,传输网络的目的是通过利用信道注意网络,从输入的雾霾图像生成三信道传输图。其架构是一个编码器-解码器结构,具有跨特征尺度的跳接连接[22]。最后,利用引导滤波器 [28] 得出最终的传输图。

        我们用输入的模糊图像表示 I∈R 3×H×W,用清晰和非对齐的参考图像表示 Jref∈R 3×H×W,用输入 I 的去噪网络输出表示 J∈R 3×H×W,用传输网络输出表示 t∈R 3×H×W。请注意,Jref 并不与 I 或 J 对齐。

3.1 非对齐监督

        为了有效减少配对方法中合成图像与真实雾霾图像之间的域差距,以及最小化非配对方法中雾霾图像与清晰图像分布之间的差异,一种合理的方法是在同一真实世界场景中积累非对齐的雾霾/清晰图像对(I, Jref)。然后,这些图像对可以作为指导去雾网络训练的监督信号。附录 A 中概述了组建手机朦胧数据集的详细策略。在本小节中,我们将通过评估 Jref 和 J 之间的特征相似性来确定 Jref 和 J 之间的参考损失,从而建立非对齐监督的概念。如下所述,我们使用多尺度增强技术进行评估。

        多尺度参考损失既包括多尺度对抗损失,也包括多尺度上下文损失,比较 Jref 和 J。J = {J i}i=1,2,3. 在数学上,多尺度参考损失可以表示如下:

其中 ω1 和 ω2 为正超参数,用于平衡两种损失。本文默认设置为 1。

        多尺度对抗损失。鉴于对抗学习[65]具有生成高度逼真图像的强大能力,我们的方法利用对抗损失来监督去毛刺网络(生成器)和判别器网络。鉴别器网络是一个由 5 层组成的紧凑型 CNN,利用卷积产生一维输出。除第一层和最后一层缺乏 BatchNorm 外,其余各层均包含跨距为 2 的 4 × 4 卷积-批量规范-LeakyReLU 单元。此外,我们还将对抗损失扩展为多尺度变体,具体表现如下:

其中,索引 i 代表不同尺度,J 是去毛刺网络通过上述损失训练后的输出结果。

        多尺度上下文损失。为了更好地探索清晰且未对齐的参考图像,我们从上下文损失中汲取灵感[66]。这种损失量化了未对齐图像之间的余弦相似性距离,最初设计用于图像到图像的翻译任务。我们的贡献在于将其扩展为多尺度上下文损失,定义如下:

其中,S 表示图像特征之间的上下文相似性,Φ l (J) 和 Φ l (Jref ) 分别指 VGG-16 网络 Φ 第 l 层使用输入 J 和 Jref 提取的特征图。

        备注 1. 我们的非配准监督方法有三个显著优势。首先,它减轻了严格的配准要求,尤其是在配对方法中减少合成雾度/清晰度图像对之间的域差距时。其次,它加强了非配对方法中灰度图像和清晰图像分布之间的一致性。第三,它有助于从真实场景中收集非配对的朦胧/清晰图像对,即使在像素错位和视角变化等宽松条件下也是如此。此外,我们还利用 iPhone XR 收集了一个真实世界的雾霾数据集,称为 “Phone-Hazy”。

3.2 均值与方差自注意

        在本小节中,我们将介绍一种均值与方差自注意(mvSA)网络,旨在加强对无限光照(A∞)的建模。为了计算输入图像 I 的暗通道图 D,我们采用了 DCP 方法 [28]。随后,我们利用共享网络,从暗通道图 D 和朦胧图像 I 中提取特征,然后将其输入 mvSA 网络,以更准确地估计 A∞,如图 2 所示。

        共享网络是一种编码器-解码器结构,具有跨特征尺度的跳接[22]。利用该网络从暗通道图像 D 和雾度图像 I 中提取特征,得到的特征表示分别表示为 Fd∈R B×C×H×W 和 Fh∈R B×C×H×W。这里,B、C、H 和 W 分别代表特征张量的批量大小、通道数、高度和宽度。更多详情请参见补充材料。

        mvSA 网络利用均值和方差自注意机制来估计无限空气光,用 A∞ 表示。这种估计是通过利用作为位置引导的暗通道先验来实现的。利用自我注意原理[67],网络会突出暗通道特征 Fd 和朦胧特征 Fh 中的朦胧区域。前 1%最亮像素的平均值作为 A∞ 的代表平均值。此外,该网络还将朦胧特征与自我关注特征之间的差异作为 A∞ 方差的预测因子。mvSA 网络的数学描述如下。

        从上述共享网络中提取特征 Fd 和 Fh 后,我们采用核大小为 1 × 1 的卷积运算对这些特征进行变换,得到嵌入向量 qh、kd 和 vh。这些变换分别记为 C q 1×1 、C k 1×1 和 C v 1×1。由此得到的嵌入向量可表示为

        其中,qh∈ R B× C 8 ×H×W ,kd∈ R B× C 8 ×H×W ,vh∈ R B× C 8 ×H×W 。为了控制计算复杂度,我们使用 4 × 4 的最大池化操作(表示为 M4×4)对 kd 和 vh 执行降采样操作。这些下采样版本的定义如下

        其中,bkd ∈ R B× C 8 × H 4 × W 4,vbh ∈ R B× C 8 × H 4 × W 4。通过重塑 qh ∈ R B× C 8 ×(HW) 和重塑 bkd ∈ R B× C 8 × HW 16 之间的矩阵乘法计算注意力权重,然后应用软最大激活。随后,通过将注意力权重与重塑的 vbh∈ R B× C 8 × HW 16 相乘,得到注意力图 Fatt∈ R B× C 8 ×HW ,其写法如下:

        其中⊗表示矩阵乘法,Fatt∈ R B×(HW)× C 8。利用重塑注意力图 Fatt ∈ R B× C 8 ×H×W 和嵌入 vh,我们可以计算出无限空气光 A∞∈ R B×3×H×W 的均值和方差如下:

        其中,Am ∈ R B×3×H×W 和 Av ∈ R B×3×H×W 表示相对平均值和相对变异值、分别为 术语 α 和 µ 作为其相应分量的调整因子。运算 C1×1(-) 表示使用 1 × 1 过滤器进行卷积运算,以减少通道数量。符号 UA∞[-] 表示从注意力特征图中选取 A∞ 中最亮的 1%像素。备注 2. 我们的 mvSA 网络提供了一种更优越、更全面的方法来估计真实场景中无限气流光的均值和方差图。这优于之前的研究[2, 4, 17, 18, 28, 40],之前的研究只考虑了有限的三通道常数,因此无法捕捉到内在的变化。

3.3 训练损失

最后,对训练损失函数的描述如下:

        其中,Lmsr 是公式 (2) 中的多尺度参考损失,Lrec 是重建损失。根据 (1) 中的大气散射模型,Lrec 定义为

        其中,Lℓ1 是平均绝对差值损失,Lp 表示感知损失 [51],Lssim 表示结构相似性(SSIM)损失 [68],θ、γ 和 η 分别是相应项的权重系数。此外,重构损耗不仅可以监督无限空照、传输和去毛刺网络的训练,还能使去毛刺结果的特征不受非对齐参考图像的影响。请注意,损失 Lmsr 和 Lrec 的曲线见补充材料。

4 实验

        我们在三个真实世界的烟雾/朦胧数据集上进行了实验,验证了所提方法的有效性。为了进一步确定我们提出的方法中核心模块的有效性,我们进行了一项消融研究。合成烟雾数据集的实验结果请参见附录 B。

4.1 实验设置

        真实世界烟雾数据集。

真实世界烟雾数据集收集自 20182021 CVPR 研讨会去雾化挑战赛。该数据集包括三个子数据集: I-HAZE、O-HAZE 和 NH-HAZE。其中包含 155 对真实室内外场景的烟雾图像和清晰图像。烟雾图像包括同质和非同质类型的烟雾(NH-Smoke)。此外,我们将数据集的图像大小调整为 286 × 286,然后将图像随机裁剪为 256 × 256。这一过程有意引入了数据对之间的错位。我们随机选取 147 幅图像作为训练图像,其余 8 幅图像作为测试图像,其中训练图像和测试图像不重叠。两个真实世界的朦胧数据集。第一个数据集名为 “Phone-Hazy”,涉及利用手机(例如 iPhone XR)在相同地点的不同雾霾和晴朗天气条件下捕捉非对齐图像对。该数据集旨在创建一个全面的真实世界雾霾图像集。为了增强雾霾场景的多样性,我们收集了来自农村和城市环境的密集雾霾图像。室外场景的雾霾和清晰图像共有 415 对,其中 375 幅用于训练,其余 40 幅用于测试。在整个训练阶段,使用的图像片段尺寸为 256 × 256 像素。有关 Phone-Hazy 数据集收集细节的其他信息见附录 A。第二个数据集被称为 RTTS 数据集,是 RESIDE 数据集1 [61] 的一部分。在这项工作中,RTTS 被用作评估去毛刺方法的第三方基准,其中包含 4322 幅真实世界的灰度图像。此外,RTTS 没有相应的地面实况,因此,利用该数据集来评估去噪模型的性能可以确保比较的公平性。

        图3.真实世界烟雾数据集的去毛刺结果。我们的方法能有效消除烟雾,生成的图像与未对齐的参考图像非常相似。红框表示放大后的补丁,以便进行更精确的比较。

        图 4:在真实世界 Phone-Hazy 数据集上的去噪结果。我们的方法能够消除雾度,生成与参考图像非常相似的图像,即使它们并不完全一致。

        图 5:实际 RTTS 数据集的去噪结果。我们的方法有效消除了远处场景中的雾霾,同时还增强了对更精细细节的还原。

实施细节。

首先,在重建损失中,ℓ1 损失、感知损失和 SSIM 损失的相应权重参数 θ、β 和 η 分别设为 5、1 和 1。其次,在公式 (8) 中,我们将相对平均值 α 和相对方差 β 分别设为 1.2 和 0.25 × 10-3。

        在训练处理过程中,我们使用了 ADAM [69] 优化器,初始学习率为 2×10-4。我们的模型由 Pytorch 使用两台英伟达™(NVIDIA®)GeForce RTX 3090 GPU 训练了 400 个历元。评估。在这项工作中,我们使用雾感知密度评估器(FADE)[70]和自然图像质量评估器(NIQE)[71],在没有地面实况(GT)的情况下评估去毛刺结果。此外,我们还采用 PNSR [72] 和 SSIM [68] 来评估有地面实况的去毛刺结果。

4.2 真实烟雾/朦胧数据集的结果

        为了评估我们的 NSDNet 在真实烟雾/朦胧场景中的普适性和有效性,我们将其与一些最先进的 (SOTA) 方法进行了比较,包括 DCP [28]、DisentGAN [16]、DAD [5]、RefineNet [2]、PSD [4]、CDD-GAN [6]、RIDCP [7] 和 D4 [3]。为了进行公平的比较,我们在真实的烟雾/朦胧数据集上对每种方法进行了微调,以达到它们的最佳性能。

        表 1 总结了定量比较的结果。真实烟雾数据集上的结果。从表 1 中我们发现,我们的 NSDNet 在定量指标上优于所有最先进的(SOTA)方法。例如,与非配对 DCP 方法[28]相比,我们的方法有显著改进,PSNR 提高了 4.48,SSIM 提高了 0.39,FADE 提高了 0.093,NIQE 降低了 0.3617。相比之下,与配对 RIDCP 方法[7]相比,我们的方法仍然取得了显著的改进,PSNR 提高了 0.12,SSIM 提高了 0.13,FADE 提高了 0.0074,NIQE 降低了 0.17。

       此外,如图 3 所示,还展示了烟雾图像的视觉复原结果。与最先进的方法相比,我们的 NSDNet 显然在颜色和纹理方面都更接近清晰的参考图像。这些方法通常是根据合成数据集设计的,缺乏物理先验的约束,通常难以有效去除烟雾。例如,RefineNet[2]产生了较暗的去噪结果,并保留了少量烟雾。同样,DisentGAN [16]、DAD [5]、PSD [4] 和 D4 [3] 方法也不能有效去除大量烟雾。此外,CDD-GAN[6]生成的纹理更模糊,并出现色彩失真,而 RIDCP[7] 生成的去噪结果过于平滑,也出现了色彩失真,如灰色帐篷。

        在我们收集的真实世界 Phone-Hazy 数据集上的结果。图 4 展示了去毛刺结果的可视化效果,突出显示了与最先进的(SOTA)方法相比,我们的 NSDNet 在亮度和纹理细节方面的卓越性能。具体来说,与 DisentGAN [16]、DAD [5]、RefineNet [2] 和 D4 [3] 方法相比,我们的 NSDNet 不仅能消除持续存在的严重阴影,还能减少伪影。PSD [4] 增强了在亮度方面,它无法完全消除雾度。另一方面,CDD-GAN [6] 和 RIDCP [7] 在摄像机附近表现出良好的雾霾消除能力,但在去雾霾结果的纹理和色彩质量方面却存在问题。此外,它们也无法还原远离摄像机的场景,图 4 中的树枝和道路就是一个例子。此外,RIDCP[7] 的突出特点是色彩过于鲜艳。总之,NSDNet 在还原更精细的细节和生成具有视觉吸引力的图像方面表现出色,尤其是在场景亮度还原方面。

        考虑到缺乏对齐的地面实况,我们在表 1 中采用了 NIQE 和 FADE 指标进行评估。这些指标强调了我们的 NSDNet 的卓越性能,因为它达到了最低的 NIQE 和 FADE 值。例如,我们的方法超越了非配对 CDD-GAN 方法[6],FAQE 提高了 0.0526,NIQE 提高了 0.1364。与配对 RIDCP 方法[7]相比,NSDNet 的提升更为显著,FAQE 提升了 0.0452,NIQE 提升了 0.7740。

        真实 RTTS 数据集上的结果。为了进一步评估我们的 NSDNet 的泛化能力,所有方法都在 RTTS 数据集上进行了专门评估,其定量比较详见表 1。很明显,NSDNet 的表现优于同类方法,其 NIQE 和 FADE 分数最低。具体来说我们的方法优于未配对的 CDDGAN 方法[6],在 FADE 和 NIQE 中分别提高了 0.0373 和 1.2130。此外,我们的方法在 FADE 和 NIQE 中分别取得了 0.2021 和 0.6137 的显著改进,超过了配对 RIDCP 方法 [7]。这是因为 RIDCP 利用预测深度来合成用于模型训练的模糊和清晰图像对。然而,这些预测深度在近景中往往更准确,而在远景中则不太可靠。因此,经过训练的模型在近景除霾方面表现出色,但在处理远景时却举步维艰,导致 FADE 和 EQ 值升高。NIQE 分数。此外,我们的 NSDNet 还通过出色的用户研究证明了其卓越的图像去毛刺能力。此外,图 5 直观地展示了我们的研究结果。可以得出以下结论: 1) RefineNet [2]、PSD [4]、D4 [3] 和 RIDCP [7] 都难以有效去除远处物体(如门和建筑物)的灰霾。2) 尽管 CDD-GAN [6] 在视觉上与我们的 NSDNet 非常相似,但在还原图像的纹理和色彩方面却有不足。3) 相比之下,我们的 NSDNet 不仅能消除远处物体的雾度,还能出色地还原亮度和纹理细节。性能不佳的影响分析。

        为了揭示性能不佳分析背后的原因,我们可以指出几个关键问题。首先,广受认可的 DCP [28]在有效处理天空区域方面面临挑战,并表现出对关键参数的敏感性,例如作为 A∞ 和 t 边界的约束条件。其次,无配对无监督学习方法(如 DisentGAN [16]、RefineNet [2]、CDD-GAN [6] 和 D4 [3])采用 GAN 生成去雾图像。不幸的是,这些 GANs 都是使用未配对的数据进行训练的,而这些数据来自不同的雾度和清晰度图像分布。这种领域的不一致性给模型训练带来了挑战,最终导致性能不理想。第三,配对方法(如 DAD [5]、PSD [4] 和 RIDCP [7])通常采用领域适应技术,在真实雾霾图像上进行测试的同时,在合成配对数据上训练去雾模型。这种做法在合成数据和真实数据之间引入了领域差距。此外,PSD [4] 采用了由对比度受限自适应直方图均衡化(CLAHE)生成的伪标签进行微调,这可能会导致去噪输出中的颜色过于鲜艳。

        请注意,更多可视图像和视频去噪结果可在补充材料中找到。

4.3 mvSA 和 Lmsr 的消融研究效果。

        为了评估 mvSA 网络和多尺度参考损失 Lmsr 的效果,我们进行了一系列消融实验,在真实世界的烟雾和 Phone-Hazy 数据集上评估我们的方法。我们构建了一个消隐框架基线,其中包括两个用于处理清晰场景(J)和估计传输图(t)的深度网络,以及一个使用 U-Net 架构生成恒定无限空气光的深度网络。该基线使用重建损失和对抗损失进行训练。随后,我们用 mvSA 网络取代了 DCP 方法,并引入 Lmsr 来训练去噪网络,从而产生了两种变化:基线+mvSA 和基线+mvSA+Lmsr(我们的 NSDNet)。定量结果见表 2。值得注意的是,基线+mvSA+Lmsr 的 FADE 值和 NIQE 值最低,PSNR 值和 SSIM 值最高,这表明我们的 NSDNet 在实际图像去毛刺方面表现出色。

        图 6:上图(a)-(e)显示了 mvSA 和 Lmsr 在真实的远距离浓雾图像(具有挑战性的场景)上的效果。下图(f)-(j)展示了 Lmsr 的可视化消融研究。

        此外,在图 6(a)-(e)中,我们展示了一幅视野开阔、具有挑战性的模糊图像的去毛刺可视化效果。由于基线方法对无限空气光(A∞)的估计不准确,因此会出现色彩失真并保留大量雾霾残留。相反,如 (c) 所示,加入基线+mvSA 方法后,场景恢复得到改善,这主要是因为 mvSA 有效地估计无限光照的变化。最值得注意的是,(d) 显示基线+mvSA+Lmsr 与基线+mvSA 相比,能产生明显更清晰、更美观的去噪效果,例如天空区域和远处建筑物的纹理得到增强。这有力地证明了 Lmsr 技术的有效性。为了进一步验证 mvSA 模型在学习更精确的无限光照值方面的能力,我们使用图 7 中的真实烟雾图像与广泛使用的 DCP 方法进行了比较。图 7(a) 显示的是非均匀烟雾(NH-Smoke)场景,而图 7(b) 显示的是 mvSA 生成的 A∞ 预测值。与图 7(f)所示的 DCP 方法相比,该预测更准确地反映了现实变化。

        表 2: 对真实世界烟雾和 Phone-Hazy 数据集进行消融研究的定量结果。

        此外,在图 7(d)和图 7(h)中,我们比较了 mvSA 网络利用公式 (1) 在 A∞ 和传输 (t) 方面实现的除杂结果,以及利用 DCP 方法实现的除杂结果。我们的方法明显改善了除杂效果。此外,我们还在图 7(e) 中提供了基于暗通道先验和朦胧图像的可视化注意力图。这张注意力图突出了与严重雾霾相对应的区域,展示了 mvSA 网络在捕捉和处理具有挑战性的雾霾条件方面的有效性。

        图 7:去色结果 J、无限空气光 A∞、注意力图谱和传输图谱 t 的可视化效果。

        表 3:使用尺寸为 256x256 像素的真实世界烟雾数据集对各种错位像素情况进行比较。

        图 8:使用真实世界烟雾数据集在不同旋转角度下的 PSNR 和 SSIM 结果。

        表 4:对真实世界的烟雾数据集进行了烧蚀研究,以调查不同损耗成分的影响,尤其侧重于 Lmsr 和 Lrec。

        针对错位和旋转的增强比例选择。在本节中,我们的主要重点是在真实世界烟雾数据集的非对齐参考图像背景下评估错位和旋转的影响。

        调查错位效果: 为了全面评估错位的影响,我们引入了从 0 到 120 像素的不同错位水平。由此得出的 PSNR、SSIM、FADE 和 NIQE 等性能指标见表 3。这些结果一致强调了减少不对齐与提高模型性能之间的直接关系。值得注意的是,我们的实验是在烟雾数据集上以 30 像素错位进行的,而 Phone-Hazy 数据集则表现出更严重的错位问题、焦距不一致和视角变化。

        探索旋转效果: 此外,为了检验旋转对不对齐参考图像的影响,我们采用了 30°、60° 和 90° 的旋转角度。图 8 直观展示了非对齐参考图像以 0 至 30° 的增量旋转后的结果,模拟了现实世界中的场景。值得注意的是,该模型的性能表现出对旋转角度变化的敏感性,这主要是由于像素位置对上下文损失的影响。不过,在实际数据采集中,将采集图像的旋转角度限制在 0 至 30° 范围内相对比较简单。

        损耗 Lmsr 和 Lrec 的影响。公式 (2) 中的参考损失 Lmsr 包括 Lmsa 和 Lmsc,公式 (12) 中的重建损失 Lrec 包括 L1、Lp 和 Lssim。在此,我们利用这些不同的损失在真实世界的烟雾数据集上训练我们的模型。定量结果如表 4 所示。在表的上半部分,我们强调了 Lmsa 和 Lmsc 的功效。特别是,在损失 Lrec 固定的情况下,Lmsr 的性能要优于 Lmsa 和 Lmsc。此外,如图 6 (f) - (j) 所示,我们对 Lmsr 的消融结果进行了可视化。表格下部还显示了 L1、Lp 和 Lssim 的相似效果。总之,这些消减提供的证据表明,这些损耗成分对于增强细节还原和改善真实世界场景中的图像去噪性能非常有价值。

        Lmsr 的尺度选择效果。拟议的 Lmsr 损失函数包含一系列不同的尺度。为了评估这些不同尺度的影响,我们进行了三项实验具体比例(0.5×、1×、2×)。表 5 中显示的结果表明,利用多尺度方法可以有效提高 Lmsr 的性能。根据经验,我们选择了三比例设置(0.5×、1×、2×),以便在性能提升和计算复杂度之间取得平衡。

5 讨论与分析

        为什么去噪结果在现实世界中看起来很模糊?从上述去雾化的可视化效果中,我们可以看到去雾化的结果在应用于真实世界的图像时表现出模糊不清。对这一现象的一种合理解释是,在相机捕捉图像的过程中,由于粒子散射,图像会变得模糊[73, 74]。然而,许多现有模型只关注去毛刺任务,而忽略了图像复原这一关键环节。因此,与参考图像相比,去毛刺的结果在实际场景中会表现出明显的模糊。相比之下,合成数据的结果更为出色。这可以归因于合成数据是通过在清晰图像中引入雾度生成的,从而避免了图像清晰度的下降。为了获得更清晰的请参考附录图 B3 中提供的可视化图,了解使用合成数据实现的去毛刺结果。

        在处理非均匀 A∞ 分布时,自我关注(SA)是否比我们修改后的 SA 变体(mvSA)更有效?不,并非如此。主要原因是自我注意(SA)生成的注意图经常会在 A∞ 中显示出许多无效区域。与此相反,mvSA 利用 DCP 策略来识别注意力图中最重要的 1%,并计算其平均值。我们在图 9 中说明了这一差异。

        单通道和三通道哪种方案更适合传输图?根据公式 t(x) = e -β(λ)d(x),有两种情况下透射图会趋近于零:一种是在朦胧区域,另一种是在无穷远的天空区域(即 d(x) 接近 ∞)。观察图 10 (b),可以明显看出,在单通道传输图中,红框标出的白色椅子的传输图不应该趋近于零。相比之下,三通道透射图相对更加精确,从而获得了更好的除杂效果。

下游任务的优势。

        为了突出通过减少雾度增强真实世界图像对后续任务的益处,我们使用了 FastSAM 工具2 [75]。我们用它来评估不同去雾模型在图像分割方面的优势。如图 11 所示,与其他最先进的去毛刺技术相比,我们的去毛刺结果表明,我们能够更有效地分割较小的物体(如窗户和电线)。性能的提高归功于我们能够在更远的距离上减轻雾度,恢复更精细的纹理细节和场景亮度。

局限性。

        下面,我们将讨论我们的非对齐去毛刺框架的局限性。处理浓雾是一个巨大的挑战,因为它使得去噪 CNN 网络难以提取有意义的特征,这主要是因为除了浓雾的存在之外,网络的输入缺乏有用的信息。因此,我们的模型偶尔会在去噪结果中引入伪影。如图 12 所示,红框所示的去毛刺结果不符合我们所期望的质量标准,出现了伪影。

6 结论

        我们为真实世界的图像提出了一个新颖有效的去毛刺框架,该框架使用非对齐监督。该框架利用多尺度参考损失,将去毛刺网络的预测与清晰的非对齐参考图像进行比较。它能从真实世界的环境中收集朦胧/清晰图像对,即使它们并非完全对齐。此外,我们的框架还包括一个 mvSA 网络,该网络使用暗通道先验作为定位指导,以改进对无限空气光平均值和变化的估计。我们的框架通过大量实验证明了其有效性,实验结果表明,该框架在对真实世界图像进行去噪处理方面优于最先进的方法。

        表 5:PhoneHazy 数据集上不同尺度 Lmsr 的比较。

        图 9:mvSA 和 SA 的 A∞、t 和 J 的直观对比。

        图 10:单通道和三通道传输中传输图 t 的比较。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/702192.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

淘宝评论数据信息接口

淘宝评论API接口是一种用于获取淘宝用户评论信息的接口,联讯数据可以帮助商家和消费者获取到商品的评价信息,以便更好地了解商品的质量和用户体验。以下是关于淘宝评论API接口的一些内容: 一、接口功能 淘宝评论API接口提供了商品评价信息的…

doc 和 docx 文件的区别

人不走空 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌赋:斯是陋室,惟吾德馨 目录 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌…

第32章-SDN概述

1. SDN的由来 2. SDN的基本概念 1. SDN的由来 计算机产业的发展: 从 1946 年第一代电子管计算机面世到如今,计算机的形态也发生了翻天覆地的变化。从大型机到个人 PC,计算机在不断地推陈出新,且创新发展的势头越加猛烈。究其原因…

信号处理中的相位

相位 用来描述波动或振动状态。 在信号处理和通信领域,相位通常指的是信号相对于某一参考信号的延迟。 在周期性信号中,相位通常以角度(弧度或度)来表示,表示信号的周期性变化相对于参考信号的位置。 在非周期性信号中…

教你一招,告警恢复时如何拿到恢复时的值?

Prometheus 生态的原生做法,由于阈值是放在 promql 中的,恢复时的消息中难以拿到恢复时的值,夜莺 v7.0.0.beta10 版本开始,提供了一种较为简单的内置方式,解决这个问题。下面我们就来看一下如何实现这个能力。 升级方…

医疗设备维修培训服务的安全性和可靠性

当前,医疗设备维修服务行业市场已经形成了一个庞大的产业链,涵盖了设备检测、故障诊断、维修维护等多个环节。随着医疗设备的日益复杂和高端,对专业维修服务的需求也在不断增加。因此,市场上涌现出了一批专业的医疗设备维修服务提…

Anaconda3 下载安装卸载

1、下载 官网链接:Download Now | Anaconda Step1:进入官网 Anaconda | The Operating System for AI Step2:进入下载页面,选择要Anaconda软件安装包 2、安装 Step1: 点击 Anaconda3-2024.02-1-Windows-x86_64.exe 安装包进行安…

Windows 11中查找和删除旧文件的几种方法,总有一种适合你

序言 如果你的电脑存储空间不足,最好的办法就是找到并删除旧的、不需要的文件。Windows 11提供了多种方法来查找这些占用存储空间的项目,我们将在本指南中向你展示这些方法以及如何使用它们。 使用存储感知 存储感知是Windows 11的内置功能,可帮助自动清理旧文件。你可以…

适合营销的叙事可视化

背景 数据可视化与数据故事化的差异和相似点,以及它们如何协同工作,将你的数据转化为清晰、简洁、可操作的信息,以便您的组织使用。 什么是数据可视化? 数据可视化通过图像传达信息——这是你所收集数据的视觉表示。通过提供原…

(六)React组件通信

理解组件通信 概念:组件通信就是组件之间的数据传递,根据组件嵌套关系不同,有不同的通信方式。 A - B 父子通信B - C 兄弟通信A - E 跨层通信 1. 父传子 – 基础实现 实现步骤: 父组件传递数据 - 在子组件标签上绑定属性子组…

eNSP学习——配置高级的访问控制列表

目录 主要命令 原理概述 实验目的 实验内容 实验拓扑 实验编址 实验步骤 1、基本配置 2、搭建OSPF网络 3、配置Telnet 4、配置高级ACL控制访问 需要eNSP各种配置命令的点击链接自取:华为eNSP各种设备配置命令大全PDF版_ensp配置命令大全资源-…

使用Stream实现Web应用,使用YOLOv8模型对图像进行目标检测为例。

Streamlit是一个开源的Python框架,专门设计用于快速构建和共享数据应用程序。它使数据科学家和机器学习工程师能够通过编写简单的Python脚本,轻松创建美观、功能强大的Web应用程序,而无需具备前端开发的经验。 其他框架或web应用可以看下面两…

【全开源】Java无人共享棋牌室茶室台球室系统JAVA版本支持微信小程序+微信公众号

无人共享棋牌室系统——棋牌娱乐新体验 🎲引言 随着科技的不断发展,传统棋牌室正逐渐迈向智能化、无人化。今天,我要为大家介绍的就是这款引领潮流的“无人共享棋牌室系统”。它不仅为棋牌爱好者提供了全新的娱乐体验,更在便捷性…

SpringCloudNetflix组件整合

SpringCloudNetflix组件整合 Eureka注册中心 Eureka是什么 Eureka是netflix的一个子模块,也是核心模块之一,Eureka是一个基于REST的服务,用于定位服务,以实现云端中间层服务发现和故障转移。服务注册与发现对于微服务架构来说是…

复制网页文字和图片到Word中-Word插件-大珩助手

问题整理: 为什么从浏览器的网页上复制文字和图片后,在Word中粘贴时图片无法显示?有没有插件可以将网页中的文字和图片复制到Office Word 中? Word大珩助手是一款功能丰富的Office Word插件,旨在提高用户在处理文档时…

5分钟安装Kubernetes:+带你轻松安装istio服务网格指南

上次我跟大家简单介绍了一下Kubernetes的各个组件及其含义,本期本来计划带领大家一起学习一些常用命令,但我认为这种方式可能无法达到学习的效果。有可能你们会直接忘记,甚至可能没有兴趣去学。我也理解,心想这跟我有什么关系&…

进口电动对夹式硬密封蝶阀的特点-美国品牌

进口电动对夹式硬密封蝶阀的特点可以归纳如下: 一、结构特点 对夹式设计:采用对夹式连接,无需法兰和螺栓,安装简便快捷,降低了安装成本和空间占用。三偏心结构:阀座与蝶板之间采用三偏心设计,…

YOLOv8常见错误汇总

1.训练过程中loss出现Nan值. 可以尝试关闭AMP混合精度训练,如何关闭amp呢?找到如下文件ultralytics/cfg/default.yaml,其中有一个参数是 amp: False # (bool) Automatic Mixed Precision (AMP) training, choices[True, False], True runs…

互联网金融新潮流下的拆分盘投资解析

随着互联网金融的浪潮席卷全球,投资者们对于各种新型投资模式的探索也愈发深入。其中,拆分盘作为一种独特且备受瞩目的投资方式,引发了市场的广泛关注。本文将对拆分盘的投资逻辑进行深入剖析,并结合实际案例,探讨其潜…

计算机网络(4) 最长前缀匹配(路由转发表)

一.路由转发 网络数据包IP段只包含源地址与目的地址,经过数据链路层包装与物理层信号形式转换,最终经由不同的链路节点到达目的地址。这个过程是一步一步(hop by hop)进行的,路过一个路由节点则称为一跳。每个路由节点…