0. 摘要
SISR与DL的介绍
单图像超分辨率(SISR)是计算机视觉的一个重要研究领域,其目的是从低分辨率(LR)图像中恢复清晰、高分辨率(HR)图像。
随着深度学习理论和技术的快速发展,深度学习被引入到图像超分辨率(SR)领域,并在许多领域取得了远远超过传统方法的成果。
本文框架
本文综述了目前基于深度学习的图像SR算法。
首先,详细介绍了SISR的主流框架、损失函数和数据集。
然后,使用卷积神经网络(CNN)、生成对抗网络(GAN)和Transformer三种模型探索基于深度学习的SISR算法。
其次,介绍了用于SR的评价指标,并比较了基于深度学习的各种算法的重建结果。
最后,总结了基于深度学习的图像SR算法的未来研究趋势。
关键词:图像超分辨率、深度学习、卷积神经网络、生成式对抗网络、Transformer
1. 介绍
1.1. 图像超分辨率概述
目的是将低分辨率(LR)图像转换为高分辨率(HR)图像,是图像处理和计算机视觉相关的主要技术之一。
分为单 LR 图像生成 HR 图像技术(单图像超分辨率技术,SISR)和多 LR 图像生成 HR 图像技术。
SISR 因灵活、简单、实用等优点,在图像压缩、医学成像、遥感成像、公安等领域广泛应用。
1.2. 传统 SISR 算法的局限性
在深度学习算法出现之前,SISR 使用基于插值和基于重建的算法。
- 基于插值的算法简单且运行速度快,但生成图像过于平滑,丢失高频信息,导致振铃效应。
- 基于重建的算法结果优于插值算法,但执行效率较低,对缩放因子敏感。
1.3. 深度学习在 SISR 中的优势
深度学习方法可学习 LR 和 HR 图像之间的映射关系,通过 SR 图像重建算法实现图像重建,效果优于传统算法。
近年来还提出了轻量级网络,允许 SISR 模型使用更少参数获得优异 SR 结果。
2. SRIR基础
2.1. 算法框架
2.1.1. 组成
想象你有一个神奇的工具,可以把低分辨率的小图变成高分辨率的大图,这个工具内部的工作方式就像一个有特定规则的工厂,这个工厂的规则就是我们说的超分辨率框架。
这个工厂有两个主要的车间,一个是 “非线性映射学习车间”,另一个是 “图像放大上采样车间”。
“非线性映射学习车间” 的任务是搞清楚低分辨率图像(LR)怎么才能变成高分辨率图像(HR),就像一个学生在学习知识,它要学习 LR 到 HR 的变化规则。而且在学习过程中,还有一个 “小老师”,也就是损失函数,它会告诉这个 “学生” 学得对不对,应该怎么改进。
“图像放大上采样车间” 就比较直接啦,它是把前面车间初步处理得到的图像进行放大,就像把一个小的东西放大一样。这两个车间一起合作,就能完成把低分辨率图像变成高分辨率图像的任务啦。
2.1.2. 分类
根据上采样模块位置不同,SISR 方法分为四个超级评分框架
前端上采样 SR 框架
首次被采用,可避免在低维空间学习低维到高维映射,降低学习难度。
- 这是最早被研究人员采用的一种布局方式。你可以把它想象成在工厂入口处就先进行放大操作(前端上采样)。这样做有个好处,就是可以让后面学习 LR 到 HR 映射的过程变得简单一些,就像你先把东西放大了,可能更容易看清楚它的一些特征,学习起来难度就降低了。
但噪声和模糊会增强,高维空间卷积操作增加计算量和资源消耗。
- 但是呢,也有不好的地方。就像你把一个本来就有点模糊的小图一下子放大很多,它的噪声和模糊会变得更严重。而且在后面学习过程中,因为一开始就放大了,在高维空间里进行一些操作(卷积操作)就会消耗很多计算资源,就像一个很耗电的机器一样。
后端上采样 SR 框架
将上采样模块置于网络后端,大部分卷积计算在低维空间进行。
- 针对前端上采样框架的问题,研究人员想出了一种新的布局。把放大操作(上采样)放到了工厂的最后面(后端上采样)。这样大部分的计算,比如卷积计算,就可以在低维空间里进行啦(计算量更小),就像在一个小的、更节能的空间里工作。
最后使用端到端可学习的应用上采样层,释放卷积计算能力,降低模型复杂度。
- 最后再加上一个专门用来放大的 “小机器”(端到端可学习的应用上采样层),这样既可以节省计算资源,又能把图像放大好,还能让整个工厂(模型)的结构不那么复杂。
渐进式上采样 SR 框架
随着领域发展和 SR 尺度增大而提出。
- 随着技术发展,对图像放大的要求越来越高,原来的方法不太够了。所以就有了这个新的框架。它就像一个有很多步骤的生产线。
图像放大是渐进式的,过程中途生成的图像会继续送入后续模块,直到达到目标分辨率。
- 图像放大不是一下子完成的,而是一步一步来(渐进式)。比如先把图像放大一点点,得到一个中间的图像,然后这个中间图像再送到下一个环节继续放大,就像接力比赛一样,一直到最后达到我们想要的高分辨率。
常见方法包括使用卷积级联或拉普拉斯金字塔,结合多层次监督和其他学习策略。
- 在这个过程中,还会用到一些其他的方法,比如卷积级联或者拉普拉斯金字塔这些技术,还会结合多层次监督等学习策略,这样就能更好地完成把图像放大很多倍的任务。
逐级上采样 SR 框架
扩展反向投影思想,采用交替上采样和下采样的方式。
- 这个框架有点像一个很复杂的机器,它是在原来一些想法的基础上发展来的。它的工作方式是一会儿放大(上采样),一会儿缩小(下采样),反复进行这个过程。
通过反复进行映射学习,充分学习 LR 与 HR 之间的映射关系。但结构复杂,设计标准不明确,需进一步探索。
- 通过这样反复地学习图像的变化(映射学习),它可以更好地搞清楚 LR 和 HR 之间的关系。但是呢,这个框架目前还不是很完美,它的结构比较复杂,就像一个很复杂的机器,我们还不太清楚它最好的设计方法,还需要进一步研究。
2.2. 损失函数
损失函数是深度学习模型基本要素,在 SISR 任务中量化 HR 图像与地面真实 HR 图像的差异,调节模型学习方向。
2.2.1. 像素损失
这个损失函数使用像素值来测量两个图像之间的差异。
均方误差(MSE,也称为 L2 损失)
公式:
解释:这里的表示训练样本的数量,是重建图像,是原始的高分辨率(ground truth)图像。它是通过计算每个像素点的差值的平方和,然后取平均值来得到损失值。
特点:MSE 的函数曲线是光滑的、连续的,可以方便地使用梯度下降算法进行优化。但是它对异常值非常敏感,当图像中存在一些与其他像素值差异较大的像素(异常值)时,MSE 会给这些异常值很高的权重,导致在正常误差范围内的预测效果被牺牲,使得最终重建的图像更加平滑、模糊,缺乏高频纹理细节。
- 函数曲线特性与优化便利性
- MSE 的函数曲线就像一条很平滑的道路,没有坑坑洼洼的地方。这种平滑和连续的特点让我们在使用一种叫梯度下降的方法来让模型变得更好的时候非常方便。就好比你在一条平坦的路上开车,很容易控制方向和速度,朝着让模型更好的方向前进。
- 对异常值的敏感性及影响
- 但是呢,MSE 有个不太好的地方,就是它对那些和其他像素值不一样的 “特殊像素”(异常值)太敏感啦。比如说,在一幅图像里,大部分像素的值都在一个比较正常的范围内,但是有几个像素的值特别大或者特别小,和其他像素相差很多。
- MSE 就会觉得这些特殊像素非常重要,给它们很高的 “关注”(权重)。这样一来,模型就会太在意这些特殊像素,而忽略了图像中其他正常像素之间的关系。
- 结果就是,最后重建出来的图像就变得不太好啦。图像会变得很平滑,就像你用手把一幅画的细节都抹掉了一样,而且很模糊,那些本来应该有的清晰的纹理和细节都没有了,整个图像看起来就很平淡。
平均绝对误差(MAE,也称为 L1 损失)
公式:
解释:同样是对重建图像和原始高分辨率图像的像素差值进行计算,不过这里是取绝对值后再求平均值。
特点:相比 MSE,它对异常值不太敏感,这是它的一个优势。随着误差的减小,它的梯度也会减小,对各种输入值保持稳定的梯度,避免了梯度爆炸的问题,训练过程相对稳定。但是它存在不可导点,不利于函数的收敛和模型的学习。在实际应用中,L1 损失函数的实际效果要优于 MSE,因为它可以提高模型的性能,获得更高的指标。
- 对异常值的不敏感性及优势
- L1 损失函数和 MSE 相比,有一个很大的优点,就是它不太在意那些和其他像素值差别很大的 “特殊像素”(异常值)。就好像在一群人中,有几个特别突出的人,L1 不会像 MSE 那样只盯着这几个人看,而是会更全面地考虑所有人的情况。
- 当图像中的误差在逐渐变小的时候,L1 损失函数的变化速度(梯度)也会跟着变小。而且不管输入的图像数据是什么样的,它的这个变化速度都比较稳定,不会像有些函数那样突然变得很大或者很小(避免了梯度爆炸的问题)。这样在训练模型的时候,整个过程就会比较平稳,不会出现大的波动。
- 不可导点的问题及对学习的影响
- 但是 L1 损失函数也有它自己的小毛病,就是它在某些地方是不可导的。这就好比一条路,有些地方是断的,你没办法沿着这条路一直走下去。对于函数来说,这种不可导的地方就会影响它变得更好(收敛),也会让模型在学习的时候遇到困难,不太容易找到最好的参数值,让模型达到最好的效果。
- 实际应用中的效果优势
- 不过在实际使用的时候,我们发现 L1 损失函数还是很有用的。虽然它有不可导点的问题,但是它能够让模型的表现更好,得到更高的指标。这就说明它在提高模型性能方面有它独特的优势,所以在很多情况下,我们还是会选择 L1 损失函数而不是 MSE。
Charbonnier 损失(L1 损失的一种改进形式)
公式:,其中,是一个非常小的常数,一般取。
解释:这种损失函数是为了克服 L1 损失存在不可导点的问题而提出的。通过引入一个带有小常数的函数形式,解决了 L1 损耗的缺点。
- L1 损失的不可导点问题
- L1 损失函数在某些地方是不可导的,就像一条路有一些坑坑洼洼或者断的地方,你没办法很顺畅地在上面走(进行数学计算和优化)。这会给我们使用这个函数带来麻烦,因为我们希望函数能够很顺利地找到让模型最好的参数值(收敛),但是不可导点会阻碍这个过程。
- Charbonnier 损失的解决方法
- Charbonnier 损失函数就想办法来解决这个问题啦。它在 L1 损失的基础上,引入了一个带有小常数(比如,一般取)的函数形式。这个小常数就像一个 “补丁”,它把 L1 损失函数那些不可导的地方给补上了,让函数变得更加 “完整” 和好用。
- 这样一来,原来 L1 损失函数因为不可导点带来的那些缺点就被解决啦,我们就可以更好地用这个新的函数形式(Charbonnier 损失)来让模型学习,提高模型的性能。
2.2.2. 内容损失
为提高图像感知质量引入,不要求像素级精度,关注人眼感官级相似性。
通常使用预训练图像分类网络评估两幅图像语义差异。
2.2.3. 纹理损失
重建图像应与目标图像有相同风格,纹理可视为不同特征通道相关性,用 Gram 矩阵表示。
2.2.4. 对抗性损失
概念来源于 GAN,2017 年引入 SR 领域。
SRGAN 中使用对抗性损失,通过生成器和鉴别器的对抗训练提高图像质量。
2.2.5. 感知损失
基于像素的损失函数使图像纹理质量更平滑,视觉不满意。
基于感知的损失函数可恢复高频细节,通过测量提取特征之间的距离优化感知损失。
在 SRGAN 中,感知函数定义为内容损失和对抗损失的加权和。
2.3. 数据集
2.3.1. 重要性
数据集在单图像超分辨率(SISR)网络中是非常关键的部分。就好比厨师做菜需要优质的食材一样,一个合适的训练数据集对于提高 SISR 网络的性能至关重要。它为网络提供了学习的样本和依据,网络通过对数据集中的图像进行学习,从而掌握从低分辨率(LR)图像到高分辨率(HR)图像的转换规律。
2.3.2. 特点
大多数 SISR 数据集只包含 HR 图像,不包含不同放大倍数下的 LR - HR 图像对。这就意味着如果我们要使用这些数据集来训练模型,就需要一种方法来构建合适的图像对。
通常会使用双三次插值算法来构建 LR - HR 图像对,这样模型就可以学习到 LR 和 HR 图像之间的关系。
2.3.3. 常用数据集介绍
Set5、Set14、Urban100、BSD100 和 Manga109
这五个数据集是最常用的测试集。它们包含了各种各样的图片,比如人物、动物、植物、建筑、食物、自然景观和环境等。这些数据集可以用来测试模型在不同类型图像上的性能。
DIV2K
它是一个比较流行的 SISR 数据集,包含 1000 张不同场景的图像,这些场景包括人物、手工艺品、环境、景观等。其中 800 张用于训练,100 张用于验证,100 张用于测试。这个数据集的优点是它可以让 SR 的研究基于更真实的退化图像,所以在很多相关的研究工作中都被采用。
Flickr2K
这是另一个大型的扩展数据集,包含 2650 张 2k 图像,主要是人物、动植物、建筑和风景等内容,用于训练模型。近年来,研究人员经常把 DIV2K 和 Flickr2K 合并起来,形成 DF2K 训练数据集,这样可以进一步提高 SR 网络的性能。
RealSR
它是第一个真正收集包含 LR 和 HR 配对图像的 SISR 数据集,使用两台不同的数码相机(佳能 5D3 和尼康 D810)拍摄了各种室内和室外场景,共包含 595 对 LR - HR 图像。
ImageNet
这个数据集近年来也被引入到 SR 领域,不过它主要是用于图像分类的。它包含了超过 1400 万个全尺寸标记图像,涵盖了动物、植物、运输工具、家具、乐器、构造学、工具等各种类别。
此外,还有 L20(包含多种场景图像,像素范围从 300 万到 2900 万不等)、户外场景(包含七种纹理图像)、PIRM(包含多种图像)、MSCOCO(包含 91 个用于对象检测等的对象类别)、PIPAL(一个感知图像质量评估数据集)、City100(包含 100 对 HR - LR 图像对)、DPED(由真实照片组成)、T91(包含局部纹理图像)等数据集。这些数据集也都被用于图像 SR 重建,它们大大扩展了可用数据集的数量和类型,这对于测试各种模型的泛化能力是非常有帮助的。
3. DL-SRIR算法
3.1. CNN
CNN 是由多层感知器 (MLP) 发展而来的。由于其结构特征,如局部连接、权值共享和下采样,cnn 在图像处理任务上表现良好。许多学者将 CNN 应用于 SISR,并取得了超过传统方法的结果。根据所使用的 CNN 网络的不同,基于 CNN 的模型一般可以分为以下几种:
3.1.1. 卷积直接连接模型
SRCNN:Dong 等人于 2014 年率先将 CNN 应用于 SR,提出了超分辨率卷积神经网络 (SRCNN)。该技术在图像 SR 领域取得了突破性进展,与传统方法相比,具有模型简单、精度高、速度快等优点,同时重建质量优于其他方法。然而,其前端上采样模型框架存在计算复杂、训练收敛慢等问题。此外,SRCNN 也存在结构简单、难以充分利用图像上下文信息等缺点。
FSRCNN:同年,Dong 等提出了一种快速超分辨率重建卷积神经网络 (FSRCNN) 来解决 SRCNN 固有的问题。与 SRCNN 相比,FSRCNN 取得了一些改进,它在末端使用反卷积层来扩大尺寸,可以直接将原始 LR 图像输入到网络中,并且可以根据 LR 图像的大小计算卷积,从而大大减少了时间消耗。为了降低 SRCNN 中映射层的计算复杂度,通过增加一个收缩层来减少 FSRCNN 中的参数数量。
ESPCN:由于 SRCNN 在将 LR 图像输入网络之前需要对其进行上采样以获得 HR 图像,因此需要在更高的分辨率下进行卷积运算,这增加了计算复杂度。为此,Shi 等人于 2016 年提出了高效亚像素卷积神经网络 (ESPCN) 模型。这种方法的核心思想是使用亚像素卷积层而不是反卷积层来实现上采样操作。
3.1.2. 残差网络模型
VDSR:Kim 等人受到 VGG-Net 的启发,将残差网络应用于图像 SR,并于 2016 年提出了超分辨率 (VDSR) 模型的非常深卷积网络。该网络使用 20 个卷积层,通过在深度网络结构中多次级联小滤波器,有效地利用大图像区域的上下文信息。
RED:同年,Mao 等人提出了残差编码器 - 解码器网络 (RED)。这个网络的结构是对称的,每个卷积层都有一个对应的反卷积层。卷积层用于获取图像的抽象内容,而反卷积层用于放大特征尺寸,还原图像的细节。
EDSR:2017 年,Lim 等人提出了增强型深度超分辨率网络 (EDSR),并在 2017 年的 NTIRE2017 超分辨率挑战赛中获得一等奖。其结构创新地从 SRResNet 中删除了批归一化 (BN) 层,由于 BN 层消耗的内存与之前的卷积层相同,删除这一步意味着 EDSR 可以堆叠更多的网络层或从每层提取更多的特征,以获得更好的性能,同时使用相同的计算资源。
3.1.3. 循环神经网络模型
DRCN:2016 年,Kim 等人将 RNN 应用于图像 SR,提出了深度递归卷积网络 (DRCN)。该网络由嵌入、推理和重建模块组成,对应于 SRCNN 中的特征提取、非线性映射和重建模块。在推理网络中使用了递归层,每次递归都使用相同的卷积核和 ReLU 激活。
DRRN:2017 年,Tai 等提出了一种基于 DRCN 的深度递归残差网络 (DRRN),采用全局和局部残差结构。引入局部残差学习来解决细节丢失导致的图像退化问题,因为它是在堆叠的层之间进行的。
SRFBN:2019 年,Li 等人将一种反馈机制引入 RNN 中,以创建图像超分辨率反馈网络 (SRFBN)。通过使用反馈连接,利用高阶信息来细化低阶信息,从而获得更清晰的重建图像。
3.1.4. 密集卷积模型
SRDenseNet:2017 年,Tong 等首次将 DenseNet 应用于 SR,提出了超分辨率密集网络 (SRDenseNet)。该网络包括一个用于提取低级特征的卷积层,一个用于学习高级特征的 DenseNet 块,一个反卷积层和一个重建模块。通过密集的跳跃连接将低层和高层特征有效融合,然后使用反卷积层进一步增强重建图像的细节,改善信息流,缓解梯度消失的问题。
MemNet:同年,Tai 等人提出了深度持久性记忆网络 (MemNet)。其结构与传统神经网络的单向传播结构不同,因为这是一个长期记忆模型。该网络由一个特征提取网络、多个堆叠的记忆块和一个重建网络组成。
3.1.5. 注意力机制模型
SENet:2018 年,Hu 等人提出了挤压和提取网络 (SENet),将通道注意机制引入深度神经网络。通道对应于图像的一个特征。SENet 分为两个步骤:挤压和激励。首先,将每个通道的特征压缩为该通道的描述子。然后,通过激励捕获通道之间的关系,并显式建模通道之间的相互依赖关系,以提高网络的特征学习能力。
RCAN:2018 年,Zhang 等人首次将注意力机制应用于 SR,开发了剩余通道关注网络 (RCAN)。该网络由四个主要部分组成:浅层特征提取、残差中残差 (RIR) 深度特征提取、上采样模块和重建模块。RIR 模块包括多个残差组和长跳连接,每个残差组还包括多个残差信道注意块和短跳连接。
SAN:2019 年,Dai 等人研究了特征的二阶统计量,提出了一种深度二阶注意网络 (SAN)。该网络最值得注意的方面是它基于非局部增强残差群 (NLRG) 和二阶通道注意 (SOCA) 机制。
CRAN:2021 年,Zhang 等人提出了上下文推理注意力网络 (CRAN),它可以根据全局上下文自适应调整卷积核,通过语义推理进行增强。该模型采用 RCAN 的网络结构,只是将网络中原有的 RCAB 替换为 CRAB,其中包含了作者提出的上下文推理注意卷积 (CRAC)。
VapSR:2022 年,Zhou 等人提出了一种高效的图像 SR 方法VapSR (VAst receptive field Pixel attention network)。它将大接受野设计引入到注意机制中,通过使用多组对照实验证明引入大核卷积可以提高网络性能,但这涉及大量额外参数,所以使用深度可分离卷积来分割密集的大卷积核,以减少网络参数的数量。然而,由于在注意力机制中使用了逐元素相乘,使得网络的训练变得不稳定,因此作者提出了一种像素归一化方法来对移位的层分布进行归一化,给出标准正态分布。经过一系列操作后,与单独使用大核卷积相比,这个网络模型可以用最少的数量参数实现良好的性能。
3.1.6. 轻量级卷积网络模型
IDN:2018 年,Zheng 等提出了一种参数轻量、计算复杂度低的信息蒸馏网络 (IDN)。该网络由三部分组成:特征提取块 (FBlocks)、多个堆叠的信息蒸馏块 (DBlocks) 和重构模块 (RBlocks)。信息蒸馏块由增强单元和压缩单元组成,是 IDN 网络的核心结构,可以逐步提取丰富有效的图像特征。
IMDN:2019 年,Hui 等人对 IDN 中的信息蒸馏块进行了改进,提出了一种用于构建轻量级信息多蒸馏网络 (IMDN) 的信息多蒸馏块 (IMDB)。该网络架构还涉及到浅层特征提取、通过使用多个堆叠的 IMDBs 进行深层特征提取以及上采样模块。
LatticeNet:2020 年,Luo 等人对 SR 中常用的残余块 (RB) 进行了改进,提出了一种晶格块 (LB)。LB 可以将参数数量减少一半左右,同时保持相似的 SR 性能。在此基础上,Luo 等人提出了一种轻量级网络模型,称为 LatticeNet。
3.2. GAN
SRGAN:2017 年,Ledig 等人首次将 GAN 应用于图像 SR 任务,提出了基于 GAN 方法的 SRGAN。该网络使用 GAN 来训练 SRResNet,使用基于 VGG 的内容损失和对抗损失结合起来的感知损失函数,以提高图像的真实性。
ESRGAN:2018 年,Wang 等人改进了 SRGAN,提出了增强型 SRGAN (ESRGAN),没有 SRGAN 的 BN 层,从而降低了计算复杂度,采用残差密集块作为网络的基本单元,对于鉴别器,采用了相对鉴别器的概念。
MPDGAN:2019 年,Lee 等人提出了一种基于多视角鉴别器的生成对抗网络 (MPDGAN),使用各种视角鉴别器来区分真假图像,以减少 SR 伪影和噪声。
ESRGAN +:2020 年,Nathanaël 等人在 ESRGAN 的基础上提出了 ESRGAN +,旨在进一步提高 ESRGAN 生成的图像的感知质量,使用了一种新的块,称为残差嵌套稠密残差块 (RRDRB),还在输出中加入高斯噪声。
PGAN:2023 年,Shi 等人提出了一种像素级的生成式对抗训练方法来解决结构畸变问题,针对像素的对抗性训练使用了邻域信息,还提出了一种梯度引导的结构感知深度网络,将提出的网络命名为 PGAN,在所有五个基准数据集上都取得了最先进的性能。
3.3. Transformer
IPT:2021 年,Chen 等人提出了一种称为图像处理变压器 (image processing transformer, IPT) 的预训练网络模型,用于各种低级计算机视觉任务,如 SR 和去噪。该网络主要由头部用于特征提取,编码器 - 解码器 transformer 用于重建丢失的信息,尾部用于输出重建的图像三部分组成。
SwinIR:同年,Liang 等人提出了一种使用 swin 变压器 (SwinIR) 进行图像恢复的图像恢复网络。该网络结合了 CNN 和变压器,包括浅层特征提取、深层特征提取和图像重建三个主要模块,同时具有 CNN 和变压器的优点,在多个方面都达到了最先进的性能。
ESRT:2022 年,Lu 等人提出了用于 SISR 任务的轻量级变压器模型 (ESRT),由轻型 CNN 骨干 (LCB) 和轻型变压器骨干 (LTB) 组成,LTB 中的高效变压器 (ET) 模块是对传统多头注意 (MHA) 的改进,可有效增强图像中相似块的特征表达能力和长期依赖关系。
ELAN:2022 年,Zhang 等人提出了一种有效的远程注意力网络 (ELAN),由浅层特征提取、深层特征提取和 HR 图像重建三部分组成,在所有五个数据集上都取得了良好的指标,且比 SwinIR - light 模型快 4.5 倍,参数更少,计算复杂度更低。
4. SRIR质量评价
4.1. 评价指标
4.1.1. 客观评价
峰值信噪比(PSNR):这个指标主要看生成的超分辨率图像和原始高分辨率图像之间像素值的差异。如果差异小,PSNR 的值就大,说明图像质量好;反之,如果差异大,PSNR 值就小,图像质量差。就好比两个东西越接近,它们之间的 “距离”(这里是像素值差异)就越小,PSNR 就越高。
结构相似指数(SSIM):它是从图像的结构信息角度来衡量相似度的。不仅仅看像素值,还考虑图像的亮度、对比度和结构细节等方面。如果两个图像在这些方面都很相似,SSIM 的值就会接近 1;如果差别很大,值就会接近 0。
平均结构相似性(MSSIM):和 SSIM 类似,也是衡量图像结构相似性的,但它是在对同一图像进行一些处理(低通滤波)后,综合考虑不同分辨率下的结构相似情况。
特征相似指数测度(FSIM):这个指标从两个方面来衡量图像相似度。一方面利用相位一致性提取图像的特征信息,另一方面利用梯度幅值提取对比度信息,然后综合这两方面来看看图像局部有多相似。
学习感知图像斑块相似度(LPIPS):它更侧重于从人的感知角度来衡量图像的相似度。它会让生成器学习如何从假图像中还原出真实图像的一些特征,然后看生成的图像和真实图像在人眼感知上有多相似,值越小越相似。
感知指数(PI):结合了其他两个非参考客观评价指标,用来表示图像的主观感知质量。PI 值越低,说明图像在人眼看来质量越好。
4.1.2. 主观评价
平均意见得分(MOS):就像给图像质量打分一样,从 1 分到 5 分,1 分最差,5 分最好。这个分数是让人来评价的,比较主观,但能直接反映人对图像质量的感受。
4.2. 重建效果对比
此部分从深度学习的三个模型(卷积神经网络 CNN、生成对抗网络 GAN 和 Transformer),在三个不同放大倍数(×2、×3、×4)下,对经典的单图像超分辨率(SISR)算法的重建结果进行比较分析。
5. 发展趋势
构建轻量级 SISR 模型
现状与问题:现有 SISR 网络存在两个局限。一是网络过深,这不仅削弱了自下而上的信息流,还导致模型容量大、计算负担重;二是网络架构常为前馈式,使得前几层难以从后面层捕获有用信息,限制了网络的特征学习能力。
目标:设计轻量级神经网络,以获得更高效的网络,优化网络结构和卷积计算,在不损失性能的前提下减少网络参数,加强对内部网络的理解,并缓解在移动设备上实现 SR 的问题。
无监督 SR 重建
现状与问题:有监督的图像 SR 重建需要 LR - HR 图像对作为数据集,且模型需设计退化模块来处理 HR 图像,但这种退化方法固定单一,与现实中复杂多变的退化类型不符,严重影响图像 SR 的发展和应用价值。
目标:实现无监督的 SR 重建,即无需构建 LR - HR 图像对的 SR 重建。这可降低对训练样本的要求,更符合分割的实际需求,但对模型的学习能力提出了更高要求。
设计更科学合理的损失函数和评价指标
现状与问题:感知损失函数的引入虽能恢复更多高频纹理细节,使图像在人眼中的效果更好,但 RSNR 评价指标值却降低了,这就产生了良好视觉感知和高性能指标之间的矛盾。虽然提出了 MOS 作为评价指标,但该评价过程耗时费力。
目标:考虑人类视觉感知系统,提出更符合人类视觉感知的损失函数以及综合考虑人类感知和模型性能的评价方法,以满足用户的实际需求。
改进上采样方法
现状与问题:当前的上采样方法存在缺乏端到端学习、感受野分布不均和棋盘效应等问题,这些问题会导致 SISR 算法效率低下和重建结果不稳定。而且目前大多数上采样方法基于整数倍数,缺乏通用性。
目标:开发一种对任意放大因子都高效且合适的上采样方法,这是未来值得进一步研究的方向。