Blindly Assess Image Quality in the Wild Guided by ASelf-Adaptive Hyper Network

Abstract

真实失真图像的盲图像质量评估(BIQA)一直是一个具有挑战性的问题,因为在野外采集的图像包含各种各样的内容和各种类型的失真。目前绝大多数的BIQA方法都专注于如何预测合成图像的质量,但当应用于真实世界的失真图像时却失败了。为了应对这一挑战,我们提出了一种自适应超网络结构,以盲评估图像质量在野外。我们将IQA过程分为三个阶段,包括内容理解、感知规则学习和质量预测。在提取图像语义后,通过超网络自适应建立感知规则,并将其应用于质量预测网络。在我们的模型中,图像质量可以自适应的方式估计,从而很好地适用于在野外捕获的各种图像。实验结果表明,我们的方法不仅在挑战真实图像数据库上的性能优于目前最先进的方法,而且在合成图像数据库上也达到了与之竞争的性能,尽管它不是专门为合成任务设计的。

1. Introduction

图像质量评估(IQA)的目标是使计算机能够像人类一样感知图像质量。在过去的几十年里,人们付出了巨大的努力,提出了各种IQA方法。尽管他们在评估实验室合成的扭曲图像方面取得了成功,但对真实扭曲图像的IQA仍然是一个挑战。挑战主要体现在三个方面:

首先,由于无法获取参考图像,野外IQA仅限于盲IQA (BIQA)领域。参考图像的局限性已被广泛接受,使BIQA成为三种IQA中最难解决的问题,即全参考IQA (FR-IQA)、减少参考IQA (RR-IQA)和非参考IQA (NR-IQA)。其次,与普通的合成失真(如高斯模糊、JPEG压缩)添加到整个图像区域不同,真实失真更加复杂。捕获的图像不仅存在全局均匀畸变(如失焦、低照度),而且在局部区域还存在其他类型的非均匀畸变(如物体移动、过光、重影)。因此,算法面临的挑战是准确捕捉全局和局部的畸变,并将它们合并成一个适当的质量预测。第三,与合成的IQA数据库相比,图像内容变异是IQA任务中一个典型的挑战,对真实的IQA数据库来说难度更大。现有的合成IQA数据库LIVE[34]、TID2013[32]和CSIQ[21]仅包含不超过30张的参考图片,图像内容意义受限,而真正的IQA数据库LIVE Challenge[8]和KonIQ-10k[13]分别包含1169张和10073张包含不同内容的图片。这种巨大的内容变异对现有的IQA方法的泛化能力提出了很大的挑战。

由于失真的多样性和内容的多样性,真实失真图像的IQA问题一直没有得到很好的解决。如图1所示,提取的特征随着图像的变化而变化,导致质量预测与平均意见评分(mean opinion score, MOS)不一致。在之前的工作中,无论是手工制作的基于特征的方法,还是具有浅层架构的网络,都不能很好地解决综合IQA任务,都不能处理真实的失真。这表明低水平的特征不足以表现现实世界中的复杂失真。因此,人们尝试使用深度语义特征作为质量描述符:在分类任务中预先训练的深度模型被用来预测真实世界的失真。这背后的假设是,真实的扭曲实际上存在于图像生成的分类数据库(如ImageNet[7])中,而且这些预先训练的特征在某种程度上已经具有质量意识。

虽然这些尝试取得了有希望的改善,但仍缺乏进一步的努力。具体来说,简单地采用网络体系结构(最初是为学习如何识别对象而设计的)来完成IQA的任务存在两个缺点。首先,目前的深度模型只学习全局特征进行分类。然而,对于真实的IQA来说,存在着许多不同的扭曲,其中大部分存在于当地。忽略局部模式可能会导致预测的质量与人类视觉感知的不一致,因为人类视觉系统(HVS)对局部畸变很敏感,而图像的其余部分表现出相当好的质量[21]。其次,随着图像内容的变化,人类感知不同物体质量的方式也会发生变化。如[22]所示,一个清晰的蓝色天空的图像会被人类检查员认为是高质量的,而大多数IQA方法会因为图像包含的大面积平坦而误认为是一个模糊的图像。因此,在识别图像内容之前直接预测图像质量不符合人类感知世界的规律。在HVS中,自顶向下的感知模型表明,人类在注意其他相关的子任务(如质量评估)之前,会试图理解图像。然而,在目前的模型中,将IQA任务融合到语义识别网络中,迫使网络同时学习图像内容和图像质量,而让网络在识别图像内容后学习如何判断图像质量更为合适。

在本文中,我们的目标是开发一个真实的IQA方法,通过考虑上述两个挑战经常出现在现实世界的图像:失真多样性和内容变化。我们提出了一种局部失真感知模块来从多尺度中提取局部特征来处理失真多样性,并引入了一种超网络结构来动态生成权值来覆盖广泛的内容变化的质量预测网络。在我们的方法中,所提出的超网络可以根据其识别的内容自适应学习质量感知规则,目标网络遵循这种方式给出最终的质量预测。通过根据图像内容判断图像质量,该网络有望给出更符合人类感知的预测。总的来说,本文方法的主要贡献可以归纳为三个方面:

•为了提高对野外图像的评估能力,我们提出了一种基于超网络的IQA模型,该模型可以自适应调整质量预测参数。该网络以内容感知的方式预测图像质量,识别过程后的感知更符合人类认识世界的方式。

•由于局部特征有利于处理图像中的不均匀失真,我们引入了局部失真感知模块,进一步捕获图像质量。我们集合局部失真特征和全局语义特征来收集细粒度细节和整体信息,然后根据这种多尺度表示预测图像质量。

•实验结果表明,尽管我们没有专门设计提取合成特征的模型,但我们的方法不仅在真实的IQA数据库上优于其他竞争对手,而且在合成的IQA数据库上也达到了竞争对手的结果。这表明我们提出的模型是强大的和可推广的。

2. Related Work

2.1. IQA for Synthetically Distorted Images

在过去的几十年里,人们对综合IQA进行了大量的研究,主要有基于手工特征的IQA和基于学习特征的IQA两种方法。手工制作的基于特征的方法通常利用NSS模型来捕捉失真。通过对对失真外观敏感的场景统计建模,可以检测和量化图像质量的退化程度。这些质量感知的自然场景参数包括离散小波系数[30]、跨子带相关系数[1]、DCT系数[33]、局部归一化亮度系数及其两两乘积[29]、图像梯度、log-Gabor响应和颜色统计[3]。用于从合成畸变图像中获取统计信息的分布模型包括广义高斯分布(GGD)[29,30]、非对称广义高斯分布(AGGD)[3,29]、威布尔分布[3]、三阶多项式[33]和直方图计数[38]。然而,这些手工制作的功能,需要专业的设计和耗时。另外,场景统计特征从全局的角度表征图像质量,无法度量真实畸变图像中常见的局部畸变。

受机器学习在许多计算机视觉任务中的成功启发[9,10,39,40],一些基于学习的方法也被提出。在早期,引入了基于码本的学习方法[37,42,43,45]。由于其强大的学习能力,基于CNN的方法被提出,并在合成IQA中取得了显著的进展。在[14]中,使用继承自[43]的简单的pooling策略CNN进行质量预测。Ma等人[27]提出了一种更深层次的网络,可以同时学习失真类型和图像质量。在[16,23,31]中,我们学习了畸变图像的误差映射来指导质量预测,学习误差映射的方法包括残差误差[16]的训练、由FR-IQA方法计算的质量映射[31]和GAN生成的图像参考[23]。[24]和[26]注意到现有IQA数据库中训练数据的大小有限,提出通过标注训练样本的质量等级而不是质量分数来生成大量的训练样本。使用Siamese网络[5]和RankNet[4]体系结构分别学习图像的秩。

虽然这些IQA方法在合成数据库上取得了很大的性能改进,但在面对大规模数据时仍存在挑战[25,28],这表明内容变异的问题还没有得到很好的管理。研究还表明,IQA模型在合成数据库上表现良好,在真实的IQA数据库上给出了不准确的预测,这表明在野外存在的各种畸变类型的特征不能很容易地被设计用于提取合成畸变的体系结构捕获。

2.2. IQA for Authentically Distorted Images

虽然大多数的IQA模型都集中在合成失真的图像上,但针对更具挑战性的真实IQA问题的研究相对较少。在深度学习的辅助下,深度语义特征能够有效地表征图像质量。在[17]中,Kim等人表明,AlexNet[20]和ResNet[12]在ImageNet等分类数据库上预先训练的深度特征与感知质量有很强的关系,并取得了卓越的准确性。在[13]中,测试了更多的预先训练的基线网络,结果证实了语义特征在解决野外IQA问题中的力量。在[46]中,引入了两流网络结构来预测合成图像和真实图像的畸变。在他们的工作中,真实的质量预测流采用了vgg - 16[35]进行特征提取。在[22]中,Li等人提出利用多块ResNet50特征的统计量进行质量预测。最近,Zhang et al.[47]提出使用合成数据库和可信数据库中的图像对训练IQA模型,用于特征提取的骨干是ResNet-34。可以看出,目前的模型直接利用语义学习网络的输出特征进行质量预测,但主要存在两个缺陷:首先,将语义学习和质量预测混合在一个网络中,忽略了图像语义对质量感知方式的影响,而在HVS中,图像质量是在识别出图像内容后进行判断的。其次,由于深度语义特征是在全局尺度上提取的,因此忽略了图形化图像中普遍存在的局部失真问题。因此,网络无法捕捉图像的细节质量,导致预测不准确。

在这项工作中,我们提出了一种新的多尺度特征融合超网络结构来预测在野外的图像质量。以往的模型将语义理解和质量预测结合在一起,而我们将质量预测过程分为两个步骤:首先学习图像语义特征,然后根据图像所传递的内容预测质量。这个过程遵循了人类自上而下的感知流程,我们设计了一个超网络连接来模仿从图像内容到感知质量的方式的映射。此外,除了简单地使用全局语义特征来理解内容外,我们还提出融合多尺度的局部失真特征来更好地表征图像质量。通过这种方式,我们的质量预测程序变得自适应,内容感知,并能够从图像中捕捉细节和整体信息。

3. Proposed Method

在本研究中,我们的目标是开发一个根据图像内容自适应预测图像质量的质量评估网络。我们的网络体系结构如图2所示。该网络由三部分组成:提取图像语义特征的主干网络、预测图像质量的目标网络和生成目标网络自适应参数的超网络。我们将首先介绍我们的自适应IQA模型,然后在下面介绍三个子网的细节。

3.1. Self-Adaptive IQA Model

传统的基于深度学习的质量预测模型接收输入图像,直接将其映射为质量分数,其过程描述如下:

 该预测模型暗示了提取同一种质量特征来预测不同的图像。然而,在实际中,由于图像内容不同,使用相同的规则来预测不同图像的质量并不能完全覆盖它们不同的展示结构。如[22]所示,人类会将清晰的蓝色天空的图像视为高质量的,而对于质量预测模型来说,这张图片最有可能被视为模糊污染的图像,因为它包含了大面积的平坦区域。这种错误预测的原因是对图像语义的忽视。对于人类来说,在理解图像内容的条件下,使用相应的规则来判断图像的质量。因此,为了模拟人类的感知过程,我们将IQA的任务建模如下:

 

 

 通过引入中间变量θx和超网络,将IQA任务划分为三个步骤:语义特征提取、感知规则建立和质量预测。我们使用骨干网提取图像的语义特征S(x),使用超网络学习质量感知规则θx,使用质量预测目标网络获得最终的质量分数q。与式(1)中的质量预测模型不需要语义理解或内容识别直接估计图像质量不同,我们提出的模型遵循自上而下的感知机制,因为它试图理解图像,直到它执行质量判断的任务。这种设计使得我们的网络在面对内容变化的图像时能够更加灵活地提取影响图像质量的因素。此外,所提出的质量预测过程也更符合人类对图像质量的感知方式。

为了减少目标网络参数θx的数量,也为了更容易训练,我们将目标网络的输入简化为内容感知向量vx = Sms(x),其中Sms表示内容感知向量也被主干语义抽取网络提取,但融合了多尺度特征来捕捉图像中的局部失真。在此变更下,整个基于超网络的IQA模型可描述为:

 在质量预测模型的基础上,我们提出了以下三个子网络的结构。

3.2. Semantic Feature Extraction Network

如图2所示,我们的网络体系结构的前端部分是一个通用的语义特征提取网络。语义提取网络以理解图像内容为重点,输出两条特征流进行质量预测。将语义特征S(x)直接输入超网络进行权重生成,将多尺度内容特征流Sms(x)作为目标网络的输入。我们之所以提取多尺度的内容特征,是因为最后一层提取的语义特征仅仅代表了整体的图像内容。为了捕捉现实世界的局部失真,我们提出了一种通过局部失真感知模块提取多尺度特征的方法。如图3所示,我们设计的局部失真感知模块包括一系列操作,包括将多尺度特征图划分为不重叠的小块,将小块沿通道维数叠加,进行1×1卷积并将其全局平均为向量。该模块可以看作是一种基于注意力的补丁提取器,能够感知局部畸变对应的特征补丁,从而更好地捕捉其质量。

具体而言,我们使用ResNet50[12]作为语义特征提取的主干模型。使用ImageNet[7]上的预训练模型进行网络初始化。在我们的网络中,去除原始ResNet50的最后两层,即平均池化层和全连接层,输出特征流。我们从conv2 10、conv3 12、conv4 18层中提取多尺度特征作为局部失真感知模块的输入,该模块输出多尺度内容向量vx。

3.3. Hyper Network for Learning Perception Rule

受[19]的启发,我们的超网络由三个1×1卷积层和几个权值生成分支组成。由于在本文提出的网络中,全连通层作为基本的目标网络组件(见3.4节),因此需要产生两类网络参数,即全连通层权值和偏差。对于不同类型的参数,我们使用不同的权值生成方法。全连通层权值是通过对提取的特征进行卷积和重塑操作生成的,而全连通层权值是通过简单的平均池化和全连通产生的,因为偏置权值的参数量要少得多。根据目标网络中对应层的尺寸确定卷积层和全连通层的输出通道,进行尺寸匹配。将生成的权值作为感知图像质量的规则,进一步指导目标网络进行图像质量预测。

3.4. Target Network for Quality Prediction

由于语义提取网络提取的多尺度特征是内容感知的,目标网络的功能就是简单地将学习到的图像内容映射到质量分数。因此,我们使用一个小而简单的网络来进行质量预测。如图2所示,我们的目标网络由四个全连通的层组成,接收多尺度内容特征向量作为输入,通过权值确定的层进行传播,得到最终的质量分数。在目标网络中,我们选择sigmoid函数作为激活函数。

3.5. Implementation Details

我们通过PyTorch实现了我们的模型,并在NVIDIA 1080Ti gpu上进行了培训和测试。按照[17]的训练策略,我们从每个训练图像中随机抽取并水平翻转25个大小为224×224像素的patch进行增强。训练补丁继承了源图像的质量分数,最小化训练集上的L1损失:

 

4. Experiments

5. Conclusion

在本文中,我们提出了一个新的网络,以克服在真实的IQA任务中出现的两个具有挑战性的问题:失真多样性和内容变异。该网络将质量预测与内容理解分离开来,以模拟人类如何感知图像质量。我们采用超网络结构来完成这个感知流程,并进一步引入一个多尺度局部失真感知模块来捕获复杂的失真。实验结果表明,该方法具有较强的泛化能力,具有更广泛的应用前景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/26983.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

一站式完成车牌识别任务:从模型优化到端侧部署

交通领域的应用智能化不断往纵深发展,其中最为成熟的车牌识别早已融入人们的日常生活之中,在高速公路电子收费系统、停车场等场景中随处可见。一些企业在具体业务中倾向采用开源方案降低研发成本,但现有公开的方案中少有完成端到端的车牌应用…

DMBOK知识梳理for CDGA/CDGP——第三章数据治理

关 注gzh“大数据食铁兽” 回复“知识点”获取《DMBOK知识梳理for CDGA/CDGP》常考知识点(第三章数据治理) 第三章 数据治理 第三章在是CDGA|CDGP考试的重点考核章节之一,知识点比较密集,本章重点为语境关系图及数据治理概念…

给电脑重装系统的时间需要多久才能装好

在进行电脑重装系统时,如果遇到系统安装时间过长的情况,可能会引起用户的困惑和不安。本文将介绍一些常见的原因和解决方法,以帮助您理解并应对系统安装时间过长的情况。 ​工具/原料: 系统版本:Windows 10 专业版 品…

Python数据攻略-Pandas的数据创建与基础特性

大家好,我是Mr数据杨!今天将进入Python的Pandas数据世界,就像三国演义中的英雄们,用聪明才智塑造自己的命运。 记得三国中,周瑜曾利用兵法巧妙策划火烧赤壁,击败曹军。这就像创建一个Pandas DataFrame&…

JavaSE笔记(七)重制版

多线程与反射 前面我们已经讲解了JavaSE的大部分核心内容,最后一章,我们还将继续学习JavaSE中提供的各种高级特性。这些高级特性对于我们之后的学习,会有着举足轻重的作用。 多线程 **注意:**本章节会涉及到 操作系统 相关知识…

宝塔面板搭建网站教程:Linux下使用宝塔一键搭建网站,内网穿透发布公网上线

文章目录 前言1. 环境安装2. 安装cpolar内网穿透3. 内网穿透4. 固定http地址5. 配置二级子域名6. 创建一个测试页面 转载自cpolar内网穿透的文章:使用宝塔面板快速搭建网站,并内网穿透实现公网远程访问 前言 宝塔面板作为简单好用的服务器运维管理面板&…

Spring为什么默认是单例的?

目录 一、五种作用域 二、单例bean与原型bean的区别 三、单例Bean的优势与劣势 一、五种作用域 1.singleton: singleton是Spring Bean的默认作用域,也就是单例模式。在整个应用程序中,只会创建一个实例,Bean的所有请求都会共享这个实例。 …

简单上手!快速将另一个报表的页面添加到 FastReport .NET!

FastReport 是功能齐全的报表控件,可以帮助开发者可以快速并高效地为.NET,VCL,COM,ActiveX应用程序添加报表支持,由于其独特的编程原则,现在已经成为了Delphi平台最优秀的报表控件,支持将编程开…

人车网租赁软件开发|人车网租赁系统|租赁系统源码功能

经过租赁小程序不只可以使物品得到充沛的运用,还能减少一些资源的浪费,租赁行业这两年因为互联网技术的完善,发展也在不断进步,租赁系统定制开发功能也在不断完善,那么企业想要开发租赁小程序的时分需求留意哪些方面呢…

长尾词挖掘,长尾词的优化方法有哪些

我们都知道,长尾词能给我们带来较高的流量和转化率,且优化难度低,成本低。今天就来分享长尾词的优化方法。 首先需要挖掘长尾词,挖掘长尾词的方法以下3种比较实用: 1、使用长尾词挖掘工具 可以通过第三方工…

小波和小波变换(应试)

零基础小白共计花费2小时38分04秒完成对小波的“平地起高楼”学习。 记录所有学习过程。 一、大致浏览PPT 这个阶段跳着看,太难的跳过 1.总结知识点 共四个部分 1.小波介绍 2.小波变换 小波变换的定义连续小波变换的定义离散小波变换小波重构 3.哈尔小波变换 …

【C++初阶】初识模板

👦个人主页:Weraphael ✍🏻作者简介:目前学习C和算法 ✈️专栏:C航路 🐋 希望大家多多支持,咱一起进步!😁 如果文章对你有帮助的话 欢迎 评论💬 点赞&#x1…

地理空间数据云管理-四维轻云1.3.2-版本更新内容

很多用户想要在不上传数据的情况下查看案例数据,我们在四维轻云1.3.2版本中为新用户新增了示例项目。此外,此次更新还新增了标绘数据模式和场景定时保存提醒功能,优化了插件启动流程以及移动和旋转变化轴。 1、新增示例项目 示例项目中包含…

Ubuntu 登录提示信息`Message of The Day`(MOTD)定制与开关

一、效果 登录Ubuntu的时候,在控制台可能会弹出一系列提示消息,有欢迎消息、系统信息、更新信息等等: 这些提示消息被称为Message of The Day,简称MOTD。 Ubuntu与其它Linux版本不太一样,它引入了MOTD 的概念。 这些…

健康管理系统开发笔记

健康管理系统 项目介绍功能架构项目结构maven项目搭建 项目介绍 健康管理系统是一款应用于健康管理机构的业务系统,实现健康管理机构工作内容 可视化、会员管理专业化、健康评估数字化、健康干预流程化、知识库集成化,从而提 高健康管理师的工作效率&a…

Intradeco通过适用于Excel的Liquid UI自动执行SAP MM并节省80%的处理时间

背景 Intradeco为服装制造提供整体方法,涵盖所有阶段:从构思阶段到最终产品分销。它已发展成为一家全球垂直制造公司,客户遍布美国、墨西哥和加拿大。 挑战 提高运营效率 原因:人员必须浏览多个 SAP 事务才能为新材料创建采购订单…

面向对象——权限修饰符、匿名内部类

package关键字 为什么要有包? 将字节码(.class)进行分类存放 包其实就是文件夹 包的定义及注意事项 定义包的格式 package 包名 多级包用.分割,如package com.heima里面的.就是分隔符 定义包的注意事项 package语句必须是程序的第…

Dockerfile详解

Dockerfile是什么 Dockerfile就是一个纯文本,里面记录了一系列的构建指令,如选择基础镜像、拷贝文件、运行脚本等等,RUN, COPY, ADD指令都会生成一个 Layer,而 Docker 顺序执行这个文件里的所有步骤,最后就会创建出一…

分布式系统概念和设计——分布式事务

分布式系统概念和设计 分布式事务 访问多个服务器管理的对象的事务称为分布式事务。 当一个分布式事务结束时,事务的原子特性要求所有参与事务的服务器必须全部提交或全部放弃。 实现: 其中一个服务器承担了协调者的角色,保证在所有的服务器…

“微商城”项目(5登录和注册)

1.我的信息 在pages\User.vue文件中编写HTML结构代码&#xff0c;示例代码如下。 <template><div class"member"><div class"header-con"><router-link :to"{ name: login }" class"mui-navigate-right">&l…