«上一篇 下一篇»
  计算机工程  2021, Vol. 47 Issue (5): 205-212  DOI: 10.19678/j.issn.1000-3428.0057740
0

引用本文  

刘海, 杨环, 潘振宽, 等. 基于生成感知差异的无参考图像质量评价模型[J]. 计算机工程, 2021, 47(5), 205-212. DOI: 10.19678/j.issn.1000-3428.0057740.
LIU Hai, YANG Huan, PAN Zhenkuan, et al. No-Reference Image Quality Assessment Model Based on Generated Perceptual Difference[J]. Computer Engineering, 2021, 47(5), 205-212. DOI: 10.19678/j.issn.1000-3428.0057740.

基金项目

国家自然科学基金(61602269);中国博士后科学基金(2017M622136);青岛市应用研究项目(2016025)

通信作者

杨环(通信作者), 副教授、博士

作者简介

刘海(1995-), 男, 硕士研究生, 主研方向为图像质量评价、人工智能;
潘振宽, 教授、博士、博士生导师;
黄宝香, 副教授、博士;
侯国家, 讲师、博士

文章历史

收稿日期:2020-03-16
修回日期:2020-04-16
基于生成感知差异的无参考图像质量评价模型
刘海 , 杨环 , 潘振宽 , 黄宝香 , 侯国家     
青岛大学 计算机科学技术学院, 山东 青岛 266100
摘要:人眼视觉系统中的视觉感知差异是图像质量评价过程中的重要组成部分,通过感知失真图像与原始图像之间的视觉差异,可对图像的失真程度进行判断,然而在无参考图像质量评价中无法获取原始未失真的图像,且缺乏对失真图像的视觉感知差异。通过对深度学习中的生成对抗网络进行分析,提出一种基于生成视觉感知差异的无参考图像质量评价模型。利用生成对抗网络产生与失真图像相对应的视觉感知差异图像,并将其与失真图像输入质量评价网络以进一步学习图像的失真信息,从而达到评估图像质量的目的。在TID2008和TID2013数据库上的实验结果表明,与CNN、SOM、CORNIA等模型相比,该模型能够使失真图像质量预测准确度提升1个百分点以上,且对不同种类失真也表现出良好的预测性能。
关键词无参考图像质量评价    视觉感知差异    生成对抗网络    深度学习    损失函数    
No-Reference Image Quality Assessment Model Based on Generated Perceptual Difference
LIU Hai , YANG Huan , PAN Zhenkuan , HUANG Baoxiang , HOU Guojia     
College of Computer Science & Technology, Qingdao University, Qingdao, Shandong 266100, China
Abstract: The visual perception difference in the Human Visual System(HVS) is key to image quality evaluation.By sensing the visual difference between the distorted image and the reference image, the distortion degree of the image can be judged.However, this method is inadequate for No-Reference Image Quality Assessment(NR-IQA) where the original undistorted image cannot be obtained for the judgement of visual perception difference.By analyzing the Generative Adversarial Network(GAN) in deep learning, this paper describes a NR-IQA model based on generated perceptual differences.The model employs GAN to generate the visual perception difference image corresponding to the distorted image, and then inputs both kinds of images into the Image Quality Assessment(IQA) network to further learn the distortion information of the image, completing the evaluation of the image quality.The experimental results on TID2008 and TID2013 databases show that compared with CNN, SOM, CORNIA and other models, the proposed model can improve the prediction accuracy of distorted image quality by more than 1 percentage point, and shows excellent performance for different types of distorted images.
Key words: No-Reference Image Quality Assessment(NR-IQA)    visual perceptual difference    Generative Adversarial Network(GAN)    deep learning    loss function    
0 概述

随着手机、平板等越来越多的移动电子设备出现在人们的日常生活中,数字图像现在已是无处不在,人们对数字图像质量的要求越来越高,因此图像质量评价技术应运而生[1]。图像质量评价可分为主观评价和客观评价两类,主观评价是指人们根据对图像的主观视觉感受做出的定性评价,而图像的客观评价是通过算法或模型来模拟人眼视觉系统,从而得到图像的感知质量分数。客观评价相比主观评价具有处理数据量大和结果可重现等特点。

根据对参考图像的依赖程度,图像客观质量评价又可分为全参考图像质量评价(FR-IQA)、半参考图像质量评价(RR-IQA)和无参考图像质量评价(NR-IQA)。全参考图像质量评价是在获取到参考图像的前提下,将失真图像与参考图像进行相似度对比,并计算出最终质量分数。在全参考图像质量评价中,均方误差(Mean Square Error,MSE)和峰值信噪比(Peak Signal to Noise Ratio,PSNR)是较先用来评估图像质量的标准[2]。但是随着人眼视觉系统的深入研究,更多的评价算法被相继提出,最典型的算法有结构相似性(Structural Similarity,SSIM)[3]和基于视觉显著性的索引(Visual-Saliency-based Index,VSI)[4]等算法,SSIM算法通过计算图像的亮度、对比度和结构的相似度,并将其相结合而得到最终质量分数。然后,研究人员在SSIM算法的基础上又提出了G-SSIM[5]、MS-SSIM[6]和3-SSIM[7]等算法。VSI算法则是通过比较两幅图像的显著性相似度来评价图像的失真程度。因为使用到了参考图像的全部信息作为辅助对比,所以通常全参考图像质量评价准确性较好。而半参考图像质量评价是根据参考图像的部分信息来进行失真图像的质量评估,这些信息可以是图像的灰度直方图、变换域的参数以及图像熵等统计信息。文献[8]提出一种基于离散余弦变换(DCT)系数分布的半参考图像质量评价。无参考图像质量评价则完全摆脱了参考图像的约束,解决了现实应用中无法获取参考图像的问题,实际应用能力更强。然而,研究人员对人眼视觉系统的生理学和心理学研究发现,人眼在评价图像的失真程度时,往往需要一个未失真的图像作为参考对比,从而量化视觉感知的差异[9],这也是目前无参考图像质量评价面临的一个重大挑战。为解决该问题,传统的无参考图像质量评价算法是从图像中提取可反映失真信息的特征,然后使用回归模型进行回归学习,从而得到图像质量的预测分数。该算法的性能主要依赖于手工特征的设计提取,而这种特征无法有效表达图像质量评价中的失真类型(如JEPG、JEPG2K和白色噪声等)和图像内容(如人、动物和植物等)的多样性和灵活性。近年来,卷积神经网络(Convolutional Neural Network,CNN)在计算机视觉方面应用较为广泛,研究人员希望通过CNN中强大的特征表达能力进行无参考图像质量评价。公开数据集的样本有限性在很大程度上限制了CNN在无参考图像质量评价模型中的应用,还有研究人员将ImageNet上经过预训练模型的一般图像特征迁移至图像质量评价中[10],但图像分类与图像质量评价之间较低的相关性以及相似性降低了迁移学习的有效性。

在无参考图像质量评价中,为弥补视觉感知差异图像的缺失,可通过使用最新的图像超分辨重建技术从失真图像中修复得到伪参考图像,从而进一步获得感知差异图像。由于图像修复是基于只有一种或某种特定失真的假设,但图像的失真通常不止一种且存在多种失真,因此利用这种方式进行无参考图像质量评价是不可取的。为此,本文提出使用生成对抗网络(Generative Adversarial Network,GAN)生成视觉感知差异图像并用于无参考图像质量评价。在生成网络中,利用失真图像产生相应的感知差异图像,并使用判别网络对生成的感知差异图像进行区分。通过引入梯度特征差异图的GMAP[11]作为感知差异图像的真实值,能够有效表达感知失真[12]。使用感知差异图像指导质量评价回归网络的学习,并且除了从失真图像和GMAP学习一些感知差异特征之外,网络还引入了特定的损失函数,这些损失函数可满足人眼视觉系统中的感知特性,也可有效表达视觉感知特征。

1 相关工作 1.1 无参考图像质量评价

无参考图像质量评价算法因缺乏参考图像信息,而只能使用失真图像来提取感知失真特征。NR-IQA算法根据特征提取可分为基于自然场景统计(NSS)特征和基于特征学习的方法两类。自然场景统计特征可通过多种方式表达,比如文献[13]根据图像失真造成的信息损失来计算空间域中不同子集的区域性交互信息,并预测图像的质量分数。文献[14]分别从非监督学习的结构信息、自然信息和感知信息3个方面来提取统计特征。文献[15]提出图像失真会引起小波变换的子带系数变化,并采用Daubechies小波变换的广义高斯分布和系数作为失真图像特征。文献[16]提出图像的失真程度和离散余弦变换系数密切相关,利用提取DCT域中的统计特征来预测质量分数。

除了以上提取自然场景统计特征方法外,通过深度学习来表达特征也取得了显著进展。文献[17]提出利用浅层CNN对图像质量进行评价,且将该方法改进为多任务性网络,以学习图像的失真类型和质量评价。文献[18]采用CNN提取特征,利用SVR回归质量分数方法计算图像的预测分数。文献[19]使用预训练的ResNet网络提取特征,并根据特定数据集中的失真类型和预测分数对网络进行微调,以获取学习失真图像的概率。文献[20]采用FR-IQA方法在分割图像块上生成的质量分数作为训练真实值,并将其用于预训练模型。

本文通过生成缺少视觉感知差异的信息来模拟HVS在无参考图像质量评价中的应用。根据梯度差异图像的先验知识,使得本文模型比其他方法具有更好的灵活性和可行性。

1.2 生成对抗网络

生成对抗网络及其各种变体广泛应用于图像的超分辨率重建和语义分割等方面[21],关键思想是同时训练生成网络和判别网络。在训练过程中,生成网络是通过使用生成结果来欺骗判别网络,判别网络是判断生成网络的结果是否真实,则这2个网络构成一个动态的博弈过程。在理想的训练状态下,生成网络可产生以假乱真的结果,而对于判别网络而言,它难以判断生成网络的结果究竟是否真实,从而得到一个生成对抗网络模型,用来生成理想的结果。

本文中输入的图像具有各种失真类型和失真级别,使得模型的稳定性至关重要,并且图像质量回归网络的性能与生成网络输出的结果紧密相关。采用特定的损失统计函数进行稳定的生成对抗训练,以进行更为准确的图像质量评价。

2 GDA-NR-IQA图像质量评价模型

本节将具体介绍本文所提无参考图像质量评价模型。该模型的总体框架如图 1所示,其中虚线部分仅用于模型训练。从图 1可以看出,本文模型主要是由感知差异生成网络G、感知差异判别网络D以及质量评价网络A这3个部分组成,并将其命名为GDA-NR-IQA。模型使用生成网络G生成视觉感知差异图像并作为失真图像的辅助信息,判别网络D借助GMAP的先验知识,采用相应的对抗式训练来帮助感知差异生成网络G生成更为合格的结果,并抑制不良结果对A造成的负面影响。将感知差异图像与失真图像一起输入到质量评价网络A中,学习图像中更多的感知失真,以达到准确评价图像质量分数的目的。本文针对不同的网络定义了相对应的损失函数,以提高模型的准确性和鲁棒性。

Download:
图 1 GDA-NR-IQA模型的总体框架 Fig. 1 The overall framework of GDA-NR-IQA model
2.1 视觉感知差异生成对抗网络

视觉感知差异生成对抗网络依靠生成感知差异图像来弥补NR-IQA中感知失真差异的缺陷,具体结构如图 2所示。生成网络G以失真图像产生感知差异图像并用来进行质量评价,且生成的感知差异图像与真实视觉感知差异图像越接近,则最终的质量评价网络性能越好。判别网络D是判断生成结果与真实结果的接近程度,使用GMAP模拟人眼的真实视觉感知差异。

Download:
图 2 视觉感知差异网络结构 Fig. 2 Structure of the visual perception difference network

图像梯度是一种图像质量评价中经常使用的特征,因为它可有效获取HVS非常敏感的图像局部结构。本文采用梯度差异图像作为辅助训练,使生成网络G能够更好地生成感知差异图像。为了降低噪声对图像质量评价结果的影响,实验使用Prewitt梯度算子提取图像的梯度特征,该算子滤波器沿水平方向$ \boldsymbol{h}\left(\boldsymbol{x}\right) $和垂直方向$ \boldsymbol{v}\left(\boldsymbol{x}\right) $的矩阵可分别定义为:

$ \begin{array}{l}\boldsymbol{h}\left(x\right)=\left[\begin{array}{ccc}1/3& 0& -1/3\\ 1/3& 0& -1/3\\ 1/3& 0& -1/3\end{array}\right]\\ \boldsymbol{v}\left(x\right)=\left[\begin{array}{ccc}1/3& 1/3& 1/3\\ 0& 0& 0\\ -1/3& -1/3& -1/3\end{array}\right]\end{array} $ (1)

对于给定的参考图像$ r $和失真图像$ d $,其梯度图像可表示为:

$ {\boldsymbol{g}}_{r}\left(x\right)=\sqrt{(r\otimes \boldsymbol{h}{\left(x\right))}^{2}+(r\otimes \boldsymbol{v}{\left(x\right))}^{2}} $ (2)
$ {\boldsymbol{g}}_{d}\left(x\right)=\sqrt{(d\otimes \boldsymbol{h}{\left(x\right))}^{2}+(d\otimes \boldsymbol{v}{\left(x\right))}^{2}} $ (3)

其中,$ \otimes $表示卷积操作。

梯度差异图像可定义为:

$ \mathrm{G}\mathrm{M}\mathrm{A}\mathrm{P}=\frac{2{\boldsymbol{g}}_{r}{\boldsymbol{g}}_{d}+\varepsilon }{{\boldsymbol{g}}_{r}^{2}+{\boldsymbol{g}}_{d}^{2}+\varepsilon } $ (4)

其中,$ \varepsilon $是避免分母为0的常数,并使得系统保持稳定。

生成网络G由3个卷积层和7个残差单元组成,而每个残差单元中都有2个卷积层,2个卷积层之间使用ReLU激活函数并进行批标准化(Batch Normal,BN)处理。每个残差单元都将输入与输出相结合,并作为下一个单元的输入。判别网络D是一个6层卷积神经网络结构,使用网络G的输出结果和GMAP作为输入,采用4个卷积层和2个全连接层区分生成的感知差异图像与GMAP。

生成网络G是为了使得网络输出结果更接近于真实视觉差异,这主要体现在像素等级和视觉等级2个方面。当给定一组失真图像$ {d}_{i}\left\{i=1, 2, \cdots , N\right\} $与梯度差异图$ {g}_{i}\left\{i=1, 2, \cdots , N\right\} $时,生成网络G需满足以下关系式:

$ \hat{\theta }=\underset{\theta }{\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{m}\mathrm{i}\mathrm{n}}\frac{1}{N}\sum\limits_{i=1}^{N}\left[{L}_{p}\left(G\left({d}_{i}\right), {g}_{i}\right)+{L}_{v}\left(G\left({d}_{i}\right), {g}_{i}\right)\right] $ (5)

其中,$ {L}_{p} $表示输出结果与真实值之间像素级别的差距,实验采用MSE方法进行计算,$ {L}_{v} $则表示输出结果与真实值之间视觉等级的差距。

基于深度学习的图像质量评价方法主要是通过对图像的失真信息进行学习,使得网络能够给出与人类主观评分相一致的结果。人类对失真图像的观察更依靠于视觉上的感知差异,虽然可以利用GMAP模拟人眼感知特性,但是由于它不能完全模拟人类的视觉感知特性,对失真特性存在一定的限制。为解决该问题,本文将特定的损失函数运用到网络G中,以提升IQA模型的整体性能。因为判别网络是针对判别任务进行训练的,所以每一个卷积层的特征图都包含有不同级别的细节信息。将判别网络中的特征图表示为生成感知差异与GMAP在视觉等级上的差距,从而保证了输出结果与真实结果之间的相似性。$ {L}_{v} $可表示为:

$ {L}_{v}=\sum\limits_{j=1}^{M}\frac{1}{{W}_{j}{H}_{j}}\sum\limits_{x=1}^{{W}_{j}}\sum\limits_{y=1}^{{H}_{j}}{‖{\varphi }_{j}{\left(G\left({d}_{i}\right)\right)}_{x, y}-{\varphi }_{j}{\left({g}_{i}\right)}_{x, y}‖}^{2} $ (6)

其中,$ {\varphi }_{j} $表示判别网络D中第$ j $个卷积层的特征图,HW分别表示特征图的长和宽,M表示特征图的个数。

为确保生成网络产生合理的感知差异图像,特别是针对不同的失真类型和失真级别,本文在模型中引入了对抗训练机制。根据生成对抗网络的理论,生成网络G产生可以欺骗判别网络D的感知差异图像。然而,判别网络D通过训练可用来区分生成的感知差异图像与真实差异图像。因为模型的最终目标是通过生成的视觉感知差异图像来提升质量评价深度回归网络A的性能,所以可以使用网络A的预测结果来解决上述问题。如果网络G产生的感知差异图像可以提升网络A的精度,则将产生的结果图像定义为真,否则定义为假,即网络D使用网络A的结果来抑制网络G生成具有负面影响的感知差异图。网络D的优化函数可以表示为:

$ {L}_{D}=\underset{D}{\mathrm{m}\mathrm{a}\mathrm{x}}\;\mathbb{R}\left[\mathrm{l}\mathrm{n}D\left({g}_{i}\right)\right]+\mathbb{R}\left[\mathrm{l}\mathrm{n}\left(1-\left|D\left(G\right({d}_{i}\left)\right)-\mathrm{R}{\mathrm{F}}_{i}\right|\right)\right] $ (7)

其中,$ \mathrm{R}{\mathrm{F}}_{i} $表示根据网络A的预测结果决定的真假值,且其可定义为如式(8)所示:

$ \mathrm{R}{\mathrm{F}}_{i}=\left\{\begin{array}{cc}1\left(\mathrm{R}\mathrm{e}\mathrm{a}\mathrm{l}\right), {‖A({d}_{i}, {p}_{i})-{s}_{i}‖}_{\mathrm{F}}<\eta & \\ 0\left(\mathrm{F}\mathrm{a}\mathrm{k}\mathrm{e}\right),{‖A({d}_{i}, {p}_{i})-{s}_{i}‖}_{\mathrm{F}}\ge \eta & \end{array}\right. $ (8)

其中,$ {s}_{i} $表示失真图像$ {d}_{i} $的质量分数真实值,$ {p}_{i} $表示失真图像$ {d}_{i} $通过生成网络G生成的视觉感知差异图。

生成网络G最终可被优化为通过生成对网络A有利的合格感知差异图像来欺骗判别网络D,则网络G的对抗损失函数和损失函数分别如式(9)和式(10)所示,即生成网络G与判别网络D是通过相互制约以及相互加强的方式而训练出来的。

$ {L}_{a}=\mathbb{R}\left[\mathrm{l}\mathrm{n}\left(1-D\left(G\right({d}_{i}\left)\right)\right)\right] $ (9)
$ {L}_{G}={L}_{p}+{L}_{v}+{L}_{a} $ (10)

图 3给出了训练好的生成网络产生的视觉感知差异图像与其他图像之间的对比效果。从图 3可以看出,在特定失真的情况下,该模型能够较好掌握图像的失真特性,并对质量评价网络起到促进作用。

Download:
图 3 视觉感知差异图像与其他图像的对比效果 Fig. 3 Comparison effect of visual perception difference images and other images
2.2 图像质量评价网络

在图像质量评价网络A中,使用失真图像和学习到的感知差异图像作为输入,并对质量分数进行深度学习回归。失真图像的失真程度是人类主观评价的重要依据,而感知差异图像则作为辅助过程对最终评价结果产生显著影响。图像质量评价网络结构如图 4所示,它由特征提取、特征融合以及特征回归3个部分组成。在该网络中,特征提取通过4个卷积单元来实现,且每个卷积单元中包含2个卷积层,而2个卷积层之间使用ReLU激活函数,在2个卷积层之后存在一个最大池化层。这样可以得到感知差异图像的特征$ {f}_{p} $和失真图像的特征$ {f}_{d} $这2个高维特征向量,融合层将这2个特征进行融合连接并作为全连接层的输入,则融合特征可表示为:

Download:
图 4 图像质量评价网络结构 Fig. 4 Network structure of image quality assessment
$ \boldsymbol{f}=\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}\mathrm{t}({\boldsymbol{f}}_{d}, {\boldsymbol{f}}_{p}) $ (11)

其中,$ \boldsymbol{f} $表示融合后的特征向量,融合前、后每个特征向量分别为512维和1 024维。通过3个全连接层组成的回归网络得到失真图像的预测分数。为了使预测的图像分数与主观评分之间具有线性关系,本文将图像质量评价网络A的最终损失函数定义为:

$ {L}_{A}=\frac{1}{T}\sum\limits_{t=1}^{T}{‖F({d}_{t}, {p}_{t})-{s}_{t}‖}_{\rm{\ell} 1} $ (12)

其中,$ {d}_{t} $$ {p}_{t} $分别表示第$ t $个输入网络的失真图像和感知差异图像,$ {s}_{t} $表示对应图像的主观评价分数,$ F(·) $表示非线性函数,$ T $表示每批次输入的图像总数量。

2.3 模型训练过程

本文将失真图像和相应的参考图像随机裁剪为256$ \times $256,通过将计算失真图像和参考图像之间的GMAP作为视觉感知差异生成对抗网络训练集数据的一部分。在生成网络中,通过使用7个残差单元来生成感知差异图像。在判别网络中,采用6层卷积神经网络判别生成的感知差异图像,并将失真图像与生成的感知差异图像通过双卷积神经网络回归出图像的质量预测分数。算法1列出了基于生成感知差异的无参考图像质量评价模型(GDA-NR-IQA)的训练过程。

算法1  基于生成感知差异的无参考图像质量评价

输入  失真图像$ d $

输出  失真图像的预测质量分数$ s $

步骤1  通过失真图像$ d $与参考图像$ r $计算得出梯度差异图像的GMAP。

步骤2  将失真图像$ d $与GMAP输入生成对抗网络中,对网络进行训练,以生成感知差异图像$ p $

步骤3  将失真图像$ d $与生成的感知差异图像$ p $输入质量评价网络中并对网络进行训练。

步骤4  将失真图像$ d $输入训练好的生成对抗网络,以获取感知差异的图像。

步骤5  将失真图像$ d $与生成的感知差异图像$ p $同时输入质量评价网络,得到图像质量的预测分数$ s $

针对训练时网络模型的优化算法,本文采用自适应矩估计(ADAM)算法来代替传统的随机梯度下降法(SGD)。参数设置为$ \alpha =0.003 $$ {\beta }_{1}=0.5 $$ {\beta }_{2}=0.999 $,网络中的权值都是以0为中心、标准差为0.02的正态分布初始化的。实验是基于TID2013数据库进行训练,其中训练集所占的比重为0.8,测试集的比重为0.2。

在实验中,模型使用MATLAB中的Caffe工具开发,利用包含2.50 GHz CPU和GTX1080 GPU的服务器训练模型,其中GPU用于加快模型的处理速度。本文在TID2013数据库上进行模型训练时大约花费15 h,在测试阶段中,每个图像的平均处理时间约为0.2 s。

3 实验结果与分析 3.1 实验数据库与评价指标

为了验证本文模型的性能,实验在TID2013[22]数据库上训练模型,并在LIVE[23]、CSIQ[24]和TID2008[25]数据库上进行验证。LIVE数据库中含779幅失真图像,分别来自于29幅参考图像的5种不同失真。CSIQ数据库中含有866幅失真图像,分别来自于30幅参考图像的6种不同失真。TID2008数据库则是将25幅参考图像通过17种不同的失真类型,4种不同的失真级别共获得了1 700(25×17×4)幅失真图像。TID2013数据库在此基础上增加了7种失真类型和1种失真级别,从而获得了3 000幅失真图像。该数据库的主观评分是由971位观察者给出524 340个数据统计而得出。

实验使用以下3个评价指标对本文模型的准确性进行评估:斯皮尔曼等级相关系数(Spearman Rank Order Correlation Coeficient,SROCC)、皮尔逊线性相关系数(Pearson Linear Correlation Coeffi cient,PLCC)和均方根误差(Root Mean Squared Error,RMSE)。本文通过计算预测分数值与主观分数值之间的SROCC、PLCC和RMSE来比较各类算法的准确性,SROCC和PLCC的范围为[0, 1],且其值越高,则表示算法的准确度越高,而RMSE越低则表示算法预测的得分与主观分数之间的差异越小。

3.2 基于不同损失函数的消融实验结果对比分析

为了研究模型中关键部分的有效性,本文在TID2008数据库上进行基于不同损失函数的消融实验。实验将采用不同损失函数生成的感知差异图像和失真图像输入至同一图像质量评价网络中,用SROCC、PLCC以及RMSE值来体现不同损失函数对GDA-NR-IQA性能的影响,结果如表 1所示。其中,$ {L}_{p} $$ {L}_{v} $表示仅使用像素等级差异或视觉等级差异作为损失函数,$ {L}_{a} $表示相应的对抗损失函数,接下来将三者结合起来($ {L}_{p}+{L}_{v}+{L}_{a} $)进行模型训练。从表 1可以看出,$ {L}_{v} $$ {L}_{a} $可以显著提高网络的整体精度,$ {L}_{v} $$ {L}_{a} $的加入均可缩小预测分数与主观评价分数之间的差距。$ {L}_{p}+{L}_{a} $的方式可使模型更好地学习到感知失真差异信息,而$ {L}_{v} $的加入可使生成的感知差异图像更符合人类感知特性,并且$ {L}_{p}+{L}_{v}+{L}_{a} $使得模型的SROCC和PLCC值达到最高,这说明本文提出的损失函数对模型的有效性以及评价能力均有显著提升。

下载CSV 表 1 不同损失函数在TID2008数据库上的结果对比 Table 1 Comparison of the results of different loss functions on TID2008 database
3.3 基于不同网络深度的模型性能对比分析

深度学习在人脸识别、机器翻译等各项任务中取得显著效果,这是因为足够深的网络深度起到关键作用,一定的网络深度可以产生更好的非线性表达能力,并且可以学习到复杂性更高的细节图像特征。本文模型使用具有7个残差单元网络生成图像的感知差异图像,并采用不同网络深度在CSIQ数据库上进行图像质量评价性能对比,结果如图 5所示。从图 5可以看出,网络深度的加深可有效提升模型性能以及对失真图像的评价能力,但是当残差单元数量达到7个后,网络深度的加深对性能影响不显著,且还会引起更为复杂的网络优化问题以及增加网络参数量和模型时间复杂度。因此,本文选择使用7个残差单元来构建生成网络。

Download:
图 5 残差单元数量对本文模型性能的影响 Fig. 5 Effect of the number of residual units on the performance of the proposed model
3.4 基于不同失真类型的模型性能对比分析

在现实应用中,失真图像通常不仅只有一种失真,而是多种失真结果之间相互产生影响造成的。不同的失真类型都有其独特特点,为研究GDA-NR-IQA在不同失真类型下的精度问题,将提出的本文模型与BRISQUE[26]、CORNIA[27]、CNN[17]、SOM[28]和BIECON[20]这5种具有代表性的NR-IQA模型在LIVE数据库中进行基于不同失真类型的实验对比,结果如表 2所示。其中,最优结果加粗表示。从表 2可以看出,除了快速衰落失真(FF)外,针对其他4种失真,GDA-NR-IQA比其他模型的准确性高,这也说明本文模型具有良好的优越性。同时,在LIVE数据库中的整体性能表明,GDA-NR-IQA在多重失真的情况下还能通过有效生成感知差异图像对失真图像的质量分数进行预测。

下载CSV 表 2 6种模型在不同失真类型下的性能对比 Table 2 Performance comparison of six models under different distortion types
3.5 模型整体性能对比分析

为进一步验证GDA-NR-IQA的有效性,在LIVE、TID2008和TID2013这3种主流图像质量评价数据库中,实验对本文模型与PSNR、IFC、SSIM和VSI这4种FR-IQA模型以及DIIVINE[29]、BRISQUE、CNN、SOM、CORNIA和BIECON这6种代表性NR-IQA模型进行对比分析,结果如表 3所示。其中,最优结果加粗表示。从表 3可以看出,GDA-NR-IQA在3种数据集上的结果优于其他模型。从表中还可以看出,本文模型在LIVE数据库中评价结果的提升效果并不明显,而在TID2008与TID2013数据集中相比其他模型提升了1个百分点以上,这主要是因为LIVE数据库具有较少的失真图像数据量,在计算预测分数与主观评分之间的相关性时,由于测试样本过少使得模型的提升效果不显著,且该模型在后两种数据库中的评价结果则能更好地反映出模型整体性能的优越性。而针对本文提出的模型,发现其在TID2008和TID2013数据库中的相关性结果相比于LIVE数据库都出现了明显下降,这主要是因为前两种数据库的失真类型和失真图像的数量均远大于LIVE数据库,而GDA-NR-IQA在TID2013数据库中SROCC和PLCC也分别达到了0.918和0.925,相比于其他评价模型也提升了1.5个百分点以上,这表明GDA-NR-IQA在更加复杂的失真类型和更大的失真数据量下,也能够获得良好的精度。

下载CSV 表 3 不同模型在3种数据库上的性能对比 Table 3 Performance comparison of different models on three databases
4 结束语

本文提出一种基于生成视觉感知差异的无参考图像质量评价方法。采用失真图像和GMAP构造一个生成网络并生成合理的视觉感知差异图像,利用构造的判别网络对生成的感知差异图像和GMAP进行区分,并结合使用特定的损失函数通过逆向学习的方式增强生成图像的合理性,以弥补无参考图像质量评价算法中视觉感知失真差异的缺失。实验结果表明,本文模型在生成感知差异图像能力方面取得了显著效果,且与人眼主观评分具有较高的一致性。由于本文模型仅考虑了人眼的视觉差异特性,因此下一步将对加入更多人眼视觉特性的人眼视觉系统进行研究,以得到通用性更强且预测精度更高的模型。

参考文献
[1]
XU Shaoping, LIN Guanxi, ZENG Xiaoxia, et al. Research and prospect of stereoscopic image quality-aware feature extraction[J]. Computer Engineering, 2018, 44(6): 239-248. (in Chinese)
徐少平, 林官喜, 曾小霞, 等. 立体图像质量感知特征提取的研究与展望[J]. 计算机工程, 2018, 44(6): 239-248. DOI:10.3969/j.issn.1000-3428.2018.06.041
[2]
WANG Z, BOVIK A C. Modern image quality assessment[J]. Synthesis Lectures on Image Video and Multimedia Processing, 2006, 2(1): 1-56.
[3]
WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612. DOI:10.1109/TIP.2003.819861
[4]
ZHANG Lin, SHEN Ying, LI Hongyu. VSI: a visual saliency-induced index for perceptual image quality assessment[J]. IEEE Transactions on Image Processing, 2014, 23(10): 4270-4281. DOI:10.1109/TIP.2014.2346028
[5]
YANG Chunling. Gradient-based structural similarity for image quality assessment[J]. Journal of South China University of Technology (Natural Science Edition), 2006, 9(34): 22-25.
[6]
WANG Z, SIMONCELLI E P, BOVIK A C. Multiscale structural similarity for image quality assessment[C]//Proceedings of the 37th Asilomar Conference on Signals, Systems & Computers. Washington D.C., USA: IEEE Press, 2003: 1122-1130.
[7]
LI C F, BOVIK A C. Three-component weighted structural similarity index[EB/OL]. [2020-02-10]. http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=3E96A06DFCD150EFB66EF90C0CDDCA72?doi=10.1.1.153.1729&rep=rep1&type=pdf.
[8]
MA Lin, LI Songnan, ZHANG Fan, et al. Reduced-reference image quality assessment using reorganized DCT-based image representation[J]. IEEE Transactions on Multimedia, 2011, 13(4): 824-829. DOI:10.1109/TMM.2011.2109701
[9]
WU Xin, ZHANG Huanlong, SHU Yunxing. Mosaic image quality evaluation method based on visual perception[J]. Computer Engineering, 2008, 34(18): 220-222. (in Chinese)
武新, 张焕龙, 舒云星. 基于视觉感知的镶嵌图像质量评价方法[J]. 计算机工程, 2008, 34(18): 220-222. DOI:10.3969/j.issn.1000-3428.2008.18.079
[10]
XIE Rui, SHAO Kun, HUO Xing, et al. An improved DIQaM_FR/NR image quality assessment model[J]. Computer Engineering, 2020, 46(8): 258-263, 270. (in Chinese)
谢瑞, 邵堃, 霍星, 等. 一种改进的DIQaM_FR/NR图像质量评价模型[J]. 计算机工程, 2020, 46(8): 258-263, 270.
[11]
YAO Wang, LIU Yunpeng, ZHU Changbo. Deep learning of full-reference image quality assessment based on human visual properties[J]. Infrared and Laser Engineering, 2018, 285(7): 39-46. (in Chinese)
姚旺, 刘云鹏, 朱昌波. 基于人眼视觉特性的深度学习全参考图像质量评价方法[J]. 红外与激光工程, 2018, 285(7): 39-46.
[12]
XUE W F, ZHANG L, MOU X, et al. Gradient magnitude similarity deviation: a highly efficient perceptual image quality index[J]. IEEE Transactions on Image Processing, 2014, 23(2): 684-695. DOI:10.1109/TIP.2013.2293423
[13]
KUMAR V, BAWA V S. No reference image quality assessment metric based on regional mutual information among images[EB/OL]. [2020-02-10]. https://arxiv.org/pdf/1901.05811.pdf.
[14]
LIU Yutao, GU Ke, ZHANG Yongbing, et al. Unsupervised blind image quality evaluation via statistical measurements of structure, naturalness and perception[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2020, 30(4): 929-943. DOI:10.1109/TCSVT.2019.2900472
[15]
MOORTHY A, BOVIK A. A two-step framework for constructing blind image quality indices[J]. IEEE Signal Processing Letters, 2010, 17(5): 513-516. DOI:10.1109/LSP.2010.2043888
[16]
SAAD M A, BOVIK A C, CHARRIER C. Blind image quality assessment: a natural scene statistics approach in the DCT domain[J]. IEEE Transactions on Image Processing, 2012, 21(8): 3339-3352. DOI:10.1109/TIP.2012.2191563
[17]
KANG Le, YE Peng, LI Yi, et al. Convolutional neural networks for no-reference image quality assessment[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2014: 1733-1740.
[18]
BIANCO S, CELONA L, NAPOLETANO P, et al. On the use of deep learning for blind image quality assessment[EB/OL]. [2020-02-10]. https://xueshu.baidu.com/usercenter/paper/show?paperid=2ac3525e407c5c12640b559299838514&site=xueshu_se.
[19]
ZENG H, ZHANG L, BOVIK A C. A probabilistic quality representation approach to deep blind image quality prediction[EB/OL]. [2020-02-10]. https://arxiv.org/pdf/1708.08190.pdf.
[20]
KIM J, LEE S. Fully deep blind image quality predictor[J]. IEEE Signal Processing, 2017, 11(1): 206-220.
[21]
LI Ang, SONG Xiaoying. Remote sensing image superresolution reconstruction based on GAN[J]. Optics & Optoelectronic Technology, 2019, 17(6): 39-44. (in Chinese)
李昂, 宋晓莹. 基于生成对抗网络的遥感图像超分辨率重建[J]. 光学与光电技术, 2019, 17(6): 39-44.
[22]
PONOMARENKO N, IEREMEIEV O, LUKIN V, et al. Color image database TID2013: peculiarities and preliminary results[C]//Proceedings of European Workshop on Visual Information Processing. Washington D.C., USA: IEEE Press, 2013: 1-12.
[23]
SHEIKH H R, SABIR M F, BOVIK A C. A statistical evaluation of recent full reference image quality assessment algorithms[J]. IEEE Transactions on Image Processing, 2006, 15(11): 3440-3451. DOI:10.1109/TIP.2006.881959
[24]
CHANDER, DAMON M. Most apparent distortion: full-reference image quality assessment and the role of strategy[J]. Journal of Electronic Imaging, 2010, 19(1): 12-36.
[25]
PONOMARENKO N, LUKIN V, EGIAZARIAN K, et al. Color image database for evaluation of image quality metrics[C]//Proceedings of IEEE Workshop on Multimedia Signal Processing. Washington D.C., USA: IEEE Press, 2008: 1223-1236.
[26]
MITTAL A, MOORTHY A K, BOVIK A C. No-reference image quality assessment in the spatial domain[J]. IEEE Transactions on Image Processing, 2012, 21(12): 4695-4708. DOI:10.1109/TIP.2012.2214050
[27]
YE P, KUMAR J, KANG L, et al. Unsupervised feature learning framework for no-reference image quality assessment[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2012: 1336-1348.
[28]
ZHANG Peng, ZHOU Wengang, WU Lei, et al. SOM: semantic obviousness metric for image quality assessment[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2015: 1-6.
[29]
MOORTHY A K, BOVIK A C. Blind image quality assessment: from natural scene statistics to perceptual quality[J]. IEEE Transactions on Image Processing, 2012, 20(12): 3350-3364.