«上一篇 下一篇»
  计算机工程  2022, Vol. 48 Issue (2): 207-214, 223  DOI: 10.19678/j.issn.1000-3428.0060191
0

引用本文  

王宽, 杨环, 潘振宽, 等. 基于单目和双目视觉信息的全参考立体图像质量评价模型[J]. 计算机工程, 2022, 48(2), 207-214, 223. DOI: 10.19678/j.issn.1000-3428.0060191.
WANG Kuan, YANG Huan, PAN Zhenkuan, et al. Full-Reference Model for Stereoscopic Image Quality Assessment Based on Monocular and Binocular Visual Information[J]. Computer Engineering, 2022, 48(2), 207-214, 223. DOI: 10.19678/j.issn.1000-3428.0060191.

基金项目

中国博士后科学基金(2017M622136);山东省重点研发计划(2019GGX101021);青岛市应用研究项目(2016025)

通信作者

杨环(通信作者), 副教授、博士

作者简介

王宽(1995-), 男, 硕士研究生, 主研方向为图像质量评价、人工智能;
潘振宽, 教授、博士;
司建伟, 硕士研究生

文章历史

收稿日期:2020-12-04
修回日期:2021-02-05
基于单目和双目视觉信息的全参考立体图像质量评价模型
王宽 , 杨环 , 潘振宽 , 司建伟     
青岛大学 计算机科学技术学院, 山东 青岛 266071
摘要:在立体图像质量评价领域,有效地模拟人类视觉系统对图像质量进行评价具有重要意义,考虑到人眼的视觉感知特性,基于单目和双目视觉信息构建一种立体图像质量评价模型MB-FR-SIQA。采用基于结构相似性的立体视差算法得到参考和失真立体图像的视差矩阵,结合Gabor能量响应图、显著性图和视差矩阵生成中间视图,并优化左右眼加权系数计算方法,以提高生成中间视图的准确性。分别利用单目图像和中间视图提取单目和双目视觉信息,计算单目质量分数和双目质量分数,并融合得到立体图像的质量分数,达到评价立体图像质量的目的。实验结果表明,MB-FR-SIQA模型在LIVE-Ⅰ数据库上具有较高的预测精度,其斯皮尔曼等级相关系数、皮尔森线性相关系数、均方根误差分别为0.945、0.951、5.318,且预测的质量分数符合人类主观评估。
关键词立体图像质量评价    人类视觉系统    单目视觉    双目视觉    中间视图    
Full-Reference Model for Stereoscopic Image Quality Assessment Based on Monocular and Binocular Visual Information
WANG Kuan , YANG Huan , PAN Zhenkuan , SI Jianwei     
School of Computer Science and Technology, Qingdao University, Qingdao, Shandong 266071, China
Abstract: In the field of Stereoscopic Image Quality Assessment (SIQA), effectively simulate the Human Visual System (HVS) to evaluate the image quality remains an important problem.Considering the visual perception characteristics of human eyes, this paper proposes a SIQA model based on monocular and binocular visual information. The model uses stereo disparity algorithm to obtain disparity matrix of reference and distorted stereo images, and employs the saliency map, Gabor energy and disparity matrix response image to optimize the weight coefficients of the left eye and right eye, and thus improves the accuracy of the generated cyclopean image.Then the monocular and binocular visual information features are extracted from monocular images and cyclopean images respectively.The features are combined with the quality score to evaluate the quality of stereoscopic images.The experimental results show that the Spearman rank correlation coefficient, Pearson linear correlaion coefficient and Root mean square error of the model on LIVE-Ⅰ reach 0.945, 0.951 and 5.318 respectively.The proposed model displays a higher prediction accuracy, and its results are more consistent with human perception.
Key words: Stereoscopic Image Quality Assessment(SIQA)    Human Visual System(HVS)    monocular vision    binocular vision    cyclopean image    

开放科学(资源服务)标志码(OSID):

0 概述

随着社会的发展,不同的3D应用场景已经深入人们的日常生活,如电影业、制造业、游戏业等领域。立体图像在传输、存储和处理时会因失真导致视觉感知质量下降。近年来,随着高质量立体图像需求的增加,立体图像质量评价(Stereoscopic Images Quality Assessment,SIQA)成为现代图像处理技术的研究热点。

在客观图像质量评价方面,研究人员提出一系列高性能的2D图像质量评估(2D Image Quality Assessment,2D-IQA)算法[1-3]。SIQA不仅考虑2D单目图像的失真程度,还考虑双目视觉感知体验带来的影响。

立体图像是由一对2D单目图像组成,又称左右视图图像,分别代表投影到观看者每只眼睛上的景象。当人们在观看立体图像时,人类视觉系统(Human Visual System,HVS)经过复杂的双目融合和双目竞争的过程,将立体图像中的左右视图融合为人脑中的3D视图,这种融合的视图不仅依赖于双眼受到刺激的差异,还依赖于呈现给每只眼睛不同图案部分的几何关系[4]。因此,立体图像质量不仅与每张单独的左视图或右视图失真程度有关,还与双目立体感知体验有关。

双目视觉具有更复杂的感知过程,难以准确量化。针对SIQA的量化问题,解决策略主要是分别计算左视图和右视图的质量分数,再利用不同方法给左右视图分配权重,用加权和的形式得到立体图像的质量分数。基于此策略的研究方法通常是在左右视图上分别使用2D-IQA方法,然后将获得的两个质量得分进行融合,融合方式主要是基于眼睛加权[5]、增益控制[6]、神经网络[7]、矢量求和[8]等模型来实现。虽然左右视图均能够反映立体图像质量的特征信息,但具有较高对比度的一侧图像在SIQA中会产生更重要的影响[9]。这种方法在模拟HVS感知信息的过程中未充分考虑到双目视觉感知特性的影响,有可能导致评价结果与真实结果的偏差。SIQA量化问题的解决策略还可以利用图像融合方法将左视图和右视图融合为一幅图像,再基于此幅图像进行SIQA。左右视图融合后的图像被称为中间视图,用于模拟人类大脑中感知到的真实图像。人们在观察过程中,左右眼睛分别从外界获取两张视觉场景,同时HVS自发地将两者进行融合,使观察者只感受到一个场景。当HVS融合左右眼睛获取的视觉场景时,中间视图会受深度感知[10]、双目视差[11]、双目竞争[12]等因素的影响。文献[12]从失真立体图像和参考立体图像中分别融合中间视图,然后针对这两张中间视图利用2D-IQA方法来评价立体图像的质量。图像融合方法提取的特征信息是基于生成的中间视图,虽然这种方法考虑到了双目视觉的感知特性,在一定程度上提高了立体图像质量的预测性能,但并没有直接针对2D单目图像提取特征,忽略了单目视觉信息产生的影响。

研究人员提出一些基于深度学习的SIQA模型:文献[13]构建一种将局部特征融合为全局特征的无参考SIQA模型,将左右视图切割后分别输入卷积神经网络(Convolutional Neural Network,CNN)得到局部特征,最后将这些局部特征融合为全局特征以预测立体图像的质量得分;文献[14]提出一种三列CNN模型,以学习左右视图和视差图中图像块的局部结构信息,利用多层感知器将学习到的特征融合为SIQA得分。这些基于深度学习的模型虽然可以自动提取图像的特征,但是由于特征提取的封闭性,使得这些模型可解释性较低,可能导致网络难以优化,并且CNN的训练具有很高的时间复杂度。相反,传统模型具有可解释性较高且时间复杂度较低等优点。

本文提出一种基于单目视觉信息和双目视觉信息的SIQA模型。通过结合显著图、Gabor能量响应图和视差矩阵生成中间视图,分别利用左右视图和中间视图提取单目视觉信息和双目视觉信息,根据上述特征信息计算单目质量分数和双目质量分数并融合为整体质量分数。同时在全局特征提取过程的基础上增加局部相位特征和局部幅度特征,提高提取特征的完整性。在结合单目图像的特征相似性上平衡亮度、对比度和相位一致性特征之间的相似度关系,从而提高单目图像质量评价的准确性。

1 MB-FR-SIQA模型

MB-FR-SIQA模型结构如图 1所示。虚线部分分别代表生成中间视图的过程、提取单目视觉信息和双目视觉信息的过程,最后基于提取的特征信息分别计算单目质量分数和双目质量分数,并将其融合为整体质量得分。

Download:
图 1 MB-FR-SIQA模型结构 Fig. 1 Structure of MB-FR-SIQA model

MB-FR-SIQA模型是基于单目视觉信息和双目视觉信息评估立体图像的质量,其包括生成中间视图、基于中间视图提取双目视觉信息、基于单目图像提取单目视觉信息、基于单目和双目视觉信息的质量评估4个主要阶段。

1.1 中间视图生成

在SIQA模型中,中间视图用于模拟观察者大脑中形成的图像,根据人类双目视觉感知特性而形成。当观察者观察图像时,两只眼睛接收到图像的刺激强度并不是完全相同的,由于双目信息不匹配而发生双目竞争现象,因此在中间视图的生成过程中需要考虑到双目竞争现象。Gabor滤波器能够较准确地模拟人眼的感受野,并且在提取目标的局部空间和频率域信息方面具有较好的效果[12]。因此,MB-FR-SIQA模型在左右视图上使用Gabor滤波器能量响应以模拟刺激强度。基于文献[15]所做的工作,本文对2D Gabor滤波器定义为:

$ G(x, y, {\sigma }_{x}, {\sigma }_{y}, {\zeta }_{x}, {\zeta }_{y}, \theta )=\frac{1}{2\mathrm{\pi }{\sigma }_{x}{\sigma }_{y}}\times {\mathrm{e}}^{-(1/2)\left[({R}_{1}/{\sigma }_{x}{)}^{2}+({R}_{2}/{\sigma }_{y}{)}^{2}\right]{\mathrm{e}}^{i(x{\zeta }_{x}+y{\zeta }_{y})}} $ (1)

其中:$ {R}_{1}=x\mathrm{c}\mathrm{o}\mathrm{s}\theta +y\mathrm{s}\mathrm{i}\mathrm{n}\theta $$ {R}_{2}=y\mathrm{c}\mathrm{o}\mathrm{s}\theta -x\mathrm{s}\mathrm{i}\mathrm{n}\theta $$ {\sigma }_{x} $$ {\sigma }_{y} $分别为椭圆高斯包络沿xy轴的标准偏差;$ {\zeta }_{x} $$ {\zeta }_{y} $为空间频率;$ \theta $为确定滤波器的方向。

在Gabor滤波器空间频率为3.67(°)的条件下,该模型在4个方向(水平、对角线和垂直)上通过Gabor滤波器幅度响应求和来估算局部能量[12]

在立体图像中,显著性反映了人眼对不同区域的关注程度,在显著区域上的失真对图像质量评价结果具有较大的影响。因此,本文通过改进左右眼加权系数的计算方法,将显著性图加入计算过程中,对Gabor能量响应进行调整,从而提高加权系数的准确性,其中基于SDSP方法[16]获取显著性图。在中间视图的生成过程中,双目视差信息也需要被考虑在内,本文利用基于SSIM的立体视差算法[12]得到参考和失真立体图像的视差矩阵,结合Gabor能量响应图、显著性图和视差矩阵,通过线性组合方式生成中间视图,如式(2)所示:

$ \begin{array}{l}C(x, y)={W}_{\mathrm{L}}(x, y)\times {I}_{\mathrm{L}}(x, y)+\\ {W}_{\mathrm{R}}(x+d, y)\times {I}_{\mathrm{R}}(x+d, y)\end{array} $ (2)

其中:$ C $为中间视图;$ {I}_{\mathrm{L}} $$ {I}_{\mathrm{R}} $分别为左视图和右视图图像;$ {W}_{\mathrm{L}} $$ {W}_{\mathrm{R}} $分别为左眼和右眼的加权系数,在生成中间视图的过程中视差补偿表示为$ (x+d) $。加权系数的计算如式(3)、式(4)所示:

$ \begin{array}{l}{W}_{\mathrm{L}}(x, y)=\\ \frac{{E}_{\mathrm{L}}^{\mathrm{G}}{(x, y)}^{2}\times {S}_{\mathrm{L}}^{\mathrm{M}}(x, y)}{{E}_{\mathrm{L}}^{\mathrm{G}}{(x, y)}^{2}\times {S}_{\mathrm{L}}^{\mathrm{M}}(x, y)+{E}_{\mathrm{R}}^{\mathrm{G}}{(x+d, y)}^{2}\times {S}_{\mathrm{R}}^{\mathrm{M}}(x+d, y)}\end{array} $ (3)
$ \begin{array}{l}{W}_{\mathrm{R}}(x+d, y)=\\ \frac{{E}_{\mathrm{R}}^{\mathrm{G}}{(x+d, y)}^{2}\times {S}_{\mathrm{R}}^{\mathrm{M}}(x+d, y)}{{E}_{\mathrm{L}}^{\mathrm{G}}{(x, y)}^{2}\times {S}_{\mathrm{L}}^{\mathrm{M}}(x, y)+{E}_{\mathrm{R}}^{\mathrm{G}}{(x+d, y)}^{2}\times {S}_{\mathrm{R}}^{\mathrm{M}}(x+d, y)}\end{array} $ (4)

其中:$ {E}_{\mathrm{L}}^{\mathrm{G}} $$ {E}_{\mathrm{R}}^{\mathrm{G}} $分别为对应于左视图和右视图的Gabor滤波器能量响应图;$ {S}_{\mathrm{L}}^{\mathrm{M}} $$ {S}_{\mathrm{R}}^{\mathrm{M}} $分别为左右视图的显著性图。中间视图的生成如图 2所示。

Download:
图 2 中间视图生成 Fig. 2 Generation of cyclopean images
1.2 双目视觉信息的提取

中间视图代表左右视图在人的大脑中产生的立体图像,通过从中间视图提取相应的特征信息反映其双目质量,除考虑到传统的全局特征以外,本文还结合局部特征信息。全局特征包括基于中间视图提取的亮度、对比度和结构特征,局部特征包括基于中间视图提取的局部相位和局部幅度特征。

文献[2]给出图像的亮度相似度、对比度相似度和结构相似度特征,如式(5)~式(7)所示:

$ l(x, y)=\frac{2{\mu }_{x}{\mu }_{y}+{C}_{1}}{{\mu }_{x}^{2}+{\mu }_{y}^{2}+{C}_{1}} $ (5)
$ c(x, y)=\frac{2{\sigma }_{x}{\sigma }_{y}+{C}_{2}}{{\sigma }_{x}^{2}+{\sigma }_{y}^{2}+{C}_{2}} $ (6)
$ s(x, y)=\frac{{\sigma }_{xy}+{C}_{3}}{{\sigma }_{x}{\sigma }_{y}+{C}_{3}} $ (7)

根据相位一致性理论,局部特征可以通过最大化傅里叶分量提取局部相位和局部幅度特征[17]。文献[18]研究表明,使用log-Gabor能够很好地模拟初级视觉皮层中的简单细胞[18]。因此,文献[19]是通过log-Gabor滤波器进行相位一致性计算,并在傅里叶频域中通过应用log-Gabor滤波器$ {G}_{s, o} $来获得在尺度s和方向o上的一组响应,用[$ {\eta }_{s, o} $$ {\xi }_{s, o} $]表示。$ {G}_{s, o}(r, \theta ) $如式(8)所示:

$ {G}_{s, o}(r, \theta )=\mathrm{e}\mathrm{x}\mathrm{p}\left[-\frac{\left(\mathrm{l}\mathrm{g}\right(\omega /{\omega }_{s}{\left)\right)}^{2}}{2{\sigma }_{s}^{2}}\right]\times \mathrm{e}\mathrm{x}\mathrm{p}\left[-\frac{(\theta -{\theta }_{o}{)}^{2}}{2{\sigma }_{o}^{2}}\right] $ (8)

其中:$ s $$ o $分别为空间尺度指数和方向指数;参数$ \omega $$ \theta $为滤波器的归一化径向频率和方向角;$ {\omega }_{s} $$ {\theta }_{o} $分别为滤波器的相应中心频率和方向;参数$ {\sigma }_{s} $$ {\sigma }_{o} $决定了滤波器的强度。在位置$ x $处的局部幅度如式(9)所示:

$ {A}_{s, o}\left(x\right)=\sqrt{{\eta }_{s, o}{\left(x\right)}^{2}+{\xi }_{s, o}{\left(x\right)}^{2}} $ (9)

沿方向o的局部能量如式(10)所示:

$ {E}_{o}\left(x\right)=\sqrt{{F}_{o}{\left(x\right)}^{2}+{H}_{o}{\left(x\right)}^{2}} $ (10)

其中:$ {F}_{o}\left(x\right)=\sum\limits _{s}{\eta }_{s, o}\left(x\right) $$ {H}_{o}\left(x\right)=\sum\limits _{s}{\zeta }_{s, o}\left(x\right) $。沿方向o的相位一致性如式(11)所示:

$ {P}_{o}^{\mathrm{P}\mathrm{C}}\left(x\right)=\frac{{E}_{o}\left(x\right)}{\epsilon +\sum\limits _{s}{A}_{s, o}\left(x\right)} $ (11)

其中:ε为一个极小的正数。与文献[20-21]的方法不同,MB-FR-SIQA模型没有直接使用相位一致性来表示特征,而是采用局部相位和局部幅度表示图像的特征。局部相位被定义为$ {F}_{o}\left(x\right) $$ {H}_{\mathrm{o}}\left(x\right) $的反正切函数值,如式(12)所示:

$ {L}_{\mathrm{L}\mathrm{P}}\left(x\right)\mathrm{ }=\mathrm{ }\mathrm{a}\mathrm{r}\mathrm{c}\mathrm{t}\mathrm{a}\mathrm{n}\left({H}_{{O}_{m}}\right(x), {F}_{{O}_{m}}(x\left)\right) $ (12)

其中:$ {o}_{m} $为对应于最大相位一致性值的方向。局部幅度定义为沿$ {o}_{m} $方向上所有尺度的局部幅度之和,如式(13)所示:

$ {L}_{\mathrm{L}\mathrm{A}}\left(x\right)=\sum\limits _{s}{A}_{s, {o}_{m}}\left(x\right) $ (13)

在实验中,关于log-Gabor滤波器的参数选择,本文设置:$ {\omega }_{s}=1/6 $$ {\theta }_{o}=0 $$ {\sigma }_{s}=0.3 $$ {\sigma }_{o}=0.4 $,并且滤波器的比例和方向数均设置为4。基于中间视图提取的局部相位特征图和局部幅度特征图如图 3所示。

Download:
图 3 基于中间视图提取的局部相位特征图和局部幅度特征图 Fig. 3 Local phase feature images and local amplitude feature images extracted based on cyclopean image
1.3 单目视觉信息的提取

立体图像中左视图和右视图具有反映3D图像质量的特征信息,在此阶段,从左右视图中分别提取单目视觉信息,其中包含相位一致性、亮度和对比度特征,然后分别计算这3种特征对应的相似性,同时将其进行有效地融合。

相位一致性可以通过式(11)获取,参考图像和失真图像的相位一致性分别表示为$ {P}_{\mathrm{r}\mathrm{e}\mathrm{f}}^{\mathrm{P}\mathrm{C}} $$ {P}_{\mathrm{d}\mathrm{i}\mathrm{s}}^{\mathrm{P}\mathrm{C}} $,则相位一致性相似度如式(14)所示:

$ {S}_{\mathrm{p}\mathrm{c}}\left(x\right)=\frac{2{P}_{\mathrm{r}\mathrm{e}\mathrm{f}}^{\mathrm{P}\mathrm{C}}\left(x\right)\times {P}_{\mathrm{d}\mathrm{i}\mathrm{s}}^{\mathrm{P}\mathrm{C}}\left(x\right)}{{P}_{\mathrm{r}\mathrm{e}\mathrm{f}}^{\mathrm{P}\mathrm{C}}{\left(x\right)}^{2}+{P}_{\mathrm{d}\mathrm{i}\mathrm{s}}^{\mathrm{P}\mathrm{C}}{\left(x\right)}^{2}+{C}_{4}} $ (14)

其中:$ {C}_{4} $为一个极小的正数。

亮度相似性、对比度相似性通过式(5)、式(6)获取,基于文献[2]的工作,用$ {S}_{l}\left(x\right) $$ {S}_{c}\left(x\right) $分别代表实验中图像的亮度相似性和对比度相似性。同时,本文提出一种特征相似性的融合方式,有效结合以上3种特征信息,计算出参考图像与失真图像之间的相似性$ S\left(x\right) $,如式(15)所示:

$ S\left(x\right)={S}_{\mathrm{P}\mathrm{C}}{\left(x\right)}^{\alpha }\times {S}_{l}{\left(x\right)}^{\beta }\times {S}_{c}{\left(x\right)}^{\gamma } $ (15)

其中:$ \alpha $$ \beta $$ \gamma $为用于调整相位一致性、亮度和对比度相对重要性的平衡参数。本文设置$ \alpha =\beta =\gamma =1 $

1.4 基于单目和双目视觉信息的质量评估

基于1.2节提取的双目视觉信息计算2个双目质量分数$ {Q}_{1} $$ {Q}_{2} $,并且基于1.3节提取的单目视觉信息计算出单目质量分数$ {Q}_{3} $。本文提出一种适合MB-FR-SIQA模型的合并方法,将双目质量分数与单目质量分数融合为立体图像的整体质量得分。

式(5)~式(7)能够从中间视图中得到亮度、对比度和结构特征信息,然后采用MS-SSIM[2]方法计算双目质量分数$ {Q}_{1} $,如式(16)所示:

$ {Q}_{1}={\mathrm{M}}_{\mathrm{M}\mathrm{S}-\mathrm{S}\mathrm{S}\mathrm{I}\mathrm{M}}\left({C}_{\mathrm{r}\mathrm{e}\mathrm{f}, }{C}_{\mathrm{d}\mathrm{i}\mathrm{s}}\right) $ (16)

其中:$ {C}_{\mathrm{r}\mathrm{e}\mathrm{f}} $为参考中间视图;$ {C}_{\mathrm{d}\mathrm{i}\mathrm{s}} $为失真中间视图。

基于式(12)、式(13)可以从中间视图中获得局部相位和局部幅度特征信息,然后计算双目质量分数$ {Q}_{2} $。令$ {C}_{\mathrm{r}\mathrm{e}\mathrm{f}}^{\mathrm{C}\mathrm{L}\mathrm{P}} $$ {C}_{\mathrm{d}\mathrm{i}\mathrm{s}}^{\mathrm{C}\mathrm{L}\mathrm{P}} $分别表示从参考和失真中间视图中提取的局部相位特征,$ {C}_{\mathrm{r}\mathrm{e}\mathrm{f}}^{\mathrm{C}\mathrm{L}\mathrm{A}} $$ {C}_{\mathrm{d}\mathrm{i}\mathrm{s}}^{\mathrm{C}\mathrm{L}\mathrm{A}} $为从参考和失真中间视图中提取的局部幅度特征。则中间视图中每个像素位置对应的质量分数如式(17)所示:

$ \begin{array}{l}{Q}_{c}\left(x\right)={W}_{A}\times \frac{2{C}_{\mathrm{r}\mathrm{e}\mathrm{f}}^{\mathrm{C}\mathrm{L}\mathrm{A}}\left(x\right)\times {C}_{\mathrm{d}\mathrm{i}\mathrm{s}}^{\mathrm{C}\mathrm{L}\mathrm{A}}\left(x\right)}{{C}_{\mathrm{r}\mathrm{e}\mathrm{f}}^{\mathrm{C}\mathrm{L}\mathrm{A}}{\left(x\right)}^{2}+{C}_{\mathrm{d}\mathrm{i}\mathrm{s}}^{\mathrm{C}\mathrm{L}\mathrm{A}}{\left(x\right)}^{2}}+\\ {W}_{P}\times \frac{2{C}_{\mathrm{r}\mathrm{e}\mathrm{f}}^{\mathrm{C}\mathrm{L}\mathrm{P}}\left(x\right)\times {C}_{\mathrm{d}\mathrm{i}\mathrm{s}}^{\mathrm{C}\mathrm{L}\mathrm{P}}\left(x\right)}{{C}_{\mathrm{r}\mathrm{e}\mathrm{f}}^{\mathrm{C}\mathrm{L}\mathrm{P}}{\left(x\right)}^{2}+{C}_{\mathrm{d}\mathrm{i}\mathrm{s}}^{\mathrm{C}\mathrm{L}\mathrm{P}}{\left(x\right)}^{2}}\end{array} $ (17)

其中:$ {W}_{P} $$ {W}_{A} $分别为局部相位和局部幅度对应的权重,本实验中设置$ {W}_{P}=0.6 $$ {W}_{A}=0.4 $

双目质量分数$ {Q}_{2} $如式(18)所示:

$ {Q}_{2}=\frac{\sum\limits _{x\in C}{Q}_{c}\left(x\right)}{{N}_{c}} $ (18)

其中:C为中间视图;$ {N}_{\mathrm{c}} $为中间视图的像素数。

基于式(15)可以得到参考图像与失真图像之间的相似度信息,每个像素位置x对应的相似度为$ S\left(x\right) $。依据相似度信息可以计算单目质量分数,在计算过程中要注意到不同的像素位置产生的视觉信号对HVS刺激程度不同。由于人类的视觉皮层对相位一致性的结构比较敏感[22],因此本文使用$ {P}_{\mathrm{m}}^{\mathrm{P}\mathrm{C}}\left(x\right)=\mathrm{m}\mathrm{a}\mathrm{x}\left({P}_{\mathrm{r}\mathrm{e}\mathrm{f}}^{\mathrm{P}\mathrm{C}}\right(x), {P}_{\mathrm{d}\mathrm{i}\mathrm{s}}^{\mathrm{P}\mathrm{C}}(x\left)\right) $来加权$ S\left(x\right) $可以更精确地得到单目质量分数。以左视图为例,其质量分数如式(19)所示:

$ {Q}_{\mathrm{L}}=\frac{\sum\limits _{x\in \mathrm{\Omega }}{S}_{\mathrm{L}}\left(x\right)\times {P}_{m}^{\mathrm{P}\mathrm{C}\mathrm{L}}\left(x\right)}{\sum\limits _{x\in \mathrm{\Omega }}{P}_{m}^{\mathrm{P}\mathrm{C}\mathrm{L}}\left(x\right)} $ (19)

其中:$ \mathrm{\Omega } $为图像的空间域;$ {S}_{\mathrm{L}} $为参考左视图与失真左视图的相似度指数;$ {P}_{m}^{\mathrm{P}\mathrm{C}\mathrm{L}} $是基于这两张左视图获取的质量分数。本文利用同样的方法得到右视图的质量分数$ {Q}_{\mathrm{R}} $,然后将左右视图的质量分数融合为单目质量分数$ {Q}_{3} $,如式(20)所示:

$ {Q}_{3}={W}_{\mathrm{L}}\times {Q}_{\mathrm{L}}+{W}_{\mathrm{R}}\times {Q}_{\mathrm{R}} $ (20)

其中:$ {W}_{\mathrm{L}} $为左视图质量分数对应的权重;$ {W}_{\mathrm{R}} $为右视图质量分数对应的权重。本文设置$ {W}_{\mathrm{L}}={W}_{\mathrm{R}}=0.5 $

当人们观看立体图像时,单目视觉与双目视觉会同时发生,通过结合单双目视觉特征可以全面地反映图像特征信息,从而提高SIQA的精确度。基于从中间视图提取的全局特征信息和局部特征信息分别获得双目质量分数$ {Q}_{1} $$ {Q}_{2} $,基于从单目图像提取的特征信息获得单目质量分数$ {Q}_{3} $,将3个质量分数进行融合,本文提出一种适合此模型的合并方法来获取整体质量分数,如式(21)所示:

$ Q={Q}_{1}^{a}+{Q}_{2}^{b}+{Q}_{3}^{c} $ (21)

其中:$ a\mathrm{、}b\mathrm{、}c $为分配给$ {Q}_{1} $$ {Q}_{2} $$ {Q}_{3} $的不同权重,并且约束$ a+b+c=1 $,在实验过程中,$ a\mathrm{、}b\mathrm{、}c $取值范围均为[0.1,0.2,…,0.8],通过使用不同的参数组合进行实验结果分析,当$ a=0.4 $$ b=0.3 $$ c=0.3 $时,实验结果最佳,因此将其设为本文模型的最终权重。

2 实验与结果分析

本节将分析MB-FR-SIQA模型预测立体图像质量的能力。首先描述用于实验的数据库和性能指标;其次给出该模型在数据库上的性能表现,同时也列出了每种失真类型的评价结果。此外,为验证将单目视觉信息与双目视觉信息结合的有效性,本文把基于单目图像的评价结果和基于中间视图的评价结果分别与MB-FR-SIQA模型进行比较,进一步证明该模型的合理性。

2.1 数据库

本文在美国德克萨斯州大学奥斯汀分校的LIVE 3D图像质量数据库上进行实验[23],该数据库分为LIVE 3D数据库Phase Ⅰ(LIVE-Ⅰ)和LIVE 3D数据库Phase Ⅱ(LIVE-Ⅱ)。LIVE-Ⅰ包含20幅参考立体图像和365幅失真立体图像,对应于JPEG2 000压缩失真(JP2K)、JPEG压缩失真(JPEG)、加性高斯白噪声(WN)、快速衰落(Fast Fading,FF)和高斯模糊(BLUR)5种失真类型。在LIVE-Ⅰ中,所有立体图像的左右失真都是对称的,即左视图和右视图具有相同的失真程度。LIVE-Ⅱ包含8幅参考立体图像,以及120幅对称失真的立体图像和240幅非对称失真的立体图像,其失真类型与LIVE-Ⅰ相同,而且每幅参考立体图像都经过处理,由于各失真类型分别创建3幅对称失真图像和6幅非对称失真图像,因此每种失真类型都具有9个不同的失真级别。同时,LIVE-Ⅰ和LIVE-Ⅱ为每张失真图像提供了对应的差分平均意见得分(Differential Mean Opinion Score,DMOS),DMOS值表示主观评估结果,其中较高的DMOS值表示较低的视觉质量。

2.2 性能指标

本文实验依据文献[24]方法,采用3种通用的性能指标评价此模型的性能,包括皮尔森线性相关系数(Pearson Linear Correlation Coefficient,PLCC)、斯皮尔曼等级相关系数(Spearman Rank Correlation Coefficient,SROCC)、均方根误差(Root Mean Square Error,RMSE)。在这3个性能指标中,SROCC和PLCC分别表示预测的质量分数与主观分数之间的单调相似性和线性相关性,RMSE可以衡量预测的准确性,该准确性代表主观分数与预测分数之间的差值。较高的PLCC和SROCC值表示预测值与HVS感知的图像质量具有良好的相关性,而较低的RMSE表示该模型具有良好的性能。在评价MB-FR-SIQA模型的性能之前,本文首先应用逻辑函数将预测值调整为与DMOS值相同的范围[25],当PLCC=SROCC=1,RMSE=0时,表明预测的图像质量分数与真实的图像质量分数完美匹配。

2.3 模型性能

为全面评价MB-FR-SIQA模型,本文将其与5个现有的无参考(No-Reference,NR)SIQA模型和5个现有的全参考(Full-Reference,FR)SIQA模型进行比较。在数据库LIVE 3D上不同模型的性能指标对比如表 1所示,其中“—”表示不可用的结果。从表 1可以看出,MB-FR-SIQA模型优于当前多数FR SIQA和NR SIQA模型,在LIVE-Ⅰ和LIVE-Ⅱ数据库上性能较优。文献[12]的模型只结合左视图和右视图的单目视觉信息,没有考虑HVS的双目视觉效应,在数据库上没有表现出良好的性能。文献[26]通过生成中间视图来评估3D图像的质量分数,虽然考虑到HVS的双目视觉效应,但未针对左右视图提取单目视觉信息,忽略了单目信息对预测结果的影响。与MB-FR-SIQA模型相比,文献[26]模型的性能较差。因此,本文结合基于中间视图的评价模型与基于单目图像的评价模型是合理的,从不同方面评价3D图像的质量是必要的。同时,与具有深度学习功能的NR模型相比,在LIVE 3D数据库上MB-FR-SIQA模型表现出较优的预测性能。

下载CSV 表 1 在LIVE 3D数据库上不同模型的性能指标对比 Table 1 Performance indexs comparison among different models on LIVE 3D database

不同失真类型的PLCC和SROCC对比如表 2表 3所示。从表 2表 3可以看出,MB-FR-SIQA模型在预测JP2K、BLUR、FF这3种失真类型的立体图像质量分数方面,相较于其他模型的性能较优,在失真类型WN上的预测已接近对比模型中的最佳结果。因此,MB-FR-SIQA模型能够有效预测不同失真类型的3D图像质量分数。

下载CSV 表 2 不同失真类型的PLCC对比 Table 2 PLCC comparison among different distortion types
下载CSV 表 3 不同失真类型的SROCC对比 Table 3 SROCC comparison among different distortion types
2.4 实验对比

本文利用单目视觉信息和双目视觉信息分别获得单目质量分数和双目质量分数。本文的立体图像质量分数是由单目质量分数$ {Q}_{1} $$ {Q}_{2} $和双目质量分数$ {Q}_{3} $合并而成。图 4列举了单目质量分数与双目质量分数差异较大的立体图像分数,其中左右视图的单目质量分数$ {Q}_{\mathrm{L}} $$ {Q}_{\mathrm{R}} $依据式(19)所得,双目质量分数$ {Q}_{2} $依据式(18)所得。在单双目质量分数存在一定差异的条件下,本文结合单目和双目质量分数以综合评估立体图像的质量分数。同时,本文在LIVE-Ⅰ和LIVE-Ⅱ上分别测试Scheme-Ⅰ、Scheme-Ⅱ、Scheme-Ⅲ这3种评价方案的性能。不同实验方案的评价指标对比如表 4所示,其中$ {Q}_{1} $$ {Q}_{2} $$ {Q}_{3} $分别对应于Scheme-Ⅰ、Scheme-Ⅱ、Scheme-Ⅲ方案。3种实验方案的评价指标与MB-FR-SIQA模型都存在一定的差距,因此,该模型结合单目与双目视觉信息进行质量评价。

Download:
图 4 不同质量分数的立体图像 Fig. 4 Stereoscopic images with different quality scores
下载CSV 表 4 不同实验方案的评价指标对比 Table 4 Evaluation indexs comparison among different experimental schemes
3 结束语

本文提出一种基于单目与双目视觉信息的立体图像质量评价模型MB-FR-SIQA,通过结合Gabor能量响应图、显著性图和视差矩阵生成中间视图,基于2D单目图像和中间视图分别计算单目质量分数及双目质量分数,并融合为立体图像整体质量分数,以模拟人类视觉系统对立体图像质量的感知。实验结果表明,MB-FR-SIQA模型能够有效提高预测精度,预测结果符合人类的主观评估。后续将在立体图像质量评价模型中加入人类视觉系统的注意力机制,进一步提高图像质量评价模型的预测性能。

参考文献
[1]
WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612. DOI:10.1109/TIP.2003.819861
[2]
WANG Z, SIMONCELLI E P, BOVIK A C. Multiscale structural similarity for image quality assessment[C]//Proceedings of the 37th Asilomar Conference on Signals, Systems & Computers. Washington D.C., USA: IEEE Press, 2003: 1398-1402.
[3]
王威, 刘婧, 杨蔚蔚, 等. 基于DCT域纹理结构相似度的模糊图像质量评价[J]. 计算机工程, 2015, 41(11): 253-256.
WANG W, LIU J, YANG W W, et al. Blur image quality assessment based on DCT domain texture structure similarity[J]. Computer Engineering, 2015, 41(11): 253-256. (in Chinese)
[4]
BRADDICK O J. Binocular single vision and perceptual processing[J]. Proceedings of the Royal Society B-Biological Sciences, 1979, 204(1157): 503-512.
[5]
LEVELT W J M. Binocular brightness averaging and contour information[J]. British Journal of Social Psychology, 2011, 56(1): 1-13.
[6]
DING J, SPERLING G. A gain-control theory of binocular combination[J]. Proceedings of the National Academy of Sciences, 2006, 103(4): 1141-1146. DOI:10.1073/pnas.0509629103
[7]
SUGIE N. Neural models of brightness perception and retinal rivalry in binocular vision[J]. Biological Cybernetics, 1982, 43(1): 13. DOI:10.1007/BF00337283
[8]
LEGGE G E. Binocular contrast summation-Ⅱ. Quadratic summation[J]. Vision Research, 1984, 24(4): 385-394. DOI:10.1016/0042-6989(84)90064-6
[9]
HOU F, HUANG C B, LIANG J, et al. Contrast gain-control in stereo depth and cyclopean contrast perception[J]. Journal of Vision, 2013, 13(8): 1-19. DOI:10.1167/13.8.1
[10]
LI X, WANG Y, ZHAO D, et al. Joint just noticeable difference model based on depth perception for stereoscopic images[C]//Proceedings of Conference on Visual Communications and Image Processing. Washington D.C., USA: IEEE Press, 2011: 1-4.
[11]
SHIZAWA M. Direct estimation of multiple disparities for transparent multiple surfaces in binocular stereo[C]//Proceedings of the 4th International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 1993: 447-454.
[12]
CHEN M J, SU C C, KWON D K, et al. Full-reference quality assessment of stereopairs accounting for rivalry[J]. Image Communication, 2013, 28(9): 1143-1155.
[13]
OH H, AHN S, KIM J, et al. Blind deep S3D image quality evaluation via local to global feature aggregation[J]. IEEE Transactions on Image Processing, 2017, 26(10): 4923-4936. DOI:10.1109/TIP.2017.2725584
[14]
ZHANG W, QU C F, MA L, et al. Learning structure of stereoscopic image for no-reference quality assessment with convolutional neural network[J]. Pattern Recognition, 2016, 59: 176-187. DOI:10.1016/j.patcog.2016.01.034
[15]
SU C C, BOVIK A C, CORMACK L K. Natural scene statistics of color and range[C]//Proceedings of the 18th IEEE International Conference on Image Processing. Washington D.C., USA: IEEE Press, 2011: 257-260.
[16]
ZHANG L, GU Z, LI H. SDSP: a novel saliency detection method by combining simple priors[C]//Proceedings of IEEE International Conference on Image Processing. Washington D.C., USA: IEEE Press, 2013: 171-175.
[17]
QIAN N, MIKAELIAN S. Relationship between phase and energy methods for disparity computation[M]. Cambridge, USA: MIT Press, 2000.
[18]
FIELD D J. Relations between the statistics of natural images and the response properties of cortical cells[J]. Journal of the Optical Society of America, 1987, 4(12): 2379-2394. DOI:10.1364/JOSAA.4.002379
[19]
KOVESI P. Image features from phase congruency[J]. Journal of Computer Vision Research, 1999, 3(1): 1-26.
[20]
QI F, JIANG T, MA S, et al. Quality of experience assessment for stereoscopic images[C]//Proceedings of IEEE International Symposium on Circuits and Systems. Washington D.C., USA: IEEE Press, 2012: 1712-1715.
[21]
ZHANG L, ZHANG L, MOU X, et al. FSIM: a feature similarity index for image quality assessment[J]. IEEE Transactions on Image Processing, 2011, 20(8): 2378-2386. DOI:10.1109/TIP.2011.2109730
[22]
HENRIKSSON L, HYVÄRINEN A, VANNI S. Representation of cross-frequency spatial phase relationships in human visual cortex[J]. Journal of Neuroence, 2009, 29(45): 14342-14351.
[23]
MOORTHY A K, SU C C, MITTAL A, et al. Subjective evaluation of stereoscopic image quality[J]. Signal Processing Image Communication, 2013, 28(8): 870-883. DOI:10.1016/j.image.2012.08.004
[24]
Video Quality Experts Group. Final report from the video quality experts group on the validation of objective models of video quality assessment, Phase Ⅱ[EB/OL]. [2020-11-01]. https://www.its.bldrdoc.gov/vqeg/projects/frtv-phase-ii/frtv-phase-ii.aspx.
[25]
SHEIKH H R, SABIR M F, BOVIK A C. A statistical evaluation of recent full reference image quality assessment algorithms[J]. IEEE Transactions on Image Processing, 2006, 15(11): 3440-3451. DOI:10.1109/TIP.2006.881959
[26]
CHEN M J, CORMACK L K, BOVIK A C. No-reference quality assessment of natural stereopairs[J]. IEEE Transactions on Image Processing, 2013, 22(9): 3379-3391. DOI:10.1109/TIP.2013.2267393
[27]
KANG L, YE P, LI Y, et al. Convolutional neural networks for no-reference image quality assessment[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2014: 1733-1740.
[28]
APPINA B, KHAN S, CHANNAPPAYYA S S, et al. No-reference stereoscopic image quality assessment using natural scene statistics[J]. Signal Processing: Image Communication, 2016, 43: 1-14.
[29]
BENOIT A, CALLET L P, CAMPISI P, et al. Quality assessment of stereoscopic images[J]. EURASIP Journal on Image & Video Processing, 2009, 2008(1): 1-13.
[30]
YOU J Y, XING L Y, PERKIS A, et al. Perceptual quality assessment for stereoscopic images based on 2D Image quality metrics and disparity analysis[C]//Proceedings of the 5th International Workshop on Video Processing and Quality Metrics for Consumer Electronics. Arizona, USA: [s. n. ], 2010: 1-7.
[31]
LIU Y, KONG F, ZHEN Z. Toward a quality predictor for stereoscopic images via analysis of human binocular visual perception[J]. IEEE Access, 2019, 7: 69283-69291.
[32]
SHAO F, LI K, LIN W, et al. Full-reference quality assassessment of stereoscopic images by learning binocular receptive fied properties[J]. IEEE Transactions on Image Processing, 2015, 24(10): 2971-2983.