«上一篇 下一篇»
  计算机工程  2021, Vol. 47 Issue (12): 274-277,284  DOI: 10.19678/j.issn.1000-3428.0059961
0

引用本文  

陈志鹏, 郑文秀, 黄琼丹. 基于Sobel滤波器的图像风格转换算法[J]. 计算机工程, 2021, 47(12), 274-277,284. DOI: 10.19678/j.issn.1000-3428.0059961.
CHEN Zhipeng, ZHENG Wenxiu, HUANG Qiongdan. Image Style Transformation Algorithm Based on Sobel Filter[J]. Computer Engineering, 2021, 47(12), 274-277,284. DOI: 10.19678/j.issn.1000-3428.0059961.

基金项目

陕西省重点研发计划项目(2018GY-150)

作者简介

陈志鹏(1992—),男,硕士研究生,主研方向为图像处理;
郑文秀,副教授、博士;
黄琼丹,副教授

文章历史

收稿日期:2020-11-10
修回日期:2020-12-24
基于Sobel滤波器的图像风格转换算法
陈志鹏 , 郑文秀 , 黄琼丹     
西安邮电大学 通信与信息工程学院, 西安 710121
摘要:基于迭代的图像风格转换在图像重组时未考虑内容图像的结构,导致生成的图像存在线条扭曲。为约束图像重组时的信息,提出一种基于边缘检测的图像风格转换算法。通过Sobel滤波器在内容图像和生成图像相同的卷积层上提取边缘信息,同时以均方误差作为损失函数。在此基础上,将边缘损失、内容损失和风格损失的加权代数和作为神经网络的总损失。实验结果表明,该算法能够有效抑制图像的线条扭曲,减少图像噪声,生成更高质量的图像。
关键词图像风格转换    边缘检测    Sobel滤波器    卷积神经网络    均方误差    
Image Style Transformation Algorithm Based on Sobel Filter
CHEN Zhipeng , ZHENG Wenxiu , HUANG Qiongdan     
School of Communication and Information Engineering, Xi'an University of Posts and Telecommunications, Xi'an 710121, China
Abstract: Iteration-based image style transformation does not consider the structure of content image, resulting in a distortion of lines in the generated image.To solve the problem, an algorithm based on edge detection is proposed to constrain the information during image reorganization.The Sobel filter is used to extract edge information on the same convolutional layer of the content image and the generated image.The loss function selects the mean square error, and the weighted algebraic sum of edge loss, content loss and style loss is taken as the total loss of the neural network.The experimental results show that the proposed algorithm can effectively reduce the distortion of image lines and the image noise, and improves the quality of generated images.
Key words: image style transformation    edge detection    Sobel filter    Convolutional Neural Network(CNN)    mean square error    

开放科学(资源服务)标志码(OSID):

0 概述

图像风格转换是指将一张艺术图像[1]的风格转换到内容图像上。基于特征匹配[2-4]的方法在处理传统图像风格转换问题时,耗时长且效果不佳。卷积神经网络能够较好地理解图像语义信息并提取图像特征。文献[5-6]将深度学习应用在图像风格转换[7-8]中,使用卷积神经网络提取内容图像和风格图像的特征,并利用Gram矩阵计算风格特征之间的相似性以实现图像风格的迁移。由于Gram矩阵计算整幅图相似性的效果不佳,因此研究人员对该算法进行改进以得到更高质量的结果图像。文献[9]使用局部均方差减少图像的噪声。文献[10]提出加入直方图损失控制生成图像的稳定性。文献[11]使用马尔科夫条件随机场将特征分成许多小块,对小块进行特征匹配保留更优的局部信息。文献[12]利用新的纹理生成方法Grammian,保留纹理的空间排列信息,生成更高质量的结果图像。生成对抗网络(Generative Adversarial Network,GAN)[13-14]使用生成器模型进行图像风格转换,实现多对多的快速风格转换。文献[15]在损失中加入均值和方差[16]以约束图像的生成,但是生成图像存在块状效果。文献[17]利用自动显著性指导风格转化方法对内容图像中视觉突出的物体进行风格转换。文献[18]通过编解码的网格结构进行图像风格转换,并加入HED网络结构提取内容图像的边缘信息以减少图像扭曲。

本文提出一种基于Sobel滤波器的图像风格转换算法,通过Sobel滤波器提取内容图像特征图的边缘信息,并与生成图像特征图的边缘信息进行匹配计算两者差值作为新的损失,使得生成图像保留更多内容图像的细节信息,避免出现图像扭曲。

1 基于深度学习的图像风格转换

深度学习通过卷积神经网络提取图像特征,将低层特征组合成更抽象的高层信息。深度学习的图像风格转换[19]有3个输入,包括内容图像、风格图像、结果图像(一张白噪声图像)。文献[8]使用VGG 19[20]提取图像的高层语义信息,将内容图像信息和风格图像信息进行分离并重组到结果图像上,实现图像风格转换。

文献[8]使用VGG19提取特征,其是由16个卷积层和3个全连接层组成。在图像风格转换中删除最后的全连接层,使用前面训练好的16个卷积层提取特征,并使用平均池化代替最大池化以提高图像质量。研究人员利用反向传播算法将结果图像中的内容信息和风格信息与输入的内容图像和风格图像信息相匹配。

1.1 内容图像的损失

卷积神经网络中每个卷积层都有一组卷积核提取图像特征以生成特征图。随着网络深度的增加,卷积核的个数也在增加。$ \overrightarrow{p} $$ \overrightarrow{x} $分别为内容图像和生成的结果图像,$ {P}^{l} $$ {F}^{l} $分别为$ \overrightarrow{p} $$ \overrightarrow{x} $在第$ l $卷积层上的特征图,$ {F}_{ij}^{} $表示第$ i $组卷积核上第$ j $个卷积核提取的特征图。本文采用均方误差作为损失函数,$ {L}_{\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{n}\mathrm{t}} $表示白噪声图像与内容图像在同一个卷积层滤波器提取到特征图像的差距。因此,内容图像的损失函数如式(1)所示:

$ {L_{{\rm{content}}}}(\vec p,\vec x,l) = \frac{1}{2}\sum\limits_{i,j} ( F_{ij}^l - P_{ij}^l{)^2} $ (1)
1.2 风格图像的损失

文献[8]使用Gram矩阵提取图像的纹理信息。Gram矩阵的值表示两个特征映射的内积,值的大小反映两个特征相关性的大小。因此,Gram矩阵的值可以表示两张图像的风格是否相似。$ {G}_{ij}^{l} $表示第$ l $层第$ i $个特征与第$ j $个特征映射的内积。特征相关性计算如式(2)所示:

$ G_{ij}^l = \sum\limits_k {F_{ik}^l} F_{jk}^l $ (2)

均方误差计算风格图像与白噪声图像Gram矩阵的差异如式(3)所示:

$ {E_l} = \frac{1}{{4N_l^2M_l^2}}{\sum\limits_{i,j} {(G_{ij}^l - A_{ij}^l)} ^2} $ (3)

其中:$ {\mathit{G}}^{l} $$ {\mathit{A}}^{l} $分别表示风格图像和白噪声图像在$ l $层的Gram矩阵;$ {w}_{l} $为每层风格损失权重。损失函数如式(4)所示:

$ {L_{{\rm{style}}}}(\vec a,\vec x) = \sum\limits_{l = 0}^L {{w_l}} {E_l} $ (4)

风格损失函数使用梯度进行优化,如式(5)所示:

$ \frac{\partial {E}_{l}}{\partial {F}_{ij}^{l}}=\left\{\begin{array}{ll}\frac{1}{{N}_{l}^{2}{M}_{l}^{2}}\left(\right({\mathit{F}}^{l}{)}^{\mathrm{T}}({G}^{l}-{A}^{l}{\left)\right)}_{ji}, {F}_{ij}^{l} > 0& \\ 0, \mathrm{其}\mathrm{他}& \end{array}\right. $ (5)
2 基于边缘检测的图像风格转换 2.1 算法改进

文献[8]使用卷积神经网络进行图像风格转换,结果图像由内容图像和风格图像共同作用。与原内容图像相比,结果图像存在线条扭曲现象。内容图像的特征只选了conv4_2层,而风格图像的特征选取conv1_1、conv2_1、conv3_1、conv4_1、conv5_1层。在卷积神经网络中高层特征是理解图像整体信息,低层特征是理解图像的边缘细节信息,因此,生成图像的边缘细节信息主要由风格特征提供。文献[8]在进行图像风格转换时,将内容和风格特征共同作用在结果图像上,因此,没有关注到内容图像的边缘结构信息,使得生成图像发生扭曲现象。为了减少扭曲,提高图像的生成质量,本文使用Sobel滤波器提取内容图像的边缘信息,进而约束生成图像的边缘以提高生成图像的质量。

Sobel[21-22]是一阶的边缘检测算法,使用卷积核$ {\mathit{\boldsymbol{G}}_x} $$ {\mathit{\boldsymbol{G}}_y} $分别在图像$ x $$ y $方向上进行卷积,将xy方向计算出的结果进行代数加权得到整个图像的边缘结果,如式(6)所示:

$ {\mathit{\boldsymbol{G}}_x} = \left[ {\begin{array}{*{20}{c}} { - 1}&0&1\\ { - 2}&0&2\\ { - 1}&0&1 \end{array}} \right]{\mathit{\boldsymbol{G}}_y} = \left[ {\begin{array}{*{20}{c}} { - 1}&{ - 2}&{ - 1}\\ 0&0&0\\ 1&2&1 \end{array}} \right] $ (6)

在使用Sobel滤波器提取特征时,如果直接计算输入内容图像$ \overrightarrow{p} $与生成图像$ \overrightarrow{x} $的边缘检测信息的均方误差损失,则在反向传播时梯度为0。因此,本文重新定义Sobel滤波器的使用位置,不在内容图像和生成图像上进行计算,而是选取内容图像和对应结果图像在相同的卷积层上进行Sobel滤波器的特征提取,即在特征图上进行Sobel滤波器的边缘检测。如果在特征图中每个通道上都进行Sobel滤波器的边缘检测将会消耗大量时间。由于VGG特征图中的通道数分别是64、128、256、512、512,Sobel选取的层是conv1_1、conv2_1、conv3_1、conv4_1层,因此如果选取循环计算就是960次,这样会消耗大量的时间。为了加速计算,本文利用深度卷积方法在对应的卷积层上一次性计算出所有通道Sobel滤波器提取到的边缘信息。

本文使用均方误差作为边缘损失函数。$ {L}_{\mathrm{S}\mathrm{o}\mathrm{b}\mathrm{e}\mathrm{l}} $表示白噪声图像与内容图像在同一个卷积层滤波器提取的边缘信息差距。$ {S}_{ij}^{l} $表示第$ l $层第$ i $组卷积核第$ j $个Sobel滤波器提取的边缘信息。边缘损失函数如式(7)所示:

$ {L_{{\rm{Sobel}}}}(\vec p,\vec x,l) = \frac{1}{2}{\sum\limits_{i,j} {(S_{ij}^l - O_{ij}^l)} ^2} $ (7)
2.2 算法流程

新的损失函数如式(8)所示:

$ {L}_{\mathrm{t}\mathrm{o}\mathrm{t}\mathrm{a}\mathrm{l}}=\alpha {L}_{\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{n}\mathrm{t}}+\beta {L}_{\mathrm{s}\mathrm{t}\mathrm{y}\mathrm{l}\mathrm{e}}+\gamma {L}_{\mathrm{S}\mathrm{o}\mathrm{b}\mathrm{e}\mathrm{l}} $ (8)

输入图像为内容图像、风格图像,输出图像是白噪声图像。内容图像的特征选取conv4_2层,风格图像的特征选取conv1_1、conv2_1、conv3_1、conv4_1、conv5_1层,Sobel特征选取conv1_1、conv2_1、conv3_1、conv4_1层。每层之间的权重均为1。根据实验调参,本文选取的参数如下:内容图像权重$ \alpha $为1;风格图像权重$ \beta $为500;Sobel权重$ \gamma $为0.1;迭代次数为400次。

本文利用梯度下降法对一张白噪声图像进行不断迭代优化,并用拟牛顿法(L-BFGS)[23]进行优化。拟牛顿法是二阶优化算法能够快速得到收敛结果。

基于Sobel滤波器的图像风格转换对输入各种内容和风格图像进行实验。在风格转换时,本文算法在加入内容图像和输出图像的边缘损失后提高了图像的质量,减少线条的扭曲,图像视觉效果更佳。本文算法流程如图 1所示。

Download:
图 1 本文算法流程 Fig. 1 Procedure of the proposed algorithm
3 实验与分析 3.1 实验环境

实验使用Tensorflow框架搭建网络模型,实验硬件平台使用阿里云天池实验室,Intel Xeon E5-2682 v4 CPU主频2.5 GHz,NVIDIA Tesla P100 16 GB的GPU。

3.2 实验结果与分析

不同算法的实验结果对比如图 2~图 4所示。从图 2(c)图 2(d)可以看出,本文算法能够更好地保留窗体的线条,并区分出每个窗口,房屋轮廓也更加清晰,而文献[8]算法的实验结果中不能区分每个窗口,房屋结构也扭曲在一起。因此,本文算法不仅能够保留内容图像的结构,而且输出图像的质量更高。从图 3(c)图 3(d)可以看出,与文献[8]算法相比,本文算法的结果图像眼睛与内容图像中的眼睛一样,在右眼下没有很深的线条。因此,本文算法提取的结果图像更符合真实的人像。

Download:
图 2 不同算法的实验结果对比1 Fig. 2 Experimental results comparison 1 among different algorithms
Download:
图 3 不同算法的实验结果对比2 Fig. 3 Experimental results comparison 2 among different algorithms
Download:
图 4 不同算法的实验结果对比3 Fig. 4 Experimental results comparison 3 among

图 4可以看出,与文献[8]算法相比,本文算法保留了图像的结构信息,在结果图像上没有线条的扭曲,生成的图像质量更高。

4 结束语

本文提出一种基于边缘检测的图像风格转换算法,利用Sobel滤波器提取内容图像和生成图像的边缘特征,并计算两者差值作为新的损失。实验结果表明,该算法能够减少图像线条扭曲并提高图像生成质量。由于生成对抗网络可以快速生成高质量图像,因此后续将优化生成对抗网络的损失函数,进一步加快高质量风格转换图像的速度。

参考文献
[1]
张景祥. 王士同. 邓赵红. 等. 融合异构特征的子空间迁移学习算法[J]. 自动化学报, 2014, 40(2): 236-246.
ZHANG J X, WANG S T, DENG Z H, et al. A subspace transfer learning algorithm integrating heterogeneous features[J]. Acta Automatica Sinica, 2014, 40(2): 236-246. (in Chinese)
[2]
PORTILLA J, SIMONCELLI E P. A parametric texture model based on joint statistics of complex wavelet coefficients[J]. International Journal of Computer Vision, 2000, 40: 49-70. DOI:10.1023/A:1026553619983
[3]
SEMMO A, LIMBERGER D, KYPRIANIDIS J E, et al. Image stylization by oil paint filtering using color palettes[C]//Proceedings of International Symposium on Computational Aesthetics in Graphics, Visualization, and Imaging. New York, USA: ACM Press, 2015: 149-158.
[4]
SHIH Y C, PARIS S, BARNES C, et al. Style transfer for headshot portraits[J]. ACM Transactions on Graphics, 2014, 33(4): 1-14.
[5]
LI X T, LIU S F, KAUTZ J, et al. Learning linear transformations for fast arbitrary style transfer[EB/OL]. [2020-10-07]. http://export.arxiv.org/abs/1808.04537.
[6]
CHEN D D, YUAN L, LIAO J, et al. StyleBank: an explicit representation for neural image style transfer[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 2770-2779.
[7]
GATYS L A, ECKER A S, BETHGE M. A neural algorithm of artistic style[J]. Journal of Vision, 2016, 16: 326-345. DOI:10.1167/16.12.326
[8]
GATYS L A, ECKER A S, BETHGE M. Image style transfer using convolutional neural networks[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 2414-2423.
[9]
郑茗化, 白本督, 范九伦, 等. 基于局部均方差的神经网络图像风格转换[J]. 现代电子技术, 2019, 42(14): 144-147, 151.
ZHENG M H, BAI B D, FAN J L, et al. Neural network image style conversion based on local mean square error[J]. Modern Electronic Technology, 2019, 42(14): 144-147, 151. (in Chinese)
[10]
RISSER E, WILMOT P, BARNES C. Stable and controllable neural texture synthesis and style transfer using histogram losses[EB/OL]. [2020-10-09]. https://arxiv.org/abs/1701.08893.
[11]
LI C, WAND M. Combining markov randomfields and convolution neural networks for image synthesis[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 1-10.
[12]
BERGER G, MEMISEVIC R. Incorporating long range consistency in CNN-based texture generation[EB/OL]. [2020-10-08]. http://arxiv.org/pdf/1606.01286.
[13]
孙冬梅, 张飞飞, 毛启容. 标签引导的生成对抗网络人脸表情识别域适应方法[J]. 计算机工程, 2020, 46(5): 267-273, 281.
SUN D M, ZHANG F F, MAO Q R. Label-guided domain adaptation method in generative adversarial network for facial expression recognition[J]. Computer Engineering, 2020, 46(5): 267-273, 281. (in Chinese)
[14]
GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2014: 2672-2680.
[15]
HUANG X, BELONGIE S. Arbitrary style transfer in real-time with adaptive instance normalization[C]//Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 1510-1519.
[16]
张航, 曹瞻. 基于局部均值与方差的图像中值滤波方法[J]. 中南大学学报(自然科学版), 2013, 44(2): 381-384.
ZHANG H, CAO Z. Image median filter method based on local mean and variance[J]. Journal of Central South University(Science and Technology), 2013, 44(2): 381-384. (in Chinese)
[17]
LIU X W, LIU Z, ZHOU X F, et al. Saliency-guided image style transfer[C]//Proceedings of International Conference on Multimedia & Expo Workshops. Washington D. C., USA: IEEE Press, 2019: 66-71.
[18]
ZHU T, LIU S G. Detail-preserving arbitrary stylle transfer[C]//Proceedings of IEEE International Conference on Multimedia and Expo. Washington D. C., USA: IEEE Press, 2020: 1-6.
[19]
谢志峰, 叶冠桦, 闫淑萁, 等. 基于生成对抗网络的HDR图像风格迁移技术[J]. 上海大学学报(自然科学版), 2018, 24(4): 524-534.
XIE Z F, YE G H, YAN S Q, et al. HDR image style transfer technology based on generative confrontation network[J]. Journal of Shanghai University (Natural Science Edition), 2018, 24(4): 524-534. (in Chinese)
[20]
SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2020-10-11]. https://arxiv.org/pdf/1409.1556.pdf.
[21]
高飞, 黄启宏, 程卫东, 等. Sobel边缘检测算子的改进研究[J]. 数字技术与应用, 2016, 1: 143-145.
GAO F, HUANG Q H, CHENG W D. et al. Research on improvement of edge detection operator[J]. Digital Technology and Application, 2016, 1: 1-10. (in Chinese)
[22]
虎玲, 常霞, 纪峰. 图像边缘检测方法研究新进展[J]. 现代电子技术, 2018, 41(23): 32-37.
HU L, CHANG X, JI F. New progress in research on image edge detection[J]. Modern Electronics Technique, 2018, 41(23): 32-37. (in Chinese)
[23]
苗英杰, 崔琛, 等. 基于BFGS拟牛顿法的观测矩阵优化算法[J]. 电子信息对抗技术, 2019, 34(6): 32-37, 55.
MIAO Y J, CUI C, et al. Observation matrix optimization algorithm based on BFGS quasi-Newton method[J]. Electronic Information Warfare Technology, 2019, 34(6): 32-37, 55. (in Chinese)