开放科学(资源服务)标志码(OSID):
图像风格转换是指将一张艺术图像[1]的风格转换到内容图像上。基于特征匹配[2-4]的方法在处理传统图像风格转换问题时,耗时长且效果不佳。卷积神经网络能够较好地理解图像语义信息并提取图像特征。文献[5-6]将深度学习应用在图像风格转换[7-8]中,使用卷积神经网络提取内容图像和风格图像的特征,并利用Gram矩阵计算风格特征之间的相似性以实现图像风格的迁移。由于Gram矩阵计算整幅图相似性的效果不佳,因此研究人员对该算法进行改进以得到更高质量的结果图像。文献[9]使用局部均方差减少图像的噪声。文献[10]提出加入直方图损失控制生成图像的稳定性。文献[11]使用马尔科夫条件随机场将特征分成许多小块,对小块进行特征匹配保留更优的局部信息。文献[12]利用新的纹理生成方法Grammian,保留纹理的空间排列信息,生成更高质量的结果图像。生成对抗网络(Generative Adversarial Network,GAN)[13-14]使用生成器模型进行图像风格转换,实现多对多的快速风格转换。文献[15]在损失中加入均值和方差[16]以约束图像的生成,但是生成图像存在块状效果。文献[17]利用自动显著性指导风格转化方法对内容图像中视觉突出的物体进行风格转换。文献[18]通过编解码的网格结构进行图像风格转换,并加入HED网络结构提取内容图像的边缘信息以减少图像扭曲。
本文提出一种基于Sobel滤波器的图像风格转换算法,通过Sobel滤波器提取内容图像特征图的边缘信息,并与生成图像特征图的边缘信息进行匹配计算两者差值作为新的损失,使得生成图像保留更多内容图像的细节信息,避免出现图像扭曲。
1 基于深度学习的图像风格转换深度学习通过卷积神经网络提取图像特征,将低层特征组合成更抽象的高层信息。深度学习的图像风格转换[19]有3个输入,包括内容图像、风格图像、结果图像(一张白噪声图像)。文献[8]使用VGG 19[20]提取图像的高层语义信息,将内容图像信息和风格图像信息进行分离并重组到结果图像上,实现图像风格转换。
文献[8]使用VGG19提取特征,其是由16个卷积层和3个全连接层组成。在图像风格转换中删除最后的全连接层,使用前面训练好的16个卷积层提取特征,并使用平均池化代替最大池化以提高图像质量。研究人员利用反向传播算法将结果图像中的内容信息和风格信息与输入的内容图像和风格图像信息相匹配。
1.1 内容图像的损失卷积神经网络中每个卷积层都有一组卷积核提取图像特征以生成特征图。随着网络深度的增加,卷积核的个数也在增加。
$ {L_{{\rm{content}}}}(\vec p,\vec x,l) = \frac{1}{2}\sum\limits_{i,j} ( F_{ij}^l - P_{ij}^l{)^2} $ | (1) |
文献[8]使用Gram矩阵提取图像的纹理信息。Gram矩阵的值表示两个特征映射的内积,值的大小反映两个特征相关性的大小。因此,Gram矩阵的值可以表示两张图像的风格是否相似。
$ G_{ij}^l = \sum\limits_k {F_{ik}^l} F_{jk}^l $ | (2) |
均方误差计算风格图像与白噪声图像Gram矩阵的差异如式(3)所示:
$ {E_l} = \frac{1}{{4N_l^2M_l^2}}{\sum\limits_{i,j} {(G_{ij}^l - A_{ij}^l)} ^2} $ | (3) |
其中:
$ {L_{{\rm{style}}}}(\vec a,\vec x) = \sum\limits_{l = 0}^L {{w_l}} {E_l} $ | (4) |
风格损失函数使用梯度进行优化,如式(5)所示:
$ \frac{\partial {E}_{l}}{\partial {F}_{ij}^{l}}=\left\{\begin{array}{ll}\frac{1}{{N}_{l}^{2}{M}_{l}^{2}}\left(\right({\mathit{F}}^{l}{)}^{\mathrm{T}}({G}^{l}-{A}^{l}{\left)\right)}_{ji}, {F}_{ij}^{l} > 0& \\ 0, \mathrm{其}\mathrm{他}& \end{array}\right. $ | (5) |
文献[8]使用卷积神经网络进行图像风格转换,结果图像由内容图像和风格图像共同作用。与原内容图像相比,结果图像存在线条扭曲现象。内容图像的特征只选了conv4_2层,而风格图像的特征选取conv1_1、conv2_1、conv3_1、conv4_1、conv5_1层。在卷积神经网络中高层特征是理解图像整体信息,低层特征是理解图像的边缘细节信息,因此,生成图像的边缘细节信息主要由风格特征提供。文献[8]在进行图像风格转换时,将内容和风格特征共同作用在结果图像上,因此,没有关注到内容图像的边缘结构信息,使得生成图像发生扭曲现象。为了减少扭曲,提高图像的生成质量,本文使用Sobel滤波器提取内容图像的边缘信息,进而约束生成图像的边缘以提高生成图像的质量。
Sobel[21-22]是一阶的边缘检测算法,使用卷积核
$ {\mathit{\boldsymbol{G}}_x} = \left[ {\begin{array}{*{20}{c}} { - 1}&0&1\\ { - 2}&0&2\\ { - 1}&0&1 \end{array}} \right]{\mathit{\boldsymbol{G}}_y} = \left[ {\begin{array}{*{20}{c}} { - 1}&{ - 2}&{ - 1}\\ 0&0&0\\ 1&2&1 \end{array}} \right] $ | (6) |
在使用Sobel滤波器提取特征时,如果直接计算输入内容图像
本文使用均方误差作为边缘损失函数。
$ {L_{{\rm{Sobel}}}}(\vec p,\vec x,l) = \frac{1}{2}{\sum\limits_{i,j} {(S_{ij}^l - O_{ij}^l)} ^2} $ | (7) |
新的损失函数如式(8)所示:
$ {L}_{\mathrm{t}\mathrm{o}\mathrm{t}\mathrm{a}\mathrm{l}}=\alpha {L}_{\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{n}\mathrm{t}}+\beta {L}_{\mathrm{s}\mathrm{t}\mathrm{y}\mathrm{l}\mathrm{e}}+\gamma {L}_{\mathrm{S}\mathrm{o}\mathrm{b}\mathrm{e}\mathrm{l}} $ | (8) |
输入图像为内容图像、风格图像,输出图像是白噪声图像。内容图像的特征选取conv4_2层,风格图像的特征选取conv1_1、conv2_1、conv3_1、conv4_1、conv5_1层,Sobel特征选取conv1_1、conv2_1、conv3_1、conv4_1层。每层之间的权重均为1。根据实验调参,本文选取的参数如下:内容图像权重
本文利用梯度下降法对一张白噪声图像进行不断迭代优化,并用拟牛顿法(L-BFGS)[23]进行优化。拟牛顿法是二阶优化算法能够快速得到收敛结果。
基于Sobel滤波器的图像风格转换对输入各种内容和风格图像进行实验。在风格转换时,本文算法在加入内容图像和输出图像的边缘损失后提高了图像的质量,减少线条的扭曲,图像视觉效果更佳。本文算法流程如图 1所示。
![]() |
Download:
|
图 1 本文算法流程 Fig. 1 Procedure of the proposed algorithm |
实验使用Tensorflow框架搭建网络模型,实验硬件平台使用阿里云天池实验室,Intel Xeon E5-2682 v4 CPU主频2.5 GHz,NVIDIA Tesla P100 16 GB的GPU。
3.2 实验结果与分析不同算法的实验结果对比如图 2~图 4所示。从图 2(c)和图 2(d)可以看出,本文算法能够更好地保留窗体的线条,并区分出每个窗口,房屋轮廓也更加清晰,而文献[8]算法的实验结果中不能区分每个窗口,房屋结构也扭曲在一起。因此,本文算法不仅能够保留内容图像的结构,而且输出图像的质量更高。从图 3(c)和图 3(d)可以看出,与文献[8]算法相比,本文算法的结果图像眼睛与内容图像中的眼睛一样,在右眼下没有很深的线条。因此,本文算法提取的结果图像更符合真实的人像。
![]() |
Download:
|
图 2 不同算法的实验结果对比1 Fig. 2 Experimental results comparison 1 among different algorithms |
![]() |
Download:
|
图 3 不同算法的实验结果对比2 Fig. 3 Experimental results comparison 2 among different algorithms |
![]() |
Download:
|
图 4 不同算法的实验结果对比3 Fig. 4 Experimental results comparison 3 among |
从图 4可以看出,与文献[8]算法相比,本文算法保留了图像的结构信息,在结果图像上没有线条的扭曲,生成的图像质量更高。
4 结束语本文提出一种基于边缘检测的图像风格转换算法,利用Sobel滤波器提取内容图像和生成图像的边缘特征,并计算两者差值作为新的损失。实验结果表明,该算法能够减少图像线条扭曲并提高图像生成质量。由于生成对抗网络可以快速生成高质量图像,因此后续将优化生成对抗网络的损失函数,进一步加快高质量风格转换图像的速度。
[1] |
张景祥. 王士同. 邓赵红. 等. 融合异构特征的子空间迁移学习算法[J]. 自动化学报, 2014, 40(2): 236-246. ZHANG J X, WANG S T, DENG Z H, et al. A subspace transfer learning algorithm integrating heterogeneous features[J]. Acta Automatica Sinica, 2014, 40(2): 236-246. (in Chinese) |
[2] |
PORTILLA J, SIMONCELLI E P. A parametric texture model based on joint statistics of complex wavelet coefficients[J]. International Journal of Computer Vision, 2000, 40: 49-70. DOI:10.1023/A:1026553619983 |
[3] |
SEMMO A, LIMBERGER D, KYPRIANIDIS J E, et al. Image stylization by oil paint filtering using color palettes[C]//Proceedings of International Symposium on Computational Aesthetics in Graphics, Visualization, and Imaging. New York, USA: ACM Press, 2015: 149-158.
|
[4] |
SHIH Y C, PARIS S, BARNES C, et al. Style transfer for headshot portraits[J]. ACM Transactions on Graphics, 2014, 33(4): 1-14. |
[5] |
LI X T, LIU S F, KAUTZ J, et al. Learning linear transformations for fast arbitrary style transfer[EB/OL]. [2020-10-07]. http://export.arxiv.org/abs/1808.04537.
|
[6] |
CHEN D D, YUAN L, LIAO J, et al. StyleBank: an explicit representation for neural image style transfer[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 2770-2779.
|
[7] |
GATYS L A, ECKER A S, BETHGE M. A neural algorithm of artistic style[J]. Journal of Vision, 2016, 16: 326-345. DOI:10.1167/16.12.326 |
[8] |
GATYS L A, ECKER A S, BETHGE M. Image style transfer using convolutional neural networks[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 2414-2423.
|
[9] |
郑茗化, 白本督, 范九伦, 等. 基于局部均方差的神经网络图像风格转换[J]. 现代电子技术, 2019, 42(14): 144-147, 151. ZHENG M H, BAI B D, FAN J L, et al. Neural network image style conversion based on local mean square error[J]. Modern Electronic Technology, 2019, 42(14): 144-147, 151. (in Chinese) |
[10] |
RISSER E, WILMOT P, BARNES C. Stable and controllable neural texture synthesis and style transfer using histogram losses[EB/OL]. [2020-10-09]. https://arxiv.org/abs/1701.08893.
|
[11] |
LI C, WAND M. Combining markov randomfields and convolution neural networks for image synthesis[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 1-10.
|
[12] |
BERGER G, MEMISEVIC R. Incorporating long range consistency in CNN-based texture generation[EB/OL]. [2020-10-08]. http://arxiv.org/pdf/1606.01286.
|
[13] |
孙冬梅, 张飞飞, 毛启容. 标签引导的生成对抗网络人脸表情识别域适应方法[J]. 计算机工程, 2020, 46(5): 267-273, 281. SUN D M, ZHANG F F, MAO Q R. Label-guided domain adaptation method in generative adversarial network for facial expression recognition[J]. Computer Engineering, 2020, 46(5): 267-273, 281. (in Chinese) |
[14] |
GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2014: 2672-2680.
|
[15] |
HUANG X, BELONGIE S. Arbitrary style transfer in real-time with adaptive instance normalization[C]//Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 1510-1519.
|
[16] |
张航, 曹瞻. 基于局部均值与方差的图像中值滤波方法[J]. 中南大学学报(自然科学版), 2013, 44(2): 381-384. ZHANG H, CAO Z. Image median filter method based on local mean and variance[J]. Journal of Central South University(Science and Technology), 2013, 44(2): 381-384. (in Chinese) |
[17] |
LIU X W, LIU Z, ZHOU X F, et al. Saliency-guided image style transfer[C]//Proceedings of International Conference on Multimedia & Expo Workshops. Washington D. C., USA: IEEE Press, 2019: 66-71.
|
[18] |
ZHU T, LIU S G. Detail-preserving arbitrary stylle transfer[C]//Proceedings of IEEE International Conference on Multimedia and Expo. Washington D. C., USA: IEEE Press, 2020: 1-6.
|
[19] |
谢志峰, 叶冠桦, 闫淑萁, 等. 基于生成对抗网络的HDR图像风格迁移技术[J]. 上海大学学报(自然科学版), 2018, 24(4): 524-534. XIE Z F, YE G H, YAN S Q, et al. HDR image style transfer technology based on generative confrontation network[J]. Journal of Shanghai University (Natural Science Edition), 2018, 24(4): 524-534. (in Chinese) |
[20] |
SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2020-10-11]. https://arxiv.org/pdf/1409.1556.pdf.
|
[21] |
高飞, 黄启宏, 程卫东, 等. Sobel边缘检测算子的改进研究[J]. 数字技术与应用, 2016, 1: 143-145. GAO F, HUANG Q H, CHENG W D. et al. Research on improvement of edge detection operator[J]. Digital Technology and Application, 2016, 1: 1-10. (in Chinese) |
[22] |
虎玲, 常霞, 纪峰. 图像边缘检测方法研究新进展[J]. 现代电子技术, 2018, 41(23): 32-37. HU L, CHANG X, JI F. New progress in research on image edge detection[J]. Modern Electronics Technique, 2018, 41(23): 32-37. (in Chinese) |
[23] |
苗英杰, 崔琛, 等. 基于BFGS拟牛顿法的观测矩阵优化算法[J]. 电子信息对抗技术, 2019, 34(6): 32-37, 55. MIAO Y J, CUI C, et al. Observation matrix optimization algorithm based on BFGS quasi-Newton method[J]. Electronic Information Warfare Technology, 2019, 34(6): 32-37, 55. (in Chinese) |