基于姿势引导与属性分解的人物图像生成

引用本文

殷歆, 张战成. 基于姿势引导与属性分解的人物图像生成[J]. 计算机工程, 2022, 48(11), 224-230, 239. DOI: 10.19678/j.issn.1000-3428.0063376.

YIN Xin, ZHANG Zhancheng. Person Image Synthesis Based on Posture Guidance and Attribute Decomposition[J]. Computer Engineering, 2022, 48(11), 224-230, 239. DOI: 10.19678/j.issn.1000-3428.0063376.

基金项目

国家自然科学基金（61772237）

作者简介

殷歆（1995—），男，硕士，主研方向为计算机视觉、生成对抗网络;
张战成，副教授、博士

文章历史

收稿日期：2021-11-28
修回日期：2022-01-19

Contents Abstract Full text Figures/Tables PDF

基于姿势引导与属性分解的人物图像生成

殷歆 , 张战成

苏州科技大学电子与信息工程学院, 江苏苏州 215009

收稿日期：2021-11-28；修回日期：2022-01-19

基金项目：国家自然科学基金（61772237）

作者简介：殷歆（1995—），男，硕士，主研方向为计算机视觉、生成对抗网络; 张战成，副教授、博士.

E-mail: kelly_yyx@126.com

摘要：生成姿势受控的人物图像要求在变换姿势条件下生成与源人物图像对应的新图像，同时新图像中人物的上衣、裤子、发型等属性需要与源人物保持一致。由于人物纹理编码和人体姿势关键点编码难以直接融合，导致生成图像中一些关键人物属性与源图像的一致性较差，为此，建立一种循环一致性约束下的双流生成网络模型。在训练阶段，该模型在纹理编码器的输入中增加源人物的姿势条件信息，从而缩小分解组件编码的搜索空间，提高人物生成的可控粒度。设计一个融合模块将源人物的姿势信息与每一个分解组件样式码相融合以进行生成和对抗训练，同时，增加循环一致性约束，使得生成图像与隐空间更为匹配。在测试阶段，通过网络对源人物的纹理编码信息与目标的姿势编码信息分别进行编码，经过信息融合和解码获得姿势变换后的人物图像。使用DeepFashion数据集进行定性和定量测试，结果表明，该模型的峰值信噪比、感知评分、结构相似性指标分别达到31.409 dB、3.369、0.768，模型中添加的姿势引导条件和循环一致性约束能够简化属性分解的概率生成表达，使得人物生成图像的纹理更为准确，符合人类视觉感知特性。

Person Image Synthesis Based on Posture Guidance and Attribute Decomposition

YIN Xin , ZHANG Zhancheng

School of Electronic and Information Engineering, Suzhou University of Science and Technology, Suzhou, Jiangsu 215009, China

Abstract: Pose controllable person image synthesis involves generating a new image of the source person image under a transformed pose, and the coat, pants, hair style, and other character attributes must be consistent with the source person. As directly integrating the person texture and human posture key point coding is difficult, the consistency between some key character attributes in the generated and source images is poor.Therefore, this study establishes a dual stream generation network model under cyclic consistency constraint.In the training phase, the model adds the pose condition information of the source person to the input of the texture encoder, thereby reducing the search space of the decomposition component coding and improving the controllable granularity of the person generation.A fusion module is designed to fuse the pose information of the source person with the style coding of each decomposition component for generation and confrontation training.Simultaneously, circular consistency constraints are added to ensure that the generated image matches the hidden space better.In the test phase, the texture encoding information of the source person and pose encoding information of the target are separately encoded in the network, and the pose-transformed person image is obtained through information fusion and decoding.Qualitative and quantitative tests are conducted using the DeepFashion dataset.The results show that the Peak Signal-to-Noise Ratio(PSNR), perceptual score, and Structural Similarity(SSIM) of the model reach 31.409 dB, 3.369, and 0.768, respectively.The pose guidance conditions and circular consistency constraints added to the model can simplify the probability generation and expression of the attribute decomposition, making the texture of the image generated using the characters more accurate and consistent with human visual perception characteristics.

开放科学（资源服务）标志码（OSID）：

0 概述

人物图像生成在图像编辑、图像重建、动画制作、短视频虚拟特效等领域^[1]得到广泛应用。姿势迁移的目标是以目标姿势引导模型生成出具有相同姿势的真实人物图像，其为人物图像生成领域一个具有挑战性的任务，尤其是不同视角下人物不同姿势图像在外观上存在较大差异时，要求生成器能够捕获图像分布所具有的较大变化。

早期的人物图像生成方法直接对整个源人物图像进行编码，然后解码生成图像，这种整体编码在面对具有复杂多样衣服的多种人物图像时，难以针对详细的纹理对整个人物进行正确编码，细节失真较为严重。属性分解的生成对抗网络（Attribute-Decomposed Generative Adversarial Network，ADGAN）^[2]提出一种将源人物图像分解为多个部件并分别编码再重组构建完整样式码的编码方式DCE（Decomposed Component Encoding），其只针对人物一个组成部分的特征进行编码，使编码难度降低，同时也加快了模型的收敛速度，所生成图像的细节更为逼真，但是，这种单纯的先分解人物组件编码再拼接的编码方式相对于整体编码方式遗漏了人体各部分之间的关联性，当源人物的姿势和衣服纹理过于复杂时，该编码方式容易出现纹理和颜色编码混乱，进而导致所生成的人物丢失源人物的纹理特征。

针对上述问题，本文提出一种姿势引导分解组件编码器P-DCE（Pose Guided Decomposed Component Encoding），为每一个分解的源人物组件增加源人物完整的人体姿势关键点信息，确保在任何复杂人物图像的编码中都不会丢失人物各个部件之间的关联性。同时，在网络中加入循环一致性约束，用来约束生成图像与源图像之间的纹理编码和人物姿势的一致性，从而保证生成图像与源人物图像的整体外观相一致。

1 相关工作

生成对抗网络（Generative Adversarial Network，GAN）^[3]在图像生成领域发挥了重要作用，但是其难以控制生成器的输出，生成内容极其依赖训练数据集的分布。为了使GAN的输出变得可控，文献[4]提出条件生成对抗网络（Conditional Generative Adversarial Network，CGAN），在生成器输入端增加一个标签输入，在鉴别器的输入端也加入相同标签，从而控制生成器输出与标签相关的内容，CGAN的出现推动了图像风格迁移的发展。文献[5]结合CGAN的思想同时在网络中加入多鉴别器用于生成人物衣服的搭配图像，文献[6]在CGAN的基础上加入UNet结构^[7]，提出一种新的鉴别器Patch GAN，称为pix2pix，其实现了图像到图像的翻译和图像的风格迁移，扩展了CGAN的应用范围。随后，文献[8]提高了pix2pix的图像生成质量，生成的图像达到了高分辨率的水平，但是pix2pix系列方法依赖于训练标签间一一对应的关系，导致数据集的获取比较困难。为了解决上述问题，使图像风格迁移更易训练，文献[9]提出一种无监督的图像风格迁移方法CycleGAN，该方法引入循环一致性约束，使用2个包含未标注图像的图像域训练生成图像。文献[10]使用CycleGAN的循环约束结构设计用于雨天图像中雨水去除的DerainCycleGAN算法。文献[11]提出一种结合变分自动编码器（VAE）和生成对抗网络的联合生成模型，以生成高质量的不可见特征，有效解决了训练数据集获取困难或不可用的问题。文献[12-13]基于pix2pixHD对生成人物视频进行研究，但是pix2pix的特性使得生成人物图像不具多样性。

针对人物图像生成问题，已经有许多基于生成对抗网络合成任意姿势的人体图像生成算法被提出。文献[14]提出一种双阶段的生成器结构以合成人物图像，其中，第一阶段对具有目标姿势的人物进行粗略合成，随后在第二阶段对其进行细化，在生成过程中较好地分离了人物的姿势和外观。文献[15]提出一种全新的生成器架构，通过自适应实例规范化AdaIN^[16]控制生成器，合成比较逼真的人脸图像，AdaIN可实现任意风格迁移，其中也包括人物姿势和纹理的迁移，被广泛应用于许多人物图像生成任务中。文献[17]将级联式姿势注意模块加入到生成器中，以逐步引导可变性传递过程，利用双向策略在无监督的情况下合成人物图像，但是该方法只将源人物的姿势传递给目标人物，忽略了人物的外观、衣服纹理、背景等信息，对于复杂纹理的生成效果不佳。文献[2]提出的ADGAN在PATN级联式模型的基础上进行优化，采用级联式姿势注意力模块完成姿势引导，同时使用AdaIN模块将人物组件属性（如头部、上衣、裤子等）编码注入到姿势编码中，可以生成纹理一致和姿势一致的人物图像，但是ADGAN缺少对姿态控制的引导条件，导致人物姿态失真。为了更精确地进行人体纹理解耦，文献[18]提出联合人物图像的全局和局部逐区域编码和标准化的方式来预测不可见区域的服装的合理风格，使生成图像的人物纹理更加精确。

2 姿势引导和属性分解的生成对抗网络

本文在ADGAN^[2]的基础上增加姿势引导纹理生成模块，并设计一种新的融合模块，加入循环一致性约束，在人体分解纹理编码部分对每一个分解后的模块（如头部、上衣、裤子、肢体等）都在通道维上拼接人体姿势信息，每个通道代表一个人体部位的关键点。

本文所提姿势引导和属性分解的生成对抗网络的生成器结构是由姿势路径和纹理路径这2条路径所组成的双流结构，如图 1所示。生成器需要3个输入，即需要生成的目标人物姿势$ {\boldsymbol{P}}_{\mathrm{t}}\in {\mathbb{R}}^{18\times H\times W} $、源（条件）人物图像$ {\boldsymbol{I}}_{\mathrm{s}}\in {\mathbb{R}}^{3\times H\times W} $、源人物姿势$ {\boldsymbol{P}}_{\mathrm{s}}\in {\mathbb{R}}^{18\times H\times W} $，输出为生成的图像$ {\boldsymbol{I}}_{\mathrm{g}}\in {\mathbb{R}}^{3\times H\times W} $，即源人物$ {\boldsymbol{I}}_{\mathrm{s}} $在目标姿势$ {\boldsymbol{P}}_{\mathrm{t}} $下的图像。纹理编码器的输出通过若干个级联模块与解码器连接，纹理路径输出的样式码被注入到级联模块中与姿势编码相结合，通过解码器重构出目标人物图像$ {\boldsymbol{I}}_{\mathrm{g}} $。对于生成图像$ {\boldsymbol{I}}_{\mathrm{g}} $，添加了姿势回归和纹理回归模块。

	Download: JPG larger image
图 1 双流生成器结构 Fig. 1 Double stream generator structure

2.1 纹理路径

纹理路径的全称为姿势引导的人物纹理属性分解编码器，源人物图像$ {\boldsymbol{I}}_{\mathrm{s}} $和源人物姿势$ {\boldsymbol{P}}_{\mathrm{s}} $通过该模块被嵌入到隐空间中，编码为样式码$ {\boldsymbol{C}}_{\mathrm{s}\mathrm{t}\mathrm{y}\mathrm{l}\mathrm{e}} $。如图 1所示，源人物图像$ {\boldsymbol{I}}_{\mathrm{s}} $输入到预训练的语义分割算法Look into Person^[19]中提取人物的语义映射，并按照不同的人物属性（如头部、衣服、四肢等）转换为8个通道的语义映射$ \boldsymbol{M}\in {\mathbb{R}}^{8\times H\times W} $，将每一个通道$ {\boldsymbol{M}}_{i}\in $ $ {\mathbb{R}}^{H\times W} $$ \left(i\in \left[\mathrm{1, 2}, \cdots , 8\right]\right) $作为掩码，与源人物图像相乘得到当前人物属性的分解人物组件掩码。为了加强人体姿势关键点与人体分解组件之间的位置对应关系，将计算出的3通道的分解人物图像与18通道的源人物姿势$ {\boldsymbol{P}}_{\mathrm{s}} $在通道维堆叠成21通道的矩阵，输入到纹理编码器$ {T}_{\mathrm{g}\mathrm{r}\mathrm{a}\mathrm{i}\mathrm{n}} $中，计算出每个分支i对应的样式码$ {\boldsymbol{C}}_{\mathrm{s}\mathrm{t}\mathrm{y}\mathrm{l}\mathrm{e}}^{i} $，最终将所有的分解样式码堆叠起来组成完整的人物样式码$ {\boldsymbol{C}}_{\mathrm{s}\mathrm{t}\mathrm{y}\mathrm{l}\mathrm{e}} $，如下：

$ {\boldsymbol{C}}_{\mathrm{s}\mathrm{t}\mathrm{y}\mathrm{l}\mathrm{e}}^{i}={T}_{\mathrm{g}\mathrm{r}\mathrm{a}\mathrm{i}\mathrm{n}}\left({\boldsymbol{I}}_{\mathrm{s}}\odot {\boldsymbol{M}}_{i}\otimes {\boldsymbol{P}}_{\mathrm{s}}\right) $

(1)

$ {\boldsymbol{C}}_{\mathrm{s}\mathrm{t}\mathrm{y}\mathrm{l}\mathrm{e}}={\boldsymbol{C}}_{\mathrm{s}\mathrm{t}\mathrm{y}\mathrm{l}\mathrm{e}}^{1}\otimes \cdots \otimes {\boldsymbol{C}}_{\mathrm{s}\mathrm{t}\mathrm{y}\mathrm{l}\mathrm{e}}^{i}\otimes \cdots \otimes {\boldsymbol{C}}_{\mathrm{s}\mathrm{t}\mathrm{y}\mathrm{l}\mathrm{e}}^{8} $

(2)

其中：$ \odot $代表每个通道都逐元素相乘；$ \otimes $表示将2个矩阵沿通道维堆叠；$ {T}_{\mathrm{g}\mathrm{r}\mathrm{a}\mathrm{i}\mathrm{n}} $为纹理编码器。

纹理编码器（$ {T}_{\mathrm{g}\mathrm{r}\mathrm{a}\mathrm{i}\mathrm{n}} $）是由一个固定权重编码器和一个可学习权重的编码器组合而成的全局编码器。固定权重编码器是在图片风格转换网络AdaIN上使用COCO数据集^[20]预训练的VGG网络^[21]，该编码器参数固定，由于预训练的VGG网络在COCO数据集中具有由各种纹理图像训练的权重，对复杂的纹理都具有强大的泛化能力，大幅提高了模型性能，但是，固定权重的编码器针对的是任意图像的风格转换，为使编码器可以更好地适应人物风格转换，在每一个VGG层的位置叠加一个输出维度相同的可学习权重的卷积层，最终编码器输出的编码为由可学习权重编码器和固定权重编码器的输出所叠加的编码，经过平均池化层得到组件样式码$ {\boldsymbol{C}}_{\mathrm{s}\mathrm{t}\mathrm{y}\mathrm{l}\mathrm{e}}^{i} $，如图 2所示。

	Download: JPG larger image
图 2 纹理编码器结构 Fig. 2 Texture encoder structure

2.2 姿势路径

姿势路径的目的是将纹理路径输出的样式码$ {\boldsymbol{C}}_{\mathrm{s}\mathrm{t}\mathrm{y}\mathrm{l}\mathrm{e}} $表示的源人物纹理特征注入到目标姿势$ {\boldsymbol{P}}_{t} $的特征中，由一个融合模块将姿势特征与样式码特征连接。姿势路径由姿势编码器、解码器和$ t\left(t=8\right) $个级联式模块组成，每个级联式模块由一个融合模块、卷积层和AdaIN模块组成。

本文模型共采用8个级联式模块，其中第一块没有前置块输入，其直接使用最初的目标人物姿势$ {\boldsymbol{P}}_{t} $通过姿势编码器编码后的输出作为输入，后续的每一个级联式模块的输出都由当前模块$ {F}_{t} $的输出与前一个级联式模块$ {F}_{t-1} $的输出相加所得，如图 1所示。

输入的参数通过融合模块（Fusion Module，FM）从样式码$ {\boldsymbol{C}}_{\mathrm{s}\mathrm{t}\mathrm{y}\mathrm{l}\mathrm{e}} $中提取，不同于ADGAN中的融合模块结构，本文模型中样式码$ {\boldsymbol{C}}_{\mathrm{s}\mathrm{t}\mathrm{y}\mathrm{l}\mathrm{e}} $每一个组件的样式码都带有人体关键点信息，最终构成的样式码带有人体各部位的原始关联性，不需要使用全连接层进行线性重组，融合模块被设计成4个下采样卷积层进一步提取样式码的特征，最后一层使用全连接层将特征转换为所需要的维度。在此基础上，将最后一个级联式模块$ {F}_{t} $的输出输入到由8个反卷积层组成的解码器中，得到最终的生成图像$ {\boldsymbol{I}}_{\mathrm{g}} $。

2.3 鉴别器

本文模型使用单个鉴别器，用于确保生成图像$ {\boldsymbol{I}}_{\mathrm{g}} $的外观与源人物相似，鉴别器的输入为生成图像$ {\boldsymbol{I}}_{\mathrm{g}} $。鉴别器结构设计时参考PatchGAN^[4]的全卷积设计，原始的GAN鉴别器仅针对整幅图像输出一个评价值，PatchGAN输出一个N×N大小的矩阵，矩阵中每一个元素对应图像中的一个小区域的评价值，这种鉴别器相比普通鉴别器对整个图像的关注更全面，得出的评价均值更准确，在一些图像风格迁移任务^{[4, 6, 14]}中取得了更好的效果。

2.4 循环一致性约束

模型生成图像的隐空间信息应该与条件（源）图像的隐空间信息保持一致^[22]。针对本文模型的2条路径，网络中添加2种隐空间回归、姿势回归和纹理回归。

姿势回归使生成图像$ {\boldsymbol{I}}_{\mathrm{g}} $的姿势关键点$ {\boldsymbol{P}}_{\mathrm{g}} $与目标姿势关键点$ {\boldsymbol{P}}_{\mathrm{t}} $对齐，即$ {\boldsymbol{P}}_{\mathrm{g}}\approx {\boldsymbol{P}}_{\mathrm{t}} $，$ {\boldsymbol{P}}_{\mathrm{g}} $由生成图像$ {\boldsymbol{I}}_{\mathrm{g}} $通过预训练的人体姿势关键点网络（OpenPose）^[23]计算得到。由于人体姿势关键点信息容易计算与表示，无需为此设计专门的姿势鉴别器，因此可使用式（3）直接计算$ {\boldsymbol{P}}_{\mathrm{g}} $与$ {\boldsymbol{P}}_{\mathrm{t}} $之间的L1距离：

$ {L}_{\mathrm{p}\_\mathrm{c}\mathrm{y}\mathrm{c}}={||{\boldsymbol{P}}_{\mathrm{g}}-{\boldsymbol{P}}_{{\rm t}}||}_{\mathrm{L}1} $

(3)

纹理回归使生成图像$ {\boldsymbol{I}}_{\mathrm{g}} $的样式码$ {\boldsymbol{C}}_{\mathrm{s}\mathrm{t}\mathrm{y}\mathrm{l}\mathrm{e}}^{{'}} $与源图像的样式码$ {\boldsymbol{C}}_{\mathrm{s}\mathrm{t}\mathrm{y}\mathrm{l}\mathrm{e}} $对齐，即$ {\boldsymbol{C}}_{\mathrm{s}\mathrm{t}\mathrm{y}\mathrm{l}\mathrm{e}}^{{'}}\approx {\boldsymbol{C}}_{\mathrm{s}\mathrm{t}\mathrm{y}\mathrm{l}\mathrm{e}} $，$ {\boldsymbol{C}}_{\mathrm{s}\mathrm{t}\mathrm{y}\mathrm{l}\mathrm{e}}^{{'}} $由生成的目标人物图像$ {\boldsymbol{I}}_{\mathrm{g}} $与目标人物姿势$ {\boldsymbol{P}}_{\mathrm{t}} $再次返回输入到纹理路径而得到。使用式（4）计算$ {\boldsymbol{C}}_{\mathrm{s}\mathrm{t}\mathrm{y}\mathrm{l}\mathrm{e}}^{{'}} $与$ {\boldsymbol{C}}_{\mathrm{s}\mathrm{t}\mathrm{y}\mathrm{l}\mathrm{e}} $之间的L1距离：

$ {L}_{\mathrm{e}\_\mathrm{c}\mathrm{y}\mathrm{c}}={||{\boldsymbol{C}}_{\mathrm{s}\mathrm{t}\mathrm{y}\mathrm{l}\mathrm{e}}^{{'}}-{\boldsymbol{C}}_{{\rm s}{\rm t}{\rm y}{\rm l}{\rm e}}||}_{\mathrm{L}1} $

(4)

2.5 损失函数

模型的整体损失函数$ {L}_{\mathrm{f}\mathrm{u}\mathrm{l}\mathrm{l}} $包含GAN对抗损失$ {L}_{\mathrm{a}\mathrm{d}\mathrm{v}} $、循环一致性损失$ {L}_{\mathrm{p}\_\mathrm{c}\mathrm{y}\mathrm{c}} $和$ {L}_{\mathrm{e}\_\mathrm{c}\mathrm{y}\mathrm{c}} $、重建损失$ {L}_{\mathrm{r}\mathrm{e}\mathrm{c}} $、感知L1损失$ {L}_{\mathrm{p}\mathrm{r}\mathrm{e}\mathrm{L}1} $，计算公式如下：

$ {L}_{\mathrm{f}\mathrm{u}\mathrm{l}\mathrm{l}}={L}_{\mathrm{a}\mathrm{d}\mathrm{v}}+{\lambda }_{1}{L}_{\mathrm{p}\_\mathrm{c}\mathrm{y}\mathrm{c}}+{\lambda }_{2}{L}_{\mathrm{e}\_\mathrm{c}\mathrm{y}\mathrm{c}}+{\lambda }_{3}{L}_{\mathrm{r}\mathrm{e}\mathrm{c}}+{\lambda }_{4}{L}_{\mathrm{p}\mathrm{e}\mathrm{r}\mathrm{L}1} $

(5)

其中：$ {\lambda }_{1} $、$ {\lambda }_{2} $、$ {\lambda }_{3} $、$ {\lambda }_{4} $是损失函数对应的权重，实验中$ {\lambda }_{1} $、$ {\lambda }_{2} $取3，$ {\lambda }_{3} $、$ {\lambda }_{4} $取2。

对抗损失来自模型中的生成器G和鉴别器D，目的是帮助生成器生成具有与源人物图像视觉外观相似的目标人物图像，如下：

$ \begin{array}{l}{L}_{\mathrm{a}\mathrm{d}\mathrm{v}}={\mathrm{{\rm E}}}_{{\boldsymbol{I}}_{\mathrm{s}}\in { P}, {\boldsymbol{I}}_{\mathrm{t}}\in {{ P}}_{\mathrm{f}}}\;\mathrm{l}\mathrm{o}{\mathrm{g}}_{\mathrm{a}}\left[\mathrm{D}\left({\boldsymbol{I}}_{\mathrm{s}}, {\boldsymbol{I}}_{\mathrm{t}}\right)\right]+\\ \;\;\;\;\;\;\;\;\;\; {\mathrm{{\rm E}}}_{{\boldsymbol{I}}_{\mathrm{s}}\in { P}, {\boldsymbol{P}}_{\mathrm{t}}\in \widehat{{ P}}, {\boldsymbol{P}}_{\mathrm{s}}\in {\widehat{{ P}}}_{\mathrm{s}}}\;\mathrm{l}\mathrm{o}{\mathrm{g}}_{\mathrm{a}}\left[1-\mathrm{D}\left({\boldsymbol{I}}_{\mathrm{s}}, \mathrm{G}\left({\boldsymbol{I}}_{\mathrm{s}}, {\boldsymbol{P}}_{\mathrm{s}}, {\boldsymbol{P}}_{\mathrm{t}}\right)\right)\right]\end{array} $

(6)

其中：$ { P} $、$ \widehat{{ P}} $、$ {{ P}}_{\mathrm{f}} $、$ {\widehat{{ P}}}_{\mathrm{s}} $分别表示源人物图像集、目标姿势集、目标图像集、源人物姿势集。

重建损失用于引导生成图像的外观与目标图像的外观相似，从而避免人物颜色和纹理的失真，可达到加快收敛和提高生成精度的效果，重建损失为生成图像与目标图像之间的L1距离。

感知L1损失用于减少生成人物姿势的扭曲和失真，且可以使生成图像看起来更自然，该损失在一些超分辨率重建^[24]、风格转换^[25]、姿势迁移^[26]任务中具有有效性。

3 实验结果与分析

本文模型基于PyTorch框架编写，GPU卡为NVIDIA Tesla-V100。超参数的设置使用动量为0.5的Adam优化器对模型进行800个epoch的训练，每一个epoch进行17 000次迭代，采用每隔80个epoch将学习率下降20%的线性衰减学习率调整策略。

3.1 实验设计 3.1.1 数据集

本文实验在DeepFashion数据集^[27]上进行训练和测试，该数据集包含52 712张分辨率为256×256像素的高清且具有多人物、多姿势和不同外观的人物图像，其中人物数量以及每个人物的姿势和外观丰富，使得该数据集被广泛应用于人体姿势迁移算法的训练和测试中。为了尽量简化输入图片的信息，在预处理阶段把每张图片切割为176×256像素的分辨率，去除多余的背景，使用人体姿态估计算法OpenPose获取每张图像的人体关键点数据。利用在数据集中随机抽取的方法配对相同人物在不同姿势下的101 967个图像对用于训练，8 571个图像对用于测试，经预处理后的部分图像如图 3所示。

	Download: JPG larger image
图 3 DeepFashion数据集示例 Fig. 3 Example of DeepFashion dataset

3.1.2 评价指标

本文使用感知评分（IS）、结构相似性（SSIM）和峰值信噪比（PSNR）来评价生成模型的性能和模型生成图像的质量。

IS是用来评价GAN生成图像的质量和多样性的常用指标，其无需跟真实图像比较，只需生成多张图像即可计算。IS在ImageNet中被提出，计算时需使用预训练的Inception Net V3生成图像信息，IS值越大，说明GAN网络生成图像的质量和多样性越好。SSIM是一种用于衡量2张图像相似度的常用指标，用于计算的2张图像分别为真实图像和生成图像，该指标衡量2个样本间的亮度、对比度和结构，计算时每次从图像上取一个分辨率为N×N的窗口单独计算，然后滑动窗口依次计算，最后取平均值作为全局SSIM值，SSIM值越高，说明生成图像与源图像差异越小。PSNR是使用最为广泛的图像画质评价指标，其提供了衡量图像失真或噪声水平的客观标准，PSNR值越高，说明生成图像的失真程度越低。为了比较各方法之间的差异性，本文对所有生成图像的SSIM和PSNR指标进行成对t检验（Paired t-test），该指标用于检验2个样本平均数与其各自所代表的总体的差异是否显著，成对t检验的p值小于0.05，表示2个样本差异显著，反之，则表示2个样本差异不明显。IS指标对多张图像进行度量，无法进行成对t检验，实验仅报告全体测试样本上的度量。

3.2 损失曲线

对比本文模型和ADGAN在训练时总损失$ {L}_{\mathrm{f}\mathrm{u}\mathrm{l}\mathrm{l}} $的变化曲线，结果如图 4所示，从中可以看出，本文模型增加的姿势信息和循环一致性约束可以有效加快模型的收敛速度。

	Download: JPG larger image
图 4 损失曲线比较 Fig. 4 Comparison of loss curves

3.3 消融实验

为了测试网络中加入的2个隐空间回归的有效性，设计2组消融实验，分别使用基础网络加姿势回归以及基础网络加纹理回归，在DeepFashion测试集中进行定性和定量测试，定性测试结果如图 5所示，定量测试结果如表 1所示，最优结果加粗表示。

	Download: JPG larger image
图 5 循环一致性约束对网络影响的定性结果 Fig. 5 Qualitative results of the impact of cycle consistency constraints on networks

下载CSV 表 1 循环一致性约束对网络影响的定量结果 Table 1 Quantitative results of the impact of cycle consistency constraints on networks

从图 5和表 1可以看出：当删除姿势回归之后，生成图像质量稍有下降，人物的一些细节有一定的失真，IS、PSNR、SSIM指标略微下降，但是差异显著；当删除纹理回归之后，生成人物无法保持真实性，仅能看出姿势略有一致，人物纹理外观完全没有保持，IS、PSNR、SSIM指标均有较为明显的下降，并且差异显著，造成该现象的原因可能是人物纹理隐空间比较复杂，在网络缺乏相应约束时，生成图像的人物纹理想要保持与条件人物纹理一致将变得非常困难。该实验结果表明，模型中加入纹理回归和姿势回归具有有效性。

3.4 与其他模型的比较

给定一些从测试集中选取的源人物图像和期望生成的目标姿势，本文模型可以生成符合目标姿势的自然且真实的结果，部分实验结果如图 6所示。

	Download: JPG larger image
图 6 部分实验结果示例 Fig. 6 Some examples of experimental results

为了评估本文模型在人体姿势迁移图像生成任务中的有效性，将其与ADGAN和PATN这2个被广泛使用的人体姿势迁移模型进行对比实验，分为定性比较和定量比较。ADGAN和PATN均使用原文作者发布的在DeepFashion数据集上训练出的预训练权重进行测试，测试集使用预先从数据集中划分出的8 571个测试图像对，3个模型的输入输出图像分辨率均设置为176×256像素。

定性比较结果如图 7所示，可以看出，在相同源人物下进行较为复杂的姿势迁移时，本文模型生成图像的效果在视觉上优于PATN，略优于ADGAN，在人体纹理（如衣服、发型等）方面本文模型更准确。定量比较结果如表 2所示，表中展示3种指标在3个模型上的表现，以及本文模型与其他2个模型的SSIM和PSNR指标t-test的p值，从中可以看出，本文模型具有最高的IS值，说明生成图像服饰多样性较好，在SSIM值上与ADGAN相当，从成对t检验指标上可以看出差异不显著，在PSNR指标上本文模型最高，并且与其他模型相比差异显著，说明本文模型生成的图像效果失真度最小，能够保证生成图像的质量。

	Download: JPG larger image
图 7 3种模型的生成图像比较 Fig. 7 Comparison of images generated by three models

下载CSV 表 2 3种模型的性能比较结果 Table 2 Performance comparison results of three models

PATN模型由于没有在网络中加入人体语义分割信息，仅对人体姿势信息使用级联式结构进行编码，在训练过程中损失了过多人体纹理信息，导致生成的人物图像纹理失真比较严重，仅能较好地保证生成图像人物姿势的一致性。本文模型和ADGAN模型都加入了人体语义分割信息，并且采用分解组件编码结构，在编码时加强了人物纹理信息，最终生成图像的质量都优于PATN。本文模型在分解组件编码的基础上又增加了源人物姿势信息，在编码后的特征中保留了人物纹理与源人物姿势之间的对应关系，进一步提高了对人物纹理的编码能力。此外，本文模型还添加了循环一致性约束，使生成人物图像的纹理、姿势信息与源人物图像的纹理、姿势信息更容易保持一致，对于具有复杂纹理的人物图像依然可以保证纹理稳定性以及准确性。

4 结束语

本文提出一种姿势引导分解组件编码的姿势迁移人物图像生成对抗网络。在生成人物分解样式编码时引入人体姿势关键点的条件信息，将AdaIN输入处全连接结构的融合模块替换为多层卷积结构，进一步提取人物姿势分解组件的特征，从而加强模型中人物姿势和纹理的关联度。此外，对生成图像和纹理编码加入循环一致性约束，提高网络生成图像中人物纹理的精度和姿势的一致性。DeepFashion数据集上的实验结果表明，条件分解组件编码较直接分解编码具有更快的收敛速度，在IS、SSIM、PSNR指标上本文模型较对比模型有明显优势，人物生成图像质量有一定提升。

本文在训练生成对抗网络时提供更多的条件信息并增加更多的约束条件，使得网络的生成图像效果得到增强，但是，本文模型依然存在一些局限性，在生成具有复杂姿势的人物时会有失真，这是由于DeepFashion数据集中人物姿势较为单一，具有复杂姿势的人物训练数据偏少，在模型中缺乏对生成人物姿势的有效约束条件。下一步将扩充训练集中的复杂姿势人物图像，在模型中增加针对生成人物姿势的有效约束，从而解决上述问题。

参考文献

[1]	朱海琦, 李宏, 李定文. 基于单幅图像学习的生成对抗网络模型[J]. 计算机工程, 2021, 47(8): 271-276, 283. ZHU H Q, LI H, LI D W. Generative adversarial network model based on single image learning[J]. Computer Engineering, 2021, 47(8): 271-276, 283. (in Chinese)
[2]	MEN Y F, MAO Y M, JIANG Y N, et al. Controllable person image synthesis with attribute-decomposed GAN[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 5083-5092.
[3]	GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[EB/OL]. [2021-10-05]. https://arxiv.org/abs/1406.2661.
[4]	MIRZA M, OSINDERO S. Conditional generative adversarial nets[EB/OL]. [2021-10-05]. https://www.semanticscholar.org/reader/353ecf7b66b3e9ff5e9f41145a147e899a2eea5c.
[5]	LIU L L, ZHANG H J, XU X F, et al. Collocating clothes with generative adversarial networks cosupervised by categories and attributes: a multidiscriminator framework[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, 31(9): 3540-3554. DOI:10.1109/TNNLS.2019.2944979
[6]	ISOLA P, ZHU J Y, ZHOU T H, et al. Image-to-image translation with conditional adversarial networks[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 5967-5976.
[7]	RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation[C]//Proceedings of International Conference on Medical Image Computing and Computer-Assisted Intervention. Berlin, Germany: Springer, 2015: 234-241.
[8]	WANG T C, LIU M Y, ZHU J Y, et al. High-resolution image synthesis and semantic manipulation with conditional GANs[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 8798-8807.
[9]	ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2017: 2242-2251.
[10]	WEI Y Y, ZHANG Z, WANG Y, et al. DerainCycleGAN: rain attentive CycleGAN for single image deraining and rainmaking[J]. IEEE Transactions on Image Processing, 2021, 30: 4788-4801. DOI:10.1109/TIP.2021.3074804
[11]	GAO R, HOU X S, QIN J, et al. Zero-VAE-GAN: generating unseen features for generalized and transductive zero-shot learning[J]. IEEE Transactions on Image Processing, 2020, 29: 3665-3680. DOI:10.1109/TIP.2020.2964429
[12]	CHAN C, GINOSAR S, ZHOU T H, et al. Everybody dance now[C]//Proceedings of IEEE/CVF International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2019: 5932-5941.
[13]	WANG T C, LIU M Y, TAO A, et al. Few-shot video-to-video synthesis[EB/OL]. [2021-10-05]. https://arxiv.org/pdf/1910.12713.pdf.
[14]	MA L Q, JIA X, SUN Q R, et al. Pose guided person image generation[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Washington D. C., USA: IEEE Press, 2017: 405-415.
[15]	KARRAS T, LAINE S, AILA T M. A style-based generator architecture for generative adversarial networks[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 4396-4405.
[16]	HUANG X, BELONGIE S. Arbitrary style transfer in real-time with adaptive instance normalization[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2017: 1510-1519.
[17]	ZHU Z, HUANG T T, SHI B G, et al. Progressive pose attention transfer for person image generation[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 2342-2351.
[18]	ZHANG J S, LI K, LAI Y K, et al. PISE: person image synthesis and editing with decoupled GAN[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2021: 7978-7986.
[19]	LIANG X D, GONG K, SHEN X H, et al. Look into person: joint body parsing & pose estimation network and a new benchmark[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(4): 871-885. DOI:10.1109/TPAMI.2018.2820063
[20]	LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2014: 740-755.
[21]	SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2021-10-05]. https://arxiv.org/pdf/1409.1556.pdf.
[22]	LU Y, TAI Y W, TANG C K. Attribute-guided face generation using conditional CycleGAN[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 282-297.
[23]	CAO Z, HIDALGO G, SIMON T, et al. OpenPose: realtime multi-person 2D pose estimation using part affinity fields[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(1): 172-186. DOI:10.1109/TPAMI.2019.2929257
[24]	LEDIG C, THEIS L, HUSZÁR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 105-114.
[25]	JOHNSON J, ALAHI A, FEI-FEI L. Perceptual losses for real-time style transfer and super-resolution[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2016: 694-711.
[26]	SIAROHIN A, SANGINETO E, LATHUILIÈRE S, et al. Deformable GANs for pose-based human image generation[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 3408-3416.
[27]	LIU Z W, LUO P, QIU S, et al. DeepFashion: powering robust clothes recognition and retrieval with rich annotations[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 1096-1104.