开放科学(资源服务)标志码(OSID):
人物图像生成在图像编辑、图像重建、动画制作、短视频虚拟特效等领域[1]得到广泛应用。姿势迁移的目标是以目标姿势引导模型生成出具有相同姿势的真实人物图像,其为人物图像生成领域一个具有挑战性的任务,尤其是不同视角下人物不同姿势图像在外观上存在较大差异时,要求生成器能够捕获图像分布所具有的较大变化。
早期的人物图像生成方法直接对整个源人物图像进行编码,然后解码生成图像,这种整体编码在面对具有复杂多样衣服的多种人物图像时,难以针对详细的纹理对整个人物进行正确编码,细节失真较为严重。属性分解的生成对抗网络(Attribute-Decomposed Generative Adversarial Network,ADGAN)[2]提出一种将源人物图像分解为多个部件并分别编码再重组构建完整样式码的编码方式DCE(Decomposed Component Encoding),其只针对人物一个组成部分的特征进行编码,使编码难度降低,同时也加快了模型的收敛速度,所生成图像的细节更为逼真,但是,这种单纯的先分解人物组件编码再拼接的编码方式相对于整体编码方式遗漏了人体各部分之间的关联性,当源人物的姿势和衣服纹理过于复杂时,该编码方式容易出现纹理和颜色编码混乱,进而导致所生成的人物丢失源人物的纹理特征。
针对上述问题,本文提出一种姿势引导分解组件编码器P-DCE(Pose Guided Decomposed Component Encoding),为每一个分解的源人物组件增加源人物完整的人体姿势关键点信息,确保在任何复杂人物图像的编码中都不会丢失人物各个部件之间的关联性。同时,在网络中加入循环一致性约束,用来约束生成图像与源图像之间的纹理编码和人物姿势的一致性,从而保证生成图像与源人物图像的整体外观相一致。
1 相关工作生成对抗网络(Generative Adversarial Network,GAN)[3]在图像生成领域发挥了重要作用,但是其难以控制生成器的输出,生成内容极其依赖训练数据集的分布。为了使GAN的输出变得可控,文献[4]提出条件生成对抗网络(Conditional Generative Adversarial Network,CGAN),在生成器输入端增加一个标签输入,在鉴别器的输入端也加入相同标签,从而控制生成器输出与标签相关的内容,CGAN的出现推动了图像风格迁移的发展。文献[5]结合CGAN的思想同时在网络中加入多鉴别器用于生成人物衣服的搭配图像,文献[6]在CGAN的基础上加入UNet结构[7],提出一种新的鉴别器Patch GAN,称为pix2pix,其实现了图像到图像的翻译和图像的风格迁移,扩展了CGAN的应用范围。随后,文献[8]提高了pix2pix的图像生成质量,生成的图像达到了高分辨率的水平,但是pix2pix系列方法依赖于训练标签间一一对应的关系,导致数据集的获取比较困难。为了解决上述问题,使图像风格迁移更易训练,文献[9]提出一种无监督的图像风格迁移方法CycleGAN,该方法引入循环一致性约束,使用2个包含未标注图像的图像域训练生成图像。文献[10]使用CycleGAN的循环约束结构设计用于雨天图像中雨水去除的DerainCycleGAN算法。文献[11]提出一种结合变分自动编码器(VAE)和生成对抗网络的联合生成模型,以生成高质量的不可见特征,有效解决了训练数据集获取困难或不可用的问题。文献[12-13]基于pix2pixHD对生成人物视频进行研究,但是pix2pix的特性使得生成人物图像不具多样性。
针对人物图像生成问题,已经有许多基于生成对抗网络合成任意姿势的人体图像生成算法被提出。文献[14]提出一种双阶段的生成器结构以合成人物图像,其中,第一阶段对具有目标姿势的人物进行粗略合成,随后在第二阶段对其进行细化,在生成过程中较好地分离了人物的姿势和外观。文献[15]提出一种全新的生成器架构,通过自适应实例规范化AdaIN[16]控制生成器,合成比较逼真的人脸图像,AdaIN可实现任意风格迁移,其中也包括人物姿势和纹理的迁移,被广泛应用于许多人物图像生成任务中。文献[17]将级联式姿势注意模块加入到生成器中,以逐步引导可变性传递过程,利用双向策略在无监督的情况下合成人物图像,但是该方法只将源人物的姿势传递给目标人物,忽略了人物的外观、衣服纹理、背景等信息,对于复杂纹理的生成效果不佳。文献[2]提出的ADGAN在PATN级联式模型的基础上进行优化,采用级联式姿势注意力模块完成姿势引导,同时使用AdaIN模块将人物组件属性(如头部、上衣、裤子等)编码注入到姿势编码中,可以生成纹理一致和姿势一致的人物图像,但是ADGAN缺少对姿态控制的引导条件,导致人物姿态失真。为了更精确地进行人体纹理解耦,文献[18]提出联合人物图像的全局和局部逐区域编码和标准化的方式来预测不可见区域的服装的合理风格,使生成图像的人物纹理更加精确。
2 姿势引导和属性分解的生成对抗网络本文在ADGAN[2]的基础上增加姿势引导纹理生成模块,并设计一种新的融合模块,加入循环一致性约束,在人体分解纹理编码部分对每一个分解后的模块(如头部、上衣、裤子、肢体等)都在通道维上拼接人体姿势信息,每个通道代表一个人体部位的关键点。
本文所提姿势引导和属性分解的生成对抗网络的生成器结构是由姿势路径和纹理路径这2条路径所组成的双流结构,如图 1所示。生成器需要3个输入,即需要生成的目标人物姿势
![]() |
Download:
|
图 1 双流生成器结构 Fig. 1 Double stream generator structure |
纹理路径的全称为姿势引导的人物纹理属性分解编码器,源人物图像
$ {\boldsymbol{C}}_{\mathrm{s}\mathrm{t}\mathrm{y}\mathrm{l}\mathrm{e}}^{i}={T}_{\mathrm{g}\mathrm{r}\mathrm{a}\mathrm{i}\mathrm{n}}\left({\boldsymbol{I}}_{\mathrm{s}}\odot {\boldsymbol{M}}_{i}\otimes {\boldsymbol{P}}_{\mathrm{s}}\right) $ | (1) |
$ {\boldsymbol{C}}_{\mathrm{s}\mathrm{t}\mathrm{y}\mathrm{l}\mathrm{e}}={\boldsymbol{C}}_{\mathrm{s}\mathrm{t}\mathrm{y}\mathrm{l}\mathrm{e}}^{1}\otimes \cdots \otimes {\boldsymbol{C}}_{\mathrm{s}\mathrm{t}\mathrm{y}\mathrm{l}\mathrm{e}}^{i}\otimes \cdots \otimes {\boldsymbol{C}}_{\mathrm{s}\mathrm{t}\mathrm{y}\mathrm{l}\mathrm{e}}^{8} $ | (2) |
其中:
纹理编码器(
![]() |
Download:
|
图 2 纹理编码器结构 Fig. 2 Texture encoder structure |
姿势路径的目的是将纹理路径输出的样式码
本文模型共采用8个级联式模块,其中第一块没有前置块输入,其直接使用最初的目标人物姿势
输入的参数通过融合模块(Fusion Module,FM)从样式码
本文模型使用单个鉴别器,用于确保生成图像
模型生成图像的隐空间信息应该与条件(源)图像的隐空间信息保持一致[22]。针对本文模型的2条路径,网络中添加2种隐空间回归、姿势回归和纹理回归。
姿势回归使生成图像
$ {L}_{\mathrm{p}\_\mathrm{c}\mathrm{y}\mathrm{c}}={||{\boldsymbol{P}}_{\mathrm{g}}-{\boldsymbol{P}}_{{\rm t}}||}_{\mathrm{L}1} $ | (3) |
纹理回归使生成图像
$ {L}_{\mathrm{e}\_\mathrm{c}\mathrm{y}\mathrm{c}}={||{\boldsymbol{C}}_{\mathrm{s}\mathrm{t}\mathrm{y}\mathrm{l}\mathrm{e}}^{{'}}-{\boldsymbol{C}}_{{\rm s}{\rm t}{\rm y}{\rm l}{\rm e}}||}_{\mathrm{L}1} $ | (4) |
模型的整体损失函数
$ {L}_{\mathrm{f}\mathrm{u}\mathrm{l}\mathrm{l}}={L}_{\mathrm{a}\mathrm{d}\mathrm{v}}+{\lambda }_{1}{L}_{\mathrm{p}\_\mathrm{c}\mathrm{y}\mathrm{c}}+{\lambda }_{2}{L}_{\mathrm{e}\_\mathrm{c}\mathrm{y}\mathrm{c}}+{\lambda }_{3}{L}_{\mathrm{r}\mathrm{e}\mathrm{c}}+{\lambda }_{4}{L}_{\mathrm{p}\mathrm{e}\mathrm{r}\mathrm{L}1} $ | (5) |
其中:
对抗损失来自模型中的生成器G和鉴别器D,目的是帮助生成器生成具有与源人物图像视觉外观相似的目标人物图像,如下:
$ \begin{array}{l}{L}_{\mathrm{a}\mathrm{d}\mathrm{v}}={\mathrm{{\rm E}}}_{{\boldsymbol{I}}_{\mathrm{s}}\in { P}, {\boldsymbol{I}}_{\mathrm{t}}\in {{ P}}_{\mathrm{f}}}\;\mathrm{l}\mathrm{o}{\mathrm{g}}_{\mathrm{a}}\left[\mathrm{D}\left({\boldsymbol{I}}_{\mathrm{s}}, {\boldsymbol{I}}_{\mathrm{t}}\right)\right]+\\ \;\;\;\;\;\;\;\;\;\; {\mathrm{{\rm E}}}_{{\boldsymbol{I}}_{\mathrm{s}}\in { P}, {\boldsymbol{P}}_{\mathrm{t}}\in \widehat{{ P}}, {\boldsymbol{P}}_{\mathrm{s}}\in {\widehat{{ P}}}_{\mathrm{s}}}\;\mathrm{l}\mathrm{o}{\mathrm{g}}_{\mathrm{a}}\left[1-\mathrm{D}\left({\boldsymbol{I}}_{\mathrm{s}}, \mathrm{G}\left({\boldsymbol{I}}_{\mathrm{s}}, {\boldsymbol{P}}_{\mathrm{s}}, {\boldsymbol{P}}_{\mathrm{t}}\right)\right)\right]\end{array} $ | (6) |
其中:
重建损失用于引导生成图像的外观与目标图像的外观相似,从而避免人物颜色和纹理的失真,可达到加快收敛和提高生成精度的效果,重建损失为生成图像与目标图像之间的L1距离。
感知L1损失用于减少生成人物姿势的扭曲和失真,且可以使生成图像看起来更自然,该损失在一些超分辨率重建[24]、风格转换[25]、姿势迁移[26]任务中具有有效性。
3 实验结果与分析本文模型基于PyTorch框架编写,GPU卡为NVIDIA Tesla-V100。超参数的设置使用动量为0.5的Adam优化器对模型进行800个epoch的训练,每一个epoch进行17 000次迭代,采用每隔80个epoch将学习率下降20%的线性衰减学习率调整策略。
3.1 实验设计 3.1.1 数据集本文实验在DeepFashion数据集[27]上进行训练和测试,该数据集包含52 712张分辨率为256×256像素的高清且具有多人物、多姿势和不同外观的人物图像,其中人物数量以及每个人物的姿势和外观丰富,使得该数据集被广泛应用于人体姿势迁移算法的训练和测试中。为了尽量简化输入图片的信息,在预处理阶段把每张图片切割为176×256像素的分辨率,去除多余的背景,使用人体姿态估计算法OpenPose获取每张图像的人体关键点数据。利用在数据集中随机抽取的方法配对相同人物在不同姿势下的101 967个图像对用于训练,8 571个图像对用于测试,经预处理后的部分图像如图 3所示。
![]() |
Download:
|
图 3 DeepFashion数据集示例 Fig. 3 Example of DeepFashion dataset |
本文使用感知评分(IS)、结构相似性(SSIM)和峰值信噪比(PSNR)来评价生成模型的性能和模型生成图像的质量。
IS是用来评价GAN生成图像的质量和多样性的常用指标,其无需跟真实图像比较,只需生成多张图像即可计算。IS在ImageNet中被提出,计算时需使用预训练的Inception Net V3生成图像信息,IS值越大,说明GAN网络生成图像的质量和多样性越好。SSIM是一种用于衡量2张图像相似度的常用指标,用于计算的2张图像分别为真实图像和生成图像,该指标衡量2个样本间的亮度、对比度和结构,计算时每次从图像上取一个分辨率为N×N的窗口单独计算,然后滑动窗口依次计算,最后取平均值作为全局SSIM值,SSIM值越高,说明生成图像与源图像差异越小。PSNR是使用最为广泛的图像画质评价指标,其提供了衡量图像失真或噪声水平的客观标准,PSNR值越高,说明生成图像的失真程度越低。为了比较各方法之间的差异性,本文对所有生成图像的SSIM和PSNR指标进行成对t检验(Paired t-test),该指标用于检验2个样本平均数与其各自所代表的总体的差异是否显著,成对t检验的p值小于0.05,表示2个样本差异显著,反之,则表示2个样本差异不明显。IS指标对多张图像进行度量,无法进行成对t检验,实验仅报告全体测试样本上的度量。
3.2 损失曲线对比本文模型和ADGAN在训练时总损失
![]() |
Download:
|
图 4 损失曲线比较 Fig. 4 Comparison of loss curves |
为了测试网络中加入的2个隐空间回归的有效性,设计2组消融实验,分别使用基础网络加姿势回归以及基础网络加纹理回归,在DeepFashion测试集中进行定性和定量测试,定性测试结果如图 5所示,定量测试结果如表 1所示,最优结果加粗表示。
![]() |
Download:
|
图 5 循环一致性约束对网络影响的定性结果 Fig. 5 Qualitative results of the impact of cycle consistency constraints on networks |
![]() |
下载CSV 表 1 循环一致性约束对网络影响的定量结果 Table 1 Quantitative results of the impact of cycle consistency constraints on networks |
从图 5和表 1可以看出:当删除姿势回归之后,生成图像质量稍有下降,人物的一些细节有一定的失真,IS、PSNR、SSIM指标略微下降,但是差异显著;当删除纹理回归之后,生成人物无法保持真实性,仅能看出姿势略有一致,人物纹理外观完全没有保持,IS、PSNR、SSIM指标均有较为明显的下降,并且差异显著,造成该现象的原因可能是人物纹理隐空间比较复杂,在网络缺乏相应约束时,生成图像的人物纹理想要保持与条件人物纹理一致将变得非常困难。该实验结果表明,模型中加入纹理回归和姿势回归具有有效性。
3.4 与其他模型的比较给定一些从测试集中选取的源人物图像和期望生成的目标姿势,本文模型可以生成符合目标姿势的自然且真实的结果,部分实验结果如图 6所示。
![]() |
Download:
|
图 6 部分实验结果示例 Fig. 6 Some examples of experimental results |
为了评估本文模型在人体姿势迁移图像生成任务中的有效性,将其与ADGAN和PATN这2个被广泛使用的人体姿势迁移模型进行对比实验,分为定性比较和定量比较。ADGAN和PATN均使用原文作者发布的在DeepFashion数据集上训练出的预训练权重进行测试,测试集使用预先从数据集中划分出的8 571个测试图像对,3个模型的输入输出图像分辨率均设置为176×256像素。
定性比较结果如图 7所示,可以看出,在相同源人物下进行较为复杂的姿势迁移时,本文模型生成图像的效果在视觉上优于PATN,略优于ADGAN,在人体纹理(如衣服、发型等)方面本文模型更准确。定量比较结果如表 2所示,表中展示3种指标在3个模型上的表现,以及本文模型与其他2个模型的SSIM和PSNR指标t-test的p值,从中可以看出,本文模型具有最高的IS值,说明生成图像服饰多样性较好,在SSIM值上与ADGAN相当,从成对t检验指标上可以看出差异不显著,在PSNR指标上本文模型最高,并且与其他模型相比差异显著,说明本文模型生成的图像效果失真度最小,能够保证生成图像的质量。
![]() |
Download:
|
图 7 3种模型的生成图像比较 Fig. 7 Comparison of images generated by three models |
![]() |
下载CSV 表 2 3种模型的性能比较结果 Table 2 Performance comparison results of three models |
PATN模型由于没有在网络中加入人体语义分割信息,仅对人体姿势信息使用级联式结构进行编码,在训练过程中损失了过多人体纹理信息,导致生成的人物图像纹理失真比较严重,仅能较好地保证生成图像人物姿势的一致性。本文模型和ADGAN模型都加入了人体语义分割信息,并且采用分解组件编码结构,在编码时加强了人物纹理信息,最终生成图像的质量都优于PATN。本文模型在分解组件编码的基础上又增加了源人物姿势信息,在编码后的特征中保留了人物纹理与源人物姿势之间的对应关系,进一步提高了对人物纹理的编码能力。此外,本文模型还添加了循环一致性约束,使生成人物图像的纹理、姿势信息与源人物图像的纹理、姿势信息更容易保持一致,对于具有复杂纹理的人物图像依然可以保证纹理稳定性以及准确性。
4 结束语本文提出一种姿势引导分解组件编码的姿势迁移人物图像生成对抗网络。在生成人物分解样式编码时引入人体姿势关键点的条件信息,将AdaIN输入处全连接结构的融合模块替换为多层卷积结构,进一步提取人物姿势分解组件的特征,从而加强模型中人物姿势和纹理的关联度。此外,对生成图像和纹理编码加入循环一致性约束,提高网络生成图像中人物纹理的精度和姿势的一致性。DeepFashion数据集上的实验结果表明,条件分解组件编码较直接分解编码具有更快的收敛速度,在IS、SSIM、PSNR指标上本文模型较对比模型有明显优势,人物生成图像质量有一定提升。
本文在训练生成对抗网络时提供更多的条件信息并增加更多的约束条件,使得网络的生成图像效果得到增强,但是,本文模型依然存在一些局限性,在生成具有复杂姿势的人物时会有失真,这是由于DeepFashion数据集中人物姿势较为单一,具有复杂姿势的人物训练数据偏少,在模型中缺乏对生成人物姿势的有效约束条件。下一步将扩充训练集中的复杂姿势人物图像,在模型中增加针对生成人物姿势的有效约束,从而解决上述问题。
[1] |
朱海琦, 李宏, 李定文. 基于单幅图像学习的生成对抗网络模型[J]. 计算机工程, 2021, 47(8): 271-276, 283. ZHU H Q, LI H, LI D W. Generative adversarial network model based on single image learning[J]. Computer Engineering, 2021, 47(8): 271-276, 283. (in Chinese) |
[2] |
MEN Y F, MAO Y M, JIANG Y N, et al. Controllable person image synthesis with attribute-decomposed GAN[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 5083-5092.
|
[3] |
GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[EB/OL]. [2021-10-05]. https://arxiv.org/abs/1406.2661.
|
[4] |
MIRZA M, OSINDERO S. Conditional generative adversarial nets[EB/OL]. [2021-10-05]. https://www.semanticscholar.org/reader/353ecf7b66b3e9ff5e9f41145a147e899a2eea5c.
|
[5] |
LIU L L, ZHANG H J, XU X F, et al. Collocating clothes with generative adversarial networks cosupervised by categories and attributes: a multidiscriminator framework[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, 31(9): 3540-3554. DOI:10.1109/TNNLS.2019.2944979 |
[6] |
ISOLA P, ZHU J Y, ZHOU T H, et al. Image-to-image translation with conditional adversarial networks[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 5967-5976.
|
[7] |
RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation[C]//Proceedings of International Conference on Medical Image Computing and Computer-Assisted Intervention. Berlin, Germany: Springer, 2015: 234-241.
|
[8] |
WANG T C, LIU M Y, ZHU J Y, et al. High-resolution image synthesis and semantic manipulation with conditional GANs[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 8798-8807.
|
[9] |
ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2017: 2242-2251.
|
[10] |
WEI Y Y, ZHANG Z, WANG Y, et al. DerainCycleGAN: rain attentive CycleGAN for single image deraining and rainmaking[J]. IEEE Transactions on Image Processing, 2021, 30: 4788-4801. DOI:10.1109/TIP.2021.3074804 |
[11] |
GAO R, HOU X S, QIN J, et al. Zero-VAE-GAN: generating unseen features for generalized and transductive zero-shot learning[J]. IEEE Transactions on Image Processing, 2020, 29: 3665-3680. DOI:10.1109/TIP.2020.2964429 |
[12] |
CHAN C, GINOSAR S, ZHOU T H, et al. Everybody dance now[C]//Proceedings of IEEE/CVF International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2019: 5932-5941.
|
[13] |
WANG T C, LIU M Y, TAO A, et al. Few-shot video-to-video synthesis[EB/OL]. [2021-10-05]. https://arxiv.org/pdf/1910.12713.pdf.
|
[14] |
MA L Q, JIA X, SUN Q R, et al. Pose guided person image generation[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Washington D. C., USA: IEEE Press, 2017: 405-415.
|
[15] |
KARRAS T, LAINE S, AILA T M. A style-based generator architecture for generative adversarial networks[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 4396-4405.
|
[16] |
HUANG X, BELONGIE S. Arbitrary style transfer in real-time with adaptive instance normalization[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2017: 1510-1519.
|
[17] |
ZHU Z, HUANG T T, SHI B G, et al. Progressive pose attention transfer for person image generation[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 2342-2351.
|
[18] |
ZHANG J S, LI K, LAI Y K, et al. PISE: person image synthesis and editing with decoupled GAN[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2021: 7978-7986.
|
[19] |
LIANG X D, GONG K, SHEN X H, et al. Look into person: joint body parsing & pose estimation network and a new benchmark[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(4): 871-885. DOI:10.1109/TPAMI.2018.2820063 |
[20] |
LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2014: 740-755.
|
[21] |
SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2021-10-05]. https://arxiv.org/pdf/1409.1556.pdf.
|
[22] |
LU Y, TAI Y W, TANG C K. Attribute-guided face generation using conditional CycleGAN[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 282-297.
|
[23] |
CAO Z, HIDALGO G, SIMON T, et al. OpenPose: realtime multi-person 2D pose estimation using part affinity fields[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(1): 172-186. DOI:10.1109/TPAMI.2019.2929257 |
[24] |
LEDIG C, THEIS L, HUSZÁR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 105-114.
|
[25] |
JOHNSON J, ALAHI A, FEI-FEI L. Perceptual losses for real-time style transfer and super-resolution[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2016: 694-711.
|
[26] |
SIAROHIN A, SANGINETO E, LATHUILIÈRE S, et al. Deformable GANs for pose-based human image generation[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 3408-3416.
|
[27] |
LIU Z W, LUO P, QIU S, et al. DeepFashion: powering robust clothes recognition and retrieval with rich annotations[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 1096-1104.
|