开放科学(资源服务)标志码(OSID):
高分辨率距离像(High-Resolusion Response Profile,HRRP)能够提供目标的重要分布细节、结构特征信息等可识别信息,被广泛应用于弹道导弹目标识别。但对于非合作目标,其观测频率极低,导致带标签样本量严重不足,极大地限制了深度学习算法在HRRP目标识别中的应用[1-3]。
受“二人零和博弈”的启发,GOODFELLOW等于2014年提出了生成对抗网络(Generative Adversarial Networks,GAN)框架[4],解决了生成模型的泛化问题[5-6]。相较于蒙特卡洛估计和玻尔兹曼机信念网络,应用于HRRP数据增扩时GAN学习过程不涉及马尔科夫链和近似推理,能够充分利用分段线性单元;相较于变分自编码器,GAN是渐进一致的,且没有变分下界的限制,不需要引入决定性偏置;相较于非线性独立分量分析,GAN不需要限制HRRP数据的维度[7]。文献[8]提出了一种基于深度生成网络的雷达数据生成方法,通过训练深度生成网络训练生成HRRP数据。文献[1]结合了图像翻译理论与二次精炼模型,在保证模型原始结构信息的同时,增强了HRRP样本的多样性和辨识度。由此可见,利用GAN可以有效地实现HRRP数据增扩。
GAN在数据增扩领域具有较多的应用,但也存在模式崩溃、生成样本多样性缺失、模型评价困难等问题。近年来,研究者针对这些问题开展了广泛的研究,提出了多种模型:LSGAN[8]利用最小二乘损失函数代替损失函数惩罚离群数据,有效解决了GAN训练不稳定的问题;PGGAN[9]通过渐进增大方式训练GAN以提高生成质量;SGAN[10]通过自顶向下堆叠多个GAN,并在对抗损失的基础上同时引入条件损失,利用高层条件信息和熵损失生成真实、可靠的数据;SinGAN[11]包含了为从单幅图像进行内部学习而探索的多尺度网络结构,提高了生成质量。但利用上述衍生模型对HRRP数据进行增扩时,样本数量过少所带来的过拟合导致的模式崩溃现象尤为突出,即生成器生成某种模式的样本并有效欺骗了判别器后,持续生成该模式的样本,造成生成样本模式单一,缺乏多样性。
针对模式崩溃问题,EGHBAL-ZADEH提出了混合密度生成对抗网络(Mixture Density Generative Adversarial Networks,MDGAN)[12],通过对真实样本经判别器编码后的输出进行聚类,计算假样本经判别器后的输出与类中心间的距离并反馈给生成器,使其发现数据中的不同模式,提高生成样本的多样性。但MDGAN也存在一些缺陷:随着网络深度增加,容易造成多层神经网络之间信息传递不流畅,导致梯度消失;生成器采用传统的神经网络,特征提取能力不足;由于模型和参数量的差别,生成器和判别器的训练速度不同,其损失函数的收敛情况不同,导致网络稳定性差。
为获得多样性、真实性和稳定性更好的HRRP数据,本文利用MDGAN提出一种基于误差匹配分布的混合密度生成对抗网络(EMD-MDGAN)。针对梯度消失的问题,在生成器中引入残差结构,通过跳层连接实现数据流的跨层流动,保证网络深度增加后仍然能够维持各层神经网络之间的信息流通;针对特征提取能力较弱的问题,在生成器中引入注意力机制,增强神经网络解码过程中有用特征的作用,消除冗余特征和有害特征的影响;针对稳定性较差的问题,在MDGAN损失函数中引入误差匹配分布的思想均衡生成器和判别器的训练速度,使网络更易收敛。
1 MDGAN模型MDGAN[12]模型由生成器G和判别器D组成,生成器为一个规则的神经网络解码器,判别器为一个具有
![]() |
Download:
|
图 1 MDGAN模型架构 Fig. 1 Architecture of MDGAN model |
真样本
MDGAN能够发现数据中的不同模式,提高生成样本的多样性,但MDGAN也存在梯度消失、特征提取能力不足、网络稳定性差等缺陷。本文基于MDGAN提出一种基于误差匹配分布的混合密度生成对抗网络(EMD-MDGAN),在生成器中引入残差结构,通过引入跳层连接实现数据流的跨层流动;在生成器中引入注意力机制,在神经网络解码过程中,增强有用特征的作用,提高特征提取能力;在MDGAN损失函数中引入误差匹配分布的思想,均衡生成器和判别器的训练速度,使网络更易收敛。
2.1 EMD-MDGAN的生成器与判别器本文以传统的自编码器为基础,将生成器与残差网络、注意力机制相结合,并采用一个具有5维输出的全连接神经网作为误差匹配的混合密度生成网络中的判别器。由于sigmoid在循环过程中能够不断地增强特征效果,在特征相差明显时效果尤其明显,因此本文选择sigmoid作为生成器与判别器的输出层。EMD-MDGAN生成器和判别器结构如图 2所示。
![]() |
Download:
|
图 2 EMD-MDGAN生成器与判别器结构 Fig. 2 Structure of EMD-MDGAN generator and discriminator |
增加网络深度能够使网络具有更好的非线性表达能力,学习更为复杂的特征变换,提取数据的深层特征,增强网络对于复杂模型的拟合能力[13],但同时也会带来计算资源的消耗、模型容易过拟合、梯度消失等问题。在图 2中,残差网络(Residual Network)[14]通过引入跳层连接实现了恒等映射,使得数据流可以跨层流动,保证多层神经网络在加深网络后仍然能够维持各层神经网络之间的信息流通。将残差网络与生成器模型相结合,能够有效增强生成器模型对于真实数据的深层特征提取能力,在保证网络训练稳定性的同时,解决梯度消失的问题,提升生成数据的质量。
由于MDGAN生成器采用传统的神经网络,受限于神经单元的数量,神经网络拟合的函数受限制,特征提取能力较弱。如图 2所示,本文在MDGAN生成器的基础上引入注意力机制。一方面,可以让输入向量之间的作用方式是相乘,拟合更复杂的函数模型,且可以被应用到任意类型的输入;另一方面,注意力机制能够选择特定的输入,使一个神经网络能够只关注其输入的一部分信息,即增强有用特征的作用,消除冗余特征和有害特征的影响。
2.2 EMD-MDGAN的损失函数生成对抗网络稳定性差、不易训练等问题的核心原因在于生成器模型与判别器模型损失下降不均衡,从而导致生成器模型与判别器模型训练不对称,即判别器模型训练过于优异而生成器模型训练不够充分[15]。如果生成样本不能被鉴别器正确区分,那么两者间的误差分布应当是相同的,也包括它们的预期误差。
边界均衡生成对抗网络(Boundary Equilibrium Generative Adversarial Network,BEGAN)[16]是一种基于Wasserstein距离的均衡增强方法,其采用误差匹配分布而不是直接匹配样本分布,即优化自编码器损失分布间距离,而不是样本间距离。BERTHELOT等通过公式推导及实验验证证明了误差匹配分布能够降低时间复杂度,提高模型的稳定性,且不要求判别器函数为K-Lipschitz限制[16]。
本文将损失匹配分布的思想融入MDGAN的损失函数中,通过估计误差的分布而不是直接估计分布来拟合GAN,均衡生成器和判别器的训练速度。给定判别器和生成器参数
$ \left\{\begin{array}{l}\underset{\mathrm{G}}{\mathrm{m}\mathrm{i}\mathrm{n}}\underset{\mathrm{D}}{\mathrm{m}\mathrm{a}\mathrm{x}}{E}_{x\sim{p}_{\mathrm{d}\mathrm{a}\mathrm{t}\mathrm{a}}}\left[\mathrm{l}\mathrm{o}{\mathrm{g}}_{a}\left(\mathrm{l}\mathrm{k}\left(\mathrm{D}\left(x\right)\right)\right)\right]+\\ {E}_{x \sim {p}_{z}}\left[\mathrm{l}\mathrm{o}{\mathrm{g}}_{a}\left(\lambda -\mathrm{l}\mathrm{k}\left(\mathrm{D}\left(\mathrm{G}\left(z\right)\right)\right)\right)\right]\\ \mathrm{L}\mathrm{o}\mathrm{s}{\mathrm{s}}_{\mathrm{D}}=\mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}\left(x;{\theta }_{\mathrm{D}}\right)-\mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}\left(G\left({z}_{\mathrm{D}};{\theta }_{\mathrm{G}}\right);{\theta }_{\mathrm{D}}\right)\\ \begin{array}{cc}\mathrm{L}\mathrm{o}\mathrm{s}{\mathrm{s}}_{\mathrm{G}}=-\mathrm{L}\mathrm{o}\mathrm{s}{\mathrm{s}}_{\mathrm{D}}& \end{array}\end{array}\right. $ | (1) |
其中:
对于判别器D的输出
$ \mathrm{l}\mathrm{k}\left(e\right)=\sum\limits _{i=1}^{n}{w}_{i}\cdot {\mathit{\Phi}} \left(e;{{\boldsymbol{\mu}}}_{i}, {\mathit{{\pmb{\Sigma }} }}_{\mathit{i}}\right) $ | (2) |
其中:真实样本数量为
为保持生成器与判别器损失函数之间的平衡状态,当两者处于平衡状态时:
$ E\left[\mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}\left(x\right)\right]=E\left[\mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}\left(\mathrm{G}\left(z\right)\right)\right] $ | (3) |
本文使用弹头、高仿诱饵、简单诱饵、球形诱饵和母舱5类弹道目标的HRRP数据集[17],每类目标样本数量为3 601(3 601个不同方位角),每类样本数据维数为256(距离单元个数为256)。
利用弹道目标HRRP数据集对EMD-MDGAN模型的稳定性和HRRP增扩效果进行验证:通过生成器、判别器的损失函数变化趋势验证EMD-MDGAN模型的稳定性;通过对比真实数据与生成数据经判别器编码后的输出在聚类后的空间中的分布状态验证生成HRRP数据的多样性;通过辅助分类器的分类准确率,以及IS、FID、KID量化指标验证生成HRRP数据的真实性、多样性。实验中使用优化器Adam训练网络,学习率设置为0.002,动量设置为0.5,每个批次设置为64个样本。
3.1 稳定性对比GAN稳定意味着生成器和判决器的损失函数在一定范围内能够收敛。MDGAN模型改进前后生成器的损失函数g_loss、判别器的损失函数d_loss随迭代次数的变化趋势分别如图 3和图 4所示。
![]() |
Download:
|
图 3 生成器损失函数曲线 Fig. 3 Loss function curve of generator |
![]() |
Download:
|
图 4 判别器损失函数曲线 Fig. 4 Loss function curve of discriminator |
从图 3、图 4可以看出,随着迭代次数的增加,EMD-MDGAN模型与原模型相比,生成器和判别器的损失函数波动幅度较小,g_loss在14 000次迭代后收敛于1,d_loss在18 000次迭代后收敛于1.05,而MDGAN模型生成器和判别器的损失函数在迭代22 000次内震动较大。由此可知,应用于HRRP数据集增扩,EMD-MDGAND的稳定性较原模型得到了较大提升,网络更易收敛。这是由于EMD-MDGAND在MDGAN的损失函数的基础上引入了误差匹配分布的思想,更新损失分布间的距离,而非样本间的距离,均衡了生成器和判别器的训练速度,使网络更易收敛。
3.2 多样性对比实验生成数据经过判别器编码后的输出在聚类后的空间中的分布状态能够显示生成数据的多样性,即在每个簇的周围分布越均匀,意味着生成了多种模式的样本,其多样性更好。簇的数量不同,分布情况也不相同。根据数据集中数据的类别,本文选择簇数量为25的情况,对真实样本与生成样本的分布进行对比,结果如图 5所示。
![]() |
Download:
|
图 5 簇数量为25时真实样本与生成样本的分布 Fig. 5 Distribution of real samples and generated samples when the number of clusters is twenty-five |
从图 5中可以看出,应用于HRRP数据增扩时,簇数量为25时,虽然生成样本相比于真实样本在编码器的输出空间中的分布存在分布不均的现象,但生成样本在绝大多簇附近均有分布,说明生成样本具有一定的多样性。
3.3 辅助判别器在HRRP数据中难以直观地获取可识别信息,使用可视化方法对评价HRRP生成数据的质量作用十分有限。因此,本文通过构建神经网络作为验证分类器评判生成数据的可靠性和多样性。验证分类器结构如图 6所示。
![]() |
Download:
|
图 6 验证分类器结构 Fig. 6 Structure of validation classifier |
验证分类器的数据集设置及分类结果如表 1所示。在数据集data_1中,按照1∶1的比例随机划分训练集和测试集;在数据集data_2中,随机抽取50%的真实数据作为训练集,随机抽取相同数量的生成数据作为测试集;在数据集data_3中,随机抽取50%的真实数据作为测试集,随机抽取相同数量的生成数据作为训练集;data_4、data_5中测试集与data_1相同,随机抽取50%真实数据,并分别按照真实数据,生成数据=1∶0.5、1∶1的比例构造训练集。分类准确率随迭代次数变化趋势如图 7所示。
![]() |
下载CSV 表 1 验证分类器的数据集设置及分类准确率结果 Table 1 Data set setting and classification accuracy for classifier validation |
![]() |
Download:
|
图 7 分类准确率随迭代次数变化趋势 Fig. 7 Trend of classification accuracy with iteration times |
1)数据集data_1使用HRRP真实数据作为分类器的训练集和测试集,最高82.74%的分类准确率说明了分类器在真实数据上具有一定的识别能力,并可将其作为后续实验对比的基准。
2)数据集data_2、data_3的分类准确率略低于数据集data_1,说明结合了残差网络和注意力机制的生成器模型能够提取真实样本的深层特征,捕获更多细节特征,生成具有一定的真实性、可靠性的数据,使得生成数据与真实数据的分布形式大致相同。
3)数据集data_1、data_4、data_5的分类准确率依次递增,说明生成数据在少量真实数据的基础上,能够产生更多变化,为真实样本带来数据增扩效果,即EMD-MDGAN模型能够生成不同模式的生成数据,有效地改善模式崩溃的问题。
3.4 GAN评价指标IS(Inceptiokn Score)[18]、FID(Fréchet Inception Distance)[19]、KID(Kernel Inception Distance)[20]均为GAN网络中的主要评价指标。IS通过熵的大小来衡量清晰度和多样性,但只考虑了生成样本,没有考虑真实数据,无法反映真实数据和样本之间的距离,且存在对神经网络内部权重十分敏感,不能判别出网络是否过拟合等问题。相比IS,FID有了很大改进,其能计算真实样本与生成样本在特征空间之间的距离,对噪声有更好的鲁棒性,但也有和IS同样的缺陷,如不适合在内部差异较大的数据集上使用、无法区分过拟合等。KID是一种基于特征的差异性度量方式,其采用最大均值差异(MMD)算法,通过计算Inception表征之间最大均值差异的平方来度量2组样本之间的差异,其值越大表明2个分布差异越大,越小表明分布越相似。与依赖经验偏差的FID不同,KID有一个三次核的无偏估计值,其能更一致地匹配人类的感知。从上述度量理论中可以看出,IS、FID、KID的计算方式与维度无关,同样适用于一维HRRP数据生成样本的质量评价。EMD-MDGAN模型与经典衍生模型IS、FID、KID对比结果如表 2所示。
![]() |
下载CSV 表 2 不同模型的IS、FID、KID对比结果 Table 2 IS、FID、KID comparative results of different models |
从表 2中不同模型的评价指标可得到以下结论:
1)应用于HRRP增扩时,MDGAN模型与DCGAN[21]、WGAN[22]、WGAN-GP[23]、LSGAN[24]、BEGAN[16]等经典衍生模型相比,在IS、KID指标中的表现较好,而在FID指标中的表现一般,这是数据集较小导致过拟合造成的。
2)由于注意力机制能够拟合更复杂的数据分布,使神经网络只关注其输入中较为重要的特征,忽略冗余特征,而结合了残差网络的自编码器能够通过引入跳层连接实现数据流的跨层流动,更好地提取真实样本的深层特征,因此仅加入残差网络或注意力机制的MDGAN模型相比于原始MDGAN模型在IS、FID、KID量化评价指标中均有所提升,即注意力机制与残差网络对提高生成数据的质量均有贡献。
3)在生成器的自编码器中同时结合注意力机制与残差网络,并在损失函数中融入误差匹配分布思想的EMD-MDGAN模型,在IS、FID、KID量化评价指标中表现均最优,从实验的角度证明了上述改进并不互斥,能够共同作用提高生成数据的质量,使生成样本与真实样本的分布间差异更小。
4 结束语本文基于误差匹配提出一种改进的混合密度生成对抗网络(MDGAN)模型用于HRRP数据集增扩。该模型在原模型生成不同模式样本的基础上使网络更易收敛,改善原模型应用于一维数据生成稳定性不足的问题,同时将不同比例的生成样本加入训练集中,使分类准确率逐步提升。实验结果表明,本文模型在IS、FID、KID指标中均有良好表现,证明了生成样本分布与真实样本分布间的差异更小,生成样本更具有真实性。但由于加入残差网络与注意力机制后网络变得更复杂并且参数有所增加,因此EMD-MDGAN模型的时间复杂度较高。如何在提高网络稳定性和生成质量的同时降低时间成本,将是下一步的研究目标。
[1] |
YU X. A study on radar High-Resolution Response Profile(HRRP) generation method based on generating confrontation network[D]. Xiamen: Xiamen University, 2019. (in Chinese) 余宪. 基于生成对抗网络的雷达高分辨距离像生成方法研究[D]. 厦门: 厦门大学, 2019. |
[2] |
WANG J J, LIU Z, XIE R, et al. Radar HRRP target recognition based on dynamic learning with limited training data[J]. Remote Sensing, 2021, 13(4): 750. DOI:10.3390/rs13040750 |
[3] |
GUO Z K, TIAN L, HAN N, et al. Radar HRRP based few-shot target recognition with CNN-SSD[J]. Journal of Xi'an University of Electronic Science and Technology, 2021, 48(2): 7-14. (in Chinese) 郭泽坤, 田隆, 韩宁, 等. 采用CNN-SSD的雷达HRRP小样本目标识别方法[J]. 西安电子科技大学学报, 2021, 48(2): 7-14. |
[4] |
GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[EB/OL]. [2021-02-10]. https://arxiv.org/pdf/1406.2661.pdf.
|
[5] |
SU J M, LIU H F, XIANG F T, et al. Survey of interpretation methods for deep neural networks[J]. Computer Engineering, 2020, 46(9): 1-15. (in Chinese) 苏炯铭, 刘鸿福, 项凤涛, 等. 深度神经网络解释方法综述[J]. 计算机工程, 2020, 46(9): 1-15. |
[6] |
CHAI M T, ZHU Y P. Research and application progress of generative adversarial networks[J]. Computer Engineering, 2019, 45(9): 222-234. (in Chinese) 柴梦婷, 朱远平. 生成式对抗网络研究与应用进展[J]. 计算机工程, 2019, 45(9): 222-234. |
[7] |
SONG Y H, WANG Y H, LI Y, et al. Radar HRRP generation technology based on depth generation network[J]. Signal Processing, 2019, 35(6): 1118-1122. (in Chinese) 宋益恒, 王彦华, 李阳, 等. 基于深度生成网络的雷达HRRP生成技术[J]. 信号处理, 2019, 35(6): 1118-1122. |
[8] |
MAO X, LI Q, XIE H, et al. Least squares generative adversarial networks[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2016: 2813-2821.
|
[9] |
KARRAS T, AILA T, LAINE S, et al. Progressive growing of GANs for improved quality, stability, and variation[EB/OL]. [2021-02-10]. https://arxiv.org/pdf/1710.10196.pdf.
|
[10] |
HUANG X, LI Y, POURSAEED O, et al. Stacked generative adversarial networks[EB/OL]. [2021-02-10]. https://arxiv.org/pdf/1612.04357v4.pdf.
|
[11] |
SHAHAM T R, DEKEL T, MICHAELI T. SinGAN: learning a generative model from a single natural image[C]//Proceedings of 2019 IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press: 2019: 4569-4579.
|
[12] |
EGHBAL-ZADEH H. Mixture density generative adversarial networks[EB/OL]. [2021-02-10]. https://arxiv.org/pdf/1811.00152.pdf.
|
[13] |
MONTUFAR G F, PASCANU R, CHO K, et al. On the number of linear regions of deep neural networks[C]//Proceedings of NIPS'14. Vancouver, Canada: [s. n. ], 2014: 2924-2932.
|
[14] |
HE K M, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Ppattern Recognition. Washington D.C., USA: IEEE Press, 2016: 770-778.
|
[15] |
YAN B. A study on image data generation technology based on confrontational network[D]. Chengdu: Institute of Optoelectronic Technology, Chinese Academy of Sciences, 2020. (in Chinese) 颜贝. 基于对抗式网络的图像数据生成技术研究[D]. 成都: 中国科学院光电技术研究所, 2020. |
[16] |
BERTHELOT D, SCHUMM T, METZ L. BEGAN: boundary equilibrium generative adversarial networks[EB/OL]. (2017-05-31)[2021-02-10]. https://arxiv.org/pdf/1703.10717.pdf.
|
[17] |
XIANG Q, WANG X D, LI R, et al. HRRP image recognition based on DCNN ballistic midcourse target[J]. Systems Engineering and Electronic Technology, 2020, 42(11): 2426-2433. (in Chinese) 向前, 王晓丹, 李睿, 等. 基于DCNN的弹道中段目标HRRP图像识别[J]. 系统工程与电子技术, 2020, 42(11): 2426-2433. DOI:10.3969/j.issn.1001-506X.2020.11.03 |
[18] |
BARRATT S, SHARMA R. A note on the inception score[EB/OL]. [2021-02-10]. https://arxiv.org/pdf/1801.01973.pdf.
|
[19] |
HEUSEL M, RAMSAUER H, UNTERTHINER T, et al. GANs trained by a two time-scaleupdate rule converge to a local Nash equilibrium[C]//Proceedings of NIPS'17. Long Beach, USA: [s. n. ], 2017: 6626-6637.
|
[20] |
BINKOWSKI M, SUTHERLAND D J, ARBEL M, et al. Demystifying MMD GANs[EB/OL]. [2021-02-10]. https://www.researchgate.net/publication/322306034_Demystifying_MMD_GANs.
|
[21] |
RADFORD A, METZ L, CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks[EB/OL]. [2021-02-10]. https://arxiv.org/pdf/1511.06434.pdf.
|
[22] |
ARJOVSKY M, CHINTALA S, BOTTOU L E O. Wasserstein GAN[EB/OL]. [2021-02-10]. https://arxiv.org/pdf/1701.07875.pdf.
|
[23] |
GULRAJANI I, AHMED F, ARJOVSKY M, et al. Improved training of Wasserstein GANs[EB/OL]. [2021-02-10]. https://arxiv.org/pdf/1704.00028.pdf.
|
[24] |
MAO X, LI Q, XIE H, et al. Least squares generative adversarial networks[EB/OL]. [2021-02-10]. https://arxiv.org/pdf/1611.04076.pdf.
|