基于改进TCN模型的野外运动目标分类

引用本文

范裕莹, 李成娟, 易强, 等. 基于改进TCN模型的野外运动目标分类[J]. 计算机工程, 2021, 47(9), 106-112. DOI: 10.19678/j.issn.1000-3428.0058750.

FAN Yuying, LI Chengjuan, YI Qiang, et al. Classification of Moving Targets in Fields Based on Improved TCN Model[J]. Computer Engineering, 2021, 47(9), 106-112. DOI: 10.19678/j.issn.1000-3428.0058750.

基金项目

微系统技术重点实验室基金(6142804190304)

通信作者

李宝清(通信作者), 研究员、博士

作者简介

范裕莹(1995-), 女, 硕士研究生, 主研方向为声震信号处理;
李成娟, 硕士研究生;
易强, 硕士研究生

文章历史

收稿日期：2020-06-24
修回日期：2020-08-23

Contents Abstract Full text Figures/Tables PDF

基于改进TCN模型的野外运动目标分类

范裕莹^1,2 , 李成娟^1,2 , 易强^1,2 , 李宝清¹

1. 中国科学院上海微系统与信息技术研究所微系统技术重点实验室, 上海 201800;
2. 中国科学院大学, 北京 100049

收稿日期：2020-06-24；修回日期：2020-08-23

基金项目：微系统技术重点实验室基金(6142804190304)

作者简介：范裕莹(1995-), 女, 硕士研究生, 主研方向为声震信号处理; 李成娟, 硕士研究生; 易强, 硕士研究生.

通信作者：李宝清(通信作者), 研究员、博士.

E-mail: sinoiot@mail.sim.ac.cn

摘要：野外运动目标信号的背景噪声复杂，利用单模态声音信号进行野外目标分类识别率低且鲁棒性差。针对该问题，提出一种基于声震多模态融合的网络模型。借鉴DenseNet网络密集连接的思想改进时域卷积网络，从而对四通道声音信号和单通道震动信号进行深层次的特征提取，并将两种信号相互融合得到最终的目标分类结果。同时，使用带权重的损失函数解决因数据不均衡导致的泛化性能差的问题。实验结果表明，融合网络的识别准确率达到92.92%，较单模态输入网络提高了6.63%~9.46%，且该网络具有较强的鲁棒性。

Classification of Moving Targets in Fields Based on Improved TCN Model

FAN Yuying^1,2 , LI Chengjuan^1,2 , YI Qiang^1,2 , LI Baoqing¹

1. Key Laboratory of Microsystem Technology, Shanghai Institute of Microsystem and Information Technology, Chinese Academy of Sciences, Shanghai 201800, China;
2. University of Chinese Academy of Sciences, Beijing 100049, China

Abstract: Due to the complex background noises of the moving target signals in the fields, the classification methods of moving targets based on single-mode sound signals is limited by the low recognition rate and poor robustness.To address the problem, a network model is proposed based on multi-modal fusion of sound and vibration signals.The new model is constructed based on the Temporal Convolutional Network(TCN) model, which is modified by using the idea of dense connection in DenseNet.On this basis, the deep features of the four-channel sound signals and the single-channel vibration signals are extracted.Then the two kinds of signals are fused to obtain the final target classification result.At the same time, this paper uses the weighted loss function to solve the poor generalization performance caused by data imbalance.Experimental results show that the recognition accuracy of the proposed model reaches 92.92%, which is 6.63%~9.46% higher than that of the single-mode input network models, and the model has higher robustness.

开放科学（资源服务）标志码（OSID）：

0 概述

野外监控传感网主要负责探测固定区域范围内的非法入侵目标，并将目标的一系列相关信息提供给决策者。该传感网主要由声音、震动、红外、图像等传感器节点组成，而基于声音、震动信号的探测识别方法具有隐蔽性好、能耗小、可克服光学侦探技术盲区等优点。

传统的野外运动目标分类方法主要依赖于对声音信号的特征分类。常用的特征有信号能量、能量熵、过零率、谱质心等时域特征^[1]；有基于傅里叶变换、梅尔倒谱系数^[2]、小波变换^[3]、经验模式分解^[4]等手段设计的手工特征；有融合谐波集、梅尔倒谱系数和小波能量得到的融合特征^[5]。但上述的特征只能提取信号的浅层信息且对噪声敏感，这使得传统分类方法的鲁棒性差。

随着深度学习理论的提出，卷积神经网络(Convolutional Neural Network，CNN)在计算机视觉领域得到快速发展^[6-8]。由于CNN具有较强的深层表征能力，可以提高分类识别的准确率，因此其被应用于音频处理领域，如说话人识别、环境声音分类等。但此类方法大多将音频信号转换成二维表示(如谱图)，并使用二维卷积核进行处理。使用二维表示的优势是可以把高维的波形概括成更紧凑的形式，但其缺点是网络所含参数量大，容易过拟合，识别的实时性也较差。而用一维卷积层设计出的网络参数量小，且能利用信号良好的时间结构直接从时域波形中学习声学模型。时域卷积网络(Temporal Convolutional Network，TCN)是一种典型的一维卷积神经网络，已经被证明在音频合成^[9]、单词级语言建模^[10-11]和机器翻译^[12]等领域可达到最先进的标准。相比于LSTM、GRU等标准递归网络，TCN在时间序列问题上不仅能得到更精确的输出结果，而且其结构更简单清晰。

然而，上述分类方法大部分仅利用单模态信号特征，使得复杂环境下对野外运动目标进行有效识别与跟踪存在困难，因此，基于多模态深度学习的识别技术得到重视^[13-14]。文献[15]提出基于超图的多模态关联特征识别方法，在原始多模态特征聚类划分方面取得了很好的效果。文献[16]根据语义关系建立多模态语义网络进行信息检索，相比于基于哈希索引、低秩矩阵嵌入和深度神经网络的检索方法，该方法具有更高的检索准确性。文献[17]通过获取声音、图像等多模态数据信息，利用深度学习和多模态融合技术设计相应神经网络，实现了准确的车辆分类。

与文献[17]方法相比，利用震动与声音信号进行目标识别^[18]的被动识别技术安全性高且存储内存远小于视频图像信号。本文选取声音和震动两种模态信号，设计一种双通道融合网络架构实现野外运动目标分类。由于声音、震动信号都是典型的时间序列信号，因此采用TCN作为特征提取网络。针对数据缺乏问题，利用密集连接对TCN网络进行改进；针对各类数据不均衡的问题^[19-20]，使用nll_loss损失函数为不同类型数据分别赋予相应的权重。

1 时域卷积网络 1.1 基本原理

针对传统神经网络中需要线性堆叠多层卷积才能实现对时间序列建模的问题，TCN^[21]通过采用空洞卷积增大每层感受野的范围从而达到减少卷积层数量的目的。空洞卷积与普通卷积的不同之处在于其允许卷积时的输入存在间隔采样，采样率取决于膨胀因子。

设滤波器F=(f₀，f₁，…，f_k_-1)，序列信号为S=(s₁，s₂，…，s_T)，对输入序列中t时刻的值s_t进行空洞卷积，得到式(1)。

$ F\left(s_{t}\right)=\left(F_{d} * S\right)\left(s_{t}\right)=\sum\limits_{i=0}^{k-1} f(i) \cdot S_{t-d \cdot i} $

(1)

其中：d表示膨胀因子；k表示滤波器大小。因此，膨胀卷积的操作相当于在每两个相邻的滤波器之间引入一个固定的间隔。

感受野的计算公式为：

$ R_{\mathrm{F}}=(K-1) \times d+1 $

(2)

由式(2)中可知，增大TCN感受野有2种方法，即选择更大的滤波器大小k和增加膨胀因子d。在空洞卷积操作中，膨胀因子d会随着网络深度的增加以指数方式增长，因此，卷积网络能用较少的层数获得较大的感受野。

经典的TCN网络中另一个重要的网络结构是残差模块^[22]。一个残差模块含有两层卷积和非线性映射，同时残差网络加入了跨层连接的恒等映射，使得网络以跨层的方式传递信息。这可以解决梯度消失的问题，使浅层网络很容易扩展为深层网络。

完整的TCN网络是一种全卷积网络，用卷积层代替了全连接层，并保证每个卷积层的输出与输入维度一致。

1.2 改进的TCN特征提取网络

虽然TCN网络结构简单，但是计算量大，存在参数量随网络深度成倍增长的问题。当使用小数据集训练TCN网络时，会导致网络产生过拟合现象。

DenseNet^[23]是计算机视觉领域中的一种网络结构。DenseNet网络l层的输出如式(3)所示。

$ x_{l}=H_{l}\left(\left[x_{0}, x_{1}, \cdots, x_{l-1}\right]\right) $

(3)

其中：l表示网络的层级；x_l表示$ l $层的输出；H_l表示一个非线性变换。DenseNet将0到l-1层输出的特征图拼接，再进行非线性变换。因为DenseNet每一层都包含之前所有层的输出信息，实现了特征复用，所以该网络每层卷积的通道数可以设计得相对较小。因此，针对小数据集，DenseNet能很好地解决过拟合问题。

DenseNet进行特征复用时，要求每层输出的特征图大小相等，而TCN中的Temporal-Block中添加了一个裁剪层(chomp)，保证网络每一层的特征长度相等。密集连接是实现跨层连接的另一种方式，如图 1所示，Temporal-Block作为一个整体，使用密集连接的方式相连，即图中蓝色线条部分(彩色效果见《计算机工程》官网HTML版)，而在Temporal-Block中使用残差结构实现跨层连接，因此，可将残差连接去除，即Temporal-Block中虚线部分。

	Download: JPG larger image
图 1 改进TCN模型原理 Fig. 1 Principle of improved TCN

TCN网络取每个输出通道的最后一个值进行拼接作为最后的特征，若直接改变连接方式，由于提取的部分特征来自于原始帧，因此需要再连接一个过渡模块(Transition)将特征进一步处理，此处的Transition模块舍弃了池化层，由卷积核大小核为3的Conv1d和BatchNorm1d层构成，该模块在利用一维卷积对特征进行处理的同时可减少通道数量，从而有效降低最后的特征维度，而BatchNorm1d层具有抑制过拟合的能力。本文主要是利用改进的TCN网络对声音、震动信号进行深层特征提取。

2 声震多模态融合网络模型

不同环境产生的声音信号组成成分有所不同，例如轻型轮式车在水泥路或砂石路快速行进时，胎噪是目标信号的主要来源，而在硬土路上慢速行驶时，发动机噪声和机械噪声是主要来源。震动信号主要由监控目标对地面进行冲击而产生，其信号传播主要受地质条件影响。为了有效结合运动目标两种信号的特征以达到性能互补的目的，本文提出了声震多模态融合网络模型，网络结构如图 2所示(彩色效果见《计算机工程》官网HTML版)。该模型主要包括3个模块：基于改进TCN的声音特征提取模块，基于改进TCN的震动特征提取模块以及特征融合模块。网络的输入分别是四通道的原始声音信号与单通道的原始震动信号。具体识别步骤为先将两种模态的信号进行简单预处理，利用改进的TCN网络分别提取出声音信号特征和震动信号特征，之后将两者进行融合，对运动目标进行分类。

	Download: JPG larger image
图 2 声震多模态融合网络模型结构 Fig. 2 Structure of multi-model fusion network model based on sound and vibration signals

2.1 网络输入

CNN必须能对输入的声音、震动信号进行连续预测，因为信号持续的时间不同，而使用一维CNN要求输入的样本长度必须固定，所以有必要对CNN进行调整，使其能够处理不同长度的信号。但对CNN进行相关调整的过程比较复杂，因此，可使用一个适当宽度的滑动窗口将采集到的信号分割成固定长度的帧。本文根据信号采样率使用一个可变宽度的窗口将声音、震动信号截取成适合一维CNN输入的信号帧。连续的帧之间有一定比例的重叠，其目的是最大限度地利用信息，增加样本的数量，这可以看作是一种数据扩充的手段。

2.2 网络训练

同步的声震数据采集的条件较为苛刻，因此，在自制数据集中，同步的声震数据量比不要求同步的声震数据量小。当模型的网络参数过多时，需要使用大量数据进行训练才能提高网络泛化性，否则易出现过拟合现象。本文将网络分成3个子网络进行训练，分别为声音分类子网络、震动分类子网络、融合分类子网络。此时每个子网络的参数量小于整体网络的参数量，且每个子网络都可以动态扩展训练数据量，一定程度上可防止过拟合现象。

声音子网络由基于改进TCN的声音特征提取模块和一个分类层构成。由于本文采用非平衡数据集，容易产生因样本失衡导致的网络泛化能力衰退的问题，因此本文选择nll_loss函数作为训练损失函数，通过设置参数权重改善样本失衡带来的影响。使用nll_loss损失函数时需要对常用的Softmax分类层的输出结果进行一次取对数运算，因此，分类层均选用log_softmax层。对于震动子网络，也使用上述方法进行设计。训练完成后，将两个子网络的log_softmax层去掉，得到Transition层输出的深层特征，并将两种特征进行融合，使用融合分类子网络对融合后的深层特征进行分类，其中分类融合子网络为图 2中的特征提取模块。为了在融合后的特征基础上进一步提取声音、震动信号中的不变性特征，利用两个一维卷积替代融合网络中常用的全连接层。此时因为输入的数据已经是前两个子网络提取出的深层特征，所以融合网络的收敛速度极快。

3 实验与结果分析 3.1 实验数据集

本文使用的数据集为实验室自制数据集。声音信号采集设备是一种微孔径均匀圆阵(Uniform Circular Array，UCA)，采样率为8 192 Hz。图 3为实验场景示意图，道路全长约1 km，在道路中间放置UAC，其距离路面中心的距离d有15 m、30 m、50 m 3种不同情况。

	Download: JPG larger image
图 3 实验场景示意图 Fig. 3 Schematic diagram of experiment scene

数据集中包含了不同数量、不同种类的运动目标在硬土路上的声震同步信号，运动目标分别为轻型轮式车(Small Wheel，SW)、履带车(Track Wheel，TW)、大型轮式车(Large Wheel，LW)、人(Person，P)和直升机(Helicopter，H)。以轻型轮式车和人为例，从起点到终点产生的信号时域波形图分别如图 4所示。

	Download: JPG larger image
图 4 声震信号时域波形图 Fig. 4 Time domain waveform diagrams of sound and vibration signals

实验设置的帧长为1 s，帧移为0.25 s，样本集中训练帧数约占总帧数的60%，测试帧数约占总帧数的40%，各运动目标的帧数分别如表 1和表 2所示。

下载CSV 表 1 训练集 Table 1 Training set

下载CSV 表 2 测试集 Table 2 Test set

3.2 网络参数设置

本文对信号进行简单的预处理，首先将每一帧的信号进行8倍降采样，得到1 024个点，然后进行归一化操作。为了减少网络深度，再继续降采样为256个点，因此2个特征提取网络的输入数据维度分别为4×256和1×256。网络的膨胀因子设置为2，与TCN的膨胀因子相同。经感受野计算公式可知网络至少需要6层卷积。DenseNet网络中的通道数一般设置为12，而笔者经多次实验发现，通道数设置为[12, 12, 24, 32, 48, 64]取得的效果最好。训练过程中使用Adam优化算法更新参数，训练的周期数设为200，batch_size大小设为256，学习率大小设置为0.000 1，并根据样本的数量及多次实验验证设置nll_loss函数参数权重为[1.9，1.0，1.3，2.5]。

3.3 结果分析

实验包含两个部分：1)TCN网络(TCN)与改进后的TCN网络(M_TCN)的对比，此对比实验主要关注两个网络分别针对单模态输入的结果性能比较，其中TCN网络的实验编号为1~4，改进后的TCN网络的实验编号为5和6；2)单模态输入的网络与多模态融合输入的网络对比，实验编号5和6为单模态输入的实验，实验编号7是使用声音和震动两种模态作为多模态输入的实验。为了保证结果的有效性，测试均在相同软硬件平台下进行，且信号预处理等手段相同。实验结果如表 3所示。

下载CSV 表 3 不同模型性能对比 Table 3 Performance comparison of different models

对比实验编号为2和4的实验结果可发现，当参数量较小时，识别准确率为80.49%，这是TCN网络每层通道数较小，提取特征不充分，从而导致准确率降低；当参数量增加约两倍时，识别准确率仅提高了3.27%；若继续提高参数量，则会产生过拟合，导致网络泛化性能变差。

对比实验编号为4和6的实验结果可发现，改进的TCN网络准确率虽然下降了0.3%，但是参数量减少了约34.15%。而对比四通道的声音实验(实验编号为1、3、5)发现改进的TCN网络在参数量最少的情况下，识别准确率最好。这说明改进的TCN网络利用特征复用技术，在减小每层的通道数的同时，可以保证准确率没有明显下降甚至有些情况下还可以提高准确率。

对比实验编号为5、6、7的实验结果可发现，融合了两种模态信息的网络识别准确率与使用声音信号或震动信号作为输入信号的实验相比，识别准确率有6.63%~9.46%的提升。

除此之外，由声音和震动从不同角度描述监控目标，因为两者干扰源也不相同，所以多模态融合网络可以弥补因不同干扰带来的信号损失，从而增加网络的鲁棒性。图 5所示分别为LW的声音信号测试结果、震动信号测试结果及多模态融合信号测试结果，其中，LW的标签为0。

	Download: JPG larger image
图 5 LW信号测试结果 Fig. 5 Test results of LW signals

从图 5中可以看出：背景噪声遮住了部分有效的信号，若仅靠声音信号进行目标分类，由于风噪声的存在，这类目标的识别准确率仅有64.82%，并且易将LW判别为TW(标签3)；震动信号对TW的识别准确率仅为43.65%，很难区分出LW和SW(标签1)；将两种信号进行特征融合后，可有效抵抗噪声的影响并弥补两种信号的缺点，使准确率达到85.02%。由此可见，针对仅使用声音信号和震动信号进行分类的系统，使用多模态信号进行分类的系统具有一定的鲁棒性及稳定性。

图 6是分别用声音信号、震动信号、多模态信号进行分类得到的混淆矩阵图(彩色效果见《计算机工程》官网HTML版)。将使用多模态信号作为输入的网络和使用单模态信号作为输入的网络进行对比可知，5种运动目标的识别准确率整体有了一定的提高：在使用声音信号作为输入的网络中，LW的识别率为87.77%，SW的识别率为85.59%，TW的识别率为85.01%；在使用震动信号作为输入的网络中，LW的识别率为73.54%，SW的识别率为79.90%，TW的识别率为84.30%；在多模态输入的网络中，LW、SW、TW的识别率分别为89.83%，93.43%和91.93%。野外运动目标识别的一个难点就是对不同车型的识别，而融合网络使这3种车型的识别准确率均得到了提升。同时由图 6(a)、图 6(b)中可知，各类运动目标的分类效果差异较大，并且直升机的分类准确率明显高于其他运动目标，原因主要有以下两点：1)直升机作为非车辆目标，它的信号与车辆信号相似度较低；2)直升机的样本数量较少，在训练过程中的损失函数权重最大，针对其他类型若将其直升机类型判定错误，损失函数会得到更大惩罚。但从图 6(c)中可以看出，5种运动目标的分类识别准确率比较均衡且识别效果较好。

	Download: JPG larger image
图 6 混淆矩阵图 Fig. 6 Confusion matrix diagrams

4 结束语

野外运动目标背景噪声复杂，单模态信号无法对目标进行全面描述，导致识别系统鲁棒性差且识别率低。本文构建一种声震多模态融合网络模型，先对两种模态的信号进行简单预处理，再使用改进的TCN网络提取相关特征，并将提取出的声音信号特征与震动信号特征进行融合及分类。为解决各类数据不均衡问题，采用nll_loss损失函数，对不同类型的数据分别赋予相应的权重。实验结果表明，使用TCN网络和单模态信号进行分类时准确率最高为83.08%，使用改进TCN网络和单模态信号进行分类时准确率最高为86.29%，而使用改进TCN网络和多模态信号进行分类时准确率提升到92.92%。后期将采集不同路况下的声震同步信号扩充数据集，并验证本文模型对不同路况的鲁棒性，同时结合实际项目需要对融合网络做进一步优化，使其能被移植到外场实验的硬件平台上。

参考文献

[1]	PADMAVATHI G, SHANMUGAPRIYA D, KALAIVANI M. Acoustic signal based feature extraction for vehicular classification[C]//Proceedings of the 3rd International Conference on Advanced Computer Theory and Engineering. Washington D.C., USA: IEEE Press, 2010: 11-14.
[2]	ZHOU Q, TONG G, XIE D, et al. A seismic-based feature extraction algorithm for robust ground target classification[J]. IEEE Signal Processing Letters, 2012, 19(10): 639-642. DOI:10.1109/LSP.2012.2209870
[3]	ALJAAFREH A, DONG L. An evaluation of feature extraction methods for vehicle classification based on acoustic signals[C]//Proceedings of 2010 International Conference on Networking, Sensing and Control. Washington D.C., USA: IEEE Press, 2010: 570-575.
[4]	NTALAMPIRAS S. Moving vehicle classification using wireless acoustic sensor networks[J]. IEEE Transactions on Emerging Topics in Computational Intelligence, 2018, 2(2): 129-138. DOI:10.1109/TETCI.2017.2783340
[5]	LIU C X, FANG J J, LIU Y X, et al. Application of extreme learning based on multi-class feature fusion in field terrain recognition of quadruped robots[J]. Journal of Electronic Measurement and Instrumentation, 2018, 32(2): 97-105. (in Chinese) 刘彩霞, 方建军, 刘艳霞, 等. 基于多类特征融合的极限学习在四足机器人野外地形识别中的应用[J]. 电子测量与仪器学报, 2018, 32(2): 97-105.
[6]	KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of Advances in Neural Information Processing Systems. Berlin, Germany: Springer, 2012: 1097-1105.
[7]	ZHANG X R, CHEN X, SUN W, et al. Progress of vehicle re-identification research based on deep learning[J]. Computer Engineering, 2020, 46(11): 1-11. (in Chinese) 张小瑞, 陈旋, 孙伟, 等. 基于深度学习的车辆再识别研究进展[J]. 计算机工程, 2020, 46(11): 1-11. DOI:10.3778/j.issn.1002-8331.2003-0084
[8]	SUN F Q, CONG C L, ZHANG K, et al. Benign and malignant diagnosis of breast cancer histopathological image based on multi-model neural network[J]. Journal of Chinese Computer Systems, 2020, 41(4): 732-735. (in Chinese) 孙福权, 丛成龙, 张琨, 等. 基于多模型卷积神经网络的乳腺癌病理医疗图像良恶性诊断[J]. 小型微型计算机系统, 2020, 41(4): 732-735. DOI:10.3969/j.issn.1000-1220.2020.04.010
[9]	OORD A, DIELEMAN S, ZEN H, et al. WaveNet: a generative model for raw audio[EB/OL]. (2016-09-19)[2020-04-10]. https://arxiv.org/pdf/1609.03499.pdf.
[10]	DAUPHIN Y N, FAN A, AULI M, et al. Language modeling with gated convolutional networks[C]//Proceedings of the 34th International Conference on Machine Learning. New York, USA: ACM Press, 2017: 933-941.
[11]	GEHRING J, AULI M, GRANGIER D, et al. Convolutional sequence to sequence learning[C]//Proceedings of the 34th International Conference on Machine Learning. New York, USA: ACM Press, 2017: 1243-1252.
[12]	KALCHBRENNER N, ESPEHOLT L, SIMONYAN K, et al. Neural machine translation in linear time[EB/OL]. (2017-03-15)[2020-04-10]. https://arxiv.org/pdf/1610.10099.pdf.
[13]	LI K M, ZHANG Q, LUO Y, et al. Research review of ground vehicle target recognition[J]. Acta Electronica Sinica, 2014, 42(3): 538-546. (in Chinese) 李开明, 张群, 罗迎, 等. 地面车辆目标识别研究综述[J]. 电子学报, 2014, 42(3): 538-546. DOI:10.3969/j.issn.0372-2112.2014.03.018
[14]	HE J, ZHANG C Q, LI X Z, et al. Survey of research on multimodal fusion technology for deep learning[J]. Computer Engineering, 2020, 46(5): 1-11. (in Chinese) 何俊, 张彩庆, 李小珍, 张德海. 面向深度学习的多模态融合技术研究综述[J]. 计算机工程, 2020, 46(5): 1-11.
[15]	LUO Y E, HU J C, XU Q. Multimodal correlation feature processing method based on hypergraph[J]. Computer Engineering, 2017, 43(1): 226-230. (in Chinese) 罗永恩, 胡继承, 徐茜. 基于超图的多模态关联特征处理方法[J]. 计算机工程, 2017, 43(1): 226-230. DOI:10.3969/j.issn.1000-3428.2017.01.039
[16]	DONG Y L, CHAI X Q. Two-layer image-text semantic network for multi-modal retrieval based on latent semantic[J]. Computer Engineering, 2016, 42(7): 299-303, 309. (in Chinese) 董永亮, 柴旭清. 基于潜在语义的双层图像-文本多模态检索语义网络[J]. 计算机工程, 2016, 42(7): 299-303, 309. DOI:10.3969/j.issn.1000-3428.2016.07.050
[17]	HAN L X. Research and application of special vehicle identification based on multi-mode fusion[D]. Kaifeng: Henan University, 2019. (in Chinese) 韩林轩. 基于多模态融合的特种车辆识别的研究与应用[D]. 开封: 河南大学, 2019.
[18]	JIN S. Research on vehicle model recognition based on sound and vibration signal feature fusion[D]. Xi'an: Chang'an University, 2014. (in Chinese) 靳舜. 基于声音和震动信号特征融合的车型识别研究[D]. 西安: 长安大学, 2014.
[19]	LÜ C S, WANG W G. Shilling attack detection method based on SVM under unbalanced datasets[J]. Computer Engineering, 2013, 39(5): 132-135. (in Chinese) 吕成戍, 王维国. 不均衡数据集下基于SVM的托攻击检测方法[J]. 计算机工程, 2013, 39(5): 132-135.
[20]	LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2017: 2980-2988.
[21]	BAI S, KOLTER J Z, KOLTUN V. An empirical evaluation of generic convolutional and recurrent networks for sequence modeling[EB/OL]. (2019-09-27)[2020-04-10]. https://link.csdn.net/?target=https%3A%2F%2Farxiv.org%2Fpdf%2F1803.01271.pdf.
[22]	HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 770-778.
[23]	HUANG G, LIU Z, MAATEN L, et al. Densely connected convolutional networks[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 4700-4708.