近年来, 随着语音识别技术的迅速发展, 特别是深度神经网络(Deep Neural Networks, DNN)在大词汇量连续语音识别中的成功应用, 使语音的识别正确率得到了很大的提升。语音识别系统一般包含特征提取、声学模型和解码识别3个部分[1]。特征提取是将原始数据中提取有利于后续过程中语音识别的部分特征, 消除大量冗余信息, 对这些特征进行降维和去噪处理[2]。声学模型训练利用特征和标注训练模型来区分隐马尔科夫模型(Hidden Markov Model, HMM)状态, 包括高斯混合模型(Gaussian Mixture Model, GMM)、深度信念网络(Deep Belief Networks, DBN)[3]、深度神经网络[4]和瓶颈-高斯混合模型(BottleNeck-GMM, BN-GMM)。
在DNN-HMM声学模型之前, GMM-HMM声学模型具有完善的理论知识体系, 训练效率较高。传统的语音识别声学模型采用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient, MFCC)特征对GMM-HMM进行建模。但是MFCC特征具有短时的特性, 容易受到环境中噪声的影响, 鲁棒性较差, 忽略了连续帧之间的相关特性[5]。为利用GMM-HMM的性能优势, 文献[6-7]研究了一种具有狭窄中间层的瓶颈深度神经网络, 从神经网络的瓶颈层提取BN特征来代替MFCC特征, 并应用于GMM-HMM声学模型训练, 构造出BN-GMM-HMM, 实验结果表明, 该模型与DNN-HMM声学模型相比具有相当的识别能力。
本文将深度神经网络提取的语音长时相关性和紧凑性特征与传统MFCC特征相结合, 构造一种新的复合特征参数流系统。该系统采用成熟的GMM-HMM声学模型, 并利用复合特征参数流进行GMM-HMM模型的重构, 以提升系统的识别率。
1 声学特征的提取 1.1 基于深度神经网络的瓶颈特征提取2007年, GREZL等人[8]提出瓶颈的概念并在连续语音识别中成功应用。通过在BN-DBN引入瓶颈层减少了输出特征的维度, 降低了后续的运算复杂度[9]。本文采用基于DNN模型的瓶颈声学特征, 其训练与其他应用于语音识别的DNN训练程相似。输入数据为39维(12维滤波器输出值, 1维对数能量和两者的一阶、二阶差分)、帧长为25 ms、帧移为10 ms、11帧拼接的MFCC特征[10]。
本文采用的DNN由输入层、5层隐层和输出层构成。相邻的两层神经元之间相互连接, 层内神经元不连接[11]。基于BN-DNN的语音特征提取可以分为以下2个主要步骤:
步骤1 建立DNN。DNN的训练分成神经网初始化和参数更新2个阶段, 即预训练(Pre-training)和微调(Fine-tuning), 建立一个训练好的DNN[12]。
1) Pre-training阶段:采用贪婪算法进行非监督的方法训练一个受限玻尔兹曼机(Restricted Boltzmann Machine, RBM), 再通过从底向上的方式训练多个RBM, 底层RBM的输出值作为高层的输入值, 获得一个DBN网络。
本文RBM的能量函数为高斯-伯努利型, 可表示为:
| $ \begin{array}{*{20}{l}} {E(v, h;\theta ) = }\\ { - \sum\limits_{i = 1}^{\rm{I}} {\sum\limits_{j = 1}^{\rm{J}} {\frac{{{w_{ij}}{h_j}{v_i}}}{{{\sigma _i}}}} } - \sum\limits_{i = 1}^I {\frac{{{{\left( {{v_i} - {b_i}} \right)}^2}}}{{2{\sigma ^2}}}} - \sum\limits_{j = 1}^J {{a_j}} {h_j}} \end{array} $ | (1) |
其中, θ代表模型参数, vi代表第i个显层神经元, hj代表第j个隐层神经元, Wij代表第i个神经元和第j个神经元的连接权重, σi代表控制能量宽度的参数, bi代表显层神经元的第i个偏置, aj代表隐层神经元的第j个偏置。
利用梯度下降(Gradient Descent, GD)算法对RBM的对数似然概率logap(v, h; θ)进行计算, 其推导公式为:
| $ - \frac{{\partial {{\log }_a}p(v, h;\theta )}}{{\partial \theta }} = \left( {\frac{{\partial {E_{{\rm{data }}}}(v, h)}}{{\partial \theta }}} \right) - \left( {\frac{{\partial {E_{\bmod el{\rm{ }}}}(v, h)}}{{\partial \theta }}} \right) $ | (2) |
其中,
| $ {\Delta {W_{.j}} = \sum\limits_{l = 1}^m p \left( {{h_j} = 1\mid {v^l}} \right){v^l} - {{\tilde v}^\prime }p\left( {{h_j} = 1\mid v} \right)} $ | (3) |
| $ {\Delta {b_i} = \sum\limits_{l = 1}^m p \left( {v_i^l = 1\mid h} \right) - p\left( {\tilde v_i^\prime = 1\mid h} \right)} $ | (4) |
| $ {\Delta {a_j} = \sum\limits_{l = 1}^m p \left( {{h_j} = 1\mid {v^l}} \right) - p\left( {{h_j} = 1\mid {{\tilde v}^\prime }} \right)} $ | (5) |
其中, (~)表示由CD算法获得对vi的估计值, 式(3)~式(5)是一个非监督的预训练过程, 可将RBM调整到合适的初始值。
2) Fine-tuning阶段:在最后一个RBM处采取反向传播(Back Propagation, BP)算法对整个神经网自顶向下进行有监督地微调训练, 完成DNN的建立。DNN的结构如图 1所示。
|
Download:
|
| 图 1 DNN结构 Fig. 1 Structure of DNN | |
步骤2 训练好DNN后, 将瓶颈层后面网络移除, 瓶颈层当作输出层获取BN特征[9]。BN-DNN结构如图 2所示。
|
Download:
|
| 图 2 BN-DNN结构 Fig. 2 Structure of BN-DNN | |
从图 2可以看出[13], 隐层3为瓶颈层, 将提取的MFCC声学特征作为输入数据经过显层和隐层对网络进行无监督预训练, 并采取BP算法对整个神经网由后往前进行有监督地微调训练, 完成DNN的建立。训练好模型后, 将隐层3之后的隐层4、隐层5及输出层去除, 并将瓶颈层作为输出层。DNN具有强大的分类能力, 可以从数据中学习更有利于特定分类任务的特征表示, 因此提取出的语音瓶颈特征更有效。
1.2 新复合特征的构造复合特征是指传统的短时特征和非短时差异特征复合后形成新的特征参数流。2010年, 吕丹桔等人[14]提出将传统的短时特征如MFCC/PLP特征与采用ANN技术提取具有差异特征的MLP复合构成新的复合特征向量, 利用构造出的复合特征GMM-HMM声学建模在汉语的声学特征的识别率上比单特征有了明显提高。2018年, 周楠等人[15]在藏语的研究中进行了瓶颈复合特征的相关实验, 结果表明, 复合特征相比于单BN特征和DNN后验特征系统, 识别率有了明显改善。本文采取DNN模型提取瓶颈特征与MFCC特征相结合构造出一个新的复合特征参数。
复合特征提取步骤如下:
1) 对语音的原始数据预处理得到MFCC特征。
2) 训练基于最大似然准则的GMM-HMM声学模型, 并通过区分性训练优化GMM模型。
3) 采用步骤2优化好的GMM模型对训练标注进行强制对齐, 获取帧级标注用于DNN训练。
4) 通过Pre-training初始化前面得到的DNN网络参数, 并根据交叉熵准则Fine-tuning训练DNN网络。
5) 移除上一步骤得到的DNN网络中瓶颈层之后的网络, 将瓶颈层作为输出层, 获取BN特征。
6) 将上述步骤获取的BN特征和MFCC特征进行串接获取复合特征。
复合特征的流程如图 3所示。
|
Download:
|
| 图 3 复合特征的训练流程 Fig. 3 Training procedure of compound features | |
本文采用三音素模型进行训练。三音素模型采用A_B_C形式, B为当前状态, A和C分别为前后状态, 对三音素单元使用自左向右的无状态间跨越的三状态HMM, 每个HMM拓扑结构前后都有一个开始状态和一个结束状态[17]。
基于最大似然准则的GMM-HMM声学模型, 其输入为39维特征, 帧长为25 ms, 帧移为10 ms, HMM中的每个状态设置100个独立的高斯分量。
2.2 瓶颈特征的GMM-HMM模型建立由DNN作为特征提取模块提取出BN特征并使用GMM-HMM进行声学建模所构成的系统称为级联系统[18]。首先训练一个DNN-bottleneck神经网络提取瓶颈特征。输入层神经元数目=输入特征的帧数×每帧的维数, 即输入层节点429=39×11;隐层中的神经元数目通常设置应尽量大, 使得它可以提升深度神经网络的性能, 且除BN层以外, 其他隐层的神经元数目相等; 瓶颈层的神经元数目通常设置和特征的单帧维数一样。因此, 本文的BN-DNN的结构表示为:429-[1 024-1 024-39-1 024-1 024]-429。最后, 将得到的BN特征训练GMM-HMM模型, 进行识别解码。
2.3 复合特征的GMM-HMM模型建立复合特征的GMM-HMM模型的训练采用提取的39维BN特征和39维传统MFCC特征进行串接, 得到78维高维度复合特征, 经过主成分分析法(Principal Component Analysis, PCA)降维[19-20]后, 获得39维的复合特征, 重复2.2节中复合特征提取步骤中的步骤2的训练方法, 训练复合特征的GMM-HMM声学模型并进行识别解码。复合特征的声学模型建立过程如图 4所示。
|
Download:
|
| 图 4 复合特征的声学模型建立过程 Fig. 4 Process of acoustic model establishing with compound features | |
实验过程如下:
1) 数据集
本文采用TIMIT声学-音素学连续语音语料库来验证实验的有效性, 共包含4.3 h的语音数据(其中包含1.1 h的NIST测试数据)。数据集中训练集包含462个不同发音人朗读的4 620个句子, 测试集包含162个不同发音人朗读的1 620个句子, 且训练集与测试集没有同一个说话人。
2) 参数的设置
在Pre-training阶段, 所有的RBM使用CD算法配合小批量随机梯度下降法进行训练, 每一个mini-batch的大小为128, 冲量因子设置为0.9, 不使用权重衰减, 学习率训练200代RBM。在Fine-tuning阶段, 所有的参数设置和预训练阶段相同。
3) 评估标准
本文将词错误率(Word Error Rate, WER)作为评估标准。WER的公式为:
| $ \mathrm{WER}=\frac{S+D+I}{N} \times 100 \% $ | (6) |
其中, S为替换数, D为删除数, I为插入数, N为单词数。
2.5 结果分析实验1 隐层中神经元个数的最优设置
在实验1中, 本文通过调整BN-DNN模型中隐层的神经元个数确定最佳的网络结构配置。隐层依次设置为256、512、1 024、2 048这4种情况, 每个隐层神经元个数相同, 且BN层神经元数目临时设置为39。不同神经元个数的模型性能比较如表 1所示。
|
下载CSV 表 1 不同神经元个数的复合特征声学模型性能比较 Table 1 Performance comparison of composund features acoustic models with different numbers of neurons |
从表 1可以看出, 在DNN为五层隐层的情况下, 除瓶颈层神经元数目为39外, 其他隐层均为1 024时, 新的复合特征建立的声学模型效果达到最佳。从而验证在2.2节提出的深度神经网络模型中, 隐层神经元数目尽量大可以提升深度神经网络, 在神经元数目达到1 024时, WER达到最小值13.75%, 神经元数目继续增加, WER反而增加。所以, 神经元数目并不是越大越好, 五层隐层效果最好的神经元数目为1 024。
实验2 BN层中神经元个数的最优设置
根据实验1确定隐层神经元数目为1 024, 改变BN层中神经元的个数, 分别设置为20、30、39及40这4种情况来确定BN层为39个神经元时是否为最优参数。不同BN层的模型性能比较如表 2所示。
|
下载CSV 表 2 不同BN层的复合声学模型性能比较 Table 2 Performance comparison of composund acoustic models of different BN layers |
从表 2可以看出, 在BN层数改变的4种情况下, WER并没有太大的改变, 在最大差距数目为39时, 比20降低了0.11%, 在最小差距数目为39时, 比30降低了0.06%, 但验证了BN层神经元数目为39时, 根据新的复合特征建立的GMM-HMM声学模型性能最好。
实验3 4种不同特征的声学模型识别率的对比
MFCC特征、BN特征及新的复合特征进行GMM-HMM声学建模以及深度神经网络后验特征的识别结果对比如表 3所示。
|
下载CSV 表 3 不同模型识别的词错误率 Table 3 Word error rate recognized by different models |
从表 3可以看出, 与其他语音特征相比, 基于深度神经网络的瓶颈特征与传统MFCC特征的复合特征具有最佳的识别效果。相比单一的MFCC特征WER下降5.63%, 与单一的瓶颈特征相比, 深度神经网络后验特征具有相当的识别性能。而复合特征的识别效果相比于深度神经网络后验特征和单一瓶颈特征分别提高了3.56%和3.67%。这是因为当训练数据与测试数据相匹配时, 使用BN特征相比于MFCC特征能获得更低的错误率, 但是当训练数据与测试数据不匹配时, BN特征与MFCC特征复合才能获得更好的识别率。
3 结束语本文针对TIMIT语音数据集连续语音识别, 将语音数据中提取到的MFCC特征作为输入数据, 经过最大似然准则训练GMM-HMM声学模型, 并根据区分性训练优化GMM模型。通过预训练初始化参数并根据交叉熵准则微调训练DNN网络, 移除训练好的DNN网络瓶颈层之后的网络, 从而获取具有更强区分性的BN特征。将MFCC特征和BN特征进行串接, 建立复合特征的GMM-HMM声学模型。实验结果表明, 深度神经网络提取的BN特征在识别效果上比传统的MFCC特征更具优势, 两者串接而成的复合特征的声学模型在识别率上有了大幅提升, 从而验证了本文声学建模方法较优的识别性能。下一步拟将不同的深度神经网模型与传统的MFCC特征进行对比, 构建复合的声学模型, 以期获得更好的识别率。
| [1] |
SCHWARZ P.Phoneme recognition based on long temporal context[EB/OL].[2013-09-10].http://speech.fit.Vutbr.cz/soft-ware/Phoneme-recognizer-based-long-temporal-context.
|
| [2] |
WANG Yi, YANG Junan, LIU Hui, et al. Bottleneck feature extraction method based on hierarchical deep sparse belief network[J]. Pattern Recognition and Artificial Intelligence, 2015, 28(2): 173-180. (in Chinese) 王一, 杨俊安, 刘辉, 等. 基于层次稀疏DBN的瓶颈特征提取方法[J]. 模式识别与人工智能, 2015, 28(2): 173-180. |
| [3] |
MOHAMED A R, DAHL G, HINTON G. Acoustic modeling using deep belief networks[J]. IEEE Transactions on Audio, Speech and Language Processing, 2012, 20(1): 14-22. DOI:10.1109/TASL.2011.2109382 |
| [4] |
DAHL G E, YU D, DENG L, et al. Context-dependent pre-trained deep neural networks for large vocabulary speech recognition[J]. IEEE Transactions on Audio, Speech and Language Processing, 2012, 20(1): 30-42. DOI:10.1109/TASL.2011.2134090 |
| [5] |
LUO Yuan, LIU Yu, ZHANG Yi, et al. Speech bottleneck feature extraction method based on overlapping group lasso sparse deep neural network[J]. Journal of Speech Communication, 2018, 99: 56-61. DOI:10.1016/j.specom.2018.02.005 |
| [6] |
YU D, SELTZER M.Improved bottleneck features using pre-trained deep neural networks[C]//Proceedings of the 12th Annual Conference of the International Speech Communication Association.Florence, Italy: [s.n.], 2011: 237-240.
|
| [7] |
LIU Yuqing, WANG Tianhao, XU Xu. New adaptive activation function for deep learning neural networks[J]. Journal of Jilin University Science Edition, 2019, 57(4): 857-859. (in Chinese) 刘宇晴, 王天昊, 徐旭. 深度学习神经网络的新型自适应激活函数[J]. 吉林大学学报(理学版), 2019, 57(4): 857-859. |
| [8] |
GREZL F, KARAFIATT M, KONTAR S, et al.Probabilistic and bottle-neck features for LVCSR of meetings[C]//Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing.Honolulu, USA: IEEE Press, 2007: 757-760.
|
| [9] |
CHEN Lei, YANG Junan, WANG Yi, et al. A feature extraction method based on discriminative and adaptive bottleneck deep belief network in large vocabulary continuous speech recognition system[J]. Journal of Signal Processing, 2015, 31(3): 290-298. (in Chinese) 陈雷, 杨俊安, 王一, 等. LVCSR系统中一种基于区分性和自适应瓶颈深度置信网络的特征提取方法[J]. 信号处理, 2015, 31(3): 290-298. |
| [10] |
SINISCALCHI S M, YU D, DENG L, et al. Speech recognition using long-span temporal patterns in a deep network Model[J]. IEEE Signal Processing Letters, 2013, 20(3): 201-204. DOI:10.1109/LSP.2013.2237901 |
| [11] |
WANG Zhaokai, LI Yaxing, FENG Xupeng, et al. Personalized information recommendation based on deep belief network[J]. Computer Engineering, 2016, 42(10): 201-206. (in Chinese) 王兆凯, 李亚星, 冯旭鹏, 等. 基于深度信念网络的个性化信息推荐[J]. 计算机工程, 2016, 42(10): 201-206. |
| [12] |
LI Jinhui, YANG Junan, WANG Yi. New feature extraction method based on bottleneck deep belief networks and its application in language recognition[J]. Computer Science, 2014, 41(3): 263-266. (in Chinese) 李晋徽, 杨俊安, 王一. 一种新的基于瓶颈深度信念网络的特征提取方法及其在语种识别中的应用[J]. 计算机科学, 2014, 41(3): 263-266. |
| [13] |
PINTO J, SIVARAM G S V S, DOSS M M, et al. Analysis of MLP based hierarchical phoneme posterior probability estimator[J]. IEEE Transcations on Audio, Speech, and Language Processing, 2010, 19(2): 225-241. |
| [14] |
LÜ D, HOFFMEISTER B. Study on the compounding of Chinese phonetic acoustics[J]. Journal of Yunnan University (Natural Science Edition), 2010, 32(Sup): 368-371. (in Chinese) 吕丹桔, HOFFMEISTER B. 汉语语音声学特征复合的研究[J]. 云南大学学报(自然科学版), 2010, 32(增刊): 368-371. |
| [15] |
ZHOU Nan, ZHAO Yue, LI Yaoqiang, et al. Study on continuous speech recognition based on bottleneck features for Lhasa-Tibetan dialect[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2018, 54(2): 249-254. (in Chinese) 周楠, 赵悦, 李要嫱, 等. 基于瓶颈特征的藏语拉萨话连续语音识别研究[J]. 北京大学学报(自然科学版), 2018, 54(2): 249-254. |
| [16] |
LIU Diyuan.Research on BN features based acoustic modeling and its application in keyword retrieval[D].Hefei: University of Science and Technology of China, 2015.(in Chinese) 刘迪源.基于BN特征的声学建模研究及其在关键词检索中的应用[D].合肥: 中国科学技术大学, 2015. |
| [17] |
LI Yunhong, LIANG Sicheng, JIA Kaili, et al. An improved speech recognition base on DNN-HMM model[J]. Journal of Applied Acoustics, 2019, 38(3): 371-377. (in Chinese) 李云红, 梁思程, 贾凯莉, 等. 一种改进的DNN-HMM的语音识别方法[J]. 应用声学, 2019, 38(3): 371-377. |
| [18] |
QIN Chuxiong, ZHANG Lianhai. Deep neural network base feature extraction for low-resource speech recognition[J]. Acta Automatica Sinica, 2017, 43(7): 1208-1219. (in Chinese) 秦楚雄, 张连海. 基于DNN的低资源语音识别特征提取技术[J]. 自动化学报, 2017, 43(7): 1208-1219. |
| [19] |
LI Haixia, WU Suyi. Attribute reduction and optimization for massive seismic data base on principal component analysis[J]. China Earthquake Engineering Journal, 2019, 41(3): 757-762. (in Chinese) 李海霞, 吴苏怡. 基于主成分分析法的海量地震数据属性降维优化[J]. 地震工程学报, 2019, 41(3): 757-762. |
| [20] |
ZHOU Bufang.A dissertation for the master degree of engineering[D].Zhangzhou: Minnan Normal University, 2017.(in Chinese) 周步芳.多标签学习的特征降维方法[D].漳州: 闽南师范大学, 2017. |
2020, Vol. 46
