开放科学(资源服务)标志码(OSID):
近年来,语音增强技术在军事、商业等领域发挥着重要作用,在工业界与学术界受到越来越多的关注。在语音识别、通信等应用领域,由于背景噪声的影响,语音质量、语音可懂度等指标大幅下降,从而导致语音识别率下降,同时给试听者带来较差的听觉体验。为解决该问题,语音增强技术在语音预处理中成为不可或缺的一部分[1]。
当前,语音增强技术发展迅速,传统经典的语音增强算法包括谱减法[2-3]、统计模型法[4-6]、维纳滤波[7-8]等。传统谱减法的关键在于对噪声频谱进行估计,通过在带噪频谱中减去噪声谱,从而得到增强后的语音频谱。在传统基于谱减法的语音增强方法中,需要对先验信噪比进行估计,但这会影响到算法性能。除此之外,基于子空间的语音增强算法[9-10]也得到一定发展。
传统的语音增强方法均建立在数字信号处理的基础上。近年来,基于深度学习的语音增强方法逐渐引起研究人员的关注并展现出优越性能。相较传统的基于数字信号处理的语音增强方法,基于深度学习的语音增强方法在语音客观可懂度、语音感知质量(PESQ)等指标上得到大幅提升。XU等 [11]提出基于深度神经网络(DNN)的语音增强方法,通过多目标、多通道的网络学习,在语音可懂度、语音感知质量等指标上得到较大提升。由于语音信号在频域表现出时频相关性,为了更好地学习这种相关性,文献[12-14]提出基于卷积循环神经网络的语音增强方法,通过卷积神经网络学习频谱的空间相关性,同时利用循环神经网络学习频谱的时间相关性,研究结果表明,这种方法能更好地建模语音信号。一些学者通过研究发现,听觉特征可以提高深度学习的语音增强性能,文献[15-16]通过融合使用MFCC、Log_Mel频谱等听觉特征,提高了神经网络对语音信号的建模能力。
然而,现有基于深度学习的语音增强方法[17-19]为了使网络更好地学习语音信号相邻帧的相关性,网络采用了非因果式的对称窗作为输入,即输入不仅为当前帧(第n帧),而且需要先前的N帧以及后续的N帧共同作为网络的输入特征(2N+1帧),这导致在语音增强过程中产生了固定时延,不能满足语音增强系统对实时性的要求。因果式语音增强方法仅利用当前帧(第n帧)与先前的N帧作为网络输入,从而避免了固定时延问题。文献[20]从实验中寻找适合因果式语音增强的网络结构,增强后的语音质量得到较大提升,但其并未针对网络本身结构进行改进。
本文从网络结构出发,为充分利用先前N帧语音信号的信息,提出一种用于因果式语音增强的门控循环神经网络CGRU。该网络结构单元的输出结合当前时刻的输入
假设加性噪声为
$ {\boldsymbol{y}}_{\left(t\right)}={\boldsymbol{s}}_{\left(t\right)}+{\boldsymbol{n}}_{\left(t\right)} $ | (1) |
为了更好地分析语音信号,一般需要对时域信号进行短时傅里叶变换(Short Time Fourier Transform,STFT)。对带噪语音信号
$ {\boldsymbol{Y}}_{(n, k)}={\boldsymbol{S}}_{(n, k)}+{\boldsymbol{N}}_{(n, k)} $ | (2) |
其中:n、k分别表示第n帧的第k个频带。本文采用基于非负幅度的特征实现语音增强实验,以验证所提方法的有效性。通过短时傅里叶变换式(2),得到音频的频率分量。非负幅度谱[22]可通过式(3)计算:
$ {\boldsymbol{Z}}_{(n, k)}=\mathrm{l}\mathrm{n}({\boldsymbol{Y}}_{(n, k)}+1) $ | (3) |
其中:
$ \begin{array}{l}{\widehat{\boldsymbol{S}}}_{n}={f}_{x}\left({\boldsymbol{X}}_{n}\right)\\ {\boldsymbol{X}}_{n}=[{\boldsymbol{Z}}_{n-N}, {\boldsymbol{Z}}_{n-N+1}, \cdots , {\boldsymbol{Z}}_{n}]\end{array} $ | (4) |
其中:
通过网络的不断训练迭代,得到一个从带噪语音到纯净语音的复杂映射函数,记为
$ {M}_{\mathrm{M}\mathrm{A}\mathrm{E}}=\frac{1}{M}\sum\limits_{i=1}^{M}\left|\right|{f}_{x}\left({\boldsymbol{X}}_{i}\right)-{\boldsymbol{T}}_{i}\left|\right| $ | (5) |
其中:
通过神经网络对带噪语音非负幅度谱
$ {\boldsymbol{Y}}_{(n, k)}=\mathrm{e}\mathrm{x}\mathrm{p}({\widehat{\boldsymbol{S}}}_{(n, k)}-1)\cdot \mathrm{e}\mathrm{x}\mathrm{p}\left(\mathrm{j}{\varphi }_{(n, k)}\right) $ | (6) |
$ {\widehat{\boldsymbol{S}}}_{n}=\mathrm{I}\mathrm{S}\mathrm{T}\mathrm{F}\mathrm{T}\left({\boldsymbol{Y}}_{(n, k)}\right) $ | (7) |
$ {\boldsymbol{x}}_{t}=\mathrm{O}\mathrm{v}\mathrm{e}\mathrm{r}\mathrm{L}\mathrm{a}\mathrm{p}\left({\widehat{\boldsymbol{S}}}_{n}\right) $ | (8) |
对于语音信号,通过对分帧加窗(hamming窗)处理后的数据进行STFT(式(2)),得到语音信号的时频二维分量,求取频率幅度值并保存相位
图 1所示为门控循环神经单元结构,其中
![]() |
Download:
|
图 1 GRU结构 Fig. 1 Structure of GRU |
GRU的单元更新关系可由式(9)表示:
$ \left\{\begin{array}{l}{\boldsymbol{z}}_{t}=\sigma ({\boldsymbol{W}}_{z}{\boldsymbol{x}}_{t}+{\boldsymbol{U}}_{z}{\boldsymbol{h}}_{t-1}+{\boldsymbol{b}}_{z})\\ {\boldsymbol{r}}_{t}=\sigma ({\boldsymbol{W}}_{r}{\boldsymbol{x}}_{t}+{\boldsymbol{U}}_{r}{\boldsymbol{h}}_{t-1}+{\boldsymbol{b}}_{r})\\ {\boldsymbol{a}}_{t}=\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\left({\boldsymbol{W}}_{a}{\boldsymbol{U}}_{a}\right({\boldsymbol{h}}_{t-1}\odot {\boldsymbol{r}}_{t})+{\boldsymbol{b}}_{a})\\ {\boldsymbol{h}}_{t}=(1-{\boldsymbol{z}}_{t})\odot {\boldsymbol{h}}_{h-1}+{\boldsymbol{z}}_{t}\odot {\boldsymbol{a}}_{t}\end{array}\right. $ | (9) |
其中
图 2所示为本文所设计的CGRU因果式门控循环神经单元结构。为了解决传统神经网络语音增强中因采用非因果式(输入为2N+1帧)的对称窗而产生的固定时延问题,本文采用因果式(输入为N+1帧)的网络输入。由于采用了因果式的网络输入,因此神经网络获得的语音信号特征信息衰减为非因果式输入的0.5倍,为减小其对神经网络学习的影响,本文充分利用前N帧的语音信号特征信息,在CGRU网络单元中融入上一时刻的输入特征
![]() |
Download:
|
图 2 CGRU结构 Fig. 2 Structure of CGRU |
在图 2中,
$ \begin{array}{l}{\widehat{\boldsymbol{x}}}_{t}=\sigma \left({\boldsymbol{W}}_{x}{\boldsymbol{x}}_{t}\right)\odot {\boldsymbol{x}}_{t}\\ {\widehat{\boldsymbol{x}}}_{t-1}=\sigma \left({\boldsymbol{W}}_{x-1}{\boldsymbol{x}}_{t-1}\right)\odot {\boldsymbol{x}}_{t-1}\\ {\widehat{\boldsymbol{h}}}_{t-1}=\sigma \left({\boldsymbol{W}}_{h-1}{\boldsymbol{h}}_{t-1}\right)\odot {\boldsymbol{h}}_{t-1}\end{array} $ | (10) |
然后利用
$ {\boldsymbol{f}}_{t}=\sigma ({\boldsymbol{W}}_{t}{\widehat{\boldsymbol{x}}}_{t}+{\boldsymbol{W}}_{t-1}{\widehat{\boldsymbol{x}}}_{t-1}+{\boldsymbol{b}}_{f}) $ | (11) |
与GRU不同,CGRU的候选隐藏状态仅由当前时刻的输入
$ {\tilde{\boldsymbol{h}}}_{t}=\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}({\boldsymbol{W}}_{h}{\boldsymbol{x}}_{t}+{\boldsymbol{b}}_{h}) $ | (12) |
当前时刻网络单元的输出
$ {\boldsymbol{h}}_{t}={\boldsymbol{f}}_{t}\odot {\tilde{\boldsymbol{h}}}_{t}+(1-{\boldsymbol{f}}_{t})\odot {\widehat{\boldsymbol{h}}}_{t-1} $ | (13) |
为了降低网络的结构复杂度,本文仅在CGRU网络中采用一个遗忘门
为了验证CGRU网络的有效性,本文进行对比实验。针对纯净语音,本文在TIMIT语音数据集[25]的训练集中随机选取2 000条音频作为训练集,从测试集中随机选取500条音频作为测试集。对于训练集的噪声,本文使用文献[26]中的100种环境噪声,对于测试集的噪声,使用文献[27]中的15种噪声。在信噪比分别为-5 dB、0 dB、5 dB、10 dB这4种情况下,将从TIMIT训练集中随机选取的2 000条音频与文献[26]中的100种环境噪声随机混合生成8 000条训练数据集。在信噪比分别为-5 dB、0 dB、5 dB、10 dB这4种情况下,将从TIMIT测试集中随机选取的500条纯净语音数据与文献[27]中的15种噪声随机混合生成2 000条带噪语音测试数据集。在特征提取时,纯净语音、噪声的采样频率均设置为8 000 Hz,帧长为256(约31 ms),帧移为128。
在keras/tensorflow2.0的环境下完成网络构建与训练。网络的初始学习率设为1e-4,为了使网络更好地收敛,设置学习率的衰减系数为1e-6,最大学习迭代次数为50次。网络训练采用批量梯度下降算法,利用Adam算法做迭代优化,批量大小设置为256。网络训练的损失函数使用平均绝对误差(MAE)。在实验过程中,分别设计4层的GRU、SRNN、SRU以及CGRU网络结构,每一层均为512个神经网络单元。
3.2 结果分析分别对4层的GRU、SRNN、SRU以及CGRU网络结构模型进行实验。在-5 dB、0 dB、5 dB这3种信噪比条件下,测试集上的factory2、destroyerengine、buccaneer1、hfchannal 4种噪声[27]分别与测试集中的500条纯净语音进行混合,利用4种网络模型进行语音增强对比实验,从而验证所提网络的有效性。
在本次实验中,语音增强性能评估指标选择STOI、PESQ以及SSNR。STOI的取值范围为0~1,PESQ的取值范围为-0.5~4.5,数值越大,表明增强后的语音质量越高,语音可懂度越高。表 1、表 2所示分别为不同网络模型得到的平均语音感知质量与平均语音短时可懂度。
![]() |
下载CSV 表 1 平均语音感知质量对比 Table 1 Comparison of average speech perceptual quality |
![]() |
下载CSV 表 2 平均语音短时可懂度对比 Table 2 Comparison of average speech objective intelligibility |
通过对表 1、表 2中的平均语音感知质量与平均语音短时可懂度进行分析可以发现,SRNN的语音增强效果最差,SRU与GRU具有较好的语音增强效果,这是由于简单循环神经网络并不能学习到长期依赖关系,而GRU与SRU采用的门控机制在很大程度上提升了网络的学习能力。与其他3种网络相比,本文因果式语音增强网络CGRU在语音质量与语音短时可懂度上均取得了良好表现。
在CGRU网络的单元结构中,采用门控循环神经网络的门控机制,同时,为了充分利用输入特征先前的特征信息,在当前网络的输出特征计算中,不仅整合当前时刻的输入
![]() |
Download:
|
图 3 平均语音感知质量与平均语音短时可懂度 Fig. 3 Average speech perceptual quality and average speech objective intelligibility |
为了进一步验证CGRU的优越性,统计不同信噪比条件下4种噪声通过4种不同网络增强后得到的平均语音分段信噪比SSNR,结果如图 4所示。从图 4可以看出,在图 4(c)的destroyerengine噪声下,SRNN在-5 dB和0 dB信噪比条件下获得了较高的SSNR得分,除此之外,CGRU在增强后的语音分段信噪比评价指标上得分普遍优于其他3种网络结构,这进一步验证了CGRU的优越性。
![]() |
Download:
|
图 4 不同噪声条件下的分段信噪比结果对比 Fig. 4 Comparison of SSNR results under different noise conditions |
在图 3中,相较传统的循环神经网络(GRU、SRNN),CGRU网络在增强后的语音可懂度(STOI)、语音感知质量(PESQ)评价指标上均有较大提升。在图 4中,CGRU网络相较GRU、SRNN、SRU等传统网络在增强后的语音平均分段信噪比评价指标上也得到了提升。GRU、SRNN网络仅融合上一时刻的输出,很多情况下语音增强性能反而低于未融合上一时刻输出的SRU网络。本文CGRU网络在当前时刻的输入中融合上一时刻的输入与输出,同时采用线性门控机制控制信息传输,缓解了网络过拟合问题,提升了网络对带噪语音的建模能力,使得增强后的语音评价指标结果均取得了较大提升。
表 3所示为不同网络结构的参数量对比,从表 3可以看出,相对于GRU的双门控机制,CGRU由于采用了单门控机制,因此其参数量较少。
![]() |
下载CSV 表 3 不同网络模型的参数量对比 Table 3 Comparison of parameter quantity of different network models |
传统基于深度学习的语音增强方法采用非因果式的输入,导致产生固定时延问题,难以满足语音增强系统对实时性的需求。本文提出一种基于因果式门控循环神经网络CGRU的语音增强方法。实验结果表明,在平均语音短时客观可懂度、平均语音感知质量、分段信噪比等指标上,CGRU网络的表现均优于SRNN、GRU、SRU等传统网络。下一步将以提高语音增强系统的实时性、降低网络复杂度作为研究目标,此外,考虑到卷积神经网络能够提取频谱结构特征,后续将融合卷积神经网络同时建模音频的时间相关性与空间相关性,从而提高网络性能。
[1] |
CUI X Y, CHEN Z, YIN F L. Speech enhancement based on simple recurrent unit network[J]. Applied Acoustics, 2020, 157: 107019. |
[2] |
WEISS M, ASCHKENASY E, PARSONS T W. Study and development of the INTEL technique for improving speech intelligibility[EB/OL]. [2021-09-05]. https://www.semanticscholar.org/paper/Study-and-Development-of-the-INTEL-Technique-for-Weiss-Aschkenasy/0ab966a0d8be76591cbd44009a32f7ceb3d3f7ff.
|
[3] |
KAMATH S, LOIZOU P. A multi-band spectral subtraction method for enhancing speech corrupted by colored noise[C]//Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing. Washington D. C., USA: IEEE Press, 2002: 4160-4164.
|
[4] |
MCAULAY R, MALPASS M. Speech enhancement using a soft-decision noise suppression filter[J]. IEEE Transac-tions on Acoustics, Speech, and Signal Processing, 1980, 28(2): 137-145. |
[5] |
EPHRAIM Y, MALAH D. Speech enhancement using a minimum mean-square error log-spectral amplitude estimator[J]. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1985, 33(2): 443-445. |
[6] |
LIM J, OPPENHEIM A. All-pole modeling of degraded speech[J]. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1978, 26(3): 197-210. |
[7] |
LIM J S, OPPENHEIM A V. Enhancement and bandwidth compression of noisy speech[J]. Proceedings of the IEEE, 1979, 67(12): 1586-1604. |
[8] |
HU Y, LOIZOU P C. Incorporating a psychoacoustical model in frequency domain speech enhancement[J]. IEEE Signal Processing Letters, 2004, 11(2): 270-273. |
[9] |
JENSEN J, HEUSDENS R. Improved subspace-based single-channel speech enhancement using generalized super-Gaussian priors[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(3): 862-872. |
[10] |
YANG C H, WANG J C, WANG J F, et al. Design and implementation of subspace-based speech enhancement under in-car noisy environments[J]. IEEE Transactions on Vehicular Technology, 2008, 57(3): 1466-1479. |
[11] |
XU Y, DU J, HUANG Z, et al. Multi-objective learning and mask-based post-processing for deep neural network based speech enhancement[EB/OL]. [2021-09-05]. https://arxiv.org/pdf/1703.07172.pdf.
|
[12] |
LÜ S B, HU Y X, ZHANG S M, et al. DCCRN+: channel-wise subband DCCRN with SNR estimation for speech enhancement[EB/OL]. [2021-09-05]. https://arxiv.org/pdf/2106.08672v1.pdf.
|
[13] |
YUAN W H. Incorporating group update for speech enhancement based on convolutional gated recurrent network[J]. Speech Communication, 2021, 132: 32-39. |
[14] |
ZHOU L M, GAO Y Y, WANG Z L, et al. Complex spectral mapping with attention based convolution recurrent neural network for speech enhancement[EB/OL]. [2021-09-05]. https://arxiv.org/abs/2104.05267.
|
[15] |
XU X M, HAO J J. AMFFCN: attentional multi-layer feature fusion convolution network for audio-visual speech enhancement[EB/OL]. [2021-09-05]. https://arxiv.org/abs/2101.06268.
|
[16] |
CUI X Y, CHEN Z, YIN F L. Multi-objective based multi-channel speech enhancement with BiLSTM network[J]. Applied Acoustics, 2021, 177: 107927. |
[17] |
ZHANG Q, WANG D, ZHAO R, et al. Sensing to hear: speech enhancement for mobile devices using acoustic signals[J]. Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies, 2021, 5(3): 137. |
[18] |
SUN K, ZHANG X Y. UltraSE: single-channel speech enhancement using ultrasound[C]//Proceedings of the 27th Annual International Conference on Mobile Computing and Networking. Washington D. C., USA: IEEE Press, 2021: 160-173.
|
[19] |
YU G C, WANG Y T, WANG H, et al. A two-stage complex network using cycle-consistent generative adversarial networks for speech enhancement[J]. Speech Communication, 2021, 134: 42-54. |
[20] |
袁文浩, 梁春燕, 夏斌. 基于深度神经网络的因果形式语音增强模型[J]. 计算机工程, 2019, 45(8): 255-259. YUAN W H, LIANG C Y, XIA B. Causal speech enhancement model based on deep neural network[J]. Computer Engineering, 2019, 45(8): 255-259. (in Chinese) |
[21] |
LEI T, ZHANG Y. Training RNNs as fast as CNNs[EB/OL]. [2021-09-05]. https://arxiv.org/pdf/1709.02755v1.pdf.
|
[22] |
袁文浩, 孙文珠, 夏斌, 等. 利用深度卷积神经网络提高未知噪声下的语音增强性能[J]. 自动化学报, 2018, 44(4): 751-759. YUAN W H, SUN W Z, XIA B, et al. Improving speech enhancement in unseen noise using deep convolutional neural network[J]. Acta Automatica Sinica, 2018, 44(4): 751-759. (in Chinese) |
[23] |
KOUNDINYA S, KARMAKAR A. Online speech enhancement by retraining of LSTM using SURE loss and policy iteration[J]. Neural Processing Letters, 2021, 53(5): 3237-3251. |
[24] |
DAUPHIN Y N, FAN A, AULI M, et al. Language modeling with gated convolutional networks[EB/OL]. [2021-09-05]. https://arxiv.org/pdf/1612.08083.pdf.
|
[25] |
GAROFOLO J S, LAMEL L F, FISHER W M, et al. TIMIT acoustic-phonetic continuous speech corpus [EB/OL]. [2021-09-05]. https://catalog.ldc.upen n.edu/LDC93S1.
|
[26] |
HU G. 100 nonspeech environmental sounds[EB/OL]. [2021-09-05]. http://web.cse.ohio-state.edu/pnl/corpus/HuNonsp eech/HuCorpus.html.
|
[27] |
VARGA A, STEENEKEN H J M. Assessment for automatic speech recognition: II. NOISEX-92: a database and an experiment to study the effect of additive noise on speech recognition systems[J]. Speech Communication, 1993, 12(3): 247-251. |