一种用于因果式语音增强的门控循环神经网络

引用本文

李江和, 王玫. 一种用于因果式语音增强的门控循环神经网络[J]. 计算机工程, 2022, 48(11), 77-82. DOI: 10.19678/j.issn.1000-3428.0063047.

LI Jianghe, WANG Mei. A Gated Recurrent Neural Network for Causal Speech Enhancement[J]. Computer Engineering, 2022, 48(11), 77-82. DOI: 10.19678/j.issn.1000-3428.0063047.

基金项目

国家自然科学基金(62071135)；广西自然科学基金(2020GXNSFAA159004)

通信作者

王玫(通信作者)，教授、博士

作者简介

李江和(1996—)，男，硕士研究生，主研方向为深度学习、语音增强

文章历史

收稿日期：2021-10-26
修回日期：2021-12-16

Contents Abstract Full text Figures/Tables PDF

一种用于因果式语音增强的门控循环神经网络

李江和 , 王玫

桂林理工大学信息科学与工程学院, 广西桂林 541006

收稿日期：2021-10-26；修回日期：2021-12-16

基金项目：国家自然科学基金(62071135)；广西自然科学基金(2020GXNSFAA159004)

作者简介：李江和(1996—)，男，硕士研究生，主研方向为深度学习、语音增强.

通信作者：王玫(通信作者)，教授、博士.

E-mail: 898569751@qq.com

摘要：传统基于深度学习的语音增强方法为了提高网络对带噪语音的建模能力，通常采用非因果式的网络输入，由此导致了固定时延问题，使得语音增强系统实时性较差。提出一种用于因果式语音增强的门控循环神经网络CGRU，以解决实时语音增强系统中的固定时延问题并提高语音增强性能。为了更好地建模带噪语音信号的相关性，网络单元在计算当前时刻的输出时融合上一时刻的输入与输出。此外，采用线性门控机制来控制信息传输，以缓解网络训练过程中的过拟合问题。考虑到因果式语音增强系统对实时性要求较高，在CGRU网络中采用单门控的结构设计，以降低网络的结构复杂度，提高系统的实时性。实验结果表明，CGRU网络在增强后的语音感知质量、语音客观可懂度、分段信噪比指标上均优于GRU、SRNN、SRU等传统网络结构，在信噪比为0 dB的条件下，CGRU的平均语音感知质量和平均语音客观可懂度分别达到2.4和0.786。

A Gated Recurrent Neural Network for Causal Speech Enhancement

LI Jianghe , WANG Mei

College of Information Science and Engineering, Guilin University of Technology, Guilin, Guangxi 541006, China

Abstract: Traditional speech enhancement methods based on deep learning typically require noncausal network input to improve the modeling ability of the network for noisy speech.However, this input leads to fixed delay and poor real-time performance of the speech enhancement system.A gated recurrent neural network for causal speech enhancement called CGRU is proposed to solve the fixed delay problem in real-time speech enhancement systems and improve speech enhancement performance.The network unit fuses the input and output of the previous time when calculating the output of the current time to effectively model the correlation of noisy speech signals.In addition, the linear gating mechanism is used to control the information transmission to alleviate the over-fitting problem during the network training process. Because the causal speech enhancement system requires high real-time performance, the CGRU adopts a single-gate control structure design in its network structure design to simplify the network structure and improve the real-time performance of the system.The experimental results show that the CGRU network is superior to the Gated Recurrent Unit(GRU), Simple Recurrent Neural Network(SRNN), Simple Recurrent Unit (SRU), and other traditional network structures in terms of enhanced speech perception quality, speech objective intelligibility, Segmented Signal-to-Noise Ratio (SSNR), and other indicators.For an Signal-to-Noise Ratio (SNR) of 0 dB, the average speech perception quality and speech objective intelligibility of the CGRU reach 2.4 and 0.786, respectively.

开放科学(资源服务)标志码(OSID)：

0 概述

近年来，语音增强技术在军事、商业等领域发挥着重要作用，在工业界与学术界受到越来越多的关注。在语音识别、通信等应用领域，由于背景噪声的影响，语音质量、语音可懂度等指标大幅下降，从而导致语音识别率下降，同时给试听者带来较差的听觉体验。为解决该问题，语音增强技术在语音预处理中成为不可或缺的一部分^[1]。

当前，语音增强技术发展迅速，传统经典的语音增强算法包括谱减法^[2-3]、统计模型法^[4-6]、维纳滤波^[7-8]等。传统谱减法的关键在于对噪声频谱进行估计，通过在带噪频谱中减去噪声谱，从而得到增强后的语音频谱。在传统基于谱减法的语音增强方法中，需要对先验信噪比进行估计，但这会影响到算法性能。除此之外，基于子空间的语音增强算法^[9-10]也得到一定发展。

传统的语音增强方法均建立在数字信号处理的基础上。近年来，基于深度学习的语音增强方法逐渐引起研究人员的关注并展现出优越性能。相较传统的基于数字信号处理的语音增强方法，基于深度学习的语音增强方法在语音客观可懂度、语音感知质量(PESQ)等指标上得到大幅提升。XU等 ^[11]提出基于深度神经网络(DNN)的语音增强方法，通过多目标、多通道的网络学习，在语音可懂度、语音感知质量等指标上得到较大提升。由于语音信号在频域表现出时频相关性，为了更好地学习这种相关性，文献[12-14]提出基于卷积循环神经网络的语音增强方法，通过卷积神经网络学习频谱的空间相关性，同时利用循环神经网络学习频谱的时间相关性，研究结果表明，这种方法能更好地建模语音信号。一些学者通过研究发现，听觉特征可以提高深度学习的语音增强性能，文献[15-16]通过融合使用MFCC、Log_Mel频谱等听觉特征，提高了神经网络对语音信号的建模能力。

然而，现有基于深度学习的语音增强方法^[17-19]为了使网络更好地学习语音信号相邻帧的相关性，网络采用了非因果式的对称窗作为输入，即输入不仅为当前帧(第n帧)，而且需要先前的N帧以及后续的N帧共同作为网络的输入特征(2N+1帧)，这导致在语音增强过程中产生了固定时延，不能满足语音增强系统对实时性的要求。因果式语音增强方法仅利用当前帧(第n帧)与先前的N帧作为网络输入，从而避免了固定时延问题。文献[20]从实验中寻找适合因果式语音增强的网络结构，增强后的语音质量得到较大提升，但其并未针对网络本身结构进行改进。

本文从网络结构出发，为充分利用先前N帧语音信号的信息，提出一种用于因果式语音增强的门控循环神经网络CGRU。该网络结构单元的输出结合当前时刻的输入$ {\boldsymbol{x}}_{t} $以及上一时刻的输入$ {\boldsymbol{x}}_{t-1} $和输出$ {\boldsymbol{h}}_{t-1} $，充分利用先前帧的信息来提高网络的建模能力。在实验过程中，将本文CGRU网络与简单循环神经网络(SRNN)、门控循环神经网络(GRU)、简化循环神经网络(SRU)^[21]等传统网络结构进行性能对比，验证算法增强后的语音在短时客观可懂度(STOI)、语音感知质量、分段信噪比(SSNR)等指标上的性能表现。

1 深度学习因果式的语音增强方法

假设加性噪声为$ {\boldsymbol{n}}_{\left(t\right)} $，纯净语音信号为$ {\boldsymbol{s}}_{\left(t\right)} $，带噪语音为$ {\boldsymbol{y}}_{\left(t\right)} $，则带噪语音信号的时域表示为：

$ {\boldsymbol{y}}_{\left(t\right)}={\boldsymbol{s}}_{\left(t\right)}+{\boldsymbol{n}}_{\left(t\right)} $

(1)

为了更好地分析语音信号，一般需要对时域信号进行短时傅里叶变换(Short Time Fourier Transform，STFT)。对带噪语音信号$ \boldsymbol{y}\left(t\right) $进行的短时傅里叶变换为：

$ {\boldsymbol{Y}}_{(n, k)}={\boldsymbol{S}}_{(n, k)}+{\boldsymbol{N}}_{(n, k)} $

(2)

其中：n、k分别表示第n帧的第k个频带。本文采用基于非负幅度的特征实现语音增强实验，以验证所提方法的有效性。通过短时傅里叶变换式(2)，得到音频的频率分量。非负幅度谱^[22]可通过式(3)计算：

$ {\boldsymbol{Z}}_{(n, k)}=\mathrm{l}\mathrm{n}({\boldsymbol{Y}}_{(n, k)}+1) $

(3)

其中：$ {\boldsymbol{Y}}_{(n, k)} $为语音通过短时傅里叶变换后的幅度谱；$ {\boldsymbol{Z}}_{(n, k)} $为非负幅度谱特征。在深度学习因果式的语音增强中，语音增强可视为通过非线性函数$ {f}_{x} $实现带噪语音到纯净语音的复杂映射：

$ \begin{array}{l}{\widehat{\boldsymbol{S}}}_{n}={f}_{x}\left({\boldsymbol{X}}_{n}\right)\\ {\boldsymbol{X}}_{n}=[{\boldsymbol{Z}}_{n-N}, {\boldsymbol{Z}}_{n-N+1}, \cdots , {\boldsymbol{Z}}_{n}]\end{array} $

(4)

其中：$ x $为神经网络训练后的参数；$ {\boldsymbol{X}}_{n} $代表网络的输入特征，其为当前帧(第n帧)与先前N帧拼接而成的因果式输入特征(N+1帧)；$ \widehat{\boldsymbol{S}} $_n为神经网络对纯净语音特征的估计结果。

通过网络的不断训练迭代，得到一个从带噪语音到纯净语音的复杂映射函数，记为$ {f}_{x} $。在网络的训练过程中，本文通过多次实验发现绝对误差的语音增强效果较好，最后选择的损失函数为平均绝对误差，如下：

$ {M}_{\mathrm{M}\mathrm{A}\mathrm{E}}=\frac{1}{M}\sum\limits_{i=1}^{M}\left|\right|{f}_{x}\left({\boldsymbol{X}}_{i}\right)-{\boldsymbol{T}}_{i}\left|\right| $

(5)

其中：$ {f}_{x}\left({\boldsymbol{X}}_{i}\right) $是通过网络后得到的输出特征值，即对纯净语音非负幅度谱的估计；$ {\boldsymbol{T}}_{i} $为网络的训练标签，即目标语音的非负幅度谱；$ M $为网络在训练时采用的批量大小，本文通过实验得出$ M $的合适取值为256。

通过神经网络对带噪语音非负幅度谱$ {{\boldsymbol{Z}}_{n}}_{(n, k)} $进行估计得到纯净语音非负幅度谱，记为$ {{\boldsymbol{Z}}_{s}}_{(n, k)} $，然后利用人耳对相位不敏感的特点，通过带噪语音的相位谱$ {\boldsymbol{\varphi }}_{(n, k)} $结合估计的纯净语音非负幅度谱逆变换，得到增强后的时域语音分帧后的信号，利用重叠相加法得到估计的语音信号$ {\boldsymbol{x}}_{t} $：

$ {\boldsymbol{Y}}_{(n, k)}=\mathrm{e}\mathrm{x}\mathrm{p}({\widehat{\boldsymbol{S}}}_{(n, k)}-1)\cdot \mathrm{e}\mathrm{x}\mathrm{p}\left(\mathrm{j}{\varphi }_{(n, k)}\right) $

(6)

$ {\widehat{\boldsymbol{S}}}_{n}=\mathrm{I}\mathrm{S}\mathrm{T}\mathrm{F}\mathrm{T}\left({\boldsymbol{Y}}_{(n, k)}\right) $

(7)

$ {\boldsymbol{x}}_{t}=\mathrm{O}\mathrm{v}\mathrm{e}\mathrm{r}\mathrm{L}\mathrm{a}\mathrm{p}\left({\widehat{\boldsymbol{S}}}_{n}\right) $

(8)

对于语音信号，通过对分帧加窗(hamming窗)处理后的数据进行STFT(式(2))，得到语音信号的时频二维分量，求取频率幅度值并保存相位$ {\boldsymbol{\varphi }}_{(n, k)} $，利用幅度谱，通过式(3)可计算得到非负幅度谱特征以用于网络训练和测试。通过语音增强算法得到增强后的非负幅度谱，并经由式(6)、式(7)，联合保存的相位$ {\boldsymbol{\varphi }}_{(n, k)} $经过傅里叶逆变换得到增强后的时域语音信号，最后利用重叠相加法(式(8))恢复增强后的信号时域序列$ {\boldsymbol{x}}_{t} $。

2 门控循环神经单元 2.1 GRU门控循环神经单元

图 1所示为门控循环神经单元结构，其中$ , {\boldsymbol{x}}_{t} $、$ {\boldsymbol{h}}_{t} $、$ {\boldsymbol{h}}_{t-1} $分别为当前时刻输入、当前时刻输出以及上一时刻输出，$ {\boldsymbol{r}}_{t} $、$ {\boldsymbol{z}}_{t} $、$ {\tilde{\boldsymbol{h}}}_{t} $分别为重置门、更新门和候选隐藏状态。门控循环神经单元(GRU)采用了门控机制，在一定程度上能够缓解网络过拟合问题，且网络能够学习更长的时序关系^[23]。GRU对长短时记忆(LSTM)网络进行优化，在网络结构复杂度、网络参数量等指标上均有改进，LSTM具有3个门结构，而GRU只有重置门$ {\boldsymbol{r}}_{t} $和更新门$ {\boldsymbol{z}}_{t} $这2个门。GRU相对于LSTM网络结构复杂度更低，语音增强实时性更高，此外，GRU网络结构对语音增强系统的硬件要求更低。

	Download: JPG larger image
图 1 GRU结构 Fig. 1 Structure of GRU

GRU的单元更新关系可由式(9)表示：

$ \left\{\begin{array}{l}{\boldsymbol{z}}_{t}=\sigma ({\boldsymbol{W}}_{z}{\boldsymbol{x}}_{t}+{\boldsymbol{U}}_{z}{\boldsymbol{h}}_{t-1}+{\boldsymbol{b}}_{z})\\ {\boldsymbol{r}}_{t}=\sigma ({\boldsymbol{W}}_{r}{\boldsymbol{x}}_{t}+{\boldsymbol{U}}_{r}{\boldsymbol{h}}_{t-1}+{\boldsymbol{b}}_{r})\\ {\boldsymbol{a}}_{t}=\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\left({\boldsymbol{W}}_{a}{\boldsymbol{U}}_{a}\right({\boldsymbol{h}}_{t-1}\odot {\boldsymbol{r}}_{t})+{\boldsymbol{b}}_{a})\\ {\boldsymbol{h}}_{t}=(1-{\boldsymbol{z}}_{t})\odot {\boldsymbol{h}}_{h-1}+{\boldsymbol{z}}_{t}\odot {\boldsymbol{a}}_{t}\end{array}\right. $

(9)

其中$ ：\boldsymbol{W} $、$ \boldsymbol{U} $为权重矩阵，$ \boldsymbol{b} $为偏置项，它们均为可训练的参数；$ \odot $为Hadmard乘积；$ \sigma $为Sigmoid激活函数。

2.2 CGRU因果式门控循环神经单元

图 2所示为本文所设计的CGRU因果式门控循环神经单元结构。为了解决传统神经网络语音增强中因采用非因果式(输入为2N+1帧)的对称窗而产生的固定时延问题，本文采用因果式(输入为N+1帧)的网络输入。由于采用了因果式的网络输入，因此神经网络获得的语音信号特征信息衰减为非因果式输入的0.5倍，为减小其对神经网络学习的影响，本文充分利用前N帧的语音信号特征信息，在CGRU网络单元中融入上一时刻的输入特征$ {\boldsymbol{x}}_{t-1} $。

	Download: JPG larger image
图 2 CGRU结构 Fig. 2 Structure of CGRU

在图 2中，$ {\boldsymbol{x}}_{t} $、$ {\boldsymbol{h}}_{t} $、$ {\boldsymbol{x}}_{t-1} $、$ {\boldsymbol{h}}_{t-1} $分别为当前时刻的输入和输出以及上一时刻的输入和输出。CGRU神经网络单元当前时刻的输出$ {\boldsymbol{h}}_{t} $由上一时刻的输入$ {\boldsymbol{x}}_{t-1} $、上一时刻的输出$ {\boldsymbol{h}}_{t-1} $以及当前时刻的输入$ {\boldsymbol{x}}_{t} $共同决定，从而充分利用先前帧的语音信号特征。受空间注意力机制以及门控线性单元(GLU)^[24]的启发，本文在CGRU因果式门控循环神经网络的单元输入中首先计算$ {\boldsymbol{x}}_{t} $、$ {\boldsymbol{x}}_{t-1} $、$ {\boldsymbol{h}}_{t-1} $的带权特征向量：

$ \begin{array}{l}{\widehat{\boldsymbol{x}}}_{t}=\sigma \left({\boldsymbol{W}}_{x}{\boldsymbol{x}}_{t}\right)\odot {\boldsymbol{x}}_{t}\\ {\widehat{\boldsymbol{x}}}_{t-1}=\sigma \left({\boldsymbol{W}}_{x-1}{\boldsymbol{x}}_{t-1}\right)\odot {\boldsymbol{x}}_{t-1}\\ {\widehat{\boldsymbol{h}}}_{t-1}=\sigma \left({\boldsymbol{W}}_{h-1}{\boldsymbol{h}}_{t-1}\right)\odot {\boldsymbol{h}}_{t-1}\end{array} $

(10)

然后利用$ {\widehat{\boldsymbol{x}}}_{(t-1)} $、$ {\widehat{\boldsymbol{x}}}_{\left(t\right)} $计算遗忘门$ {\boldsymbol{f}}_{t} $：

$ {\boldsymbol{f}}_{t}=\sigma ({\boldsymbol{W}}_{t}{\widehat{\boldsymbol{x}}}_{t}+{\boldsymbol{W}}_{t-1}{\widehat{\boldsymbol{x}}}_{t-1}+{\boldsymbol{b}}_{f}) $

(11)

与GRU不同，CGRU的候选隐藏状态仅由当前时刻的输入$ {\boldsymbol{x}}_{t} $决定：

$ {\tilde{\boldsymbol{h}}}_{t}=\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}({\boldsymbol{W}}_{h}{\boldsymbol{x}}_{t}+{\boldsymbol{b}}_{h}) $

(12)

当前时刻网络单元的输出$ {\boldsymbol{h}}_{t} $由候选隐藏状态$ {\tilde{\boldsymbol{h}}}_{t} $、遗忘门$ {\boldsymbol{f}}_{t} $以及上一时刻输出的带权特征$ {\widehat{\boldsymbol{h}}}_{t-1} $共同决定，如式(13)所示：

$ {\boldsymbol{h}}_{t}={\boldsymbol{f}}_{t}\odot {\tilde{\boldsymbol{h}}}_{t}+(1-{\boldsymbol{f}}_{t})\odot {\widehat{\boldsymbol{h}}}_{t-1} $

(13)

为了降低网络的结构复杂度，本文仅在CGRU网络中采用一个遗忘门$ {\boldsymbol{f}}_{t} $，同时，针对在因果式语音增强中因输入语音信号特征信息减少所导致的语音增强性能下降问题，本文充分利用先前帧的语音信号特征，在当前时刻的输入$ {\boldsymbol{x}}_{t} $中融合上一时刻的输入$ {\boldsymbol{x}}_{t-1} $，同时采用GLU控制特征信息的传递，从而大幅提高网络性能。

3 实验结果与分析 3.1 实验设置

为了验证CGRU网络的有效性，本文进行对比实验。针对纯净语音，本文在TIMIT语音数据集^[25]的训练集中随机选取2 000条音频作为训练集，从测试集中随机选取500条音频作为测试集。对于训练集的噪声，本文使用文献[26]中的100种环境噪声，对于测试集的噪声，使用文献[27]中的15种噪声。在信噪比分别为-5 dB、0 dB、5 dB、10 dB这4种情况下，将从TIMIT训练集中随机选取的2 000条音频与文献[26]中的100种环境噪声随机混合生成8 000条训练数据集。在信噪比分别为-5 dB、0 dB、5 dB、10 dB这4种情况下，将从TIMIT测试集中随机选取的500条纯净语音数据与文献[27]中的15种噪声随机混合生成2 000条带噪语音测试数据集。在特征提取时，纯净语音、噪声的采样频率均设置为8 000 Hz，帧长为256(约31 ms)，帧移为128。

在keras/tensorflow2.0的环境下完成网络构建与训练。网络的初始学习率设为1e-4，为了使网络更好地收敛，设置学习率的衰减系数为1e-6，最大学习迭代次数为50次。网络训练采用批量梯度下降算法，利用Adam算法做迭代优化，批量大小设置为256。网络训练的损失函数使用平均绝对误差(MAE)。在实验过程中，分别设计4层的GRU、SRNN、SRU以及CGRU网络结构，每一层均为512个神经网络单元。

3.2 结果分析

分别对4层的GRU、SRNN、SRU以及CGRU网络结构模型进行实验。在-5 dB、0 dB、5 dB这3种信噪比条件下，测试集上的factory2、destroyerengine、buccaneer1、hfchannal 4种噪声^[27]分别与测试集中的500条纯净语音进行混合，利用4种网络模型进行语音增强对比实验，从而验证所提网络的有效性。

在本次实验中，语音增强性能评估指标选择STOI、PESQ以及SSNR。STOI的取值范围为0~1，PESQ的取值范围为-0.5~4.5，数值越大，表明增强后的语音质量越高，语音可懂度越高。表 1、表 2所示分别为不同网络模型得到的平均语音感知质量与平均语音短时可懂度。

下载CSV 表 1 平均语音感知质量对比 Table 1 Comparison of average speech perceptual quality

下载CSV 表 2 平均语音短时可懂度对比 Table 2 Comparison of average speech objective intelligibility

通过对表 1、表 2中的平均语音感知质量与平均语音短时可懂度进行分析可以发现，SRNN的语音增强效果最差，SRU与GRU具有较好的语音增强效果，这是由于简单循环神经网络并不能学习到长期依赖关系，而GRU与SRU采用的门控机制在很大程度上提升了网络的学习能力。与其他3种网络相比，本文因果式语音增强网络CGRU在语音质量与语音短时可懂度上均取得了良好表现。

在CGRU网络的单元结构中，采用门控循环神经网络的门控机制，同时，为了充分利用输入特征先前的特征信息，在当前网络的输出特征计算中，不仅整合当前时刻的输入$ {\boldsymbol{x}}_{t} $与上一时刻的输出$ {\boldsymbol{h}}_{t-1} $，而且还融合了上一时刻的输入$ {\boldsymbol{x}}_{t-1} $，从而充分利用语音信号先前的N帧特征信息。表 1和表 2的实验结果证明了因果式循环神经网络CGRU的有效性。为了进一步直观地展现CGRU的优越性，统计4种噪声的平均语音感知质量与平均语音短时可懂度，结果如图 3所示。从图 3可以看出，CGRU在语音短时可懂度上取得了最好的可懂度评分，在平均语音感知质量方面，虽然在-5 dB信噪比条件下CGRU性能略低于SRU，但是随着信噪比的增加，CGRU表现出更好的性能。

	Download: JPG larger image
图 3 平均语音感知质量与平均语音短时可懂度 Fig. 3 Average speech perceptual quality and average speech objective intelligibility

为了进一步验证CGRU的优越性，统计不同信噪比条件下4种噪声通过4种不同网络增强后得到的平均语音分段信噪比SSNR，结果如图 4所示。从图 4可以看出，在图 4(c)的destroyerengine噪声下，SRNN在-5 dB和0 dB信噪比条件下获得了较高的SSNR得分，除此之外，CGRU在增强后的语音分段信噪比评价指标上得分普遍优于其他3种网络结构，这进一步验证了CGRU的优越性。

	Download: JPG larger image
图 4 不同噪声条件下的分段信噪比结果对比 Fig. 4 Comparison of SSNR results under different noise conditions

在图 3中，相较传统的循环神经网络(GRU、SRNN)，CGRU网络在增强后的语音可懂度(STOI)、语音感知质量(PESQ)评价指标上均有较大提升。在图 4中，CGRU网络相较GRU、SRNN、SRU等传统网络在增强后的语音平均分段信噪比评价指标上也得到了提升。GRU、SRNN网络仅融合上一时刻的输出，很多情况下语音增强性能反而低于未融合上一时刻输出的SRU网络。本文CGRU网络在当前时刻的输入中融合上一时刻的输入与输出，同时采用线性门控机制控制信息传输，缓解了网络过拟合问题，提升了网络对带噪语音的建模能力，使得增强后的语音评价指标结果均取得了较大提升。

表 3所示为不同网络结构的参数量对比，从表 3可以看出，相对于GRU的双门控机制，CGRU由于采用了单门控机制，因此其参数量较少。

下载CSV 表 3 不同网络模型的参数量对比 Table 3 Comparison of parameter quantity of different network models

4 结束语

传统基于深度学习的语音增强方法采用非因果式的输入，导致产生固定时延问题，难以满足语音增强系统对实时性的需求。本文提出一种基于因果式门控循环神经网络CGRU的语音增强方法。实验结果表明，在平均语音短时客观可懂度、平均语音感知质量、分段信噪比等指标上，CGRU网络的表现均优于SRNN、GRU、SRU等传统网络。下一步将以提高语音增强系统的实时性、降低网络复杂度作为研究目标，此外，考虑到卷积神经网络能够提取频谱结构特征，后续将融合卷积神经网络同时建模音频的时间相关性与空间相关性，从而提高网络性能。

参考文献

[1]	CUI X Y, CHEN Z, YIN F L. Speech enhancement based on simple recurrent unit network[J]. Applied Acoustics, 2020, 157: 107019.
[2]	WEISS M, ASCHKENASY E, PARSONS T W. Study and development of the INTEL technique for improving speech intelligibility[EB/OL]. [2021-09-05]. https://www.semanticscholar.org/paper/Study-and-Development-of-the-INTEL-Technique-for-Weiss-Aschkenasy/0ab966a0d8be76591cbd44009a32f7ceb3d3f7ff.
[3]	KAMATH S, LOIZOU P. A multi-band spectral subtraction method for enhancing speech corrupted by colored noise[C]//Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing. Washington D. C., USA: IEEE Press, 2002: 4160-4164.
[4]	MCAULAY R, MALPASS M. Speech enhancement using a soft-decision noise suppression filter[J]. IEEE Transac-tions on Acoustics, Speech, and Signal Processing, 1980, 28(2): 137-145.
[5]	EPHRAIM Y, MALAH D. Speech enhancement using a minimum mean-square error log-spectral amplitude estimator[J]. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1985, 33(2): 443-445.
[6]	LIM J, OPPENHEIM A. All-pole modeling of degraded speech[J]. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1978, 26(3): 197-210.
[7]	LIM J S, OPPENHEIM A V. Enhancement and bandwidth compression of noisy speech[J]. Proceedings of the IEEE, 1979, 67(12): 1586-1604.
[8]	HU Y, LOIZOU P C. Incorporating a psychoacoustical model in frequency domain speech enhancement[J]. IEEE Signal Processing Letters, 2004, 11(2): 270-273.
[9]	JENSEN J, HEUSDENS R. Improved subspace-based single-channel speech enhancement using generalized super-Gaussian priors[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(3): 862-872.
[10]	YANG C H, WANG J C, WANG J F, et al. Design and implementation of subspace-based speech enhancement under in-car noisy environments[J]. IEEE Transactions on Vehicular Technology, 2008, 57(3): 1466-1479.
[11]	XU Y, DU J, HUANG Z, et al. Multi-objective learning and mask-based post-processing for deep neural network based speech enhancement[EB/OL]. [2021-09-05]. https://arxiv.org/pdf/1703.07172.pdf.
[12]	LÜ S B, HU Y X, ZHANG S M, et al. DCCRN+: channel-wise subband DCCRN with SNR estimation for speech enhancement[EB/OL]. [2021-09-05]. https://arxiv.org/pdf/2106.08672v1.pdf.
[13]	YUAN W H. Incorporating group update for speech enhancement based on convolutional gated recurrent network[J]. Speech Communication, 2021, 132: 32-39.
[14]	ZHOU L M, GAO Y Y, WANG Z L, et al. Complex spectral mapping with attention based convolution recurrent neural network for speech enhancement[EB/OL]. [2021-09-05]. https://arxiv.org/abs/2104.05267.
[15]	XU X M, HAO J J. AMFFCN: attentional multi-layer feature fusion convolution network for audio-visual speech enhancement[EB/OL]. [2021-09-05]. https://arxiv.org/abs/2101.06268.
[16]	CUI X Y, CHEN Z, YIN F L. Multi-objective based multi-channel speech enhancement with BiLSTM network[J]. Applied Acoustics, 2021, 177: 107927.
[17]	ZHANG Q, WANG D, ZHAO R, et al. Sensing to hear: speech enhancement for mobile devices using acoustic signals[J]. Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies, 2021, 5(3): 137.
[18]	SUN K, ZHANG X Y. UltraSE: single-channel speech enhancement using ultrasound[C]//Proceedings of the 27th Annual International Conference on Mobile Computing and Networking. Washington D. C., USA: IEEE Press, 2021: 160-173.
[19]	YU G C, WANG Y T, WANG H, et al. A two-stage complex network using cycle-consistent generative adversarial networks for speech enhancement[J]. Speech Communication, 2021, 134: 42-54.
[20]	袁文浩, 梁春燕, 夏斌. 基于深度神经网络的因果形式语音增强模型[J]. 计算机工程, 2019, 45(8): 255-259. YUAN W H, LIANG C Y, XIA B. Causal speech enhancement model based on deep neural network[J]. Computer Engineering, 2019, 45(8): 255-259. (in Chinese)
[21]	LEI T, ZHANG Y. Training RNNs as fast as CNNs[EB/OL]. [2021-09-05]. https://arxiv.org/pdf/1709.02755v1.pdf.
[22]	袁文浩, 孙文珠, 夏斌, 等. 利用深度卷积神经网络提高未知噪声下的语音增强性能[J]. 自动化学报, 2018, 44(4): 751-759. YUAN W H, SUN W Z, XIA B, et al. Improving speech enhancement in unseen noise using deep convolutional neural network[J]. Acta Automatica Sinica, 2018, 44(4): 751-759. (in Chinese)
[23]	KOUNDINYA S, KARMAKAR A. Online speech enhancement by retraining of LSTM using SURE loss and policy iteration[J]. Neural Processing Letters, 2021, 53(5): 3237-3251.
[24]	DAUPHIN Y N, FAN A, AULI M, et al. Language modeling with gated convolutional networks[EB/OL]. [2021-09-05]. https://arxiv.org/pdf/1612.08083.pdf.
[25]	GAROFOLO J S, LAMEL L F, FISHER W M, et al. TIMIT acoustic-phonetic continuous speech corpus [EB/OL]. [2021-09-05]. https://catalog.ldc.upen n.edu/LDC93S1.
[26]	HU G. 100 nonspeech environmental sounds[EB/OL]. [2021-09-05]. http://web.cse.ohio-state.edu/pnl/corpus/HuNonsp eech/HuCorpus.html.
[27]	VARGA A, STEENEKEN H J M. Assessment for automatic speech recognition: II. NOISEX-92: a database and an experiment to study the effect of additive noise on speech recognition systems[J]. Speech Communication, 1993, 12(3): 247-251.