近年来, 自动说话人确认(Automatic Speaker Verification, ASV)[1]系统因可靠、方便、低成本等特性, 被广泛应用于语音呼叫、司法取证、门禁系统及电子商务等领域。随着播放、录制语音设备的普及以及音频处理软件的出现, 语音数据的编辑、修改与合成变得更加容易, 这给ASV系统带来很大威胁。目前, ASV系统面临的4种主要攻击类型为:说话人仿冒攻击[2], 攻击者模仿合法说话人的声音; 回放语音攻击[3], 攻击者通过偷录或其他途径获取合法说话人的语音样本; 语音合成[4], 攻击者通过语音合成技术生成合法说话人的语音; 语音转换[5], 攻击者通过技术处理将自身的语音转换成具有合法说话人特征的语音。
说话人仿冒攻击需要攻击者具有很强的语音模仿能力, 已有的ASV系统可以很好地解决该类问题。语音合成与语音转换则需要攻击者具备较高的相关专业知识, 攻击难度较大。ASVspoof 2015挑战赛[6]进行语音合成和语音转换攻击检测, 取得了等错误率(Equal Error Rate, EER)为1.21%的良好结果。然而, 回放语音攻击无需任何语音信号处理专业知识, 普通人用一台可录音和播放的设备就可以对ASV系统发起攻击, 且语音来源于合法说话人。ASVspoof 2017挑战赛[7-8]提供了标准的语音库与评估规则, 以进行回放语音攻击检测, 即判断测试语音是真实语音还是回放语音, 检测结果表明, 在未知条件下, 回放语音检测方法能取得很好的检测结果。
本文引入集成学习的思想[9], 结合回放语音的特点, 提出一种基于AdaBoost算法的回放语音检测方法, 通过综合多个弱分类器的检测结果并进行加权投票, 以判定测试语音是否为回放语音。
1 基于AdaBoost的回放语音检测方法本文通过期望最大(Expectation Maximization, EM)算法迭代来训练一个通用背景模型(Universal Background Model, UBM)[10]。将训练集中的每段语音通过最大后验(Maximum A Posteriori, MAP)准则得到各自的高斯混合模型(Gaussian Mixture Model, GMM)[11]。实验结果表明, GMM中的均值包括了大量的语音信息。因此, 本文将每一个GMM的均值进行排列以形成一个高斯超矢量(Gaussian Supervector, GSV)[12]。假设高斯阶数为M, 特征矢量的维数为D, 则形成的GMM均值超矢量的维数为MD。接着, 将每段语音的类别标签(真实语音或回放语音)及其对应的GSV用于训练AdaBoost模型。最后, 按照训练阶段的方法, 将评估集中的每段语音转换成GSV, 作为已训练好的AdaBoost模型的输入, 并给出判决结果。基于AdaBoost的回放语音检测方法具体流程如图 1所示。
![]() |
Download:
|
图 1 基于AdaBoost的回放语音检测方法流程 |
本文方法的判决结果用EER表示, 定义如下[13]:
$ {\theta _{{\rm{EER}}}} = P(fa)(\theta ) = p( miss)(\theta ) $ | (1) |
其中, P(fa)(θ)表示在阈值θ处的虚警率, 其反映被判定为真实语音的样本中的回放语音数量, P(miss)(θ)表示在阈值θ处的漏警率, 其反映被判定为回放语音的真实语音数量。P(fa)(θ)与P(miss)(θ)相等时的错误率即为EER。
2 特征提取基于傅里叶的方法由于使用规则的间隔频率, 因此在频域中的滤波器形状和宽度(Q因子)可变, 而常量Q变换(Constant Q Transform, CQT)在整个频谱中有恒定的Q因子。CQT相对傅里叶变换的优势在于, 傅立叶变换在低频率下产生低频分辨率, 在高频率下产生低时间分辨率, 而CQT在2种情况下都具有高分辨率, 在回放语音检测中有很好的性能表现。常量Q倒谱系数(Constant Q Cepstral Coefficients, CQCC)[14-15]是基于CQT的特征, 最初应用于音乐处理领域。CQCC的参数提取过程如图 2所示。
![]() |
Download:
|
图 2 CQCC参数提取过程 |
CQCC参数提取步骤为:
1) 对音频信号X(n)进行音频静音段消除预处理。
2) 对信号X(n)进行CQT, 将时域信号X(n)转变为频域信号XCQ(k):
$ {X^{{\rm{CQ}}}}(k) = \frac{1}{{Nk}}\sum\limits_{n = 0}^{Nk - 1} X (n)wNk(n){{\rm{e}}^{ - {\rm{j}}\frac{{2\pi Q}}{{Nk}}n}} $ | (2) |
其中, wNk(n)是长度为Nk的窗函数, Q是CQT变换中的常数因子, k是CQT谱的频率序号, Nk值和k值有关。
3) 计算每一帧的能量谱XCQ(k)2。
4) 对能量谱XCQ(k)2取对数, 得到对数能量谱logaXCQ(k)2。
5) 进行离散余弦变换, 得到CQCC特征:
$ CQCC(p) = \sum\limits_{l = 1}^L {{{\log }_a}} {\left| {{X^{{\rm{CQ}}}}(l)} \right|^2}\cos \left[ {\frac{{p\left( {l - \frac{1}{2}} \right)\pi }}{L}} \right] $ | (3) |
其中, L是重采样后的频带数, p=0, 1, …, L-1。
CQCC没有考虑到语音帧之间的信息, 因此, 本文加入能够反映语音帧之间时变信息的动态特征, 特征参数的维数为90, 由30维的静态特征、30维的一阶差分以及30维的二阶差分组成。
3 AdaBoost算法性能分析AdaBoost算法[16]属于迭代算法, 其核心思想是针对同一个训练集训练不同的分类器(弱分类器), 然后将这些弱分类器相结合, 构成一个性能更强的分类器(强分类器)。在训练过程中, 每个训练样本被赋予一个初始权值, 当一个弱分类器训练完成后, 根据其在训练集上的分类结果来对所有的样本权值进行调整, 并计算这一弱分类器的权重。将修改过权值的新数据集传送至下一个弱分类器以进行训练。最后强分类器的判决结果是所有弱分类器结果的加权和。
AdaBoost算法使用加权后选取的训练数据代替随机选取的训练样本, 将训练的重点集中在难度较高的训练数据样本上。由于回放样本是通过真实声音录音而得, 与真实声音真假难辨, 且在回放语音检测中, 对回放样本进行识别比真实样本更为重要, 因此AdaBoost算法能够很好地适用于回放语音检测。本文采用的弱分类器类型为决策树, 算法的详细实现过程如下:
1) 给定如下的训练样本集:
S={(x1, y1), (x2, y2), …, (xi, yi), …, (xn, yn)}其中, xi是语音样本, xi∈X, yi是类别标志, yi∈Y={-1, +1}, yi=-1与yi=+1分别对应回放语音和真实语音, n表示当前训练样本数。
2) 初始化语音样本权重, 每段语音样本设置相同的权重, 如下:
$ {D_t}\left( {{x_i}} \right) = \frac{1}{n} $ | (4) |
3) 在t=1, 2, …, T(T表示弱分类器数目)时执行如下循环:
(1) 在当前的语音样本权重分布Dt下, 训练得到弱分类器:
$ ht = H\left( {x,y,{D_t}} \right) $ | (5) |
(2) 计算弱分类器的错误率:
$ {\varepsilon _t} = \sum\limits_{i = 1}^n {{D_t}} (i),{h_t}\left( {{x_i}} \right) \ne {y_i} $ | (6) |
(3) 计算弱分类器的权重:
$ {a_t} = \ln \left( {1 - {\varepsilon _t}} \right)/{\varepsilon _t} $ | (7) |
(4) 更新语音样本权重:
$ {D_{t + 1}}(i) = \left( {{D_t}(i)/{Z_t}} \right) \times \left\{ {\begin{array}{*{20}{l}} {{{\rm{e}}^{ - {a_t}}},{h_t}\left( {{x_i}} \right) = {y_i}}\\ {{{\rm{e}}^{{a_t}}},{h_t}\left( {{x_i}} \right) \ne {y_i}} \end{array}} \right. $ | (8) |
其中, Zt为归一化因子。
4) 得到强分类器:
$ H(x) = {\rm sign} \left( {\sum\limits_{n = 1}^N {{a_t}} ,{h_t}(x)} \right) $ | (9) |
本文实验语音数据采用ASVspoof 2017语音库[17], 划分为3个子集:训练集, 开发集, 评估集。语音库信息如表 1所示。
![]() |
下载CSV 表 1 ASVspoof 2017语音库信息 |
在表 1中, 回放设置包含不同的回放环境、播放设备种类与录音设备种类的组合, 回放会话数指共享同一种回放设置的音频文件集。从表 1可以看出, 相对于训练集和开发集, 评估集有大量不同的回放设置, 意味着评估集包含大量在训练集和开发集中不存在的偷录样本, 其目的在于检验回放语音检测方法在未知条件下的性能。
4.1 关系因子对检测结果的影响关系因子[18]用来调整UBM模型中的参数, 其会影响GSV的形成结果。在说话人识别中, 关系因子通常取8~16, 但是在已有回放语音检测中, 较少有关于关系因子取值方面的研究。本文研究不同关系因子对检测结果的影响, 实验结果如表 2所示, 黑体表示最优结果(下同), 本次实验条件:UBM的阶数为512, AdaBoost弱分类器个数为100, 关系因子分别取0、2、4、6和8。
![]() |
下载CSV 表 2 关系因子对实验结果的影响 |
由表 2可以看出, 当关系因子取0时, EER取得了最小值, 原因是当关系因子大于0时, 保留了没有经过更新的高斯分量, 这些高斯分量对结果产生了负面影响, 当关系因子等于0时, 更新所有的高斯分量, 可以得到较好的结果。
4.2 GSV维数对检测结果的影响GSV包含大量的语音信息, GSV维数大小对检测结果具有重大影响。维数太小, 将无法准确地描述语音信息; 维数太大, 存储、训练和分类所需的计算量、时间都过大。因此, GSV维数的选择至关重要。本次实验条件:AdaBoost弱分类器个数为100, 特征参数为90维, UBM的阶数分别取32、64、128、256和512, 对应的GSV维数分别为2 880、5 760、11 520、23 040和46 080, 关系因子取0。实验结果如表 3所示。
![]() |
下载CSV 表 3 GSV维数对实验结果的影响 |
从表 3可以看出, 当维数较小时, GSV包含的语音信息较少, 导致检测结果较差。当维数过高时, GSV包含过多无用信息, 同样导致系统性能下降。当UBM阶数取256, 对应的GSV维数为23 040时, 在开发集和评估集上都能得到较好的结果。
4.3 弱分类器数目对检测结果的影响由于AdaBoost算法不断地重复训练并调整权重, 如果每个弱分类器的分类精度高于随机猜测精度, 且弱分类器的个数接近无穷, 则最终结果的等错误率将趋于0。本次实验条件:GSV维数取23 040, 弱分类器采用单层决策树, 数目分别取100、200、300、400和500, 实验结果如表 4所示。
![]() |
下载CSV 表 4 弱分类器数目对实验结果的影响 |
从表 4可以看出, 随着弱分类器数目的增加, 开发集和评估集的EER在达到一个最小值后又开始上升, 原因是弱分类器的增加将导致过拟合现象, 从而降低系统性能。
4.4 不同检测方法性能对比本节对如下4种检测方法进行比较与分析:
1) GMM-ML, 是ASVspoof 2017挑战赛提供的基线系统, 其训练2个GMM, 一个GMM使用真实语音, 另一个GMM使用回放语音。
2) GMM-UBM, 使用所有训练集训练一个UBM模型, 然后分别使用真实语音和回放语音通过MAP更新UBM模型中的参数, 分别得到真实语音的GMM和回放语音的GMM, 其中, 关系因子取0。
3) I-Vector/PLDA[19], 其采用一个全局差异空间分别训练真实语音的I-Vector和回放语音的I-Vector, 并运用PLDA进行信道补偿。
4) 本文方法, 将训练的弱分类器进行集合, 以构成一个性能更好的强分类器。
实验条件设置:GMM-ML、GMM-UBM的阶数均为512, I-Vector的维数取200, PLDA的维数取150(先利用I-Vector将数据降到200维, 再通过PLDA将数据从200维降到150维), 本文方法取4.1节~4.3节最优的参数值。4种检测方法性能对比如表 5所示。
![]() |
下载CSV 表 5 4种检测方法性能对比结果 |
从表 5可以看出, GMM-UBM的检测性能比GMM-ML略有提高, 得益于其关系因子取0, I-Vector/PLDA也略有提升, 原因是I-Vector的低维度以及PLDA的信道补偿作用, 本文方法的系统性能最好, 其开发集与评估集上的EER值相比GMM-ML方法分别降低了65%和44%, 表明该方法具有可行性。
5 结束语本文结合集成学习的思想, 提出一种基于AdaBoost算法的回放语音检测方法。实验结果表明, 与ASVspoof 2017挑战赛提供的基线系统GMM-ML相比, 该方法在开发集和评估集上的等错误率分别降低65%和44%。虽然本文检测方法取得了较好的结果, 但是其在评估集下的检测性能明显低于开发集, 在未知条件下的检测结果也较差。因此,下一步将研究能充分描述回放语音特点的特征参数,并探索可以区分回放语音和真实语音且更高效的模型与分类方法,以提高本文检测方法的泛化能力。
[1] |
HANSEN J H L, HASAN T. Speaker recognition by machines and humans:a tutorial review[J]. IEEE Signal Processing Magazine, 2015, 32(6): 74-99. DOI:10.1109/MSP.2015.2462851 |
[2] |
HAUTAMÄKI R G, KINNUNEN T, HAUTAMÄKI V, et al. I-Vectors meet imitators: on vulnerability of speaker verification systems against voice mimicry[C]//Proceedings of IEEE Conference of the International Speech Communication Association. Washington D. C., USA: IEEE Press, 2013: 930-934.
|
[3] |
HE Qianhua, PAN Weiqiang, HU Yongjian, et al. Review on playback detection methods in speaker authentication system[J]. Journal of Data Acquisition and Processing, 2015, 30(2): 266-274. (in Chinese) 贺前华, 潘伟锵, 胡永健, 等. 说话人认证录音回放检测方法综述[J]. 数据采集与处理, 2015, 30(2): 266-274. |
[4] |
DELEON P L, PUCHER M, YAMAGISHI J, et al. Evaluation of speaker verification security and detection of HMM-based synthetic speech[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(8): 2280-2290. DOI:10.1109/TASL.2012.2201472 |
[5] |
BONASTRE J F, MATROUF D, FREDOUILLE C. Artificial impostor voice transformation effects on false acceptance rates[C]//Proceedings of IEEE Conference of the International Speech Communication Association. Washington D. C., USA: IEEE Press, 2007: 2053-2056.
|
[6] |
SAHIDULLAH M, DELGADO H, TODISCO M, et al. Integrated spoofing countermeasures and automatic speaker verification: an evaluation on ASVspoof 2015[C]//Proceedings of IEEE Conference of the International Speech Communication Association. Washington D. C., USA: IEEE Press, 2016: 1700-1704.
|
[7] |
KINNUNEN T, SAHIDULLAH M, DELGADO H, et al. The ASVspoof 2017 challenge: assessing the limits of replay spoofing attack detection[C]//Proceedings of IEEE Conference of the International Speech Communication Association. Washington D. C., USA: IEEE Press, 2017: 2-6.
|
[8] |
XU Yongchao. Research on replay attack detection of automatic speaker verification by high frequency and bottleneck feature[D].Harbin: Harbin Institute of Technology, 2018.(in Chinese) 徐涌钞.基于高频和瓶颈特征的说话人验证系统重放攻击检测方法[D].哈尔滨: 哈尔滨工业大学, 2018. http://cdmd.cnki.com.cn/Article/CDMD-10213-1018896214.htm |
[9] |
JI Zhe, LI Zhiyi, LI Peng, et al. Ensemble learning for countermeasure of audio replay spoofing attack in ASVspoof 2017[C]//Proceedings of IEEE Conference of the International Speech Communication Association. Washington D. C., USA: IEEE Press, 2017: 87-91.
|
[10] |
REYNOLDS D A, QUATIERI T F, DUNN R B. Speaker verification using adapted Gaussian mixture models[J]. Digital Signal Processing, 2000, 10. |
[11] |
JIANG Ye, TANG Zhenmin. Research on GMM text-independent speaker recognition[J]. Computer Engineering and Applications, 2010, 46(11): 179-182, 195. (in Chinese) 蒋晔, 唐振民. GMM文本无关的说话人识别系统研究[J]. 计算机工程与应用, 2010, 46(11): 179-182, 195. DOI:10.3778/j.issn.1002-8331.2010.11.055 |
[12] |
HUA Cheng, LI Hui. Speaker cerification based on supervector clustering with poor corpus[J]. Journal of Data Acquisition and Processing, 2014, 29(2): 238-242. (in Chinese) 花城, 李辉. 小训练语料下基于均值超矢量聚类的说话人确认方法[J]. 数据采集与处理, 2014, 29(2): 238-242. DOI:10.3969/j.issn.1004-9037.2014.02.012 |
[13] |
BRVMMER N, DEVILLIERS E. The bosaris toolkit: theory, algorithms and code for surviving the new DCF[EB/OL].[2018-11-25].https://arxiv.org/pdf/1304.2865.pdf.
|
[14] |
TODISCO M, DELGADO H, EVANS N. A new feature for automatic speaker verification anti-spoofing: constant Q cepstral coefficients[C]//Proceedings of Speaker and Language Recognition Workshop. Bilbao, Spain: [s.n.], 2016: 283-290.
|
[15] |
TODISCO M, DELGADO H, EVANS N. Constant Q cepstral coefficients:a spoofing countermeasure for automatic speaker verification[J]. Computer Speech and Language, 2017, 45: 516-535. DOI:10.1016/j.csl.2017.01.001 |
[16] |
HARRINGTON P. Machine learning practice[M].Translated by LI Rui. Beijing: Post and Telecommunica-tions Press, 2013.(in Chinese) HARRINGTON P. 机器学习实战[M].李锐, 译.北京: 人民邮电出版社, 2013. |
[17] |
KINNUNEN T, SAHIDULLAH M, FALCONE M, et al. RedDots replayed: a new replay spoofing attack corpus for text-dependent speaker verification research[C]//Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Washington D. C., USA: IEEE Press, 2017: 5395-5399.
|
[18] |
HANILÇI C, KINNUNEN T, SAHIDULLAH M, et al. Classifiers for synthetic speech detection: a comparison[C]//Proceedings of IEEE Conference of the International Speech Communication Association. Washington D. C., USA: IEEE Press, 2015: 2057-2061.
|
[19] |
LI Peng, FU Yun, MOHAMMED U, et al. Probabilistic models for inference about identity[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(1): 144-157. DOI:10.1109/TPAMI.2011.104 |