«上一篇 下一篇»
  计算机工程  2021, Vol. 47 Issue (3): 291-297, 303  DOI: 10.19678/j.issn.1000-3428.0058025
0

引用本文  

陈旭, 蒋晔. 基于高斯滤波器组混合特征的录音回放攻击检测研究[J]. 计算机工程, 2021, 47(3), 291-297, 303. DOI: 10.19678/j.issn.1000-3428.0058025.
CHEN Xu, JIANG Ye. Research on Recording Playback Attack Detection Based on Mixed Features of Gaussian Filter Bank[J]. Computer Engineering, 2021, 47(3), 291-297, 303. DOI: 10.19678/j.issn.1000-3428.0058025.

基金项目

江苏省自然科学基金青年基金(BK20150987)

通信作者

蒋晔(通信作者), 副教授、博士

作者简介

陈旭(1996-), 男, 硕士研究生, 主研方向为说话人识别

文章历史

收稿日期:2020-04-10
修回日期:2020-05-12
基于高斯滤波器组混合特征的录音回放攻击检测研究
陈旭 , 蒋晔     
南京财经大学 信息工程学院, 南京 210023
摘要:录音回放是目前声纹识别技术应对各种仿冒语音攻击的主要手段。针对传统语音特征无法区分真实语音和回放语音的问题,提出一种基于高斯滤波器组的Fisher比混合倒谱特征提取算法。将高斯滤波器组代替传统三角滤波器组,分别采用线性频率和逆ERB频率替换MEL频率,形成高斯线性频率倒谱系数特征(G-LFCC)和高斯逆ERB频率倒谱系数特征(G-IEFCC)两个新的特征。通过Fisher准则将G-LFCC和G-IEFCC融合,生成新的混合特征参数,该特征提高了真实语音和回放语音在高频段的区分度,同时降低回放语音在低频段因不同录音及回放设备造成的干扰。在ASVSpoof2017评测数据上的实验结果表明,该算法混合特征具有较好的区分效果,与IMFCC、LFCC、CQCC和GSV等算法相比,等错误概率分别降低21.8%、38.8%、58.3%和43.7%。
关键词录音回放    Fisher准则    高斯滤波器组    逆ERB频率    线性频率    
Research on Recording Playback Attack Detection Based on Mixed Features of Gaussian Filter Bank
CHEN Xu , JIANG Ye     
School of Information Engineering, Nanjing University of Finance & Economics, Nanjing 210023, China
Abstract: Recording playback is a prevalent means of counterfeit speech attacks faced by the existing voiceprint recognition techniques.To address the problem that traditional speech features fail to distinguish real speech from playback, this paper proposes a hybrid cepstrum feature extraction algorithm using Fisher ratio based on Gaussian filter bank.The Gaussian filter bank is used to replace the traditional triangular filter bank, and the linear frequency and the inverse ERB frequency are used to replace the MEL frequency to form two new features: the Gaussian-Linear Frequency Cepstral Coefficients(G-LFCC) and the Gaussian-Inverse ERB Frequency Cepstral Coefficients(G-IEFCC).The Fisher criterion is used to fuse G-LFCC and G-IEFCC to form a new mixed feature parameter.The new feature increases the difference between the real voice and the playback in the high frequency band, while reducing the interference caused by the different recordings and playback devices in the low frequency band of the playback.Experimental results on the evaluation data of ASVSpoof2017 show that the mixed feature proposed in this paper has a significant impact, reducing the EER by 21.8%, 38.8%, 58.3%, and 43.7% compared with the IMFCC, LFCC, CQCC, and GSV algorithms.
Key words: recording playback    Fisher criterion    Gaussian filter bank    inverse ERB frequency    linear frequency    
0 概述

声纹识别即说话人识别,是根据人说话的声音判定人身份的技术,因其获取成本低、安全系数高及使用便捷而应用于安全、司法、通信等多个领域[1]。但在实际应用中,声纹识别系统容易受到声音模拟[2]、语音合成[3]、声音转换[4]、录音回放(含录音拼接回放)等仿冒语音的攻击,此类攻击极大地影响了声纹识别系统本身的安全性,进而也给采用声纹识别技术进行访问控制的系统带来了安全隐患。录音回放攻击是指攻击者使用高保真录音设备录制合法用户进入认证系统时的语音,或通过其他手段获得用户的语音样本,然后在声纹身份认证系统的拾音器端通过高保真功放回放,从而达到对声纹身份认证系统实施攻击的目的。由于高保真录音设备的普及,合法用户语音极易被偷录,录音回放攻击已成为声纹识别技术中抗仿冒攻击的首要解决问题。

由英国爱丁堡大学、法国国家信息与自动化研究所等组织发起的ASVspoof是迄今为止对仿冒语音鉴别规模最大、最全面的挑战赛[5]。ASVspoof 2015是用语音合成、声音转换技术产生数字语音,直接输入系统(不用麦克风)进行逻辑层面的攻击(Logical Access),ASVspoof2017是使用录音回放的方法,经过麦克风进入系统进行物理层面的攻击(Physical Access)。在实际应用中,语音合成及声音转换技术生成的语音也需要经过重放环节转化为Physical Access。国内外研究学者如NAGAR SHETH等人[6]用高通滤波器对高频信息进行提取,提取出来的HFCC参数尽管能提高识别率,但是该参数特征会丢失语音部分特征信息。文献[7-8]提出的常量Q倒谱特征(Constant Q Cepstral Coefficients,CQCC)替代傅里叶变换增加了低频域的分辨率,而实际上录音回放攻击语音与原始语音相比,由于存在录音和回放这两个额外过程,录音设备和回放设备的频响特性是非均匀的,使得其频谱在低频段和高频段都会不同程度地出现衰减或畸变现象,因此仅仅强调低频段频谱信息是不充分的。文献[9]重点研究了瞬时频率余弦系数特征,以及倒谱特征常数Q倒谱系数和MEL频率倒谱系数,执行所有这些功能的组合以获得高精度的欺骗检测。该方法单纯地组合了各个特征系数,特征过于冗余。文献[10]使用Gammatone滤波器仿真了人耳基底膜的特性,GFCC[11]模拟了人耳的听觉响应,具有较强的噪声鲁棒性。但是该特征在低频段的分辨率要高于高频段,模糊了高频的特征,因而该方法在录音回放攻击中的效果达不到预期结果。

本文在真实语音和录音回放语音差异化研究的基础上,针对如何提高语音频谱高频信息,减少频谱在低频段和高频段不同程度的衰减或畸变现象,提出两种有效的特征参数G-IEFCC和G-IFCC。为达到更好的检测效果,本文研究基于Fisher比的特征融合方法。

1 Fisher比混合倒谱特征 1.1 真实语音与录音回放语音的差异化分析

原始语音和录音回放语音在时域波形图中的差异并不明显,本文采用语谱图探究两者在频域中的差别。选取ASVspoof2017中的一段语音:“Birthday parties have cupcakes and ice cream”。真实语音和录音回放语音语谱图分析如图 1所示,其中,录音设备为Rode smartlav,回放设备为VIFA M10MD-39-08 Speaker。

Download:
图 1 真实语音和录音回放语音语谱图分析 Fig. 1 Analysis of real speech and recording playback speech spectrum

图 1对比分析可知,两者的差异主要集中在高频段上(4 000 Hz~8 000 Hz),中低频略有差异且包含一些对于攻击和真实语音之间的干扰信息,且在回放过程中会夹杂着噪声。目前无论LPCC、MFCC,还是CQCC都采用了强化低频段频谱信息的方法。而高频段集中了真实语音和录音回放语音的主要差异信息,这些特征无法有力刻画两者的个性信息。因此,传统特征参数在录音回放攻击检测实验中表现一般[12]。针对传统方法的不足,本文在特征提取阶段对频率尺度和滤波器组进行改进,使得设计的特征更能有效地区分真实语音和录音回放语音。

1.2 频率尺度及高斯滤波器分析

传统声纹识别领域中使用MEL频率尺度提取语音特征。该特征参数较好地表达了语音的频谱包络结构,也一定程度上反映了人类听觉系统的特点。但由于真实语音与录音回放语音在频谱包络结构上的高度相似性,以及录音回放攻击检测需要具有超越人类鉴别能力的水平,因此基于MEL频率尺度的参数在实验中所表现出的性能一般。而等效矩形带宽(Equivalent Rectangular Bandwidth,ERB)频率尺度对公共场合异常声音鉴别有较强鲁棒性[13]。鉴于以上分析,本文尝试用高斯滤波器组代替传统三角滤波器组,为强化高频段频谱信息,采用ERB频率尺度代替传统MEL频率尺度,同时将ERB尺度转换成逆ERB尺度,通过该过程提取的特征称之为高斯逆ERB频率倒谱系数(Gaussian-Inverse ERB Frequency Cepstral Coefficients,G-IEFCC)。为均衡细化高频与低频频谱信息,用线性频率代替传统MEL频率,通过该过程提取的特征称为高斯线性频率倒谱系数(Gaussian-Linear Frequency Cepstral Coefficients,G-LFCC)。本文采用的3种频率转换关系如下:

$ {F}_{\mathrm{E}\mathrm{R}\mathrm{B}}=21.4\mathrm{l}\mathrm{g}\left(1+\frac{4.37F}{{1}_{}000}\right) $ (1)
$ {F}_{\mathrm{I}\mathrm{E}\mathrm{R}\mathrm{B}}=a-21.4\mathrm{l}\mathrm{g}\left(1+\frac{4.34({F}_{\mathrm{m}\mathrm{a}\mathrm{x}}-F)}{{1}_{}000}\right) $ (2)
$ a=21.4\mathrm{l}\mathrm{g}\left(1+\frac{4.37{F}_{\mathrm{m}\mathrm{a}\mathrm{x}}}{{1}_{}000}\right) $
$ {F}_{L}=F $ (3)

其中,$ F $是实际频率,$ {F}_{\mathrm{E}\mathrm{R}\mathrm{B}} $是ERB频率,$ {F}_{\mathrm{I}\mathrm{E}\mathrm{R}\mathrm{B}} $是逆ERB频率,$ {F}_{L} $是线性频率,$ {F}_{\mathrm{m}\mathrm{a}\mathrm{x}} $是语音信号的最大频率。

传统的特征参数提取主要是基于三角滤波器组,以MFCC为例,如图 2所示,其中,图 2(a)代表传统MFCC提取采用的滤波器,该滤波器低频段分布密切,强调低频部分,而高频段分布稀疏,提升了低频的差异却忽略了差异明显的高频段。图 2(b)代表IMFCC提取采用的滤波器,相对于图 2(a)的逆操作,在弱化低频部分的同时强化了高频部分。图 2(c)代表线性倒谱系统采用的滤波器,该率波器呈等带宽分布和高低频段信息平均分布。

Download:
图 2 三角滤波器组分析 Fig. 2 Triangle filter bank analysis

研究发现,三角形状的滤波器下降趋势过于陡快,不够平滑,因此传统的三角滤波器会使相邻子带丢失部分联系,高斯滤波器[14-15]的时频宽积最小,既能减小信号的失真,又可以有效地选频衰减。本文采用高斯滤波器组加强子带联系,以弥补三角滤波器的不足。高斯滤波器组频率响应如下:

$ G={\mathrm{e}}^{-\frac{{\left(m-{m}_{t}\right)}^{2}}{2{a}_{t}^{2}}} $ (4)

其中,$ {a}_{t} $为标准偏差,$ {m}_{t} $为第t个滤波器的边界点,其标准偏差$ {a}_{t} $公式如下:

$ {a}_{t}=\frac{{m}_{t+1}-{m}_{t}}{n} $ (5)

其中,$ n $为方差,可由具体实验选取最优值。如图 3所示,图 3(a)为G-IEFCC选用的逆高斯滤波器组,图 3(b)为G-IFCC选用的等宽高斯滤波器组。

Download:
图 3 高斯滤波器组分析 Fig. 3 Gaussian filter bank analysis
1.3 G-LFCC和G-IEFCC的提取

本文参数提取过程如图 4所示。

Download:
图 4 混合参数提取过程示意图 Fig. 4 Schematic diagram of extraction process of mixed parameters

本文参数提取具体过程如下:

1)预处理

在预处理阶段采用预加重、分帧和加窗3个步骤。在预处理阶段,将数字语音信号$ x\left(n\right) $通过一个高通滤波器,减少尖锐噪声影响。

$ h\left(n\right)=x\left(n\right)-0.95x(n-1) $ (6)

取帧长$ n $为256个采样点,帧移为128个采样点。并加汉明窗减少Jibbs效应。

$ w\left(n\right)=\left\{\begin{array}{l}0.54-0.46\mathrm{c}\mathrm{o}\mathrm{s}[2\mathrm{\pi }n/(N-1\left)\right], \mathrm{ }0\le n\le N-1\\ 0, \mathrm{其}\mathrm{他}\end{array}\right. $ (7)
$ S\left(n\right)=h\left(n\right)\times w\left(n\right) $ (8)

其中,$ w\left(n\right) $是窗信号,$ S\left(n\right) $是加窗后的信号。

2)傅里叶变换

对经过预处理后的信号$ S\left(n\right) $进行快速傅里叶变换得到频谱:

$ X\left(k\right)=\sum\limits _{n=0}^{N-1}S\left(n\right){\mathrm{e}}^{-\mathrm{j}2\mathrm{\pi }k/N}, 0\le k\le N $ (9)

其中,$ N $是傅里叶变换点数,$ k $是频率序号

3)能量谱

傅里叶变换后将时域信号转化为频域分量得到频谱,求频谱的平方($ \left|X\right(k){|}^{2} $),即为能量谱。

4)频率尺度变换及滤波器设计

G-LFCC和G-IEFCC的区别主要体现在频率尺度的变换上,频率尺度的变换使得后续进行高斯滤波时呈现等宽高斯和逆高斯两种形态,其具体算法如下:

(1)设置相关参数,采样频率$ {F}_{s}={16}_{}000 $,频域范围$ {F}_{l}~{F}_{h} $$ {F}_{l}=0, {F}_{h}={F}_{s}/2 $),傅里叶点数$ N=256 $,滤波器个数$ M=27 $

(2)由式(3)得出G-LFCC的线性频域$ {{F}_{l}}^{\mathrm{\text{'}}}~{{F}_{h}}^{\mathrm{\text{'}}} $,由式(2)得出G-IEFCC的逆ERB频域$ {{F}_{l}}^{\mathrm{\text{'}}\mathrm{\text{'}}}~{{F}_{h}}^{\mathrm{\text{'}}\mathrm{\text{'}}} $

(3)将以上两个频域分别等分成$ M+2 $个频率值,由式(2)和式(3)的逆变换得出G-LFCC对应实际频率$ {F}_{a}\left(i\right) $和G-IEFCC对应实际频率$ {F}_{b}\left(i\right) $$ i=\mathrm{1, 2}, \cdots , M+2 $)。

(4)计算频率分辨率:

$ dF={F}_{s}/N $ (10)

(5)根据高斯滤波器式(4)、式(5)循环计算每个滤波器数组并组合成最终G-LFCC的等宽高斯滤波器组$ {H}_{a}\left(t\right) $

$ \left\{\begin{array}{l}{m}_{t}={F}_{a}\left(t\right)/df\\ {m}_{t+1}={F}_{a}(t+2)/df\\ {H}_{a}\left(t\right)=\mathrm{e}\end{array}\right. $ (11)

同理,得到G-IEFCC的逆高斯滤波器组$ {H}_{b}\left(t\right) $

$ \left\{\begin{array}{l}{m}_{t}={F}_{b}\left(t\right)/df\\ {m}_{t+1}={F}_{b}(t+2)/df\\ {H}_{b}\left(t\right)={\mathrm{e}}^{-\frac{(m-{m}_{t}{)}^{2}}{2{a}_{t}^{2}}}\end{array}\right. $ (12)

其中,$ m=\mathrm{1, 2},\cdots , 129 $$ t=\mathrm{1, 2},\cdots , M $

5)对数功率谱

分别用以上两种滤波器组进行滤波,并对滤波后的能量取对数得到对数功率谱$ {P}_{a}\left(t\right)\mathrm{、}{P}_{b}\left(t\right) $

$ {P}_{a}\left(t\right)=\mathrm{l}\mathrm{n}\left(\sum\limits _{i=0}^{N-1}{\left|X\left(k\right)\right|}^{2}{H}_{a}\left(t\right)\right) ,0\le t\le M $ (13)
$ {P}_{b}\left(t\right)=\mathrm{l}\mathrm{n}\left(\sum\limits _{i=0}^{N-1}{\left|X\left(k\right)\right|}^{2}{H}_{b}\left(t\right)\right) ,0\le t\le M $ (14)

6)离散余弦变换

将所得的对数功率谱进行离散余弦变换得到L阶倒谱系数,分别求出G-LFCC和G-IEFCC倒谱系数:

$ {C}_{a}\left(n\right)=\sum\limits _{i=0}^{N-1}{P}_{a}\left(t\right)\mathrm{c}\mathrm{o}\mathrm{s}\left(\mathrm{\pi }n\right(t-0.5)/M) $ (15)
$ {C}_{b}\left(n\right)=\sum\limits _{i=0}^{N-1}{P}_{b}\left(t\right)\mathrm{c}\mathrm{o}\mathrm{s}\left(\mathrm{\pi }n\right(t-0.5)/M) $ (16)

其中,$ n=\mathrm{1, 2},\cdots ,L $,本文$ L $取13。

1.4 Fisher比混合特征

在声纹识别中常会提取多维特征,可是在增加特征维数的过程中,各维特征的贡献率不同,所以一般会对特征参数进行特征选择。其中,Fisher准则就是常用的方法。Puzansky利用方差分析进行声纹识别研究,提出了有效的Fisher比[16],而在重放语音攻击检测中尚未发现有人研究,本文探究该方法是否可行。Fisher比的计算公式如下:

$ {\mathit{\Phi}} =\frac{{\sigma }_{\mathrm{b}\mathrm{e}\mathrm{t}\mathrm{w}\mathrm{e}\mathrm{e}\mathrm{n}}}{{\sigma }_{\mathrm{w}\mathrm{i}\mathrm{t}\mathrm{h}\mathrm{i}\mathrm{n}}} $ (17)

其中,$ {\sigma }_{\mathrm{b}\mathrm{e}\mathrm{t}\mathrm{w}\mathrm{e}\mathrm{e}\mathrm{n}} $是类间离散度,在声纹识别中表示说话人第$ k $维参数类间方差之和,$ {\sigma }_{\mathrm{w}\mathrm{i}\mathrm{t}\mathrm{h}\mathrm{i}\mathrm{n}} $是类内离散度,表示某个说话人第$ k $维参数类内方差和,在重放语音攻击检测中存在真实语音和重放语音两类。说话人样本总数为$ M $,说话人$ i $拥有的语音段数量为$ {n}_{i} $,说话人$ i $的第$ k $维特征参数均值为$ {\mu }_{k}^{i} $,所有说话人第$ k $维特征参数均值为$ {\mu }_{k} $,说话人$ i $的第$ j $段语音的第$ k $维特征参数为$ {\chi }_{k}^{i, j} $$ {\sigma }_{\mathrm{b}\mathrm{e}\mathrm{t}\mathrm{w}\mathrm{e}\mathrm{e}\mathrm{n}} $$ {\sigma }_{\mathrm{w}\mathrm{i}\mathrm{t}\mathrm{h}\mathrm{i}\mathrm{n}} $计算公式如下:

$ {\sigma }_{\mathrm{b}\mathrm{e}\mathrm{t}\mathrm{w}\mathrm{e}\mathrm{e}\mathrm{n}}=\sum\limits _{i=1}^{M}{\left({\mu }_{k}^{i}-{\mu }_{k}\right)}^{2} $ (18)
$ {\sigma }_{\mathrm{w}\mathrm{i}\mathrm{t}\mathrm{h}\mathrm{i}\mathrm{n}}=\sum\limits _{i=1}^{M}\left[\frac{1}{{n}_{i}}\sum\limits _{j=1}^{{n}_{i}}({\chi }_{k}^{i, j}-{\mu }_{k}^{i}{)}^{2}\right] $ (19)

Fisher比越大,表明该维特征更能表征个性信息。而在重放语音攻击检测中,通过Fisher比准则,对比值进行降序排列,用贡献率来确定特征维数,基于Fisher比的特征可去除冗余信息,突出真实语音和回放语音的个性信息。本文计算G-LFCC和G-IEFCC各维的Fisher比,然后分别选择Fisher比较高的6维特征,组合成最终12维的融合特征。该融合特征通过G-IEFCC的提取强化高频段频谱信息,通过G-LFCC的提取均匀细化低频段和高频段信息,两者结合更大限度地突出了真实语音和回放语音的差别,同时减少回放语音中因不同录音设备、回放设备所产生的差异。

1.5 重放语音检测算法

在训练阶段运用本文方法提取训练集语音的特征参数,分别训练出两个GMM模型、一个是录音回放语音的GMM模型$ A $;另一个是真实语音GMM模型$ B $。在测试过程中将测试语音的特征参数集ϕ$ A $$ B $计算似然比,计算公式如下:

$ {\mathit{\Omega}} =\mathrm{l}\mathrm{n}\left(p\right(ϕ \left|A\right.)/p(ϕ \left|B\right.\left)\right) $ (20)

用所得的似然比作为得分判决待测语音跟哪个模型更为接近。而后设定阈值作为最后的分类判断,判决成果采用等错误概率(Equal Error Rate,EER)给出,定义如下:

$ {\theta }_{\mathrm{e}\mathrm{e}\mathrm{r}}={P}_{\mathrm{f}\mathrm{a}}\left(\theta \right)={P}_{\mathrm{m}\mathrm{i}\mathrm{s}\mathrm{s}}\left(\theta \right) $ (21)

其中,$ {P}_{\mathrm{f}\mathrm{a}}\left(\theta \right) $表示在阈值$ \theta $处的虚警率,反映被判定为真实语音的样本中,有多少个是回放语音,$ {P}_{\mathrm{m}\mathrm{i}\mathrm{s}\mathrm{s}}\left(\theta \right) $表示在阈值$ \theta $处的漏警率,反映有多少个真实语音被判定为回放语音,当两者相等时错误率为等错误率,$ {P}_{\mathrm{f}\mathrm{a}}\left(\theta \right) $表示单调递减函数,而$ {P}_{\mathrm{m}\mathrm{i}\mathrm{s}\mathrm{s}}\left(\theta \right) $则表示单调递增函数,通过调节阈值使得虚警率和漏警率得以调节。根据具体情况选择合适的阈值达到理想状况,比如对于机密安全领域,通过调节阈值使得漏警率较低;而对于日常应用,则可以适当调节阈值在漏警率和虚警率两者间取得一个平衡。

2 实验结果与分析 2.1 数据集

实验语音数据采用ASVspoof2017数据集[17]。在2017年,国际语音通信协会(ISCA)组织了ASVspoof国际挑战赛,主要针对声纹识别中录音回放攻击检测技术进行研究和交流,该数据库包含了训练集和开发集。语料使用RedDots库[18]里最常用的10个短语,运用不同录音设备在多种环境下录制,样本采样频率为16 kHz。具体数据集参数如表 1所示。

下载CSV 表 1 ASVspoof2017数据集 Table 1 ASVspoof2017 dataset

录音回放环境主要涉及到录音设备、回放设备、偷录环境等。在每种回放环境下,同一个说话人录制同一短语多次。本文实验训练集所用大赛数据集中的Train集,而测试集选择Dev集。

2.2 高斯滤波器参数分析

高斯滤波器的方差是调节滤波器性能的参数,它关系着高斯滤波器的形成,方差越大滤波器越陡,反之亦然,在说话人识别中方差[19]通常取1.1、1.5、2.0。而在录音回放语音检测领域,尚未有方差取值的分析,因此本文针对G-IFCC采用的等宽高斯滤波器组和G-IEFCC采用的逆高斯滤波器组中方差取值进行研究。

实验条件:特征参数维数为13维,GMM混合度为512。拓展方差参数选取从1.0到4.0,以0.5为间隔的7个方差,评测标准采用EER,所得结果如表 2所示。

下载CSV 表 2 方差取值对检测结果的影响分析 Table 2 Analysis of the effect of variance on the test results

表 2可以看出,当方差选取2.0时,G-IEFCC和G-LFCC检测结果EER较小,当方差大于2.0时,滤波器越陡则过度加强了子带的联系,致使特征参数里混杂了噪声,而小于2.0时滤波器较为平坦,子带联系不明显,致使个性信息不突出。因而当方差选取2.0时,可以得到较好的结果。

2.3 特征参数Fisher比分析

为选择G-LFCC和G-IEFCC中各维Fisher比贡献度较大所对应的维度,分别计算每一维所对应的Fisher比,为特征融合奠定基础,图 5为13维特征每一维所对应的Fisher比结果。

Download:
图 5 特征参数各维数Fisher比 Fig. 5 Fisher ratio of each dimension of characteristic parameters

Fisher比越大表明蕴含的个性信息越丰富,因此,将G-LFCC和G-IEFCC的Fisher比较高的6维特征进行融合得到最终Fisher比混合特征。

2.4 GMM混合度分析

在检测重放语音过程中训练两个GMM模型,模型的参数对结果有一定的影响,因此在实验中将GMM混合度作为变量分别对G-IEFCC和G-LFCC以及混合特征进行检测,探究GMM混合度对实验结果的影响。具体实验结果如表 3所示。

下载CSV 表 3 不同GMM混合度的测试结果 Table 3 Test results of different GMM mixing degrees

表 3可以看出,基于Fisher比的混合特征普遍比单一特征G-LFCC和G-IEFCC实验效果要好。而在128混合度下GMM模型糅合了高频与低频信息的混合特征的EER最低。实验结果表明,本文提出的混合特征相比单一特征能更有效地检测真实语音和录音回放语音。

2.5 不同特征参数实验效果分析

针对不同特征参数进行录音回放检测实验比较。CQCC是ASVspoof2017官方给出的基线特征,该特征由信号经过常量Q变换(CQT),对其频谱求对数功率谱,再对经过离散变换的倒谱进行归一化处理。该变换的频域采样点随频率呈现指数分布,低频段频率分辨率远远高于高频段频率分辨率,所以CQCC特征主要包含语音频谱低频段信息,弱化了语音频谱高频段的信息。对于基于高斯均值超矢量(Gaussian Super Vector,GSV)的特征提取则是将含有语音信息的GMM均值排列成超矢量作为分类器的输入,分类器采用的是最常见的SVM,而GSV-SVM[20-21]通常使用在说话人确认领域,把GSV-SVM应用在回放语音攻击检测中也是可行的。此外,本文将未采用高斯滤波器组(采用三角滤波器组)的LFCC和IMFCC[22]特征和采用Gammatone滤波器的GFCC也纳入实验分析,将实验系统耗时作为花费时间代价作为参考。

实验条件为CQCC(90维)、GFCC(31维)、GSV(23 040维)、LFCC和IMFCC(13维)和混合特征(12维),为得到每一种参数的较好结果,前3项特征采用512GMM混合度,后3项采用128GMM混合度。测试平台配置:CPU(Intel i5-8400@2.80 GHz,双核四线程),16 GB内存;64位Win10教育版系统;matlaR2016b实验平台,结果如表 4所示。

下载CSV 表 4 不同特征参数实验对比分析 Table 4 Comparative analysis of experiments with different characteristic parameters

表 4可以看出,GFCC虽然适合于声纹识别但是在重放语音攻击中效果最差,而GSV效果比基线特征CQCC等错误概率低,但因其特征维数较高导致实验中所花费的时间代价要高。采用三角滤波器组的LFCC和IMFCC因弱化了语音频谱高频段的信息,也未能达到最好效果。本文所提出的高斯滤波器组下基于Fisher比的混合特征因强化了语音频谱高频段的信息,同时均匀细化了低频部分,比其他特征效果都好。与基线特征CQCC相比,EER降低了58.3%。通过图 6的EER曲线能够更直观地展现该方法的良好性能。

Download:
图 6 不同特征等错误概率曲线 Fig. 6 Equal error rate curves of different features
3 结束语

本文在频率尺度和滤波器组上对传统特征参数进行改进。采用逆ERB频率尺度代替传统MEL尺度,利用高斯滤波代替传统三角滤波,形成逆高斯滤波器组,即高斯逆ERB频率倒谱特征(G-IEFCC)。为均匀细化低频和高频信息,降低因录音设备和回放设备不同而造成的频谱信息衰减或畸变现象,运用线性频率尺度和等宽高斯滤波器形成高斯线性频率倒谱系数(G-LFCC)。同时通过Fisher比准则将改进的两个特征参数融合,最终形成基于Fisher比的混合特征。实验结果表明,本文提出的混合特征相比其他常用特征参数,在录音回放攻击检测中的检测效果显著。在实际应用中声纹识别系统的攻与防不只是针对虚假语音,其在攻与防中防处于不利地位。为此,提高仿冒语音攻击检测的泛化能力将是下一步的研究方向。

参考文献
[1]
WANG Yan, ZHANG Longfei.Effective speech endpoint detection algorithm for voiceprint recognition[C]//Proceedings of ICISMME'15.Chongqing, China: [s.n.], 2015: 1704-1708.
[2]
HAUTAMAKI R G, KINNUNEN T, HAUTAMAKI V, et al.I-vectors meet imitators: on vulnerability of speaker verification systems against voice mimicry[C]//Proceedings of Conference of the International Speech Communication Association.Lyon, France: [s.n.], 2013: 930-934.
[3]
TABER Y, BOUGHAZI M, AFIFI S. Speech analysis and synthesis with a refined adaptive sinusoidal representation[J]. International Journal of Speech Technology, 2018, 21(3): 581-588. DOI:10.1007/s10772-018-9519-4
[4]
SONG Peng, WANG Hao, ZHAO Li. Speech conversion method based on mixed Gauss normalization[J]. Journal of Tsinghua University, 2013, 53(6): 757-761. (in Chinese)
宋鹏, 王浩, 赵力. 基于混合Gauss归一化的语音转换方法[J]. 清华大学学报, 2013, 53(6): 757-761.
[5]
WU Zhizheng, KINNUNEN T, EVANS N, et al.ASV spoof 2015: the first automatic speaker verification spoofing and countermeasures challenge[C]//Proceedings of IEEE Signal Processing Society Speech and Language Technical Committee Newsletter.Dresden, Germany: [s.n.], 2015: 2037-2041.
[6]
NAGARSHETH P, KHOURY E, PATIL K, et al.Attack detection using DNN for channel discrimination[C]//Proceedings of InterSpeech'17.Stockholm, Sweden: [s.n.], 2017: 97-101.
[7]
TODISCO M, DELGADO H, EVANS N.A new feature for automatic speaker verification anti-spoofing: constant Q ceptral coefficients[C]//Proceedings of Speaker and Language Recognition Workshop.Bilbao, Spain: Odyssey Press, 2016: 283-290.
[8]
TODISCO M, DEJGODO H, EVANS N. Constant cepstral Q coefficients: a spoofing countermeasure for automatic speaker verification[J]. Computer Speech & Language, 2017, 45: 516-535.
[9]
JELIL S, DAS R K.Spoof detection using source, instantaneous frequency and cepstral features[C]//Proceedings of InterSpeech'17.Stockholm, Sweden: [s.n.], 2017: 22-26.
[10]
CHEN Shixiong, GONG Qin, JIN Huijun. Simulation of the characteristics of human ear basement membrane with Gammatone filter bank[J]. Journal of Tsinghua University, 2008, 48(6): 1044-1048. (in Chinese)
陈世雄, 宫琴, 金慧君. 用Gammatone滤波器组仿真人耳基底膜的特性[J]. 清华大学学报, 2008, 48(6): 1044-1048.
[11]
ZI Xu, LIAN Ke, XU Jianwei, et al.Underwater acoustic target classification based on modified GFCC features[C]//Proceedings of the 2nd IEEE Advanced Information Technology, Electronic and Automation Control Conference.Chongqing, China: [s.n.], 2017: 314-318.
[12]
WITKOWSKI M, KACPRZAKET S.Audio replay attack detection using high-frequency features[C]//Proceedings of InterSpeech'17.Stockholm, Sweden: [s.n.], 2017: 27-31.
[13]
WANG Weibing.Equivalent rectangular bandwidth empirical wavelet transform for feature extraction of abnormal sound in public places[D].Chongqing: Chongqing University, 2018.(in Chinese)
王伟冰. 等效矩形带宽经验小波变换用于公共场所异常声音特征提取[D]. 重庆: 重庆大学, 2018.
[14]
ZHAN Haifeng, TIAN Hongxin, NIU Bo, et al. Time-frequency analysis method based on multi-resolution Gaussian filter bank[J]. Journal of the Chinese Academy of Electronic Sciences, 2017, 12(6): 654-661. (in Chinese)
詹海峰, 田红心, 牛博, 等. 基于多分辨率高斯滤波器组的时频分析方法[J]. 中国电子科学研究院学报, 2017, 12(6): 654-661.
[15]
NI Jiwei, PENG Miaoyan. Bark cepstral coefficients mixed feature parameter extraction method based on Fisher ratio[J]. Electroacoustic Technology, 2019, 43(1): 30-33. (in Chinese)
倪纪伟, 彭妙颜. 基于Fisher比的Bark倒谱系数混合特征参数提取方法[J]. 电声技术, 2019, 43(1): 30-33.
[16]
PATTERM P S. Matching procedure for automatic talker recognition[J]. Journal of the Acoustical Society of America, 2005, 35(3): 354-358.
[17]
FONT R, ESPIN J M, CANO M J.Experimental analysis of features for replay attack detection-results on the ASVspoof 2017 challenge[C]//Proceedings of InterSpeech'17.Stockholm, Sweden: [s.n.], 2017: 7-11.
[18]
KINNUNEN T, SAHIDULLAH M.RedDots replayed: a new replay spoofing attack corpus for text-dependent speaker verification research[C]//Proceedings of ICASSP'17.New Orleans, USA: IEEE Press, 2017: 10-21.
[19]
CHAKROBORTY S, SAHA G. Improved text-independent speaker identification using fused MFCC & IMFCC feature sets based on Gaussian filter[J]. International Journal of Signal Processing, 2009(1): 11-19.
[20]
HUA Cheng, LI Hui. Speaker confirmation method based on mean supervector clustering under small training corpus[J]. Data Collection and Processing, 2014, 29(2): 238-242. (in Chinese)
花城, 李辉. 小训练语料下基于均值超矢量聚类的说话人确认方法[J]. 数据采集与处理, 2014, 29(2): 238-242.
[21]
CHANG Zhenchao, ZHANG Xingming, YANG Zhenxi, et al. Research on language identification method based on anchor model combined with support vector machine[J]. Journal of Chinese Computer Systems, 2013, 34(4): 837-841. (in Chinese)
常振超, 张兴明, 杨镇西, 等. 一种结合支持向量机训练的锚模型语种识别方法[J]. 小型微型计算机系统, 2013, 34(4): 837-841.
[22]
LIU Liyan.Speaker recognition research based on MFCC and IMFCC[D].Harbin: Harbin Engineering University, 2008.(in Chinese)
刘丽岩. 基于MFCC与IMFCC的说话人识别研究[D]. 哈尔滨: 哈尔滨工程大学, 2008.