2. 中国人民公安大学 网络信息中心, 北京 100038
2. Network Information Center, People's Public Security University of China, Beijing 100038, China
开放科学(资源服务)标志码(OSID):
语音是人与人之间最自然直接的交流方式,也是具有最大信息容量的信息载体。目前,说话人识别技术已在人们日常生活中得到了广泛的应用,说话人辨认技术作为其重要分支在公安司法等领域具有较好的发展前景。随着人工智能和大数据时代的到来,同时得益于计算机计算能力的不断提高,深度学习技术已经成为各界研究的热点,其可应用于说话人辨认系统的后端,使声学特征更具区分性,从而更有利于区分说话人,而端到端网络架构使用一个神经网络连接输入端和输出端,能将特征训练和分类打分进行联合优化[1-3]。因此,结合基于深度学习的端到端网络的说话人辨认技术能克服复杂环境干扰,具有易构建、强泛化的特点。机器学习算法是人工智能中的重要部分,给人们带来便利的同时也带来了诸多安全问题。机器学习模型的攻击方式一般为破坏其机密性、完整性和可用性,主要包括隐私攻击、针对训练数据的攻击以及针对算法模型的攻击[4-5]三类方式。对抗样本是能轻易地引发模型分类错误的针对算法模型的攻击方式[6-7],随着对抗样本在图像、自动驾驶等领域被证实可使攻击者逃避模型检测,研究人员发现机器学习模型面对对抗样本表现出的脆弱性问题是普遍存在的,而基于深度学习的端到端说话人辨认模型也可能受到对抗样本的攻击。
为准确全面地评估端到端说话人识别技术面临的安全问题,本文系统地分析端到端说话人辨认系统和目前多种经典的白盒算法和黑盒算法,以基于卷积结构的端到端说话人辨认模型作为实验对象,通过实验比较评估这些对抗样本对端到端说话人辨认系统的攻击性能。
1 端到端说话人辨认 1.1 基于深度学习的端到端说话人辨认说话人辨认是多分类问题[8],即判断某段语音是由若干人中哪个人所说。端到端说话人辨认系统由深度神经网络组成,深度神经网络将不同长度的语段映射为一定维度的特征向量,即深度嵌入,再将不同说话人的语音特征映射到超球面的不同区域,最终通过各区域之间的差异实现分类。在识别过程中需要先在语音数据中提取声学特征,使用
针对端到端说话人辨认系统的对抗攻击,需要运用对抗样本生成算法制作针对端到端说话人辨认模型的对抗样本。对抗样本可以诱导模型算法出现误判或漏判,从而躲避系统的识别实现攻击。本文将在白盒和黑盒设置下对端到端说话人辨认模型进行攻击。在白盒设置下,攻击者可以完全访问说话人辨认系统,根据获取到的梯度信息制作噪声,并且能最大程度地减少扰动提高成功率。在黑盒设置下,攻击者只能有限制地访问模型,并且仅获得端到端说话人辨认模型的输出,无法直接获取输入与输出之间的梯度。与在声学特征上生成对抗样本的方法[9-10]不同,本文是在音频上直接制作对抗样本,具备更好的隐蔽性。如图 1所示,一段音频经攻击者添加噪声后被输入目标说话人辨认系统中,攻击者根据模型反馈信息反复对噪声进行修改,最终制作出对抗样本,实现端到端说话人辨认系统的错误识别。
|
Download:
|
| 图 1 攻击步骤 Fig. 1 Attack steps | |
利用深度神经网络训练得到的模型在输入和输出之间的映射通常为非线性,因此在输入数据中通过故意添加不易察觉的细微扰动来生成的对抗样本,能够导致模型以高置信度给出一个错误的输出。对抗样本能够找出机器学习模型的弱点,在网络安全领域主要用于模型安全评估和对抗鲁棒性强化。
目前,关于攻击的分类有很多种,按照是否获得目标模型的具体结构和参数可分为白盒攻击和黑盒攻击。白盒攻击指攻击者能获取目标模型的所有信息,对抗样本较多,如FGSM[11]、JSMA[12]、BIM[13]、C&W[14]、PGD[15]等;黑盒攻击指攻击者无法直接获取模型的任何信息,只能通过访问模型来获取反馈信息对黑盒模型进行估计,从而使得攻击成功,如ZOO[16]、HSJA[17]等。此外,按照是否需要指定攻击类目可分为无目标攻击和有目标攻击。无目标攻击不指定具体类目,只需使识别模型出现错误,如Deepfool[18]等。有目标攻击比无目标攻击更困难,不仅需要识别模型出现错误,还需模型输出指定的结果,如C&W等。现有的对抗样本生成算法并不都能适应音频数据中复杂的时间域信息和计算复杂度,因此难以在端到端说话人辨认系统中进行实现,如Deepfool。本文仅选取可用于端到端说话人辨认系统的FGSM、JSMA、BIM、C&W、PGD这5种白盒算法和ZOO、HSJA这2种黑盒算法进行对抗样本攻击实验。
2.1 白盒算法 2.1.1 FSGM算法在一般情况下,给定分类网络
| $ \delta =\underset{{‖\delta ‖}_{p}\le \varepsilon }{\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{m}\mathrm{a}\mathrm{x}}L\left(F\right(\boldsymbol{x}+\delta )\mathrm{ }, y) $ | (1) |
FSGM[8]是根据高维空间下深度神经网络的线性行为会导致对抗样本的产生而设计得到,并利用损失函数梯度解决优化问题式(1),计算公式如下:
| $ \boldsymbol{x} \mathbf{'} =\boldsymbol{x}+\varepsilon \cdot \mathrm{s}\mathrm{i}\mathrm{g}\mathrm{n}(\nabla L(F\left(\boldsymbol{x}\right)\mathrm{ }, y\left)\right) $ | (2) |
其中,
JSMA[12]算法利用显著性映射,能够表征分类器的输出与输入之间的关联,仅在样本
| $ S(\boldsymbol{x}, t)\left[i\right]\left\{\begin{array}{l}0, \frac{\partial {Z}_{j}\left(\boldsymbol{x}\right)}{\partial {\boldsymbol{x}}_{i}}>0\mathrm{且}\frac{\partial {Z}_{t}\left(\boldsymbol{x}\right)}{\partial {\boldsymbol{x}}_{i}}<0\\ \frac{\partial {Z}_{t}\left(\boldsymbol{x}\right)}{\partial {\boldsymbol{x}}_{i}}\left|\frac{\partial {Z}_{j}\left(\boldsymbol{x}\right)}{\partial {\boldsymbol{x}}_{i}}\right|, \mathrm{其}\mathrm{他}\end{array}\right. $ | (3) |
其中,
| $ \begin{array}{l}{k}_{n}=\underset{i}{\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{m}\mathrm{a}\mathrm{x}}S({\boldsymbol{x}}_{n-1}, t)\left[i\right]\mathrm{ }, \mathrm{ }{\boldsymbol{x}}_{0}=\boldsymbol{x}\\ {\boldsymbol{x}}_{n}=\left\{\begin{array}{l}{\boldsymbol{x}}_{n-1, i}+\varepsilon , \mathrm{ }i={k}_{n}\\ {\boldsymbol{x}}_{n-1, i}\mathrm{ }, \mathrm{ }i\ne {k}_{n}\end{array}\right.\end{array} $ | (4) |
在获得的特征上添加扰动获得对抗样本,扰动方式分为正向扰动和反向扰动。不同于图像数值全为正值,音频的波形数值是正负值并存,实现结果可能有所差异。JSMA是基于梯度的迭代算法,仅对样本的部分分量进行修改,与原样本的相似度高,但是每次迭代均需要重新计算显著图,因此生成速度较慢,不适用于部分大规模数据集。
2.1.3 BIM算法由于FGSM算法仅涉及单次梯度更新,对于大规模数据出错概率较高,因此KURAKIN等人[13]提出快速梯度符号法的改进迭代算法。迭代梯度符号法的对抗样本生成算法如下:
| $ \begin{array}{l}{\boldsymbol{x}}_{i}^{ \mathbf{'} }={\boldsymbol{x}}_{i-1}^{ \mathbf{'} }+\mathrm{c}\mathrm{l}\mathrm{i}{\mathrm{p}}_{\alpha }(\varepsilon \cdot \mathrm{s}\mathrm{i}\mathrm{g}\mathrm{n}(\nabla L\left(F\right(\boldsymbol{x})\mathrm{ }, y)\left)\right)\\ {\boldsymbol{x}}_{0}^{ \mathbf{'} }=\boldsymbol{x}\end{array} $ | (5) |
其中,
C&W[14]算法在式(1)的优化问题上添加欧几里得距离来量化对抗样本
| $ \begin{array}{l}\mathrm{m}\mathrm{i}\mathrm{n}\mathrm{i}\mathrm{m}\mathrm{i}\mathrm{z}{\mathrm{e}}_{\omega }{‖\frac{1}{2}(\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\mathrm{ }\omega +1\mathrm{ })-\boldsymbol{x}‖}_{2}^{2}+\\ \varepsilon \cdot f\left(\frac{1}{2}(\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\mathrm{ }\omega +1\mathrm{ })\mathrm{ }, t\right)\end{array} $ | (6) |
通过映射到tanh空间,对抗样本能在
| $ L({\boldsymbol{x}}^{ \mathbf{'} }, t)=\mathrm{m}\mathrm{a}\mathrm{x}\left\{\underset{i\ne t}{\mathrm{m}\mathrm{a}\mathrm{x}} \;{\boldsymbol{x}}_{i}^{ \mathbf{'} }-{\boldsymbol{x}}_{t}^{ \mathbf{'} }, -k\right\} $ | (7) |
其中:
PGD[15]算法是一种迭代算法,可看作是在BIM的基础上添加一层随机化处理,其允许在范数球内的随机点上初始化,然后进行基本迭代,每次迭代均会将扰动投影到规定范围内,但能产生比BIM更好的攻击效果。在迭代过程中,将对抗音频进行如下操作:
| $ \begin{array}{l}{\boldsymbol{x}}_{t+1}={\mathrm{\Pi }}_{x+S}{\boldsymbol{x}}_{t}+\frac{\alpha \cdot g\left({\boldsymbol{x}}_{t}\right)}{{‖g\left({\boldsymbol{x}}_{t}\right)‖}_{2}}\\ g\left({\boldsymbol{x}}_{t}\right)=\nabla L\left(F\right({\boldsymbol{x}}_{t})\mathrm{ }, y)\end{array} $ | (8) |
其中,
ZOO[16]算法基于C&W算法并修改其损失函数实现黑盒设置下的攻击,而无需替代模型[20],其使用有限差分法获取近似梯度来解决黑盒设置下无法获取模型梯度的问题。受C&W算法启发,CHEN[16]等人提出一种新的类似铰链的损失函数,具体为:
| $ L(\boldsymbol{x}, t)= \\ \left\{\begin{array}{c}\mathrm{m}\mathrm{a}\mathrm{x}\left\{\underset{i\ne t}{\mathrm{m}\mathrm{a}\mathrm{x}} \; \mathrm{l}\mathrm{n}[F{\left(\boldsymbol{x}\right)]}_{i}-\mathrm{l}\mathrm{n}[F{\left(\boldsymbol{x}\right)]}_{t}, -k\right\}, \mathrm{有}\mathrm{目}\mathrm{标}\mathrm{攻}\mathrm{击}\\ \mathrm{m}\mathrm{a}\mathrm{x}\left\{\mathrm{l}\mathrm{n}[F{\left(\boldsymbol{x}\right)]}_{{t}_{0}}-\underset{i\ne {t}_{0}}{\mathrm{m}\mathrm{a}\mathrm{x}} \; \mathrm{l}\mathrm{n}[F{\left(\boldsymbol{x}\right)]}_{i}, -k\right\}, \mathrm{无}\mathrm{目}\mathrm{标}\mathrm{攻}\mathrm{击}\end{array}\right. $ | (9) |
其中,
对数运算符对黑盒攻击至关重要,因为DNN通常会在输出
| $ {\widehat{g}}_{t}=\frac{\partial L\left(\boldsymbol{x}\right)}{\partial {\boldsymbol{x}}_{i}}\approx \frac{L(\boldsymbol{x}+h{e}_{i})-L(\boldsymbol{x}-h{e}_{i})}{2h} $ | (10) |
| $ {\widehat{h}}_{t}=\frac{\partial L\left(\boldsymbol{x}\right)}{\partial {\boldsymbol{x}}_{ii}^{2}}\approx \frac{L(\boldsymbol{x}+h{e}_{i})-2L\left(\boldsymbol{x}\right)+L(\boldsymbol{x}-h{e}_{i})}{{h}^{2}} $ | (11) |
梯度评估是将黑盒转化为白盒的过程。两种估计方式分别对应ZOO的两种变体,即ZOO-ADAM和ZOO-Newton,并对应ADAM和Newton求解器以找到最佳的坐标进行更新。ZOO采用随机坐标下降来替代梯度下降方法,在每次迭代中随机选择一个变量(坐标),通过沿该坐标近似最小化目标函数进行更新,实现更快速有效的更新过程。ZOO适用于端到端说话人辨认模型,但对目标模型的访问次数较多,查询效率较低。
2.2.2 HSJA算法HSJA[17]算法在决策边界使用二进制信息对目标模型的梯度方向进行预估,利用
| $ \underset{{\boldsymbol{x}}^{ \mathbf{'} }}{\mathrm{m}\mathrm{i}\mathrm{n}}d({\boldsymbol{x}}^{ \mathbf{'} }, \boldsymbol{x})\mathrm{ }, {\phi }_{x}\left({\boldsymbol{x}}^{ \mathbf{'} }\right)=1 $ | (12) |
其中,
本文选用百度的DeepSpeaker[23]作为目标模型,包括ResCNN和GRU两种模型,它们是目前最具代表性的基于深度学习的端到端说话人识别模型。在声学特征提取阶段,为保留更丰富的原始音频信息,将语音信号利用帧长25 ms、帧移10 ms的滑动窗口转化为64维FBank(FilterBank)特征。每个样本随机截取多个约1.5 s的语音段,生成160×64的特征矩阵。ResCNN和GRU网络结构见表 1和表 2,其中,“—”表示该层网络不涉及相应参数。
|
下载CSV 表 1 ResCNN网络结构 Table 1 ResCNN network structure |
|
下载CSV 表 2 GRU网络结构 Table 2 GRU network structure |
ResCNN网络中两个卷积核为3×3、步长为1×1的卷积层组成1个残差块,实现低层输出到高层输入的直接连接。ResCNN网络具有4种残差块,每种残差块有3个。同时,残差块后的一个卷积核为5×5、步长为2×2的卷积层使频域的维度在输出通道数增加时保持不变。经过多个卷积层和残差块提取到的帧级别特征进入时间平均池化层(average)。GRU网络使用和ResCNN网络相同的卷积层来降低时域和频域的维度。卷积层之后是3个前向的GRU层。时间平均池化层对特征在时域上整体取均值,得到话语级别的特征,使得构建的网络在时间位置上具有不变性,再经过仿射层(affine)将语音级别的特征映射成512维的深度说话人嵌入。最后输入Softmax层进行分类。
3.2 实验数据集及环境设置实验使用中文语音数据库AISHELL-1(简记为AISHELL)[24]和英文语音数据库LIBRISPEECH(简记为LIBRI)[25]。AISHELL的录音文本涉及智能家居、无人驾驶和工业生产等,并且在安静室内同时使用3种不同设备总共录制178 h,其中包含400个说话人。LIBRI数据集包含1 000 h的16 kHz英语语料。实验训练了400个说话人和10个说话人的端到端说话人识别模型,分别用于无目标的对抗攻击和有目标的对抗攻击。
实验平台及环境:Intel® XeonTM Gold 5118 CPU@2.30 GHz(CPU),Tesla-V100-SXM2-32 GB(GPU),32 GB memory,Ubuntu 18.04.3 LTS(OS),Python 3.6,Tensorflow 2.10。
3.3 评价指标本文使用攻击成功率(Attack Success Rate,ASR)、扰动大小、置信度、对抗样本生成时间来评价各生成算法对端到端说话人识别模型的性能。
攻击成功率:成功逃避模型识别的样本数占测试样本总数的比例,计算公式如下:
| $ {A}_{\mathrm{A}\mathrm{S}\mathrm{R}}=\frac{{s}_{\mathrm{s}\mathrm{u}\mathrm{m}\mathrm{N}\mathrm{u}\mathrm{m}}\left({l}_{\mathrm{l}\mathrm{a}\mathrm{b}\mathrm{e}\mathrm{l}}\right({\boldsymbol{x}}^{ \mathbf{'} })\ne {y}_{0})}{{s}_{\mathrm{s}\mathrm{u}\mathrm{m}\mathrm{N}\mathrm{u}\mathrm{m}}\left({l}_{\mathrm{l}\mathrm{a}\mathrm{b}\mathrm{e}\mathrm{l}}\right(\boldsymbol{x})={y}_{0})} $ | (13) |
其中,
生成时间:生成一定数量的对抗样本所需的时间。为了准确地评估各算法的生成速度,实验设置的算法生成批次大小均为1,即每批次只生成一个对抗样本。
扰动大小:样本修改前后的变化量,衡量样本被处理前后的变化程度,计算公式如下:
| $ \delta =\frac{1}{N}\sum\limits_{i=1}^{N}\frac{{‖{\boldsymbol{x}}_{i}^{ \mathbf{'} }-{\boldsymbol{x}}_{i}‖}_{1}}{{‖{\boldsymbol{x}}_{i}‖}_{1}} $ | (14) |
其中,
信噪比(Signal to Noise Ratio,SNR):信号功率与噪声功率的比值,通常用来评估音频质量,计算公式如下:
| $ {S}_{\mathrm{S}\mathrm{N}\mathrm{R}}=10\mathrm{l}\mathrm{g}\frac{{P}_{\mathrm{s}\mathrm{i}\mathrm{g}\mathrm{n}\mathrm{a}\mathrm{l}}}{{P}_{\mathrm{n}\mathrm{o}\mathrm{i}\mathrm{s}\mathrm{e}}}=20\mathrm{l}\mathrm{g}\frac{{A}_{\mathrm{s}\mathrm{i}\mathrm{g}\mathrm{n}\mathrm{a}\mathrm{l}}}{{A}_{\mathrm{n}\mathrm{o}\mathrm{i}\mathrm{s}\mathrm{e}}} $ | (15) |
其中,
置信度:在无目标攻击实验中,样本鲁棒性使用原类标置信度表示,对抗样本被识别为原类标的置信度越低,表示该样本越鲁棒。在有目标攻击的实验中,样本鲁棒性使用目标类标置信度表示,对抗样本被识别成目标类别的置信度越高,表示该样本越鲁棒。
3.4 算法参数设置表 3和表 4表明FGSM、BIM、PGD的ASR和扰动随参数
|
下载CSV 表 3 不同ε下FGSM、BIM和PGD算法的ASR和扰动大小 Table 3 The ASR and perturbation size of FGSM, BIM and PGD algorithms under different ε |
|
下载CSV 表 4 不同k和范数下C&W算法的ASR和扰动大小 Table 4 The ASR and and perturbation size of C&W algorithm under different k and norms |
在无目标攻击的实验中,对于不同的生成算法,使用相同的100段音频,各自分别对不同网络结构和数据库训练的模型生成100个对抗样本。
表 5给出了无目标攻击时各生成对抗样本算法的ASR、扰动大小和生成时间。对于说话人辨认的无目标攻击,8种算法均能躲避系统识别。平均扰动的值越小,噪声越小,这样能使对抗音频对人类的听力更加难以察觉,各算法均具有较小的扰动。FGSM无需进行迭代,生成速度最快,但ASR劣于其他算法。从生成时间而言,黑盒攻击明显比白盒攻击花费更多的生成时间。
|
下载CSV 表 5 无目标攻击时各生成对抗样本算法的ASR、扰动大小和生成时间 Table 5 The ASR, perturbation size and generation time of each algorithm for generating adversarial samples with non-targeted attacks |
表 6给出了无目标攻击时各生成对抗样本算法的信噪比,各算法得到的对抗样本都有较好的平均信噪比,但JSMA、C&W(
|
下载CSV 表 6 无目标攻击时各生成对抗样本算法的信噪比 Table 6 The SNR of each algorithm for generating adversarial samples with non-targeted attacks |
表 7给出了无目标攻击中对抗样本被端到端说话人辨认模型识别为真实类目的置信度。可以看出,面对端到端说话人辨认模型,每种算法均能使对抗样本偏离真实类目,但C&W(L2)、C&W(
|
下载CSV 表 7 无目标攻击时各生成对抗样本算法的置信度 Table 7 The confidence of each algorithms for generating adversarial samples with non-targeted attacks |
在有目标攻击的实验中,随机抽取10段不同说话人的音频,每段音频以与该音频的真实标签不同的说话人为目标,生成9个对抗样本。
表 8给出了有目标攻击中对抗样本的攻击成功率以及成功对抗样本的平均信噪比、置信度、扰动大小和生成时间。可以看出,JSMA、BIM和PGD的ASR较高,但JSMA的SNR和置信度较低,表现劣于BIM和PGD。在黑盒攻击中,ZOO和HSJA表现较差,但HSJA在信噪比、置信度和扰动三方面优于ZOO。图 2给出了对抗样本对目标说话人的置信度的热力图,其中,横坐标Source Speaker表示真实说话人,纵坐标Target Speaker表示目标说话人,置信度从高到低进行分布。
|
下载CSV 表 8 有目标攻击时各生成对抗样本算法的ASR以及平均SNR、置信度、扰动大小和生成时间 Table 8 The ASR and average SNR, confidence, perturbation size and generation time of each algorithm for generating adversarial samples with targeted attacks |
|
Download:
|
| 图 2 有目标攻击时各算法置信度的矩阵热力图 Fig. 2 The matrix heat map of the confidence of each algorithms with target attack | |
BIM和PGD将10个音频都生成相应目标的鲁棒性对抗样本,表现最优。在ZOO和HSJA的热力图上可以看出,以说话人S0163为目标的不同对抗样本的置信度都较高,推测模型存在部分薄弱的类目,较容易被算法估计出特征。
3.5.3 不同网络结构下的生成算法实验结果分析在ResCNN和GRU网络结构模型的测试结果中,大部分算法在GRU模型测试的ASR较低、生成时间较长。这表明对GRU模型进行无目标攻击较为困难,其中JSMA的生成难度最大。而ResCNN和GRU网络结构的平均信噪比和真实类目的平均置信度相差不大。在有目标攻击时,其他算法对GRU模型的ASR较低(除了JSMA和HSJA之外),生成时间较长(除ZOO之外)。由此得出,对抗样本生成算法的性能会受端到端说话人辨认系统的网络结构限制,并且生成算法对GRU的攻击效果较差。
3.5.4 不同语种下的生成算法实验结果分析上述实验结果显示,在相同的网络结构下,JSMA和ZOO在LIBRI英文数据集训练的模型和AISHELL中文数据集训练的模型上的生成时间差异较大,其他指标相近,这可能是因为模型训练差异,而其他算法的各项指标测试结果差异不大。由此得出,各对抗样本生成算法对模型攻击效果受不同语种的影响较小。
3.5.5 隐蔽性测试结果分析为验证对抗音频与原始音频的区别,本文对30个听众进行3项测试:1)判断每种对抗音频是否为噪声(每种随机抽取1个);2)确认能否听清对抗音频的内容(每种随机抽取1个);3)听1对音频(原始音频和相应的对抗音频),找出对抗音频,属于ABX测试。每项都设置对照组,测试结果见表 9,其中,测试结果A表明感觉音频没有噪声的听众比例,测试结果B表明能听清音频内容的听众比例,测试结果C表明能正确找出对抗音频的听众比例。测试1的实验结果表明大部分听众认为JMSA和ZOO的对抗音频有明显的噪声,测试2的实验结果表明听众基本都能听清音频的内容,测试3的实验结果表明ABX测试中BIM、C&W(L2)和PGD正确找出对抗音频的听众比例接近50%,可以认为其对抗音频与原始音频无法被人耳区分。
|
下载CSV 表 9 隐蔽性测试结果 Table 9 Concealment test results |
上述实验结果表明,FGSM、JSMA、BIM、C&W、PGD、ZOO和HSJA这6种生成算法都能生成针对端到端说话人辨认模型识别的对抗样本,实现逃避攻击,但只有BIM、C&W(L2)、PGD能实现无法被人耳察觉的对抗音频。在无目标攻击时,HSJA黑盒算法能达到白盒攻击的较好水平。在有目标攻击时,BIM和PGD白盒算法面对不同说话人音频都能很好地生成高置信度的目标对抗样本,ZOO和HSJA黑盒算法只能对模型的薄弱目标生成对抗样本,但质量不高,对抗样本生成算法的实现会受网络结构的限制。
4 结束语为探究语音领域的对抗样本,本文基于端到端说话人辨认系统对现有经典的对抗样本生成算法在音频领域进行实现与比较研究。实验结果表明:在无目标攻击时,各类对抗样本在白盒和黑盒设置下均能逃避说话人辨认系统的识别,在整体性能表现上,BIM和PGD在白盒设置下表现最佳,在黑盒设置下HSJA表现较好;在有目标攻击时,BIM和PGD同样具有很好的性能表现,但在黑盒攻击方面,ZOO和HSJA在有目标攻击时均未能达到其作用在图像数据上的攻击性能表现。由于端到端说话人辨认模型存在安全脆弱性、实验数据局限于较短音频等问题,因此下一阶段将探索更具实际意义的语音对抗样本以及端到端说话人辨认的安全学习机制,提高深度学习模型防御对抗攻击的能力。
| [1] |
JUNG J W, HEO H S, YANG I H, et al. A complete end-to-end speaker verification system using deep neural networks: from raw signals to verification result[C]//Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Washington D.C., USA: IEEE Press, 2018: 5349-5353.
|
| [2] |
ZHANG C L, KOISHIDA K. End-to-end text-independent speaker verification with triplet loss on short utterances[EB/OL]. [2020-04-05]. http://m.isca-speech.org/archive/Interspeech_2017/pdfs/1608.PDF.
|
| [3] |
KINNUNEN T, LI H Z. An overview of text-independent speaker recognition: from features to supervectors[J]. Speech Communication, 2010, 52(1): 12-40. DOI:10.1016/j.specom.2009.08.009 |
| [4] |
VILLALBA J, CHEN N X, SNYDER D, et al. State-of-the-art speaker recognition with neural network embeddings in NIST SRE18 and speakers in the wild evaluations[J]. Computer Speech & Language, 2020, 60: 101026. |
| [5] |
FREDRIKSON M, JHA S, RISTENPART T. Model inversion attacks that exploit confidence information and basic countermeasures[C]//Proceedings of the 22nd ACM SIGSAC Conference on Computer and Communications Security. New York, USA: ACM Press, 2015: 1322-1333.
|
| [6] |
SZEGEDY C, ZAREMBA W, SUTSKEVER I, et al. Intriguing properties of neural networks[EB/OL]. [2020-04-05]. https://arxiv.org/pdf/1312.6199.pdf.
|
| [7] |
YUAN Xiaoyong, HE Pan, ZHU Qili, et al. Adversarial examples: attacks and defenses for deep learning[J]. IEEE Transactions on Neural Networks and Learning Systems, 2019, 30(9): 2805-2824. DOI:10.1109/TNNLS.2018.2886017 |
| [8] |
LUO Yuan, WANG Boyu, CHEN Xu. Research progresses of target detection technology based on deep learning[J]. Semiconductor Optoelectronics, 2020, 41(1): 1-10. (in Chinese) 罗元, 王薄宇, 陈旭. 基于深度学习的目标检测技术的研究综述[J]. 半导体光电, 2020, 41(1): 1-10. |
| [9] |
KREUK F, ADI Y, CISSE M, et al. Fooling end-to-end speaker verification with adversarial examples[C]//Proceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing. Washington D.C., USA: IEEE Press, 2018: 1962-1966.
|
| [10] |
LI Xu, ZHONG Jinghua, WU Xixin, et al. Adversarial attacks on GMM I-vector based speaker verification systems[C]//Proceedings of 2020 IEEE International Conference on Acoustics, Speech and Signal Processing. Washington D.C., USA: IEEE Press, 2020: 6579-6583.
|
| [11] |
GOODFELLOW I J, SHLENS J, SZEGEDY C. Explaining and harnessing adversarial examples[EB/OL]. [2020-04-05]. https://arxiv.org/pdf/1412.6572.pdf.
|
| [12] |
PAPERNOT N, MCDANIEL P, JHA S, et al. The limitations of deep learning in adversarial settings[C]//Proceedings of 2016 IEEE European Symposium on Security and Privacy. Washington D.C., USA: IEEE Press, 2016: 372-387.
|
| [13] |
KURAKIN A, GOODFELLOW I, BENGIO S. Adversarial examples in the physical world[EB/OL]. [2020-04-05]. https://arxiv.org/pdf/1607.02533.pdf?source=post_page.
|
| [14] |
CARLINI N, WAGNER D. Towards evaluating the robustness of neural networks[C]//Proceedings of 2017 IEEE Symposium on Security and Privacy. Washington D.C., USA: IEEE Press, 2017: 39-57.
|
| [15] |
MADRY A, MAKELOV A, SCHMIDT L, et al. Towards deep learning models resistant to adversarial attacks[EB/OL]. [2020-04-05]. https://arxiv.org/pdf/1706.06083.
|
| [16] |
CHEN P Y, ZHANG H, SHARMA Y, et al. ZOO: zeroth order optimization based black-box attacks to deep neural networks without training substitute models[C]//Proceedings of the 10th ACM Workshop on Artificial Intelligence and Security. New York, USA: ACM Press, 2017: 15-26.
|
| [17] |
CHEN J B, JORDAN M I, WAINWRIGHT M J. HopSkipJumpAttack: a query-efficient decision-based adversarial attack[EB/OL]. [2020-04-05]. https://arxiv.org/abs/1904.02144v1.
|
| [18] |
MOOSAVI-DEZFOOLI S M, FAWZI A, FROSSARD P. DeepFool: a simple and accurate method to fool deep neural networks[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 2574-2582.
|
| [19] |
CARLINI N, WAGNER D. Audio adversarial examples: targeted attacks on speech-to-text[C]//Proceedings of 2018 IEEE Security and Privacy Workshops. Washington D.C., USA: IEEE Press, 2018: 1-7.
|
| [20] |
PAPERNOT N, MCDANIEL P, GOODFELLOW I, et al. Practical black-box attacks against machine learning[C]//Proceedings of 2017 ACM on Asia Conference on Computer and Communications Security. New York, USA: ACM Press, 2017: 506-519.
|
| [21] |
LAX P D, TERRELL M S. Calculus with applications[M]. Berlin, Germany: Springer, 2014.
|
| [22] |
BRENDEL W, RAUBER J, BETHGE M. Decision-based adversarial attacks: reliable attacks against black-box machine learning models[EB/OL]. [2020-04-05]. https://arxiv.org/pdf/1712.04248.pdf.
|
| [23] |
LI Chao, MA Xiaokong, JIANG Bing, et al. Deep speaker: an end-to-end neural speaker embedding system[EB/OL]. [2020-04-05]. https://blog.csdn.net/qq_34755941/article/details/109247992.
|
| [24] |
BU Hui, DU Jiayu, NA Xingyu, et al. AISHELL-1: an open-source mandarin speech corpus and a speech, recognition baseline[EB/OL]. [2020-04-05]. https://arxiv.org/pdf/1709.05522.pdf.
|
| [25] |
PANAYOTOV V, CHEN G G, POVEY D, et al. LIBRISPEECH: an ASR corpus based on public domain audio books[C]//Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Washington D.C., USA: IEEE Press, 2015: 19-24.
|
2021, Vol. 47

,