端到端说话人辨认的对抗样本应用比较研究

引用本文

廖俊帆, 顾益军, 张培晶, 等. 端到端说话人辨认的对抗样本应用比较研究[J]. 计算机工程, 2021, 47(6), 132-141. DOI: 10.19678/j.issn.1000-3428.0058239.

LIAO Junfan, GU Yijun, ZHANG Peijing, et al. Comparative Research on Application of Adversarial Samples for End-to-End Speaker Identification[J]. Computer Engineering, 2021, 47(6), 132-141. DOI: 10.19678/j.issn.1000-3428.0058239.

基金项目

公安部技术研究计划竞争性遴选项目（2019JZX009）；中国人民公安大学公共安全行为科学研究与技术创新专项

通信作者

顾益军(通信作者), 教授、博士

作者简介

廖俊帆(1995-), 男, 硕士研究生, 主研方向为对抗样本攻击与防御;
张培晶, 副研究员、硕士;
廖茜, 硕士研究生

文章历史

收稿日期：2020-05-03
修回日期：2020-06-17

Contents Abstract Full text Figures/Tables PDF

端到端说话人辨认的对抗样本应用比较研究

廖俊帆¹ , 顾益军¹ , 张培晶² , 廖茜¹

1. 中国人民公安大学信息网络安全学院, 北京 102600;
2. 中国人民公安大学网络信息中心, 北京 100038

收稿日期：2020-05-03；修回日期：2020-06-17

基金项目：公安部技术研究计划竞争性遴选项目（2019JZX009）；中国人民公安大学公共安全行为科学研究与技术创新专项

作者简介：廖俊帆(1995-), 男, 硕士研究生, 主研方向为对抗样本攻击与防御; 张培晶, 副研究员、硕士; 廖茜, 硕士研究生.

通信作者：顾益军(通信作者), 教授、博士.

E-mail: 754605668@qq.com

摘要：为探究对抗样本对端到端说话人辨认系统的安全威胁与攻击效果，比较现有对抗样本生成算法在语音环境下的性能优劣势，分析FGSM、JSMA、BIM、C&W、PGD 5种白盒算法和ZOO、HSJA 2种黑盒算法。将7种对抗样本生成算法在ResCNN和GRU两种网络结构的端到端说话人辨认模型中实现有目标和无目标攻击，并制作音频对抗样本，通过攻击成功率和信噪比等性能指标评估攻击效果并进行人工隐蔽性测试。实验结果表明，现有对抗样本生成算法可在端到端说话人辨认模型中进行实现，白盒算法中的BIM、PGD具有较好的性能表现，黑盒算法的无目标攻击能达到白盒算法的攻击效果，但其有目标攻击性能有待进一步提升。

Comparative Research on Application of Adversarial Samples for End-to-End Speaker Identification

LIAO Junfan¹ , GU Yijun¹ , ZHANG Peijing² , LIAO Qian¹

1. College of Information Network Security, People's Public Security University of China, Beijing 102600, China;
2. Network Information Center, People's Public Security University of China, Beijing 100038, China

Abstract: In order to explore the security threats and attack effects of the adversarial samples on the end-to-end speaker identification system, this paper analyzes five white box algorithms(FGSM, JSMA, BIM, C&W, PGD) and two black box algorithms(ZOO, HSJA) to compare the advantages and disadvantages of the existing adversarial sample generation algorithms in a phonetic context.Each generation algorithm implements targeted and non-targeted attacks in the end-to-end speaker identification model of ResCNN and GRU, and creates effective audio adversarial samples.Then the attack effects are evaluated by using the performance indicators such as Attack Success Rate(ASR) and Signal to Noise Ratio(SNR).Finally, a manual concealment test is performed.Experimental results show that the existing adversarial sample generation algorithms can be implemented in the end-to-end speaker identification model.The BIM and PGD in the white box generation algorithm have excellent performance.The black box generation algorithm gets non-targeted attacks that are on par with that of the white box generation algorithm, while its targeted attack effect still needs improvement.

开放科学（资源服务）标志码（OSID）：

0 概述

语音是人与人之间最自然直接的交流方式，也是具有最大信息容量的信息载体。目前，说话人识别技术已在人们日常生活中得到了广泛的应用，说话人辨认技术作为其重要分支在公安司法等领域具有较好的发展前景。随着人工智能和大数据时代的到来，同时得益于计算机计算能力的不断提高，深度学习技术已经成为各界研究的热点，其可应用于说话人辨认系统的后端，使声学特征更具区分性，从而更有利于区分说话人，而端到端网络架构使用一个神经网络连接输入端和输出端，能将特征训练和分类打分进行联合优化^[1-3]。因此，结合基于深度学习的端到端网络的说话人辨认技术能克服复杂环境干扰，具有易构建、强泛化的特点。机器学习算法是人工智能中的重要部分，给人们带来便利的同时也带来了诸多安全问题。机器学习模型的攻击方式一般为破坏其机密性、完整性和可用性，主要包括隐私攻击、针对训练数据的攻击以及针对算法模型的攻击^[4-5]三类方式。对抗样本是能轻易地引发模型分类错误的针对算法模型的攻击方式^[6-7]，随着对抗样本在图像、自动驾驶等领域被证实可使攻击者逃避模型检测，研究人员发现机器学习模型面对对抗样本表现出的脆弱性问题是普遍存在的，而基于深度学习的端到端说话人辨认模型也可能受到对抗样本的攻击。

为准确全面地评估端到端说话人识别技术面临的安全问题，本文系统地分析端到端说话人辨认系统和目前多种经典的白盒算法和黑盒算法，以基于卷积结构的端到端说话人辨认模型作为实验对象，通过实验比较评估这些对抗样本对端到端说话人辨认系统的攻击性能。

1 端到端说话人辨认 1.1 基于深度学习的端到端说话人辨认

说话人辨认是多分类问题^[8]，即判断某段语音是由若干人中哪个人所说。端到端说话人辨认系统由深度神经网络组成，深度神经网络将不同长度的语段映射为一定维度的特征向量，即深度嵌入，再将不同说话人的语音特征映射到超球面的不同区域，最终通过各区域之间的差异实现分类。在识别过程中需要先在语音数据中提取声学特征，使用$ \boldsymbol{X}\subset {\mathbb{R}}^{d} $表示声学特征向量的域，声学特征表示为向量序列$ \boldsymbol{x}=({\boldsymbol{x}}_{1}, {\boldsymbol{x}}_{2}, \mathrm{ }\cdots , {\boldsymbol{x}}_{T}) $，其中$ {\boldsymbol{x}}_{i}\in \boldsymbol{X} $且$ 1\le i\le T $，由于输入信号长度不固定，因此$ T $值也不固定。将特征向量x输入深度神经网络生成帧级别的特征，帧级别的特征被激活后输入平均池化层得到话语级别的特征，再利用仿射层进行维度转换得到固定维度的深度说话人嵌入，最终输出层将固定维度的深度说话人嵌入映射到训练说话人类别。

1.2 针对端到端说话人辨认的攻击模型

针对端到端说话人辨认系统的对抗攻击，需要运用对抗样本生成算法制作针对端到端说话人辨认模型的对抗样本。对抗样本可以诱导模型算法出现误判或漏判，从而躲避系统的识别实现攻击。本文将在白盒和黑盒设置下对端到端说话人辨认模型进行攻击。在白盒设置下，攻击者可以完全访问说话人辨认系统，根据获取到的梯度信息制作噪声，并且能最大程度地减少扰动提高成功率。在黑盒设置下，攻击者只能有限制地访问模型，并且仅获得端到端说话人辨认模型的输出，无法直接获取输入与输出之间的梯度。与在声学特征上生成对抗样本的方法^[9-10]不同，本文是在音频上直接制作对抗样本，具备更好的隐蔽性。如图 1所示，一段音频经攻击者添加噪声后被输入目标说话人辨认系统中，攻击者根据模型反馈信息反复对噪声进行修改，最终制作出对抗样本，实现端到端说话人辨认系统的错误识别。

	Download: JPG larger image
图 1 攻击步骤 Fig. 1 Attack steps

2 对抗样本生成算法

利用深度神经网络训练得到的模型在输入和输出之间的映射通常为非线性，因此在输入数据中通过故意添加不易察觉的细微扰动来生成的对抗样本，能够导致模型以高置信度给出一个错误的输出。对抗样本能够找出机器学习模型的弱点，在网络安全领域主要用于模型安全评估和对抗鲁棒性强化。

目前，关于攻击的分类有很多种，按照是否获得目标模型的具体结构和参数可分为白盒攻击和黑盒攻击。白盒攻击指攻击者能获取目标模型的所有信息，对抗样本较多，如FGSM^[11]、JSMA^[12]、BIM^[13]、C&W^[14]、PGD^[15]等；黑盒攻击指攻击者无法直接获取模型的任何信息，只能通过访问模型来获取反馈信息对黑盒模型进行估计，从而使得攻击成功，如ZOO^[16]、HSJA^[17]等。此外，按照是否需要指定攻击类目可分为无目标攻击和有目标攻击。无目标攻击不指定具体类目，只需使识别模型出现错误，如Deepfool^[18]等。有目标攻击比无目标攻击更困难，不仅需要识别模型出现错误，还需模型输出指定的结果，如C&W等。现有的对抗样本生成算法并不都能适应音频数据中复杂的时间域信息和计算复杂度，因此难以在端到端说话人辨认系统中进行实现，如Deepfool。本文仅选取可用于端到端说话人辨认系统的FGSM、JSMA、BIM、C&W、PGD这5种白盒算法和ZOO、HSJA这2种黑盒算法进行对抗样本攻击实验。

2.1 白盒算法 2.1.1 FSGM算法

在一般情况下，给定分类网络$ F $和输入$ \boldsymbol{x} $，通过求优化问题式（1）生成对抗样本，即在允许的最大扰动量$ \varepsilon $的约束下，扰动$ \delta $的$ p $范数能实现最大化网络预测$ F(\boldsymbol{x}+\delta ) $和真实标签$ y $的损失函数$ L $。

$ \delta =\underset{{‖\delta ‖}_{p}\le \varepsilon }{\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{m}\mathrm{a}\mathrm{x}}L\left(F\right(\boldsymbol{x}+\delta )\mathrm{ }, y) $

(1)

FSGM^[8]是根据高维空间下深度神经网络的线性行为会导致对抗样本的产生而设计得到，并利用损失函数梯度解决优化问题式（1），计算公式如下：

$ \boldsymbol{x} \mathbf{'} =\boldsymbol{x}+\varepsilon \cdot \mathrm{s}\mathrm{i}\mathrm{g}\mathrm{n}(\nabla L(F\left(\boldsymbol{x}\right)\mathrm{ }, y\left)\right) $

(2)

其中，$ \nabla L\left(F\right(\boldsymbol{x}), y)) $表示损失函数的偏导数。若是目标攻击，则将$ y $换成目标标签$ t $。FSGM攻击需要考虑损失函数相对于输入梯度的符号，适用于端到端说话人辨认的非线性模型。本文采用的分类模型$ F $包含特征提取模块，对应输入音频$ \boldsymbol{x} $无需进行过多预处理，仅将扰动噪声添加到测试音频中。FGSM对抗样本生成速度快，但攻击性较弱，对模型防御能力提升小。

2.1.2 JSMA算法

JSMA^[12]算法利用显著性映射，能够表征分类器的输出与输入之间的关联，仅在样本$ \boldsymbol{x} $的关键分量上添加扰动，能够得到使分类器输出指定类目的对抗样本。因为分类器的结果受输入样本$ \boldsymbol{x} $某些分量的影响较大，不同于FGSM的梯度通过对损失函数求导获得，JSMA算法的前向导数是神经网络的logit层的输出$ Z(\cdot ) $对输入特征的偏导，所以在端到端说话人辨认网络中实现分类器对样本$ x $的显著性映射如下：

$ S(\boldsymbol{x}, t)\left[i\right]\left\{\begin{array}{l}0, \frac{\partial {Z}_{j}\left(\boldsymbol{x}\right)}{\partial {\boldsymbol{x}}_{i}}>0\mathrm{且}\frac{\partial {Z}_{t}\left(\boldsymbol{x}\right)}{\partial {\boldsymbol{x}}_{i}}<0\\ \frac{\partial {Z}_{t}\left(\boldsymbol{x}\right)}{\partial {\boldsymbol{x}}_{i}}\left|\frac{\partial {Z}_{j}\left(\boldsymbol{x}\right)}{\partial {\boldsymbol{x}}_{i}}\right|, \mathrm{其}\mathrm{他}\end{array}\right. $

(3)

其中，$ i $表示对应的输入分量，$ t $表示分类器对应目标标签的输出分量，$ j $表示输出的其他分量。根据最大化显著性效果获得输入的关键分量$ k $，因此在迭代过程中对其添加扰动：

$ \begin{array}{l}{k}_{n}=\underset{i}{\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{m}\mathrm{a}\mathrm{x}}S({\boldsymbol{x}}_{n-1}, t)\left[i\right]\mathrm{ }, \mathrm{ }{\boldsymbol{x}}_{0}=\boldsymbol{x}\\ {\boldsymbol{x}}_{n}=\left\{\begin{array}{l}{\boldsymbol{x}}_{n-1, i}+\varepsilon , \mathrm{ }i={k}_{n}\\ {\boldsymbol{x}}_{n-1, i}\mathrm{ }, \mathrm{ }i\ne {k}_{n}\end{array}\right.\end{array} $

(4)

在获得的特征上添加扰动获得对抗样本，扰动方式分为正向扰动和反向扰动。不同于图像数值全为正值，音频的波形数值是正负值并存，实现结果可能有所差异。JSMA是基于梯度的迭代算法，仅对样本的部分分量进行修改，与原样本的相似度高，但是每次迭代均需要重新计算显著图，因此生成速度较慢，不适用于部分大规模数据集。

2.1.3 BIM算法

由于FGSM算法仅涉及单次梯度更新，对于大规模数据出错概率较高，因此KURAKIN等人^[13]提出快速梯度符号法的改进迭代算法。迭代梯度符号法的对抗样本生成算法如下：

$ \begin{array}{l}{\boldsymbol{x}}_{i}^{ \mathbf{'} }={\boldsymbol{x}}_{i-1}^{ \mathbf{'} }+\mathrm{c}\mathrm{l}\mathrm{i}{\mathrm{p}}_{\alpha }(\varepsilon \cdot \mathrm{s}\mathrm{i}\mathrm{g}\mathrm{n}(\nabla L\left(F\right(\boldsymbol{x})\mathrm{ }, y)\left)\right)\\ {\boldsymbol{x}}_{0}^{ \mathbf{'} }=\boldsymbol{x}\end{array} $

(5)

其中，$ \mathrm{c}\mathrm{l}\mathrm{i}\mathrm{p} $表示将溢出的数值用边界值代替，这是因为在迭代更新中，随着迭代次数的增加，部分元素可能会溢出，只有代替这些数值原有的边界值，才能生成有效的对抗样本。相比FGSM，BIM能够在音频信号中寻找更精准有效的噪声点，实现性能更优的对抗音频。

2.1.4 C&W算法

C&W^[14]算法在式（1）的优化问题上添加欧几里得距离来量化对抗样本$ \boldsymbol{x} \mathbf{'} $和原始样本$ \boldsymbol{x} $之间的差异$ {‖\boldsymbol{x} \mathbf{'} -\boldsymbol{x}‖}_{2}^{2} $。为消除$ \boldsymbol{x} \mathbf{'} \in \left[\mathrm{0, 1}\right]{}^{p} $区间约束，将$ \boldsymbol{x} \mathbf{'} $替换为$ \frac{1}{2}(\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\omega +1) $，$ \omega \in {\mathbb{R}}^{p} $，由此将优化问题转化为无约束的最小化问题，如式（6）所示：

$ \begin{array}{l}\mathrm{m}\mathrm{i}\mathrm{n}\mathrm{i}\mathrm{m}\mathrm{i}\mathrm{z}{\mathrm{e}}_{\omega }{‖\frac{1}{2}(\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\mathrm{ }\omega +1\mathrm{ })-\boldsymbol{x}‖}_{2}^{2}+\\ \varepsilon \cdot f\left(\frac{1}{2}(\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\mathrm{ }\omega +1\mathrm{ })\mathrm{ }, t\right)\end{array} $

(6)

通过映射到tanh空间，对抗样本能在$ (-\mathrm{\infty }, +\mathrm{\infty }) $上进行变换，其中$ f(\boldsymbol{x}, t) $表示损失函数，反映了对抗攻击的不成功概率，$ t $表示目标类别。损失函数一般表示为：

$ L({\boldsymbol{x}}^{ \mathbf{'} }, t)=\mathrm{m}\mathrm{a}\mathrm{x}\left\{\underset{i\ne t}{\mathrm{m}\mathrm{a}\mathrm{x}} \;{\boldsymbol{x}}_{i}^{ \mathbf{'} }-{\boldsymbol{x}}_{t}^{ \mathbf{'} }, -k\right\} $

(7)

其中：$ k\ge 0 $表示攻击传递性的调整参数，$ k $确保了$ \underset{i\ne t}{\mathrm{m}\mathrm{a}\mathrm{x}}[Z{\left(\boldsymbol{x}\right)]}_{i} $和$ \underset{i\ne t}{\mathrm{m}\mathrm{a}\mathrm{x}}[Z{\left(\boldsymbol{x}\right)]}_{i} $的恒定距离，随着k值的增大，攻击成功率越高；$ Z(\cdot ) $表示logit层的输出。C&W算法生成的扰动极小，但消耗时间较长。CARLINI等人^[19]将C&W算法应用在语音识别模型中，并使语音识别模型能将任意音频输出为特定目标句子，因此C&W算法也可应用在说话人辨认模型中。

2.1.5 PGD算法

PGD^[15]算法是一种迭代算法，可看作是在BIM的基础上添加一层随机化处理，其允许在范数球内的随机点上初始化，然后进行基本迭代，每次迭代均会将扰动投影到规定范围内，但能产生比BIM更好的攻击效果。在迭代过程中，将对抗音频进行如下操作：

$ \begin{array}{l}{\boldsymbol{x}}_{t+1}={\mathrm{\Pi }}_{x+S}{\boldsymbol{x}}_{t}+\frac{\alpha \cdot g\left({\boldsymbol{x}}_{t}\right)}{{‖g\left({\boldsymbol{x}}_{t}\right)‖}_{2}}\\ g\left({\boldsymbol{x}}_{t}\right)=\nabla L\left(F\right({\boldsymbol{x}}_{t})\mathrm{ }, y)\end{array} $

(8)

其中，$ S=r\in {\mathbb{R}}^{d} $（$ {‖r‖}_{2}\le \varepsilon $）表示扰动的约束空间，$ \alpha $表示扰动修改的步长，$ {\mathrm{\Pi }}_{x+S} $表示在范数球上进行投影。在迭代过程中，若添加的扰动幅度过大，则将其拉回范数球的边界。通过一阶梯度得到的样本被称为一阶对抗样本，而PGD是一阶对抗样本中最优的对抗样本生成算法。PGD可看作是FGSM的拓展，能够在端到端说话人辨认模型上进行实现。

2.2 黑盒算法 2.2.1 ZOO算法

ZOO^[16]算法基于C&W算法并修改其损失函数实现黑盒设置下的攻击，而无需替代模型^[20]，其使用有限差分法获取近似梯度来解决黑盒设置下无法获取模型梯度的问题。受C&W算法启发，CHEN^[16]等人提出一种新的类似铰链的损失函数，具体为：

$ L(\boldsymbol{x}, t)= \\ \left\{\begin{array}{c}\mathrm{m}\mathrm{a}\mathrm{x}\left\{\underset{i\ne t}{\mathrm{m}\mathrm{a}\mathrm{x}} \; \mathrm{l}\mathrm{n}[F{\left(\boldsymbol{x}\right)]}_{i}-\mathrm{l}\mathrm{n}[F{\left(\boldsymbol{x}\right)]}_{t}, -k\right\}, \mathrm{有}\mathrm{目}\mathrm{标}\mathrm{攻}\mathrm{击}\\ \mathrm{m}\mathrm{a}\mathrm{x}\left\{\mathrm{l}\mathrm{n}[F{\left(\boldsymbol{x}\right)]}_{{t}_{0}}-\underset{i\ne {t}_{0}}{\mathrm{m}\mathrm{a}\mathrm{x}} \; \mathrm{l}\mathrm{n}[F{\left(\boldsymbol{x}\right)]}_{i}, -k\right\}, \mathrm{无}\mathrm{目}\mathrm{标}\mathrm{攻}\mathrm{击}\end{array}\right. $

(9)

其中，$ {t}_{0} $表示$ \boldsymbol{x} $的原始标签，$ \underset{i\ne {t}_{0}}{\mathrm{m}\mathrm{a}\mathrm{x}} \; \mathrm{l}\mathrm{n}[F{\left(\boldsymbol{x}\right)]}_{i} $表示除$ {t}_{0} $之外最可能的预测类别。

对数运算符对黑盒攻击至关重要，因为DNN通常会在输出$ F $上产生偏斜的概率分布，此类的置信度得分显著地支配另一类的置信度得分。因此，使用对数运算可减少主导效应，并保留由于单调性而导致的置信度得分顺序，同时采用对称差商^[21]或Hessian估计来估计梯度：

$ {\widehat{g}}_{t}=\frac{\partial L\left(\boldsymbol{x}\right)}{\partial {\boldsymbol{x}}_{i}}\approx \frac{L(\boldsymbol{x}+h{e}_{i})-L(\boldsymbol{x}-h{e}_{i})}{2h} $

(10)

$ {\widehat{h}}_{t}=\frac{\partial L\left(\boldsymbol{x}\right)}{\partial {\boldsymbol{x}}_{ii}^{2}}\approx \frac{L(\boldsymbol{x}+h{e}_{i})-2L\left(\boldsymbol{x}\right)+L(\boldsymbol{x}-h{e}_{i})}{{h}^{2}} $

(11)

梯度评估是将黑盒转化为白盒的过程。两种估计方式分别对应ZOO的两种变体，即ZOO-ADAM和ZOO-Newton，并对应ADAM和Newton求解器以找到最佳的坐标进行更新。ZOO采用随机坐标下降来替代梯度下降方法，在每次迭代中随机选择一个变量（坐标），通过沿该坐标近似最小化目标函数进行更新，实现更快速有效的更新过程。ZOO适用于端到端说话人辨认模型，但对目标模型的访问次数较多，查询效率较低。

2.2.2 HSJA算法

HSJA^[17]算法在决策边界使用二进制信息对目标模型的梯度方向进行预估，利用$ {L}_{2} $和$ {L}_{\mathrm{\infty }} $的相似性指标进行优化的无目标和有目标攻击。与边界攻击^[22]相比，HSJA需要的模型查询更少，在攻击多种广泛使用的防御机制时，具有一定优势。HSJA引入布尔值函数$ {\phi }_{\boldsymbol{x}\mathrm{^*}}:{\left[\mathrm{0, 1}\right]}^{d}\to \{-\mathrm{1, 1}\} $作为成功扰动的指标，对抗样本的目标是生成对抗样本$ {\boldsymbol{x}}^{ \mathbf{'} } $，使得$ {\phi }_{\boldsymbol{x}\mathrm{^*}}\left({\boldsymbol{x}}^{ \mathbf{'} }\right)=1 $，同时保持$ {\boldsymbol{x}}^{ \mathbf{'} } $接近原始样本$ \boldsymbol{x} $，从而将对抗样本制作问题转化为最优化问题，如式（12）所示：

$ \underset{{\boldsymbol{x}}^{ \mathbf{'} }}{\mathrm{m}\mathrm{i}\mathrm{n}}d({\boldsymbol{x}}^{ \mathbf{'} }, \boldsymbol{x})\mathrm{ }, {\phi }_{x}\left({\boldsymbol{x}}^{ \mathbf{'} }\right)=1 $

(12)

其中，$ d $是量化相似度的距离函数，HSJA为迭代算法，每次迭代均涉及梯度方向估计、通过几何级数进行步长搜索以及利用二分搜索将最后一次迭代推向边界这3个步骤。HSJA查询效率高，具有收敛性分析，适用于端到端说话人辨认模型，但对于限制边界查询的目标模型的攻击效果较差。

3 实验设置与结果分析 3.1 实验目标模型

本文选用百度的DeepSpeaker^[23]作为目标模型，包括ResCNN和GRU两种模型，它们是目前最具代表性的基于深度学习的端到端说话人识别模型。在声学特征提取阶段，为保留更丰富的原始音频信息，将语音信号利用帧长25 ms、帧移10 ms的滑动窗口转化为64维FBank（FilterBank）特征。每个样本随机截取多个约1.5 s的语音段，生成160×64的特征矩阵。ResCNN和GRU网络结构见表 1和表 2，其中，“—”表示该层网络不涉及相应参数。

下载CSV 表 1 ResCNN网络结构 Table 1 ResCNN network structure

下载CSV 表 2 GRU网络结构 Table 2 GRU network structure

ResCNN网络中两个卷积核为3×3、步长为1×1的卷积层组成1个残差块，实现低层输出到高层输入的直接连接。ResCNN网络具有4种残差块，每种残差块有3个。同时，残差块后的一个卷积核为5×5、步长为2×2的卷积层使频域的维度在输出通道数增加时保持不变。经过多个卷积层和残差块提取到的帧级别特征进入时间平均池化层（average）。GRU网络使用和ResCNN网络相同的卷积层来降低时域和频域的维度。卷积层之后是3个前向的GRU层。时间平均池化层对特征在时域上整体取均值，得到话语级别的特征，使得构建的网络在时间位置上具有不变性，再经过仿射层（affine）将语音级别的特征映射成512维的深度说话人嵌入。最后输入Softmax层进行分类。

3.2 实验数据集及环境设置

实验使用中文语音数据库AISHELL-1（简记为AISHELL）^[24]和英文语音数据库LIBRISPEECH（简记为LIBRI）^[25]。AISHELL的录音文本涉及智能家居、无人驾驶和工业生产等，并且在安静室内同时使用3种不同设备总共录制178 h，其中包含400个说话人。LIBRI数据集包含1 000 h的16 kHz英语语料。实验训练了400个说话人和10个说话人的端到端说话人识别模型，分别用于无目标的对抗攻击和有目标的对抗攻击。

实验平台及环境：Intel^® Xeon^TM Gold 5118 CPU@2.30 GHz（CPU），Tesla-V100-SXM2-32 GB（GPU），32 GB memory，Ubuntu 18.04.3 LTS（OS），Python 3.6，Tensorflow 2.10。

3.3 评价指标

本文使用攻击成功率（Attack Success Rate，ASR）、扰动大小、置信度、对抗样本生成时间来评价各生成算法对端到端说话人识别模型的性能。

攻击成功率：成功逃避模型识别的样本数占测试样本总数的比例，计算公式如下：

$ {A}_{\mathrm{A}\mathrm{S}\mathrm{R}}=\frac{{s}_{\mathrm{s}\mathrm{u}\mathrm{m}\mathrm{N}\mathrm{u}\mathrm{m}}\left({l}_{\mathrm{l}\mathrm{a}\mathrm{b}\mathrm{e}\mathrm{l}}\right({\boldsymbol{x}}^{ \mathbf{'} })\ne {y}_{0})}{{s}_{\mathrm{s}\mathrm{u}\mathrm{m}\mathrm{N}\mathrm{u}\mathrm{m}}\left({l}_{\mathrm{l}\mathrm{a}\mathrm{b}\mathrm{e}\mathrm{l}}\right(\boldsymbol{x})={y}_{0})} $

(13)

其中，$ {s}_{\mathrm{s}\mathrm{u}\mathrm{m}\mathrm{N}\mathrm{u}\mathrm{m}}(\cdot ) $表示样本数量，$ \boldsymbol{x} $表示原音频，$ {\boldsymbol{x}}^{ \mathbf{'} } $表示对抗样本，$ {l}_{\mathrm{l}\mathrm{a}\mathrm{b}\mathrm{e}\mathrm{l}}(\cdot ) $表示模型输出标签，$ {y}_{0} $表示真实说话人标签；若有目标攻击时，分母改为$ {s}_{\mathrm{s}\mathrm{u}\mathrm{m}\mathrm{N}\mathrm{u}\mathrm{m}}\left({l}_{\mathrm{l}\mathrm{a}\mathrm{b}\mathrm{e}\mathrm{l}}\right({x}^{ \mathbf{'} })={y}_{t}) $，$ {y}_{t} $是目标说话人标签。

生成时间：生成一定数量的对抗样本所需的时间。为了准确地评估各算法的生成速度，实验设置的算法生成批次大小均为1，即每批次只生成一个对抗样本。

扰动大小：样本修改前后的变化量，衡量样本被处理前后的变化程度，计算公式如下：

$ \delta =\frac{1}{N}\sum\limits_{i=1}^{N}\frac{{‖{\boldsymbol{x}}_{i}^{ \mathbf{'} }-{\boldsymbol{x}}_{i}‖}_{1}}{{‖{\boldsymbol{x}}_{i}‖}_{1}} $

(14)

其中，$ N $为样本个数，$ {‖\cdot ‖}_{1} $为1范数。

信噪比（Signal to Noise Ratio，SNR）：信号功率与噪声功率的比值，通常用来评估音频质量，计算公式如下：

$ {S}_{\mathrm{S}\mathrm{N}\mathrm{R}}=10\mathrm{l}\mathrm{g}\frac{{P}_{\mathrm{s}\mathrm{i}\mathrm{g}\mathrm{n}\mathrm{a}\mathrm{l}}}{{P}_{\mathrm{n}\mathrm{o}\mathrm{i}\mathrm{s}\mathrm{e}}}=20\mathrm{l}\mathrm{g}\frac{{A}_{\mathrm{s}\mathrm{i}\mathrm{g}\mathrm{n}\mathrm{a}\mathrm{l}}}{{A}_{\mathrm{n}\mathrm{o}\mathrm{i}\mathrm{s}\mathrm{e}}} $

(15)

其中，$ {P}_{\mathrm{s}\mathrm{i}\mathrm{g}\mathrm{n}\mathrm{a}\mathrm{l}} $为信号功率，$ {P}_{\mathrm{n}\mathrm{o}\mathrm{i}\mathrm{s}\mathrm{e}} $为噪声功率，$ {A}_{\mathrm{s}\mathrm{i}\mathrm{g}\mathrm{n}\mathrm{a}\mathrm{l}} $为信号幅度，$ {A}_{\mathrm{n}\mathrm{o}\mathrm{i}\mathrm{s}\mathrm{e}} $为噪声幅度。较大的SNR值表示较小的噪声等级。在本文实验中，SNR用来衡量对抗音频相对于原始音频的失真，比较生成算法生成的对抗性音频的差异。

置信度：在无目标攻击实验中，样本鲁棒性使用原类标置信度表示，对抗样本被识别为原类标的置信度越低，表示该样本越鲁棒。在有目标攻击的实验中，样本鲁棒性使用目标类标置信度表示，对抗样本被识别成目标类别的置信度越高，表示该样本越鲁棒。

3.4 算法参数设置

表 3和表 4表明FGSM、BIM、PGD的ASR和扰动随参数$ \varepsilon $增加而增大，C&W在范数L₂和$ {L}_{\mathrm{\infty }} $下的ASR随$ k $变化不大，而扰动随之增大。但是，JSMA、ZOO和HSJA参数多样，难以统一比较。为在相似的攻击强度下对生成算法进行比较，在后续实验中：FGSM、BIM、PGD的度量单位均为$ {L}_{\mathrm{\infty }} $且$ \varepsilon =0.001 $（描述可修改的$ {L}_{\mathrm{\infty }} $范围大小）；JSMA的度量单位为L₂；C&W和ZOO使用置信度参数$ k $来描述扰动大小且设置为0.0，其中C&W分别使用$ {L}_{2} $和$ {L}_{\mathrm{\infty }} $两种度量单位进行实验；JSMA设置每步修改的扰动量为0.1，最大特征分数为1.0。HSJA的初次和最大评估次数分别设置为100和1 000。

下载CSV 表 3 不同ε下FGSM、BIM和PGD算法的ASR和扰动大小 Table 3 The ASR and perturbation size of FGSM, BIM and PGD algorithms under different ε

下载CSV 表 4 不同k和范数下C&W算法的ASR和扰动大小 Table 4 The ASR and and perturbation size of C&W algorithm under different k and norms

3.5 实验结果分析 3.5.1 无目标攻击实验结果分析

在无目标攻击的实验中，对于不同的生成算法，使用相同的100段音频，各自分别对不同网络结构和数据库训练的模型生成100个对抗样本。

表 5给出了无目标攻击时各生成对抗样本算法的ASR、扰动大小和生成时间。对于说话人辨认的无目标攻击，8种算法均能躲避系统识别。平均扰动的值越小，噪声越小，这样能使对抗音频对人类的听力更加难以察觉，各算法均具有较小的扰动。FGSM无需进行迭代，生成速度最快，但ASR劣于其他算法。从生成时间而言，黑盒攻击明显比白盒攻击花费更多的生成时间。

下载CSV 表 5 无目标攻击时各生成对抗样本算法的ASR、扰动大小和生成时间 Table 5 The ASR, perturbation size and generation time of each algorithm for generating adversarial samples with non-targeted attacks

表 6给出了无目标攻击时各生成对抗样本算法的信噪比，各算法得到的对抗样本都有较好的平均信噪比，但JSMA、C&W（$ {L}_{\mathrm{\infty }} $）和ZOO的最低信噪比接近0，甚至负值。这说明音频信息完全丢失，无法完成攻击，C&W（L₂）和HSJA的平均信噪比在白盒和黑盒攻击时均最高，几乎能够躲避人听力的察觉。

下载CSV 表 6 无目标攻击时各生成对抗样本算法的信噪比 Table 6 The SNR of each algorithm for generating adversarial samples with non-targeted attacks

表 7给出了无目标攻击中对抗样本被端到端说话人辨认模型识别为真实类目的置信度。可以看出，面对端到端说话人辨认模型，每种算法均能使对抗样本偏离真实类目，但C&W（L₂）、C&W（$ {L}_{\mathrm{\infty }} $）和ZOO高低差异较大，稳定性较差。PGD、BIM真实类目的置信度最低，对抗样本最具鲁棒性且稳定性较强。

下载CSV 表 7 无目标攻击时各生成对抗样本算法的置信度 Table 7 The confidence of each algorithms for generating adversarial samples with non-targeted attacks

3.5.2 有目标攻击实验结果分析

在有目标攻击的实验中，随机抽取10段不同说话人的音频，每段音频以与该音频的真实标签不同的说话人为目标，生成9个对抗样本。

表 8给出了有目标攻击中对抗样本的攻击成功率以及成功对抗样本的平均信噪比、置信度、扰动大小和生成时间。可以看出，JSMA、BIM和PGD的ASR较高，但JSMA的SNR和置信度较低，表现劣于BIM和PGD。在黑盒攻击中，ZOO和HSJA表现较差，但HSJA在信噪比、置信度和扰动三方面优于ZOO。图 2给出了对抗样本对目标说话人的置信度的热力图，其中，横坐标Source Speaker表示真实说话人，纵坐标Target Speaker表示目标说话人，置信度从高到低进行分布。

下载CSV 表 8 有目标攻击时各生成对抗样本算法的ASR以及平均SNR、置信度、扰动大小和生成时间 Table 8 The ASR and average SNR, confidence, perturbation size and generation time of each algorithm for generating adversarial samples with targeted attacks

	Download: JPG larger image
图 2 有目标攻击时各算法置信度的矩阵热力图 Fig. 2 The matrix heat map of the confidence of each algorithms with target attack

BIM和PGD将10个音频都生成相应目标的鲁棒性对抗样本，表现最优。在ZOO和HSJA的热力图上可以看出，以说话人S0163为目标的不同对抗样本的置信度都较高，推测模型存在部分薄弱的类目，较容易被算法估计出特征。

3.5.3 不同网络结构下的生成算法实验结果分析

在ResCNN和GRU网络结构模型的测试结果中，大部分算法在GRU模型测试的ASR较低、生成时间较长。这表明对GRU模型进行无目标攻击较为困难，其中JSMA的生成难度最大。而ResCNN和GRU网络结构的平均信噪比和真实类目的平均置信度相差不大。在有目标攻击时，其他算法对GRU模型的ASR较低（除了JSMA和HSJA之外），生成时间较长（除ZOO之外）。由此得出，对抗样本生成算法的性能会受端到端说话人辨认系统的网络结构限制，并且生成算法对GRU的攻击效果较差。

3.5.4 不同语种下的生成算法实验结果分析

上述实验结果显示，在相同的网络结构下，JSMA和ZOO在LIBRI英文数据集训练的模型和AISHELL中文数据集训练的模型上的生成时间差异较大，其他指标相近，这可能是因为模型训练差异，而其他算法的各项指标测试结果差异不大。由此得出，各对抗样本生成算法对模型攻击效果受不同语种的影响较小。

3.5.5 隐蔽性测试结果分析

为验证对抗音频与原始音频的区别，本文对30个听众进行3项测试：1）判断每种对抗音频是否为噪声（每种随机抽取1个）；2）确认能否听清对抗音频的内容（每种随机抽取1个）；3）听1对音频（原始音频和相应的对抗音频），找出对抗音频，属于ABX测试。每项都设置对照组，测试结果见表 9，其中，测试结果A表明感觉音频没有噪声的听众比例，测试结果B表明能听清音频内容的听众比例，测试结果C表明能正确找出对抗音频的听众比例。测试1的实验结果表明大部分听众认为JMSA和ZOO的对抗音频有明显的噪声，测试2的实验结果表明听众基本都能听清音频的内容，测试3的实验结果表明ABX测试中BIM、C&W（L₂）和PGD正确找出对抗音频的听众比例接近50%，可以认为其对抗音频与原始音频无法被人耳区分。

下载CSV 表 9 隐蔽性测试结果 Table 9 Concealment test results

上述实验结果表明，FGSM、JSMA、BIM、C&W、PGD、ZOO和HSJA这6种生成算法都能生成针对端到端说话人辨认模型识别的对抗样本，实现逃避攻击，但只有BIM、C&W（L₂）、PGD能实现无法被人耳察觉的对抗音频。在无目标攻击时，HSJA黑盒算法能达到白盒攻击的较好水平。在有目标攻击时，BIM和PGD白盒算法面对不同说话人音频都能很好地生成高置信度的目标对抗样本，ZOO和HSJA黑盒算法只能对模型的薄弱目标生成对抗样本，但质量不高，对抗样本生成算法的实现会受网络结构的限制。

4 结束语

为探究语音领域的对抗样本，本文基于端到端说话人辨认系统对现有经典的对抗样本生成算法在音频领域进行实现与比较研究。实验结果表明：在无目标攻击时，各类对抗样本在白盒和黑盒设置下均能逃避说话人辨认系统的识别，在整体性能表现上，BIM和PGD在白盒设置下表现最佳，在黑盒设置下HSJA表现较好；在有目标攻击时，BIM和PGD同样具有很好的性能表现，但在黑盒攻击方面，ZOO和HSJA在有目标攻击时均未能达到其作用在图像数据上的攻击性能表现。由于端到端说话人辨认模型存在安全脆弱性、实验数据局限于较短音频等问题，因此下一阶段将探索更具实际意义的语音对抗样本以及端到端说话人辨认的安全学习机制，提高深度学习模型防御对抗攻击的能力。

参考文献

[1]	JUNG J W, HEO H S, YANG I H, et al. A complete end-to-end speaker verification system using deep neural networks: from raw signals to verification result[C]//Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Washington D.C., USA: IEEE Press, 2018: 5349-5353.
[2]	ZHANG C L, KOISHIDA K. End-to-end text-independent speaker verification with triplet loss on short utterances[EB/OL]. [2020-04-05]. http://m.isca-speech.org/archive/Interspeech_2017/pdfs/1608.PDF.
[3]	KINNUNEN T, LI H Z. An overview of text-independent speaker recognition: from features to supervectors[J]. Speech Communication, 2010, 52(1): 12-40. DOI:10.1016/j.specom.2009.08.009
[4]	VILLALBA J, CHEN N X, SNYDER D, et al. State-of-the-art speaker recognition with neural network embeddings in NIST SRE18 and speakers in the wild evaluations[J]. Computer Speech & Language, 2020, 60: 101026.
[5]	FREDRIKSON M, JHA S, RISTENPART T. Model inversion attacks that exploit confidence information and basic countermeasures[C]//Proceedings of the 22nd ACM SIGSAC Conference on Computer and Communications Security. New York, USA: ACM Press, 2015: 1322-1333.
[6]	SZEGEDY C, ZAREMBA W, SUTSKEVER I, et al. Intriguing properties of neural networks[EB/OL]. [2020-04-05]. https://arxiv.org/pdf/1312.6199.pdf.
[7]	YUAN Xiaoyong, HE Pan, ZHU Qili, et al. Adversarial examples: attacks and defenses for deep learning[J]. IEEE Transactions on Neural Networks and Learning Systems, 2019, 30(9): 2805-2824. DOI:10.1109/TNNLS.2018.2886017
[8]	LUO Yuan, WANG Boyu, CHEN Xu. Research progresses of target detection technology based on deep learning[J]. Semiconductor Optoelectronics, 2020, 41(1): 1-10. (in Chinese) 罗元, 王薄宇, 陈旭. 基于深度学习的目标检测技术的研究综述[J]. 半导体光电, 2020, 41(1): 1-10.
[9]	KREUK F, ADI Y, CISSE M, et al. Fooling end-to-end speaker verification with adversarial examples[C]//Proceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing. Washington D.C., USA: IEEE Press, 2018: 1962-1966.
[10]	LI Xu, ZHONG Jinghua, WU Xixin, et al. Adversarial attacks on GMM I-vector based speaker verification systems[C]//Proceedings of 2020 IEEE International Conference on Acoustics, Speech and Signal Processing. Washington D.C., USA: IEEE Press, 2020: 6579-6583.
[11]	GOODFELLOW I J, SHLENS J, SZEGEDY C. Explaining and harnessing adversarial examples[EB/OL]. [2020-04-05]. https://arxiv.org/pdf/1412.6572.pdf.
[12]	PAPERNOT N, MCDANIEL P, JHA S, et al. The limitations of deep learning in adversarial settings[C]//Proceedings of 2016 IEEE European Symposium on Security and Privacy. Washington D.C., USA: IEEE Press, 2016: 372-387.
[13]	KURAKIN A, GOODFELLOW I, BENGIO S. Adversarial examples in the physical world[EB/OL]. [2020-04-05]. https://arxiv.org/pdf/1607.02533.pdf?source=post_page.
[14]	CARLINI N, WAGNER D. Towards evaluating the robustness of neural networks[C]//Proceedings of 2017 IEEE Symposium on Security and Privacy. Washington D.C., USA: IEEE Press, 2017: 39-57.
[15]	MADRY A, MAKELOV A, SCHMIDT L, et al. Towards deep learning models resistant to adversarial attacks[EB/OL]. [2020-04-05]. https://arxiv.org/pdf/1706.06083.
[16]	CHEN P Y, ZHANG H, SHARMA Y, et al. ZOO: zeroth order optimization based black-box attacks to deep neural networks without training substitute models[C]//Proceedings of the 10th ACM Workshop on Artificial Intelligence and Security. New York, USA: ACM Press, 2017: 15-26.
[17]	CHEN J B, JORDAN M I, WAINWRIGHT M J. HopSkipJumpAttack: a query-efficient decision-based adversarial attack[EB/OL]. [2020-04-05]. https://arxiv.org/abs/1904.02144v1.
[18]	MOOSAVI-DEZFOOLI S M, FAWZI A, FROSSARD P. DeepFool: a simple and accurate method to fool deep neural networks[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 2574-2582.
[19]	CARLINI N, WAGNER D. Audio adversarial examples: targeted attacks on speech-to-text[C]//Proceedings of 2018 IEEE Security and Privacy Workshops. Washington D.C., USA: IEEE Press, 2018: 1-7.
[20]	PAPERNOT N, MCDANIEL P, GOODFELLOW I, et al. Practical black-box attacks against machine learning[C]//Proceedings of 2017 ACM on Asia Conference on Computer and Communications Security. New York, USA: ACM Press, 2017: 506-519.
[21]	LAX P D, TERRELL M S. Calculus with applications[M]. Berlin, Germany: Springer, 2014.
[22]	BRENDEL W, RAUBER J, BETHGE M. Decision-based adversarial attacks: reliable attacks against black-box machine learning models[EB/OL]. [2020-04-05]. https://arxiv.org/pdf/1712.04248.pdf.
[23]	LI Chao, MA Xiaokong, JIANG Bing, et al. Deep speaker: an end-to-end neural speaker embedding system[EB/OL]. [2020-04-05]. https://blog.csdn.net/qq_34755941/article/details/109247992.
[24]	BU Hui, DU Jiayu, NA Xingyu, et al. AISHELL-1: an open-source mandarin speech corpus and a speech, recognition baseline[EB/OL]. [2020-04-05]. https://arxiv.org/pdf/1709.05522.pdf.
[25]	PANAYOTOV V, CHEN G G, POVEY D, et al. LIBRISPEECH: an ASR corpus based on public domain audio books[C]//Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Washington D.C., USA: IEEE Press, 2015: 19-24.