基于本地蒸馏联邦学习的鲁棒语音识别技术

引用本文

柏财通, 崔翛龙, 李爱. 基于本地蒸馏联邦学习的鲁棒语音识别技术[J]. 计算机工程, 2022, 48(10), 103-109. DOI: 10.19678/j.issn.1000-3428.0062812.

BAI Caitong, CUI Xiaolong, LI Ai. Robust Speech Recognition Technology Based on Federal Learning with Local Distillation[J]. Computer Engineering, 2022, 48(10), 103-109. DOI: 10.19678/j.issn.1000-3428.0062812.

基金项目

国家自然科学基金（U1603261）；网信融合项目（LXJH-10（A）-09）

通信作者

崔翛龙（通信作者），教授

作者简介

柏财通（1995—），男，硕士研究生，主研方向为智能语音识别;
李爱，硕士

文章历史

收稿日期：2021-09-26
修回日期：2021-10-29

Contents Abstract Full text Figures/Tables PDF

基于本地蒸馏联邦学习的鲁棒语音识别技术

柏财通^1,3 , 崔翛龙^2,3 , 李爱^1,3

1. 武警工程大学研究生大队, 西安 710086;
2. 武警工程大学乌鲁木齐校区, 乌鲁木齐 830049;
3. 武警工程大学反恐指挥信息工程研究团队, 西安 710086

收稿日期：2021-09-26；修回日期：2021-10-29

基金项目：国家自然科学基金（U1603261）；网信融合项目（LXJH-10（A）-09）

作者简介：柏财通（1995—），男，硕士研究生，主研方向为智能语音识别; 李爱，硕士.

通信作者：崔翛龙（通信作者），教授.

E-mail: 1607755714@qq.com

摘要：当联邦学习(FL)算法应用于鲁棒语音识别任务时，为解决训练数据非独立同分布(Non-IID)与客户端模型缺乏个性化问题，提出基于个性化本地蒸馏的联邦学习(PLD-FLD)算法。客户端通过上行链路上传本地Logits并在中心服务器聚合后下传参数，当边缘端模型测试性能优于本地模型时，利用下载链路接收中心服务器参数，确保了本地模型的个性化与泛化性，同时将模型参数与全局Logits通过下行链路下传至客户端，实现本地蒸馏学习，解决了训练数据的Non-IID问题。在AISHELL与PERSONAL数据集上的实验结果表明，PLD-FLD算法能在模型性能与通信成本之间取得较好的平衡，面向军事装备控制任务的语音识别准确率高达91%，相比于分布式训练的FL和FLD算法具有更快的收敛速度和更强的鲁棒性。

Robust Speech Recognition Technology Based on Federal Learning with Local Distillation

BAI Caitong^1,3 , CUI Xiaolong^2,3 , LI Ai^1,3

1. Graduate Group, Engineering University of PAP, Xi'an 710086, China;
2. Urumqi Campus of Engineering University of PAP, Urumqi 830049, China;
3. Anti-terrorism Command Information Engineering Research Team, Engineering University of PAP, Xi'an 710086, China

Abstract: This study proposes a personalized local distillation-based Federated Learning(FL) algorithm, called PLD-FLD, to solve the problem of Non-Independent Identical Distribution(Non-IID) of the training data and the lack of personalization of client models when the FL algorithm is applied to robust speech recognition tasks. First, the clients upload local Logits through the uplink. Second, the center server sends the parameters under aggregation only when the edge model test performance is better than that of the local model, to use a center server to download and link the parameters and ensure the personalized and generalization of the local model. Finally, the model parameters and global Logits are downloaded to the client through a downlink, and local distillation learning is performed to overcome the problem of Non-IID training samples. The experimental results on the AISHELL and PERSONAL datasets show that the PLD-FLD algorithm can improve balance model performance and reduce communication costs. The speech recognition accuracy in military equipment control tasks reaches 91%. The PLD-FLD algorithm exhibits higher convergence speed and better robustness than the distributed training FL and Federated Learning Distillation(FLD) algorithms.

开放科学（资源服务）标志码（OSID）：

0 概述

语音识别技术在无人装备的人机交互、身份认证等领域具有重要应用，但当语音识别系统处于复杂场景时，语音信号会被背景噪声和人声干扰覆盖，导致声学模型训练数据和真实复杂场景下的测试数据存在较大差异，从而降低系统识别准确率。鲁棒语音识别技术^[1-3]首要解决的是语言识别系统在复杂场景下的噪声鲁棒性问题，基于神经网络的深度学习算法^[4-6]在鲁棒语音识别技术的发展过程中起到了关键作用。

当前抗噪鲁棒语音识别应用以及其他人工智能应用大多分布在云端，称为云智能。现有的云智能应用是计算密集型的且采用集中数据管理方式，这要求用户将自己的数据上传到数据中心。然而，数十亿移动用户和分布在网络边缘的物联网设备已经产生和收集了大量数据。根据思科统计^[7]，截至2021年，移动用户和物联网设备产生的数据达到850 ZB^[8]，将如此大量的数据上传到云端会消耗大量的带宽资源，也会给用户带来高延迟。同时，为满足数据隐私的需求，越来越多的数据被加密保护后存储于防火墙^[9]，随着当前移动计算的快速发展与移动设备的投入使用，如何在数据供给侧提供低延迟的人工智能服务成为亟待解决的问题。

针对云智能存在的问题，边缘智能^[10-12]概念被提出，其将应用部署在靠近数据与用户侧的边缘端，无需终端设备将生成或收集的数据上传到远程云端，直接在本地对数据进行处理和分析，提高了数据处理的质量和速度，可有效保护用户隐私，减少响应时间，节省带宽资源^[13-14]。此外，用户还可通过自生成数据^[15-17]训练机器学习（Machine Learning，ML）和深度学习（Deep Learning，DL）模型定制智能应用。

为在多个靠近数据供给侧的边缘服务器中联合训练鲁棒语音识别模型，同时为解决深度边缘智能中的边缘训练问题，分散训练技术应运而生。联邦学习（Federated Learning，FL）^[18-20]具备分布式学习框架，能够使用移动设备的隐私敏感数据集进行ML模型训练^[21]，同时保持所有数据集在本地，其作为边缘训练的重要组成形式，特别适合用于鲁棒神经网络需要具备抗噪声干扰而噪声源与所处噪声环境具有变动性的场景。FedAvg^[22]是一种较早被提出的分散训练算法，但其学习的通信消耗巨大。为提高边缘端的通信效率，并且充分利用并行训练的优势，文献[23]提出联邦蒸馏（Federated Distillation，FD）技术。FD只发送预测函数的输出，通常比神经网络（Neural Network，NN）参数的维数更小，可实现高效的通信效率。为解决上下行链路容量不对称的问题，文献[24]提出Mix2FLD算法，使用下行链路传输FL参数，利用上行链路传输FD参数。文献[25]提出混合FD算法，利用设备间的协变量信息来补偿FL和FD之间的性能差距。文献[26]利用未标记的开放数据实现半监督FD。文献[27]利用精馏实现异构联邦学习。文献[23]通过扩展FD提出联邦增强（FAug），通过生成对抗网络（Generative Adversarial Network，GAN）在保护隐私的同时可生成独立同分布（Independent Identically Distribution，IID）数据集。为权衡FD通信代价小而性能劣于FL的情况，文献[28]提出FLD技术，利用上行链路上传本地Logits，即神经网络最后一层的输出向量，通过下行链路下载训练的中心模型参数以供客户端使用。

本文面向鲁棒语音识别应用，提出一种基于个性化本地蒸馏的联邦学习算法PLD-FLD，在平衡模型性能与通信成本的基础上，对全局模型参数、全局平均Logits与本地模型参数进行本地蒸馏，以解决数据非独立同分布（Non-Independent Identically Distribution，Non-IID）及模型缺乏个性化的问题。

1 基于个性化本地蒸馏的联邦学习算法

本节首先介绍PLD-FLD算法的总体设计并给出算法流程，然后对PLD-FLD算法中的个性化选择算法以及本地蒸馏算法分别进行阐述。任务场景为使用4个靠近用户数据的战场边缘服务器联合对鲁棒语音识别模型进行分布式训练，如图 1所示。本文原理公式部分的符号定义如表 1所示。

	Download: JPG larger image
图 1 任务场景 Fig. 1 Task scene

下载CSV 表 1 符号定义 Table 1 Symbol definition

1.1 总体设计

PLD-FLD算法的简化架构如图 2所示，其中边缘节点指的是具有一定算力的通信基站、信号中转设备以及边缘端的服务器。PLD-FLD算法流程为：1）选择某个节点作为中心服务器端，其余边缘节点作为训练的客户端；2）客户端进行本地训练并上传各自的本地Logits至中心服务器；3）中心服务器聚合局部Logits并进行中心服务器的本地训练，下发全局Logits与模型参数给客户端；4）客户端接收到全局Logits与模型参数后通过简单的性能测试选择更新或者不更新，选择更新的客户端接收参数进行本地蒸馏，至此完成一次客户端的个性化本地蒸馏，重复以上过程直至模型收敛。

	Download: JPG larger image
图 2 PLD-FLD算法的简化架构 Fig. 2 Simplified architecture of PLD-FLD algorithm

PLD-FLD算法的整体架构如图 3所示，具体步骤如下：

	Download: JPG larger image
图 3 PLD-FLD算法的整体架构 Fig. 3 Overall architecture of the PLD-FLD algorithm

步骤1 选定代理服务器，所有边缘端进行本地模型训练，通过上行链路上传本地平均Logits值给代理服务器。

步骤2 所有本地平均Logits值在代理服务器中进行Softmax聚合成为全局平均Logits，并用以指导代理服务器模型的本地训练。在缺乏强有力的教师模型的情况下，群体衍生目标在将群体知识传递到每个学生模型中起着关键作用。对群体成员的预测进行平均是一个最简单的聚合方式，以获得代表群体知识的目标^[29]。由于预测的质量在对等体之间存在差异，因此需要赋予不同的权重^[30]，但是聚合函数往往会导致对等体快速同质，损害群体蒸馏的有效性^[31]，其中一个关键设计是在聚合期间，每个辅助对等体将各自的权重分配给所有对等体，以获得目标分布。本文采用基于Softmax的聚合机制，给定一个信号$ {t}_{n} $，则其熵的计算公式如下：

$ {f}_{\mathrm{e}}\left(t\right)=-\sum\limits _{n=1}^{{N}_{L}}{t}_{n}\mathrm{l}\mathrm{b}{t}_{n} $

(1)

由于每个设备上传的本地Logits为$ \widehat{T} $，因此全局Logits的计算公式如下：

$ {\widehat{T}}^{\left(\mathrm{E}\mathrm{R}\mathrm{A}\right)}={F}_{\mathrm{S}}\left(\frac{1}{K}\sum\limits _{k=1}^{K}（{\widehat{T}}_{k}|T）\right) $

(2)

其中：$ {F}_{\mathrm{S}} $表示Softmax函数带有问题参数T。Softmax函数的定义如下：

$ {f}_{\mathrm{S}}\left(t\right|T)=\frac{1}{\sum\limits _{n=1}^{{N}_{L}}{\mathrm{e}}^{\frac{{t}_{n}}{T}}}{\mathrm{e}}^{\frac{t}{T}} $

(3)

$ {F}_{\mathrm{S}}\left(T\right|T)=\{{f}_{\mathrm{S}}\left({t}_{1}\right|T), {f}_{\mathrm{S}}({t}_{2}\left|T\right), \cdots , {f}_{\mathrm{S}}\left({t}_{{I}_{r}}\right|T\left)\right\} $

(4)

综上，Logits聚合计算如下：

$ {\widehat{T}}^{\left(\mathrm{S}\mathrm{A}\right)}=\frac{1}{K}\sum\limits _{k=1}^{K}{\widehat{T}}_{k} $

(5)

步骤3 代理服务器将全局Logits下发给每个边缘端，为增加模型的个性化，选择服务器端模型优于本地模型的用户端，并将服务器端训练的模型参数下发。

步骤4 每个接收到全局模型的用户通过本地蒸馏更新本地模型。之后，返回步骤1，循环训练直至模型收敛。

PLD-FLD算法具体描述如下：

算法1 PLD-FLD算法

输入预测函数$ f(w, i) $，损失函数$ \varphi (f, l) $，实际标签$ {y}_{i} $

输出全局模型

1）在所有边缘端上进行本地训练，从数据集R中提取r以及其标签$ {y}_{r} $，循环n步。

（1）对于在数据集R中的样本r，循环计算：

$ \begin{array}{l}{w}^{\left(i\right)}\leftarrow {w}^{\left(i\right)}-\eta \nabla \left\{\varphi \right(f({w}^{\left(i\right)}, r), {y}_{r})+\\ \boldsymbol{\gamma }\cdot \varphi \left(f\right({w}^{\left(i\right)}, r), {\tilde{f}}_{k, {y}_{r}}^{\left(i\right)})+\chi \cdot \varphi \left(f\right({w}^{\left(i\right)}, r), {s}_{b})\}\end{array} $

$ {f}_{k, {y}_{r}}^{\left(i\right)}\leftarrow {f}_{k, {y}_{r}}^{\left(i\right)}+f({w}^{\left(i\right)}, r) $

$ {c}_{k, {y}_{r}}^{\left(i\right)}\leftarrow {c}_{k, {y}_{r}}^{\left(i\right)}+1 $

其中：$ \boldsymbol{\gamma } $为神经网络通过训练自动更新的参数矩阵；s_b为利用全局模型预测出的软标签。

（2）循环标签类别$ {\stackrel{-}{f}}_{k, l}^{\left(i\right)}\leftarrow {f}_{k, l}^{\left(i\right)}/{c}_{k, l}^{\left(i\right)} $，返回$ {f}_{k, l}^{\left(i\right)} $给服务器。

2）在本轮选定的服务器端上进行全局聚合，对每一个设备i及每一类标签，循环计算：

$ {\stackrel{-}{f}}_{k, l}\leftarrow {\stackrel{-}{f}}_{k, l}+{\stackrel{-}{f}}_{k, l}^{\left(i\right)} $

$ {w}^{\left(i\right)}\leftarrow {w}^{\left(i\right)}-\eta \nabla \left\{\varphi \right(f({w}^{\left(i\right)}, r), {y}_{r})+\boldsymbol{\gamma }\cdot \varphi (f({w}^{\left(i\right)}, r), {\tilde{f}}_{k, {y}_{r}}^{\left(i\right)}\left)\right\} $

$ {f}_{k, {y}_{r}}^{\left(i\right)}\leftarrow {f}_{k, {y}_{r}}^{\left(i\right)}+f({w}^{\left(i\right)}, r) $

3）服务器端继续使用全局Logits训练，更新模型参数得出梯度下传，并对每一个设备i及每一类标签，循环计算：

$ {\tilde{f}}_{k+1, l}^{\left(i\right)}\leftarrow {\stackrel{-}{f}}_{k, l}-{\stackrel{-}{f}}_{k, l}^{\left(i\right)} $

$ {\tilde{f}}_{k+1, l}^{\left(i\right)}\leftarrow {\tilde{f}}_{k+1, l}^{\left(i\right)}/(M-1) $

其中：M为标签种类。

4）筛选性能比本地模型优秀的全局模型，并将全局模型下传给对应的边缘端，至此结束循环。

1.2 个性化本地蒸馏算法

在分散学习中各类模型会有趋同性质。为了增加模型的个性化，在中心服务器端模型下放给客户端时，首先进行性能测试，只有当全局模型在本地测试下性能优于本地模型时，才会进行下一步的本地蒸馏。

算法2 个性化选择算法

输入客户端数量$ K $，全局聚合轮次$ {E}_{\mathrm{G}} $，全局模型$ {G}_{\mathrm{e}} $，对用户k而言最优化的教师模型$ {O}_{k} $，在测试数据下的损失函数$ {l}_{k\text{'}} $，测试数据$ {x}_{k}^{\mathrm{v}\mathrm{a}\mathrm{l}} $

输出本地模型或全局模型

for global aggregation round e = 1 to $ {\mathrm{E}}_{\mathrm{G}} $ do

for user k=1 to K do

${\mathrm{l}}_{\mathrm{k}}\leftarrow {\mathrm{L}}_{\mathrm{c}\mathrm{r}\mathrm{o}\mathrm{s}\mathrm{s}}\left(\mathrm{\sigma }\right({\mathrm{G}}_{\mathrm{e}}\left({\mathrm{x}}_{\mathrm{k}}^{\mathrm{v}\mathrm{a}\mathrm{l}}\right)), {\mathrm{y}}_{\mathrm{k}}^{\mathrm{v}\mathrm{a}\mathrm{l}}) $

if $ {\mathrm{l}}_{\mathrm{k}} < {\mathrm{l}}_{\mathrm{k}\text{'}} $ then

$ {\mathrm{l}}_{\mathrm{k}\text{'}}\leftarrow {\mathrm{l}}_{\mathrm{k}} $

$ {O}_{\mathrm{k}}\leftarrow {\mathrm{G}}_{\mathrm{e}}$

end if

end for

本地蒸馏算法分为全局模型的处理与全局平均Logits的处理两部分，核心思想是在本地训练的本地数据中保留全局视野。由于学习特征的偏移是由本地分布与全局分布不拟合造成的，因此需要保证从本地学到的特征放置在全局模型的特征空间中。该算法在本地数据中将全局模型的预测作为标签，然后通过本地训练进行知识蒸馏。对于蒸馏损失，模型输出的Logits被时间间隔$ \tau $转化为软预测。令z表示输入向量，C表示批次，q（c）表示Softmax函数的输出。由于Softmax函数的输入为模型预测概率，因此本地预测和全局预测如式（6）和式（7）所示：

$ {q}_{\tau }\left(c\right)=\frac{\mathrm{e}\mathrm{x}\mathrm{p}({\boldsymbol{z }}_{c}/\tau )}{\sum\limits _{i=1}^{C}\mathrm{e}\mathrm{x}\mathrm{p}({\boldsymbol{z }}_{i}^{}/\tau )} $

(6)

$ {q}_{\tau }^{\mathrm{g}}\left(c\right)=\frac{\mathrm{e}\mathrm{x}\mathrm{p}({\boldsymbol{z }}_{c}^{\mathrm{g}}/\tau )}{\sum\limits _{i=1}^{C}\mathrm{e}\mathrm{x}\mathrm{p}({\boldsymbol{z }}_{i}^{\mathrm{g}}/\tau )} $

(7)

本地预测与全局预测之间的损失函数$ {L}_{\mathrm{L}\mathrm{S}\mathrm{D}}({q}_{\tau }, {q}_{\tau }^{\mathrm{g}}) $为两者的KL散度，如式（8）所示：

$ {L}_{\mathrm{L}\mathrm{S}\mathrm{D}}({q}_{\tau }, {q}_{\tau }^{\mathrm{g}})=-\sum\limits _{c=1}^{C}{q}_{\tau }^{\mathrm{g}}\left(c\right)\mathrm{l}\mathrm{o}{\mathrm{g}}_{{a}}\frac{{q}_{\tau }\left(c\right)}{{q}_{\tau }^{\mathrm{g}}\left(c\right)} $

(8)

2 实验结果与分析 2.1 实验环境、数据集及参数设置

实验软件平台如图 4所示，基于PLD-FLD算法的鲁棒语音识别模型通过Nvidia-Docker软件层调用容器GPU资源，使用K3S进行容器管理，其中Pod为K3S中的容器，Docker为分布式模型，应用K3S提供的服务完成分布式训练。

	Download: JPG larger image
图 4 实验软件平台 Fig. 4 Experimental software platform

选择中文开源数据集AISHELL与私有数据集PERSONAL。AISHELL是北京希尔贝壳科技有限公司开源的标注中文语音识别数据集，包括：1）AISHELL-1数据集，包含时长为178 h的400人的语音，其中训练集中有340人，测试集中有20人，验证集中有40人，每人约有300多句语音；2）AISHELL-2数据集，与AISHELL-1结构类似，包含1 000 h的1 991人的语音，每人约有500多句语音，语音可能会有重复。PERSONAL数据集为针对军事装备控制的内部语音数据库，构建流程^[32]如图 5所示。

	Download: JPG larger image
图 5 PERSONAL数据集构建流程 Fig. 5 Construction process of PERSONAL dataset

在数据分配方面，将客户数量K固定为10。对于AISHELL数据集，为了使模型生成非IID分区的数据集，对数据集进行划分，使所有客户端的正标记句数与负标记句数的比例设置为9∶1或1∶9。为了生成Non-IID分区数据集，将PERSONAL数据集按照分类标签进行排序，分成K个分块，每个分块分配给每个客户端。

在鲁棒语音识别模型中，使用PASE^[33]模型作为特征提取前端模型，CTC^[34]作为语音识别解码器后端模型。PASE卷积神经网络模型由2个5×5卷积层和2个全连接层组成。CTC模型由6个3×3卷积层（包含32、32、64、64、128、128个输出通道）组成，每个通道均通过ReLU激活并批量归一化操作。CTC模型结构参考文献[34]。

在超参数训练方面，在对模型进行更新和提取时，每轮小批次的训练数量、步数和学习率分别设置为100、5和0.1。训练过程主要包括以下3个阶段：1）客户端模型训练；2）上传本地Logits值后聚合为全局Logits值，并在服务器端进行训练；3）下载全局Logits值，并下传模型参数。

2.2 消融实验分析

为验证基于PLD-FLD算法的鲁棒语音识别模型中各模块改进的有效性，选取以下4种模型进行消融实验：1）模型1，下传参数仅包含模型参数，未包含全局Logits；2）模型2，未使用Softmax的Logits聚合方法；3）模型3，未使用个性化选择算法；4）模型4，未使用个性化本地蒸馏算法，直接替代原有的模型参数。实验结果如表 2所示，可以看出每个模块均能不同程度地提升模型识别准确率。

下载CSV 表 2 识别准确率对比 Table 2 Comparison of recognition accuracy

2.3 对比实验分析

在消融实验的基础上，将PLD-FLD算法与经典FL算法、FD算法以及FLD算法^[24]进行对比实验，每轮通信成本如表 3所示。由表 3可以看出：FLD和FD算法的通信成本比FL算法要小，主要原因为FLD和FD算法中上传的Logits的有效载荷大小小于FL算法中使用的ML模型参数的有效载荷大小，并且不依赖于模型参数的数量；FD算法的通信成本比FLD算法小很多，主要原因为在FD算法测试中，客户端以每个类为基础上传本地Logits，而在FLD算法测试中，以未标记数据集中的每个样本为基础上传本地Logits同时下载中心模型的参数。

下载CSV 表 3 通信成本对比 Table 3 Comparison of communication cost

图 6和图 7分别给出了在AISHELL与PERSONAL非独立同分布数据集上FL、FD以及PLD-FLD算法的累积通信成本与测试准确率的变化情况。PLD-FLD算法的累积通信成本除每轮费用外，还包括向客户分发未标记数据的初始费用，而其他算法的累计通信费不包括初始费用。由图 6和图 7可以看出，在FL和PLD-FLD算法的训练过程中，随着共享模型或对数的累积通信成本增加，测试准确率不断提升。FD算法的测试准确率保持在50%左右，这几乎与单个客户端相似。在两个数据集中，PLD-FLD算法使用全局模型进行评估，在服务器上进行训练，在累积通信成本方面优于FL算法，同时具有较高的测试准确率，主要原因是PLD-FLD算法每轮的通信成本低于FL算法。

	Download: JPG larger image
图 6 基于AISHELL数据集的累积通信成本和测试准确率变化 Fig. 6 Changes of cumulative communication cost and test accuracy based on AISHELL dataset

	Download: JPG larger image
图 7 基于PERSONAL数据集的累积通信成本和测试准确率变化 Fig. 7 Changes of cumulative communication cost and test accuracy based on PERSONAL dataset

PLD-FLD算法在实现与FL算法相似性能的同时，大幅降低了通信成本，相比于FD算法具有更好的模型性能。在模型个性化方面，FL与FD算法的客户端模型训练完成后均为同样的本地模型，但实际工程应用场景通常需要客户端模型更好地从全局模型中得到知识以使得自身模型的性能不断提高，而PLD-FLD算法可实现本地模型的不断优化，具有更优的模型个性化性能。此外，鲁棒语音识别模型在训练过程中的词错率变化如图 8所示，可以看出PLD-FLD算法在解决训练数据Non-IID问题上要优于FLD算法。

	Download: JPG larger image
图 8 模型训练过程中的词错率变化 Fig. 8 Changes of word error rate during model training

3 结束语

本文提出一种基于个性化本地蒸馏的联邦学习分布式训练算法，通过上传本地平均Logits并下传模型参数，提高鲁棒语音识别模型通信效率，同时引入个性化本地蒸馏算法，在增强客户端模型个性化的同时进一步降低非独立同分布数据对模型准确率的影响。实验结果表明，该算法可根据模型规模对通信效率进行优化，相比于FL和FLD算法具有更低的通信成本及更强的鲁棒性。后续将分析并研究面向边缘服务器的动态选择算法，进一步加快模型训练速度。

参考文献

[1]	ZHANG S C, DO C T, DODDIPATLA R, et al. Learning noise invariant features through transfer learning for robust end-to-end speech recognition[C]//Proceedings of 2020 IEEE International Conference on Acoustics, Speech and Signal Processing. Washington D. C., USA: IEEE Press, 2020: 7024-7028.
[2]	LIANG D, HUANG Z H, LIPTON Z C. Learning noise-invariant representations for robust speech recognition[C]//Proceedings of IEEE Spoken Language Technology Workshop. Washington D. C., USA: IEEE Press, 2018: 56-63.
[3]	WÖLLMER M, EYBEN F, GRAVES A, et al. Improving keyword spotting with a tandem BLSTM-DBN architecture[C]//Proceedings of International Conference on Nonlinear Speech Processing. Berlin, Germany: Springer, 2010: 68-75.
[4]	WÖLLMER M, SCHULLER B, EYBEN F, et al. Combining long short-term memory and dynamic Bayesian networks for incremental emotion-sensitive artificial listening[J]. IEEE Journal of Selected Topics in Signal Processing, 2010, 4(5): 867-881. DOI:10.1109/JSTSP.2010.2057200
[5]	GEIGER J T, WENINGER F, GEMMEKE J F, et al. Memory-enhanced neural networks and NMF for robust ASR[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014, 22(6): 1037-1046. DOI:10.1109/TASLP.2014.2318514
[6]	QIAN Y M, BI M X, TAN T, et al. Very deep convolutional neural networks for noise robust speech recognition[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016, 24(12): 2263-2276. DOI:10.1109/TASLP.2016.2602884
[7]	Cisco. Fog computing and the Internet of Things: extend the cloud to where the things are[EB/OL]. [2022-08-11]. http://www.innovation4.cn/library/r1490.
[8]	Cisco visual networking index: global mobile data traffic forecast update(2017-2022)[EB/OL]. [2022-08-11]. http://www.cisco.com/c/en/us/solutions/collateral/service-provider/visual-networking-index-vni/mobile-white-paper-c11-520862.html.
[9]	VOIGT P, VON DEM BUSSCHE A. The EU General Data Protection Regulation(GDPR)[M]. Berlin, Germany: Springer, 2017.
[10]	WANG X F, HAN Y W, WANG C Y, et al. In-edge AI: intelligentizing mobile edge computing, caching and communication by federated learning[J]. IEEE Network, 2019, 33(5): 156-165. DOI:10.1109/MNET.2019.1800286
[11]	LI E, ZHOU Z, CHEN X. Edge intelligence: on-demand deep learning model co-inference with device-edge synergy[C]//Proceedings of 2018 Workshop on Mobile Edge Communications. Washington D. C., USA: IEEE Press, 2018: 31-36.
[12]	WANG Z Y, CUI Y, LAI Z Q. A first look at mobile intelligence: architecture, experimentation and challenges[J]. IEEE Network, 2019, 33(4): 120-125. DOI:10.1109/MNET.2019.1700470
[13]	KHELIFI H, LUO S L, NOUR B, et al. Bringing deep learning at the edge of information-centric Internet of Things[J]. IEEE Communications Letters, 2019, 23(1): 52-55. DOI:10.1109/LCOMM.2018.2875978
[14]	LANE N D, WARDEN P. The deep(learning) transformation of mobile and embedded computing[J]. Computer, 2018, 51(5): 12-16. DOI:10.1109/MC.2018.2381129
[15]	CHEN F, LUO M, DONG Z H, et al. Federated meta-learning with fast convergence and efficient communication[EB/OL]. [2022-08-11]. https://arxiv.org/abs/1802.07876.
[16]	CHEN Y Q, QIN X, WANG J D, et al. FedHealth: a federated transfer learning framework for wearable healthcare[J]. IEEE Intelligent Systems, 2020, 35(4): 83-93. DOI:10.1109/MIS.2020.2988604
[17]	PELTONEN E, BENNIS M, CAPOBIANCO M, et al. 6G white paper on edge intelligence[EB/OL]. [2022-08-11]. https://arxiv.org/abs/2004.14850.
[18]	KAIROUZ E B P, MCMAHAN H B. Advances and open problems in federated learning[EB/OL]. [2022-08-11]. https://arxiv.org/abs/1912.04977v3.
[19]	PARK J, SAMARAKOON S, BENNIS M, et al. Wireless network intelligence at the edge[J]. Proceedings of the IEEE, 2019, 107(11): 2204-2239. DOI:10.1109/JPROC.2019.2941458
[20]	LIM W Y B, LUONG N C, HOANG D T, et al. Federated learning in mobile edge networks: a comprehensive survey[EB/OL]. [2022-08-11]. https://arxiv.org/abs/1909.11875.
[21]	MCMAHAN B, MOORE E, RAMAGE D, et al. Communication-efficient learning of deep networks from decentralized data[EB/OL]. [2022-08-11]. https://arxiv.org/abs/1602.05629v3.
[22]	LIU Y, YUAN X L, XIONG Z H, et al. Federated learning for 6G communications: challenges, methods, and future directions[J]. China Communications, 2020, 17(9): 105-118. DOI:10.23919/JCC.2020.09.009
[23]	JEONG E, OH S, KIM H, et al. Communication-efficient on-device machine learning: federated distillation and augmentation under non-IID private data[EB/OL]. [2022-08-11]. https://arxiv.org/abs/1811.11479.
[24]	OH S, PARK J, JEONG E, et al. Mix2FLD: downlink federated learning after uplink federated distillation with two-way mixup[J]. IEEE Communications Letters, 2020, 24(10): 2211-2215. DOI:10.1109/LCOMM.2020.3003693
[25]	AHN J H, SIMEONE O, KANG J. Wireless federated distillation for distributed edge learning with heterogeneous data[C]//Proceedings of the 30th Annual International Symposium on Personal, Indoor and Mobile Radio Communications. Washington D. C., USA: IEEE Press, 2019: 1-6.
[26]	ITAHARA S, NISHIO T, KODA Y, et al. Distillation-based semi-supervised federated learning for communication-efficient collaborative training with non-IID private data[EB/OL]. [2022-08-11]. https://arxiv.org/abs/2008. 06180v2.
[27]	CHANG H, SHEJWALKAR V, SHOKRI R, et al. Cronus: robust and heterogeneous collaborative learning with black-box knowledge transfer[EB/OL]. [2022-08-11]. https://arxiv.org/abs/1912.11279.
[28]	PARK J, WANG S Q, ELGABLI A, et al. Distilling on-device intelligence at the network edge[EB/OL]. [2022-08-11]. https://arxiv.org/abs/1908.05895?context=math.IT.
[29]	ZHANG Y, XIANG T, HOSPEDALES T M, et al. Deep Mutual Learning[EB/OL]. [2022-08-11]. https://openaccess.thecvf.com/content_cvpr_2018/html/Zhang_Deep_Mutual_Learning_CVPR_2018_paper.html.
[30]	LAN X, ZHU X T, GONG S G. Knowledge distillation by on-the-fly native ensemble[EB/OL]. [2022-08-11]. https://arxiv.org/abs/1806.04606.
[31]	KUNCHEVA L I, WHITAKER C J. Measures of diversity in classifier ensembles and their relationship with the ensemble accuracy[J]. Machine Learning, 2003, 51(2): 181-207. DOI:10.1023/A:1022859003006
[32]	柏财通, 高志强, 李爱, 等. 基于门控网络的军事装备控制指令语音识别研究[J]. 计算机工程, 2021, 47(7): 301-306. BAI C T, GAO Z Q, LI A, et al. Research on voice recognition of military equipment control commands based on gated network[J]. Computer Engineering, 2021, 47(7): 301-306. (in Chinese)
[33]	RAVANELLI M, ZHONG J Y, PASCUAL S, et al. Multi-task self-supervised learning for robust speech recognition[C]//Proceedings of 2020 IEEE International Conference on Acoustics, Speech and Signal Processing. Washington D. C., USA: IEEE Press, 2020: 6989-6993.
[34]	GRAVES A, FERNÁNDEZ S, GOMEZ F, et al. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks[C]//Proceedings of the 23rd International Conference on Machine learning. New York, USA: ACM Press, 2006: 369-376.