2. 武汉理工大学 交通物联网技术湖北省重点实验室, 武汉 430063;
3. 南洋理工大学 计算机科学与工程学院, 新加坡 639798;
4. 新加坡科技设计大学 信息系统技术与设计学院, 新加坡 487372
2. Hubei Key Laboratory of Transportation Internet of Things, Wuhan University of Technology, Wuhan 430063, China;
3. School of Computer Science and Engineering, Nanyang Technological University, Singapore 639798, Singapore;
4. Pillar of Information Systems Technology and Design, Singapore University of Technology and Design, Singapore 487372, Singapore
开放科学(资源服务)标志码(OSID):
无线通信网络的许多新兴智能应用都是基于机器学习技术,机器学习模型的训练通常需要大量数据集,而数据的收集在很大程度上依赖于分布分散的边缘用户节点[1]。由于传统的机器学习技术需要集中储存大量原始数据,因此数据持有用户会有隐私泄露的风险。随着大数据的日益发展,重视数据隐私和信息安全已成为了全球性趋势[2-4],数据的隐私问题已影响到无线通信系统中数据的有效收集,大多数行业数据已出现数据孤岛现象[5],如何在保护隐私的前提下高效收集分布式的数据成为研究热点[6]。
联邦学习是一种通过聚集局部计算的梯度来训练共享模型的分布式学习方法,这种新的机器学习范式使资源受限的客户端节点可在中央服务器的协调下训练数据并分享梯度信息,同时保持训练数据分散在本地,避免上传原始数据以致隐私泄露[7]。目前,研究人员对联邦学习的探究主要集中在提高差分隐私[8]、安全多方计算[9]等隐私保护技术[10]和降低通信开销[11-13]方面。文献[14]提出一种联邦强化技术,通过联邦学习减少移动边缘用户个性化的时间。文献[15]在仿真通信网络中部署联邦学习系统,说明联邦学习参与者的模型训练进度和贡献率。传统的联邦学习框架严格禁止原始数据共享,一般使用安全级别较高的差分隐私等方法进行加密,但联邦学习对于隐私保护的过分严苛也降低了训练数据的可用性,从而降低模型的部分准确率[16]。文献[17]指出,在部署联邦学习框架的无线通信网络中,数据隐私性与可用性的平衡是亟待解决的问题。除此之外,能量供给是客户端节点在信息感知和数据处理方面完成高质量服务的关键[18],如果选择节点作为联邦学习的参与者,则需消耗自身大量的能量以确保采集到合适的数据并在本地顺利训练模型[7]。随着无线能量收集和传输技术的发展,客户端节点可以通过无线能量源充电[19],但同时也需向能量源支付相关费用。随着互联网的高速发展,节约能源并使之可持续性发展早已成为主要问题[20]。因此,联邦学习虽然减轻了传统机器学习集中式训练方法带来的隐私风险和开销[21],但对客户端节点的能量、计算能力以及模型训练效果提出了挑战,在一定程度上影响了无线通信系统数据收集与使用的效率。
分布式数据的收集与训练除了需要满足保护隐私和降低能耗的要求,还面临着无线网络中的不确定性。在下一代5G通信网络[22]不断发展的背景下,分布式系统训练模型借助移动信息采集设备对较为偏僻的数据持有用户进行数据收集与训练已经成为主要方式。类似无人机[23]、无线传感车辆[24]的高移动性新型网络成员,在辅助无线通信网络收集信息和训练数据的同时,它们移动灵活的特性也给无线通信网络的信息收集和机器学习训练带来了不确定性和安全隐患,例如,客户端节点一般只有当信息采集设备在其通信范围内才能传送数据,当信息采集设备有其他任务离开后,该节点则无法传送数据[25],这给通信网络的管理增加了一定的难度。此外,移动信息采集设备在无线传输中的消息可能会被攻击者窃听,从而导致敏感信息泄露[26]和自身信誉下降,影响其与边缘用户节点的合作。如果无线通信网络无法应对移动信息采集设备带来的不确定性和隐私安全挑战,就无法吸引拥有高质量和大型数据集的边缘用户传输自身的数据,使某些边缘用户的数据处入孤岛状态。因此,在无线通信网络中,资源受限的客户端节点亟需一种可克服无线网络信息传输带来的不确定性、兼顾数据可用性和隐私性的能量与信息管理策略。
本文针对移动信息采集设备辅助的无线通信网络场景,提出一种基于联邦学习的信息传输与能量管理组合优化策略。将通用性较高的移动信息采集设备作为学习服务器,将客户端节点作为学习参与者,并为客户端节点构建马尔科夫决策模型,通过平衡数据可用性、用户隐私以及能量消耗之间的关系,得出客户端节点的信息传输与能量管理组合优化策略。
1 问题描述 1.1 系统模型联邦学习因其严格的隐私保护机制成为解决无线分布式系统数据无法有效收集问题的有效框架。针对基于传统联邦学习框架工作的客户端节点存在数据可用性较低以及能耗较大的问题,本文在无线通信网络场景下提出一种将联邦学习与传统集中式学习相结合的优化架构,如图 1所示。
![]() |
Download:
|
图 1 基于联邦学习的优化架构 Fig. 1 Optimization framework based on federated learning |
传统的联邦学习和集中式学习架构都是由上层的中央学习服务器和下层的学习参与者两个类型的实体组成。在传统的联邦学习架构中,每个学习参与者在本地模型训练后仅向学习服务器发送训练后得到的加密梯度数据,再由服务器解密聚合后统一将梯度数据回传给学习参与者。在此过程中服务器不接触原始数据,因此,联邦学习架构起到了保护用户隐私的作用。本文所提架构通过保留联邦学习的基础分布式架构和工作原理以保护客户端节点的隐私。但联邦学习需要能量有限的客户端节点消耗自身算力训练数据,数据加密压缩的过程对于数据的可用性也有一定的损耗。在传统的集中式学习中,学习参与者将自身的原始数据直接交由服务器训练。此过程中学习参与者需要承担泄露隐私的风险,并且传输大量原始的数据对信道的要求较高,数据最终传输成功概率受外部环境的影响,但这种学习方式仅在传送数据时消耗自身能量,且原始数据的可用性较高,因此,传统的集中式学习起到了降低能耗、保证数据可用性的作用。
本文为探究无线网络场景下信息采集的随机性对客户端节点的信息传输以及学习选择的影响,为联邦学习架构中的学习服务器加入了移动属性,将移动信息采集设备作为学习服务器。对于客户端节点,在移动服务器随机的信息采集场景下得到可平衡自身能耗、数据可用性和隐私性的信息传输与能量管理策略,但最终所得的策略也更具通用性,传统的云服务器稳定的信息收集过程可作为其中的一种特例处理。本文围绕一个移动信息采集设备(学习服务器)及与其可能发生交易的
![]() |
Download:
|
图 2 本文系统架构 Fig. 2 Framework of the proposed system |
移动信息采集设备在本文系统中作为一个可移动的学习服务器,不仅可以在不同的客户端节点处收集数据,还可以将收集的数据进行训练以构建模型。本文假设移动信息采集设备在一个时隙内仅停留在一个区域收集与处理该区域中客户端节点的数据或梯度。每个节点可以不断地产生原始数据,拥有的电量和原始数据量都不完全相同,根据自身情况选择参与到移动信息采集设备组织的联邦学习或者传统的机器学习中。
若客户端节点选择参与分布式的联邦学习,则先在本地训练模型,局部计算梯度参数,再将加密过的梯度参数发送给移动信息采集设备。移动信息采集设备得到所有客户端节点的数据之后,在不了解任何节点信息的情况下执行安全聚合,并计算总梯度。最后将结果分别传送给参与的客户端节点,节点再使用解密的梯度参数更新各自的模型。
客户端节点还可以选择传统的集中式机器学习,其仅作为数据提供者,直接发送原始数据给移动信息采集设备。在这种情况下,客户端节点选择放弃保护隐私并完全信任移动信息采集设备,以节省训练过程中的计算开销。移动信息采集设备得到所有客户端节点的数据之后,在了解节点信息的情况下执行数据聚合和训练。
从保护隐私的角度分析,客户端节点更倾向于在本地训练数据,以避免发送大量的原始数据带来隐私泄露的风险。但从提高模型训练效果和减少能源消耗的角度分析,客户端节点传送原始数据有助于最大程度地保留数据的可用性,有利于对模型进行训练,同时也可避免因在本地进行模型训练而消耗较多的能量。因此,本文基于联邦学习中的用户合作训练模型,设计一种客户端节点的信息传输机制。该机制基于马尔科夫决策过程(Markov Decision Process,MDP)构建随机优化模型,并通过求解MDP模型得到客户端节点的最优信息传输与能量管理组合优化策略。
1.2 马尔科夫决策模型为确定无线网络场景下客户端节点的信息传输与能量管理组合优化策略,本节将客户端节点的信息传输与能量管理问题建模为一个MDP模型,以描述与分析节点在移动信息采集设备带有不确定性的信息采集过程中的状态变化与行为模式。
1.2.1 状态空间状态S是一个复合状态变量,由数据状态、能量状态和移动信息采集设备区域状态这3组离散状态表示,如式(1)所示:
$ S\in \mathbb{S} =\left\{\right(Q, E, U\left)\right|Q\in \mathbb{Q}, E\in \mathbb{E} , U\in \mathbb{U} \} $ | (1) |
其中:数据状态
客户端节点在每个时隙中根据所观测到的当前状态做出相应的动作决策。动作空间
$ A\in \mathbb{A} =\{\mathrm{0, 1}, 2\} $ | (2) |
其中:
状态转移矩阵
$ \mathit{\boldsymbol{H}}(S, S\text{'}|A)=\mathit{\boldsymbol{Q}}(A)\otimes \mathit{\boldsymbol{E}}(A)\otimes \mathit{\boldsymbol{U}}(A) $ | (3) |
状态转移矩阵包括数据状态转移矩阵、能量状态转移矩阵、区域状态转移矩阵。
1) 数据状态转移矩阵
为节点从当前数据状态
$ \mathit{\boldsymbol{Q}}(A=0)=\left[\begin{array}{cc}{\bf{0}}_{(\mathit{\boldsymbol{Q}}+1-k)\times k}& {\mathit{\boldsymbol{I}}}_{(\mathit{\boldsymbol{Q}}+1-k)\times (\mathit{\boldsymbol{Q}}+1-k)}\\ {\bf{0}}_{k\times \mathit{\boldsymbol{Q}}}& {\bf{1}}_{k\times 1}\end{array}\right] $ | (4) |
其中:
$ \mathit{\boldsymbol{Q}}(A=1)=\left[\begin{array}{ccc}{\bf{0}}_{v\times k}& {\bf{1}}_{v\times 1}& {\bf{0}}_{v\times (\mathit{\boldsymbol{Q}}-k)}\\ {\bf{0}}_{(\mathit{\boldsymbol{Q}}-v+1)\times k}& {\mathit{\boldsymbol{I}}}_{(\mathit{\boldsymbol{Q}}-v+1)\times (\mathit{\boldsymbol{Q}}-v+1)}& {\bf{0}}_{(\mathit{\boldsymbol{Q}}-v+1)\times (v-k)}\end{array}\right] $ | (5) |
当
![]() |
Download:
|
图 3 客户端节点数据状态转移过程 Fig. 3 State transfer process of client node data |
此时数据状态转移矩阵如式(6)所示:
$ \mathit{\boldsymbol{Q}}(A=2)=\left[\begin{array}{ccc}{\bf{0}}_{v\times k}& {\mathit{\boldsymbol{M}}}_{v\times v}& {\bf{0}}_{v\times (\mathit{\boldsymbol{Q}}-v-k+1)}\\ {\bf{0}}_{(\mathit{\boldsymbol{Q}}-v+1)\times k}& {{\mathit{\boldsymbol{N}}}_{1}}_{(\mathit{\boldsymbol{Q}}-v+1)\times (\mathit{\boldsymbol{Q}}-k)}& {{\mathit{\boldsymbol{W}}}_{1}}_{(\mathit{\boldsymbol{Q}}-v+1)\times 1}\end{array}\right] $ |
$ {\mathit{\boldsymbol{M}}}_{v\times v}=\left[\begin{array}{cccc}1& & & \\ q& 1-q& & \\ ⋮& & \ddots & \\ q& & & 1-q\end{array}\right] $ |
${\mathit{\boldsymbol{N}}_1}_{(Q - v + 1) \times (Q - k)} = \left[ {\begin{array}{*{20}{c}} q&{{{\bf{0}}_{(v - 1) \times 1}}}&{1 - q}&{}&{}\\ {}& \ddots &{}& \ddots &{}\\ {}&{}&q&{}&{1 - q}\\ {}&{}&{}& \ddots &{{{\bf{0}}_{1 \times k}}}\\ {}&{}&{}&{}&q \end{array}} \right] $ |
$ {{\mathit{\boldsymbol{W}}}_{1}}_{(\mathit{\boldsymbol{Q}}-v+1)\times 1}=\left[\begin{array}{c}{\bf{0}}_{(\mathit{\boldsymbol{Q}}-k-v)\times 1}\\ 1-q\\ ⋮\\ 1-q\end{array}\right] $ | (6) |
矩阵中
2) 能量状态转移矩阵
为节点从当前能量状态转移
$ \mathit{\boldsymbol{E}}(A=0)=\left[\begin{array}{cc}{\bf{0}}_{(\mathit{\boldsymbol{E}}+1-w)\times w}& {\mathit{\boldsymbol{I}}}_{(\mathit{\boldsymbol{E}}+1-w)\times (\mathit{\boldsymbol{E}}+1-w)}\\ {\bf{0}}_{w\times \mathit{\boldsymbol{E}}}& {\bf{1}}_{w\times 1}\end{array}\right] $ | (7) |
当
$ \mathit{\boldsymbol{E}}(A=1)=\left[\begin{array}{ccc}{\bf{0}}_{m\times w}& {\mathit{\boldsymbol{I}}}_{m\times m}& {\bf{0}}_{m\times (\mathit{\boldsymbol{E}}-w-m-1)}\\ {\bf{0}}_{(\mathit{\boldsymbol{E}}-m+1)\times w}& {\mathit{\boldsymbol{I}}}_{(\mathit{\boldsymbol{E}}-m+1)\times (\mathit{\boldsymbol{E}}-m+1)}& {\bf{0}}_{(\mathit{\boldsymbol{E}}-m+1)\times (m-w)}\end{array}\right] $ | (8) |
当
$ \mathit{\boldsymbol{E}}(A=2)=\left[\begin{array}{ccc}{\bf{0}}_{n\times w}& {\mathit{\boldsymbol{I}}}_{n\times n}& {\bf{0}}_{n\times (\mathit{\boldsymbol{E}}-w-n+1)}\\ {\bf{0}}_{(\mathit{\boldsymbol{E}}-n+1)\times w}& {{\mathit{\boldsymbol{N}}}_{2}}_{(\mathit{\boldsymbol{E}}-n+1)\times (\mathit{\boldsymbol{E}}-w)}& {{\mathit{\boldsymbol{W}}}_{2}}_{(\mathit{\boldsymbol{E}}-n+1)\times 1}\end{array}\right] $ |
$ {{\mathit{\boldsymbol{N}}}_{2}}_{(\mathit{\boldsymbol{E}}-n+1)\times (Q-w)}=\left[\begin{array}{ccccc}q& {\bf{0}}_{(n-1)\times 1}& 1-q& & \\ & \ddots & & \ddots & \\ & & q& & 1-q\\ & & & \ddots & {\bf{0}}_{1\times w}\\ & & & & q\end{array}\right] $ |
$ {{\mathit{\boldsymbol{W}}}_{2}}_{(\mathit{\boldsymbol{E}}-n+1)\times 1}=\left[\begin{array}{c}{\bf{0}}_{(\mathit{\boldsymbol{E}}-w-n)\times 1}\\ 1-q\\ ⋮\\ 1-q\end{array}\right] $ | (9) |
矩阵中
3) 区域状态转移矩阵
为移动信息采集设备覆盖区域状态转移的概率矩阵。移动信息采集设备当前是否在节点的数据传送范围内,直接决定了节点是否可以将数据传送给移动信息采集设备。只有作为数据接收方的移动信息采集设备停留在节点处时,节点才能够参与到移动信息采集设备组织的联邦学习或集中式学习中。因此,移动信息采集设备在节点处的概率越大,节点越有可能获得训练局部模型或上传原始数据所带来的收益。若移动信息采集设备当前时隙不在节点处,则下一个时隙移动信息采集设备进入区域的概率为
$ \mathit{\boldsymbol{U}}\left(A\right)=\left[\begin{array}{cc}1-p& p\\ 1-P\left(A\right)& P\left(A\right)\end{array}\right] $ | (10) |
设式中
客户端节点在工作过程中会在不同状态之间转换,并相应地采取不同的行动,节点在当前状态做出动作后,其作为学习参与者将获得即时奖励,记为即时效用函数
$ F\left(S\right|A)={\rho }_{T}{F}_{T}(S\left|A\right)+{\rho }_{D}{F}_{D}\left(S\right|A)+{\rho }_{L}{F}_{L}(S\left|A\right) $ | (11) |
其中:
$ {F}_{T}\left(S\right|A)=\left\{\begin{array}{l}{T}_{1}\left(\mathrm{\Delta }Q\right), A=1\mathrm{且}E\ge m\mathrm{且}U=1\\ {T}_{2}\left(\mathrm{\Delta }Q\right), A=2\mathrm{且}E\ge n\mathrm{且}U=1\\ 0, \mathrm{其}\mathrm{他}\end{array}\right. $ | (12) |
其中:
$ {F}_{D}\left(S\right|A)=D(Q\text{'}) $ | (13) |
其中:
$ {F}_{L}\left(S\right|A)=\left\{\begin{array}{l}L\left(\mathrm{\Delta }Q\right), A=2\mathrm{且}E\ge n\mathrm{且}U=1\\ 0, \mathrm{其}\mathrm{他}\end{array}\right. $ | (14) |
当
在建立MDP模型的基础上,本文分别采用值迭代算法以及深度强化学习算法求解MDP,以获取客户端节点的优化策略。
2.1 值迭代算法在已知完整的系统和环境信息的前提下,值迭代算法根据MDP模型计算最佳的策略。系统优化的具体目标是在当前系统状态下,选择每个决策阶段的最佳动作,使节点长期预期效用最大化,从而得到最优策略。由于MDP模型是由所提出的状态空间、动作空间、状态转移矩阵
$ Q\left(S\right|A)=F(S\left|A\right)+\gamma \sum\limits _{S\text{'}\in \mathbb{S}}\mathit{\boldsymbol{H}}(S, S\left.\text{'}\right|A)Q\left(S\left.\text{'}\right|A\right) $ | (15) |
$ V\left(S\right)= \underset{A\in \mathbb{A}}{\mathrm{m}\mathrm{a}\mathrm{x}} Q\left(S\right|A) $ | (16) |
$ \varphi ^{\mathrm{*}}\left(A\right|S)=\underset{A\in \mathbb{A}}{\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{m}\mathrm{a}\mathrm{x}}V(S) $ | (17) |
其中:
传统的值迭代算法需要完整的系统和环境信息,适用的状态和动作空间较小,且没有泛化能力。随着系统规模的增加,值迭代的复杂度呈指数级增长。与值迭代算法相比,深度强化学习(Deep Reinforcement Learning,DRL)显著降低了模型的复杂性,在问题规模增大的情况下算法复杂度也没有提升。DRL是强化学习和深度学习的结合,在具有决策能力强化学习基础上借助深度神经网络使智能体拥有对复杂环境的理解能力和泛化能力,为智能体动态地提供不断适应环境变化的决策方案。
深度Q网络(Deep Q Network,DQN)是DRL算法的典型代表。与值迭代算法相比,DQN利用深度神经网络逼近值函数,将当前系统观察到的状态作为神经网络的输入,通过经验回放打破数据之间的相关性。DQN通过两个结构相同但参数不同的神经网络,从历史经验中学习回报和动作之间的关系,优化神经网络的权重,从环境中最大化获得累计回报值,最终输出一组动作的估计Q值。此外,DQN的输入数量仅由状态本身性质决定,即使输入数量改变,DQN的结构也无需改变,具有一定通用性[29]。因此,本文采用基于DQN的算法为客户端节点提供实时决策,以寻找节点信息传输与能量管理组合优化策略。具体过程见算法1。
算法1 基于DQN算法的客户端节点信息传输与能量管理组合优化策略
输入 状态空间和动作空间
输出 信息传输与能量管理组合优化策略
1.初始化记忆回放池
2.随机更新权值
3.更新权值
4.初始化目标神经网络动作-值函数
5.repeat:
6.repeat:
7.对于当前状态
8.向
9.从
10.最小化损失函数
$ {\mathrm{y}}_{\mathrm{x}}=\left\{\begin{array}{l}{\mathrm{F}}_{\mathrm{x}}, {\mathrm{S}}_{\mathrm{x}+1}\mathrm{为}\mathrm{终}\mathrm{止}\mathrm{状}\mathrm{态}\\ {\mathrm{F}}_{\mathrm{x}}+\mathrm{\gamma }\mathrm{m}\mathrm{a}{\mathrm{x}}_{{\mathrm{A}}_{\mathrm{x}+1}}\mathrm{Q}({\mathrm{S}}_{\mathrm{x}+1}, {\mathrm{A}}_{\mathrm{x}+1};{\rm{ \mathsf{ θ} }}^{-}), \mathrm{其}\mathrm{他}\end{array}\right. $ |
11.until
12.until
13.返回
本文通过仿真构建系统模型,并定义了相关性能指标评价所提MDP策略。
3.1 仿真环境与参数本文设置客户端节点的最大数据容量
对于DQN算法中的初始参数,本文设置参数
为验证所提策略的性能,本文设置4种对比策略:1)贪心策略(GRE),节点不考虑未来的长期收益,每次都选择使即时效用
为评估所提出策略性能,本文定义相关性能评价指标如表 1所示。
![]() |
下载CSV 表 1 客户端节点性能评价指标 Table 1 Performance evaluation indexs of client node |
本文首先基于所提出的值迭代算法进行仿真实验,通过比较长期效用对客户端节点的性能进行验证。本文研究客户端节点的最大数据容量Q对其长期效用的影响,改变Q为0~10,在不同策略下长期效用随节点最大数据容量的变化如图 4所示。随着数据容量增加,所有策略的效用都呈先增后减的趋势。这是由于在Q较小时,节点最大数据存储容量的增加使得节点可以存储更多的数据以供未来训练模型使用,从而减少节点参与联邦学习或集中式学习,数据缓存池中可供训练的数据短缺问题发生的概率减少。随着Q增加,训练模型所带来的收益逐渐不足以抵消巨大的数据量,滞留在缓存池中的数据延迟开销,因此长期效用逐渐减少。在最大数据容量较小时表现较优的GRE策略,随着数据容量的增加逐渐体现出了劣势。由于GRE策略是短视的,节点在决策时仅选择当前时隙能得到最高回报的动作,而忽略了当前所选择动作对未来的影响。FED策略的能耗成本始终较大,TRA策略的隐私泄露成本较大,无法获得优于MDP策略的长期效用。在这种情况下,本文提出的MDP策略相较于其他基准策略的优势逐渐扩大。MDP策略在已知全局环境信息的情况下,在尽量保护用户隐私和保持模型训练精度基础上,降低能量开销的策略,实现性能平衡。
![]() |
Download:
|
图 4 在不同策略下长期效用随节点最大数据容量的变化 Fig. 4 Long-term utility changes with maximum data capacity of client node under different strategies |
在不同策略下长期效用随节点最大储能容量的变化如图 5所示,改变节点最大储能容量E从0~10,随着E增加,所有策略的效用都呈现增加趋势后逐渐平缓。当E从0~1时,MDP、GRE和TRA策略的长期效用都有一个较大幅度增加,由于节点上传原始数据需要
![]() |
Download:
|
图 5 在不同策略下长期效用随节点最大储能容量的变化 Fig. 5 Long-term utility changes with maximum energy capacity of node under different strategies |
本文还研究了节点传送原始数据的成功率q对长期效用的影响,如图 6所示。随着q的增加,除了在任何状态下都选择上传梯度数据的FED策略的总体效用不受原始数据发送成功率的影响,其他所有策略的效用都呈先增后减的趋势。在q较小时,若节点选择了传送原始数据,随着q的增大,更多原始数据可直接用于模型训练,节点所得的训练收益也随之增大,且大于节点在其他方面的成本消耗。当
![]() |
Download:
|
图 6 在不同策略下长期效用随节点原始数据发送成功率的变化 Fig. 6 Long-term utility changes with transmission success rate of node original data under different strategies |
为验证部署DQN策略的客户端节点在未知信息的高维环境中探索学习的性能,本文进行了仿真实验。在不同策略下长期效用随训练周期的变化如图 7所示。在经过约300轮训练后,DQN的仿真结果收敛于MDP的仿真结果并逐渐趋于稳定,原因是DQN策略对先前训练周期的系统状态、状态转换和即时回报都进行了采样,并将这些历史数据放入记忆回放池中,之后通过训练历史数据不断调整深度神经网络中的权重因子,最终调整到趋于稳定且较高的水平,得出节点最优的信息传输与能量管理策略。该结果表明DQN策略在高维复杂的无线通信网络环境中,仍表现出较强的探索学习能力。
![]() |
Download:
|
图 7 在不同策略下长期效用随训练周期的变化 Fig. 7 Long-term utility changes with training period under different strategies |
在不同策略下节点平均数据延迟随训练周期的变化如图 8所示。基于历史数据训练的DQN策略的平均数据延迟初期随着训练周期的增加逐渐降低,可以有效地处理数据传输任务,DQN策略在训练约300轮时收敛于MDP策略,相较于其他基准策略产生的数据延迟最少。由于数据长时间累积存储在队列中会导致较大的延迟开销和较少的长期收益,DQN策略通过训练学习过程快速调整策略进行平衡,因此更好地完成了移动信息采集设备和客户端节点间的信息传输。
![]() |
Download:
|
图 8 在不同策略下平均数据延迟随训练周期的变化 Fig. 8 Average data delay changes with training period under different strategies |
在不同策略下节点掉电率随训练周期的变化如图 9所示。基于DQN策略的掉电率在训练约300轮向下收敛于MDP策略的基准值且远低于其他策略,相比其他基准策略,对于回报的短视,DQN策略在学习历史经验的过程中已逐渐学会如何规避可能对后续能量造成短缺的选择,不断调整策略以最大程度地减少能量短缺。
![]() |
Download:
|
图 9 在不同策略下掉电率随训练周期的变化 Fig. 9 Energy shortage probability changes with training period under different strategies |
本文设计一种基于联邦学习的信息传输与能量管理策略。通过构建马尔科夫决策模型分析客户端节点在系统中的行为模式,采用值迭代算法和深度强化学习算法求解马尔科夫决策模型,得到客户端节点的能量与信息管理优化策略。仿真结果表明,本文策略能够实现节点在数据隐私保护、模型收益和能量消耗之间的最优平衡。由于无线通信网络的实际应用场景通常是层次复杂的网络拓扑结构,而本文仅研究联邦学习框架下无线网络中一对多通信的问题,因此后续将对多层次无线网络结构下多对多信息传输的动态变化进行研究,使信息传输与能量管理策略适用于无线通信网络的实际应用场景。
[1] |
BOUBICHE D E, PATHAN A S K, LLORET J, et al. Advanced industrial wireless sensor networks and intelligent IoT[J]. IEEE Communications Magazine, 2018, 56(2): 14-15. DOI:10.1109/MCOM.2018.8291108 |
[2] |
FUNG B C M, WANG K, CHEN R, et al. Privacy-preserving data publishing: a survey of recent developments[J]. ACM Computing Surveys, 2010, 42(4): 1-53. |
[3] |
陈发堂, 赵昊明, 吴晓龙, 等. 移动网络用户隐私与信息安全研究[J]. 南京邮电大学学报(自然科学版), 2020, 40(2): 35-40. CHEN F T, ZHAO H M, WU X L, et al. Privacy and information security of mobile network users[J]. Journal of Nanjing University of Posts and Telecommunications (Natural Science), 2020, 40(2): 35-40. (in Chinese) |
[4] |
刘俊旭, 孟小峰. 机器学习的隐私保护研究综述[J]. 计算机研究与发展, 2020, 57(2): 346-362. LIU J X, MENG X F. Survey on privacy-preserving machine learning[J]. Journal of Computer Research and Development, 2020, 57(2): 346-362. (in Chinese) |
[5] |
YANG Q, LIU Y, CHEN T, et al. Federated machine learning: concept and applications[J]. ACM Transactions on Intelligent Systems and Technology, 2019, 10(2): 1-19. |
[6] |
LIU S, QU Q, CHEN L, et al. SMC: a practical schema for privacy-preserved data sharing over distributed data streams[J]. IEEE Transactions on Big Data, 2015, 1(2): 68-81. DOI:10.1109/TBDATA.2015.2498156 |
[7] |
MCMAHAN H B, MOORE E, RAMAGE D, et al. Communication-efficient learning of deep networks from decentralized data[EB/OL]. [2021-01-05]. https://arxiv.org/pdf/1602.05629.pdf.
|
[8] |
CORTES J, DULLERUD G E, HAN S, et al. Differential privacy in control and network systems[C]//Proceeding of the 55th Conference on Decision and Control. Washington D.C., USA: IEEE Press, 2016: 4252-4272.
|
[9] |
LINDELL Y. General composition and universal composability in secure multi-party computation[J]. Journal of Cryptology, 2009, 22: 395-428. DOI:10.1007/s00145-008-9021-2 |
[10] |
WANG Z, SONG M, ZHANG Z, et al. Beyond inferring class representatives: user-level privacy leakage from federated learning[C]//Proceedings of IEEE Conference on Computer Communications. Washington D.C., USA: IEEE Press, 2019: 1-10.
|
[11] |
KONEN J, MCMAHAN H B, YU F X, et al. Federated learning: strategies for improving communication efficiency[EB/OL]. [2021-01-03]. https://arxiv.org/pdf/1610.05492.pdf.
|
[12] |
TRAN N H, BAO W, ZOMAYA A, et al. Federated learning over wireless networks: optimization model design and analysis[C]//Proceedings of IEEE Conference on Computer Communications. Washington D.C., USA: IEEE Press, 2019: 1387-1395.
|
[13] |
JIN R, HE X, DAI H. On the design of communication efficient federated learning over wireless networks[EB/OL]. [2021-01-05]. https://arxiv.org/abs/2004.07351v1.
|
[14] |
NADIGER C, KUMAR A, ABDELHAK S. Federated reinforcement learning for fast personalization[C]//Proceedings of the 2nd International Conference on Artificial Intelligence and Knowledge Engineering. Washington D.C., USA: IEEE Press, 2019: 123-127.
|
[15] |
CONWAY-JONES D, TUOR T, WANG S, et al. Demonstration of federated learning in a resource-constrained networked environment[C]//Proceedings of IEEE International Conference on Smart Computing. Washington, D.C., USA: IEEE Press, 2019: 484-486.
|
[16] |
LI H, HAN T. An end-to-end encrypted neural network for gradient updates transmission in federated learning[C]//Proceedings of IEEE Conference on Data Compression. Washington D.C., USA: IEEE Press, 2019: 589-592.
|
[17] |
杨庚, 王周生. 联邦学习中的隐私保护研究进展[J]. 南京邮电大学学报(自然科学版), 2020, 40(5): 204-214. YANG G, WANG Z S. Survey on privacy preservation in federated learning[J]. Journal of Nanjing University of Posts and Telecommunications (Natural Science), 2020, 40(5): 204-214. (in Chinese) |
[18] |
ZHANG Y, XIONG Z H, NIYATO D, et al. Toward a perpetual IoT system: wireless power management policy with threshold structure[J]. IEEE Internet of Things Journal, 2018, 5(6): 5254-5270. DOI:10.1109/JIOT.2018.2876375 |
[19] |
LU X, WANG P, NIYATO D, et al. Wireless networks with RF energy harvesting: a contemporary survey[J]. IEEE Communications Surveys and Tutorials, 2015, 17(2): 757-789. DOI:10.1109/COMST.2014.2368999 |
[20] |
ZHU C, LEUNG V C M, SHU L, et al. Green Internet of Things for smart world[J]. IEEE Access, 2015, 3: 2151-2162. DOI:10.1109/ACCESS.2015.2497312 |
[21] |
ANH T T, LUONG N C, NIYATO D, et al. Efficient training management for mobile crowd-machine learning: a deep reinforcement learning approach[J]. IEEE Wireless Communications Letters, 2019, 8(5): 1345-1348. DOI:10.1109/LWC.2019.2917133 |
[22] |
ZHANG C, UENG Y, STUDER C, et al. Artificial intelligence for 5G and beyond 5G: implementations, algorithms, and optimizations[J]. IEEE Journal on Emerging and Selected Topics in Circuits and Systems, 2020, 10(2): 149-163. DOI:10.1109/JETCAS.2020.3000103 |
[23] |
MOZAFFARI M, SAAD W, BENNIS M, et al. Optimal transport theory for cell association in UAV-enabled cellular networks[J]. IEEE Communications Letters, 2017, 21(9): 2053-2056. DOI:10.1109/LCOMM.2017.2710306 |
[24] |
DUAN W, GU J, WEN M, et al. Emerging technologies for 5G-IoV networks: applications, trends and opportunities[J]. IEEE Network, 2020, 34(5): 283-289. DOI:10.1109/MNET.001.1900659 |
[25] |
ZENG Y, ZHANG R, LIM T J. Wireless communications with unmanned aerial vehicles: opportunities and challenges[J]. IEEE Communications Magazine, 2016, 54(5): 36-42. DOI:10.1109/MCOM.2016.7470933 |
[26] |
HE D, CHAN S, GUIZANI M. Communication security of unmanned aerial vehicles[J]. IEEE Wireless Communications, 2017, 24(4): 134-139. DOI:10.1109/MWC.2016.1600073WC |
[27] |
周志华. 机器学习[M]. 北京: 清华大学出版社, 2015. ZHOU Z H. Machine learning[M]. Beijing: Tsinghua University Press, 2015. (in Chinese) |
[28] |
LIAO J, SANKAR L, TAN V Y F, et al. Hypothesis testing under mutual information privacy constraints in the high privacy regime[J]. IEEE Transactions on Information Forensics and Security, 2018, 13(4): 1058-1071. DOI:10.1109/TIFS.2017.2779108 |
[29] |
LUONG N C, HOANG D T, GONG S, et al. Applications of deep reinforcement learning in communications and networking: a survey[J]. IEEE Communications Surveys and Tutorials, 2019, 21(4): 3133-3174. DOI:10.1109/COMST.2019.2916583 |