2. 军事科学院, 北京 100091
2. Academy of Military Sciences, Beijing 100091, China
开放科学(资源服务)标志码(OSID):
随着当前城市内移动通信终端数量的快速增长以及物联网、云计算、高清视频等新应用新技术的迅速发展,大型城市中数据月均流量消耗增长迅猛[1]。无人机升空平台作为辅助地面基站,可为城市提供无线覆盖保障。当前无人机升空平台多采用低空无人机,如何根据环境信息和用户位置信息实时规划路径,以规避建筑物对于信号的遮挡以及调整合适的飞行方向、速度以避免发生多普勒频移造成的快衰落,是当前无人机升空平台在提供无线通信保障任务中亟待解决的问题。
解决上述问题的传统方法是通过对目标区域进行建模,然后使用最优控制算法进行路径规划。ROMERO等[2]利用地面用户和无人机基站之间发送的控制信息,提出一种基于随机梯度下降法的分布式自适应无人机轨迹优化算法。ZENG等[3]研究在已知地面用户位置的情况下使用无人机升空平台为地面用户提供数据传输服务的内容,进行圆形飞行轨迹设计,以在固定时间内最大化地面用户的上行速率。LYU等[4]提出一种高效的螺旋式无人机布局算法,意在使用最少的无人机升空平台,保证每一个地面用户都能被有效覆盖,但是该算法需要无人机平台在固定高度悬停。ALZENAD等[5]设计一个无人机升空平台在三维空间中的评估模型,以利用最小的发射功率实现对于目标区域的覆盖。KALANTARI等[6]提出一种粒子群优化框架,使得可以利用最少数量的无人机完成对目标区域的无线覆盖。AL-HOURANI等[7]根据地面静态用户的位置信息,将无人机升空平台的部署问题表示为一个二次约束混合整数非线性问题,用以得到最优的三维部署方案,最大化地面静态用户的下行速率。但上述算法主要存在以下问题:一是需要对环境进行复杂且精确的建模,而精确建模需要耗费大量时间以及计算资源,并且当前很多实际应用问题并不能准确地建模;二是当前算法更多考虑的是为地面静态用户提供通信覆盖的场景。目前对于地面多移动用户的无人机升空平台实时路径规划方法的研究还处于初期阶段。
基于深度强化学习(Deep Reinforcement Learning,DRL)的方法通过将路径规划任务建模为时序决策优化问题,利用神经网络的泛化性能以及强化学习的优化思想最大化累积收益,使智能体学习到最优策略。文献[8-9]使用DQN算法[10]对无人机升空平台进行路径规划,以最大化数据传输速率。但该算法只能应用于离散动作空间任务,并且存在价值函数估值过高的问题,对智能体学习路径规划策略造成了偏差。对此,WANG等[11]使用Double DQN算法[12]优化无人机平台飞行轨迹,用以在对地面所有用户进行覆盖的前提下最大化下行速率。Double DQN算法弥补了DQN价值函数估值过高的问题,但仍然不能应用在连续动作空间任务中。同时,由于智能体探索能力随着策略更新次数的增加而下降,智能体会出现收敛到局部最优策略的情况。文献[13-14]使用DDPG算法[15]成功地将深度强化学习应用在连续动作空间的路径规划任务中,但是该算法超参数过多,在复杂问题中训练速度慢且不稳定。可见,当前DRL算法在处理路径规划这一类高维状态动作空间任务时,存在探索性能差、训练过程不稳定、样本效率低等问题。针对上述问题,文献[16]提出了基于内在奖励的强化学习算法,使得智能体可以高效地对环境进行探索,并且单调提升策略性能。
目前提升样本效率的方法主要有off-policy类算法[15, 17]以及基于模型的算法。前者由于行动策略与目标策略不同,需要设计合理的重要性采样方法,并对超参数进行反复调整,否则会使学习过程出现较大偏差,导致智能体学习不稳定,收敛到局部最优策略;后者通过使智能体学习环境的动态模型,从而提升样本效率,但当前仍存在探索能力低下[18-19]、数据收集效率较低[20-21]、价值函数预测偏差较大[22-23]的问题。本文研究利用基于模型的方法结合内在奖励强化学习算法,提出基于模型的强化学习算法在无人机升空平台路径规划中的应用,在保证最终性能的前提下提升样本效率,以使用较少数据完成对于智能体的训练。
1 模拟环境构建本节主要阐述无人机升空平台通信保障任务的模拟环境构建工作,该模拟环境不仅为智能体提供用于训练的经验数据,同时可以作为一个算法验证平台,用于比较各类算法在任务中的性能。为了使得模拟环境贴近实际环境,首先建立城市环境中的空对地信道模型,用于估算不同情况下的路径损耗值。在此基础上,将任务归纳为一个时序决策问题,并使用OpenAI-GYM架构搭建环境。
1.1 空对地信道建模本文基于城市环境建立一个空对地信道路径损耗模型,主要考虑城市建筑物对信号遮挡造成的路径损耗。国际电信联盟(ITU)在其官方标准文件中提出一种基于建筑物遮挡对无线电信号传输造成损耗的通用模型[24]。该模型可适用于多种城市环境,将发射机和接收机之间的视距通信及非视距通信传输概率定义为仰角和环境参数的函数,并且通过数学推导,可以得到通过Sigmod渐进化简后的公式:
$ P\left({L}_{\mathrm{L}\mathrm{o}\mathrm{S}}, \theta \right)=\frac{1}{1+a\mathrm{e}\mathrm{x}\mathrm{p}\left(-b\left[\theta -a\right]\right)} $ | (1) |
其中:a、b为S-curve参数。
无人机升空平台与用户之间发生非视距传输的概率为:
$ P\left({N}_{\mathrm{N}\mathrm{L}\mathrm{o}\mathrm{S}}, \theta \right)=1-P\left({L}_{\mathrm{L}\mathrm{o}\mathrm{S}}, \theta \right) $ | (2) |
因此,传播模型的路径损耗为:
$ {P}_{\xi }^{\mathrm{P}\mathrm{L}}={F}_{\mathrm{F}\mathrm{S}\mathrm{P}\mathrm{L}}+{\eta }_{\xi } $ | (3) |
其中:FFSPL为自由空间损耗,是针对理想全向天线传输计算得到的损耗公式;
总的路径损耗模型可以写为:
$ {P}^{\mathrm{P}\mathrm{L}}=P\left({L}_{\mathrm{L}\mathrm{o}\mathrm{S}}, \theta \right)\times {P}_{{}_{\mathrm{L}\mathrm{o}\mathrm{S}}}^{\mathrm{P}\mathrm{L}}+P\left({N}_{\mathrm{N}\mathrm{L}\mathrm{o}\mathrm{S}}, \theta \right)\times {P}_{{}_{\mathrm{N}\mathrm{L}\mathrm{o}\mathrm{S}}}^{\mathrm{P}\mathrm{L}} $ | (4) |
其中:PPL是信道模型的总路径损耗,可以计算无人机升空平台与每个地面移动用户之间信号的路径损耗。
1.2 任务优化方程无人机升空平台通信保障任务的目标是使无人机升空平台在应急通信保障任务期间最大化所有用户的下行速率之和,同时需要保证任何用户的下行速率高于预设的门限速率,并保证每个用户不会出现由多普勒频移造成的快衰落。
无人机升空平台与一个地面移动用户的三维关系如图 1所示。在图 1中,参数h和L分别表示无人机升空平台的飞行高度以及与用户之间的水平面距离,参数
![]() |
Download:
|
图 1 无人机升空平台与用户的关系 Fig. 1 Relationship between UAV aerial platform and user |
此外,定义光速为c,信号频率为f,基站发射功率为
$ {f}_{mt}=f \left(\frac{c-\stackrel{}{{\boldsymbol{v}}_{m}\cdot }\stackrel{}{\boldsymbol{d}}/\left|\stackrel{}{\boldsymbol{d}}\right|}{c-\stackrel{}{{\boldsymbol{v}}_{f}\cdot }\stackrel{}{\boldsymbol{d}}/\left|\stackrel{}{\boldsymbol{d}}\right|}\right) $ | (5) |
通过式(5)可以计算得到路径损耗PPL(单位为dB)。所以,用户m在时隙t收到的信号功率为:
$ P{r}_{mt}=10\mathrm{l}\mathrm{g}\left({1}_{}000\times {P}_{s}\right)-{P}^{\mathrm{P}\mathrm{L}} $ | (6) |
通过香农公式可以得到理论上用户的最大下行速率:
$ {C}_{mt}=W\mathrm{l}\mathrm{b}\left(1+\frac{P{r}_{mt}}{N}\right) $ | (7) |
其中
定义模拟环境在时隙t的奖励值为:
$ {R}_{t}=\left\{\begin{array}{l}\sum\limits_{m=1}^{M}{C}_{mt}, {C}_{mt} > {f}_{mt}, {C}_{mt}\ge {C}_{th}\\ 0, {C}_{mt} < {f}_{mt}, {C}_{mt}\le {C}_{th}\end{array}\right. $ | (8) |
其中
$ {G}_{t}=\sum\limits_{t=0}^{T}{R}_{t}, {R}_{t}=0\text{,}T=t $ | (9) |
即设置总的收益为所有时隙奖励值的和,但如果某个时隙的奖励值为0,即触发了约束条件,则任务直接结束。基于上述分析,将无人机升空平台的应急通信保障问题概括为一个马尔科夫时序决策问题,可以采用强化学习的手段进行求解,目标就是最大化累积收益
在得到时序决策优化方程后,使用OpenAI-Gym架构[25]进行环境构建。任务设置如下:在尺寸为50 km
在利用无模型算法进行学习时,为了准确估计价值函数,根据任务的复杂性不同,需要采样上万幕的数据才能得到较为准确的价值估计网络。因此,本文借鉴MVE算法[23]的思想,采用基于模型的算法对动态模型进行学习,其中包含3个重要的待学习函数:状态转移函数
$ \begin{array}{l}{T}_{H}^{\mathrm{M}\mathrm{V}\mathrm{E}}\left(r, s\text{'}\right)=r+\left(\sum\limits_{i=1}^{H}{D}^{i}{\gamma }^{i}{r}_{\phi }\left({s}_{i-1}^{\mathrm{\text{'}}}, {a}_{i-1}^{\mathrm{\text{'}}}, {s}_{i}^{\mathrm{\text{'}}}\right)\right)+\\ {D}^{H+1}{\gamma }^{H+1}{Q}_{\theta }^{\pi }\left({s}_{H}^{\mathrm{\text{'}}}, {a}_{H}^{\mathrm{\text{'}}}\right)\end{array} $ | (10) |
其中
但是MVE算法只有在当模型复杂度不高,并且在所有学习到的动作价值函数具有相似的误差时具有较好性能。当模型较为复杂时,MVE算法难以调整固定的超参数H,而模型误差的累积会导致价值函数评估出现严重偏差。为了解决上述问题,需要综合考量H+1个不同预测步长的MVE形式的状态价值来计算得到一个合适的价值函数。候选的TD目标为:
算法的概述图如图 2所示。图 2展示了M=N=L=2情况下
$ \begin{array}{l}E\left[{\left(\sum\limits_{i=0}^{H}{w}_{i}{T}_{i}^{\mathrm{M}\mathrm{V}\mathrm{E}}-{Q}^{\pi }\left(s, a\right)\right)}^{2}\right]=\\ \mathrm{B}\mathrm{i}\mathrm{a}\mathrm{s}{\left(\sum\limits_{i}{w}_{i}{T}_{i}^{\mathrm{M}\mathrm{V}\mathrm{E}}\right)}^{2}+\mathrm{V}\mathrm{a}\mathrm{r}\left(\sum\limits_{i}{w}_{i}{T}_{i}^{\mathrm{M}\mathrm{V}\mathrm{E}}\right)\approx \\ \mathrm{B}\mathrm{i}\mathrm{a}\mathrm{s}{\left(\sum\limits_{i}{w}_{i}{T}_{i}^{\mathrm{M}\mathrm{V}\mathrm{E}}\right)}^{2}+\sum\limits_{i}{w}_{i}^{2}\mathrm{V}\mathrm{a}\mathrm{r}\left({T}_{i}^{\mathrm{M}\mathrm{V}\mathrm{E}}\right)\end{array} $ | (11) |
![]() |
Download:
|
图 2 基于模型算法的概述图 Fig. 2 Overview figure of model-based algorithm |
为使得均方误差最小,使用经验数据中估计得到的方差来估计方差项,并最小化方差项。采用逆方差权重法,将
$ T\left( r,s \right)=\sum\limits_{i=0}^{H}{\frac{{{w}_{i}}}{{{\sum }_{j}}{{w}_{j}}}}T_{i}^{\mu }$ | (12) |
其中:
将算法与内在奖励RL算法以及impala并行架构结合,最终得到基于模型的内在奖励强化学习算法,算法流程架构如图 3所示。可以看到,算法采用并行架构完全解耦了数据采集和策略更新过程。Worker独立地进行经验数据收集,在结束一幕数据交互后,同步Learner最新的策略,并将收集到的数据存入Buffer。Learner周期地从Buffer中提取数据进行更新,通过V-trace方法对行动策略采集到的数据进行重要性采样,得到适合目标策略学习的价值函数预测值,分内部、外部奖励两个部分使用上述基于模型的方法对价值函数进行评估,最终合并内部奖励和外部奖励预测得到的价值函数,并利用PPO的方法对策略进行更新。实验结果表明,该方法在智能体取得相同性能的情况下提高了样本效率。
![]() |
Download:
|
图 3 基于模型的内在奖励算法结构 Fig. 3 Structure of model-based intrinsic reward algorithm |
本文程序使用python3.8编写,运行环境为Win 10操作系统,装有2块NVIDIA 3090显卡以及64 GB内存。实验中神经网络均由全连接网络和ReLu网络组成,使用32个并行的实验环境进行数据采集。本文提出的基于模型的内在奖励算法与基于Impala架构的无模型内在奖励算法的性能对比如图 4所示。
![]() |
Download:
|
图 4 不同算法的性能对比 Fig. 4 Performance comparison of different algorithms |
从图 4可以看出,本文算法相较于拥有相同架构但不使用对环境动态模型进行学习的算法具有更好的性能,可以利用很少的经验数据快速完成对于策略的学习,并且学习过程更加稳定。为了比较本文算法与非强化学习启发式算法的性能,基于文献[3-5]的思想,构建一套简化的启发式算法。该算法将当前分布在地面的多个用户包含在一个最小的圆内,要求无人机始终保持在圆心位置,速度方向则为所有用户当前速度向量之和的方向。可以看到,启发式算法在环境中可以达到近6 000分的水平,微小的波动是由于地面用户在遇到障碍物时进行随机避障,速度方向并不保持一致,从而导致无人机飞行方向发生偏移,进而影响最终得分情况。相较于启发式算法,本文算法在前期学习过程得分较差,但当智能体能够对状态价值函数进行准确评估后,最终算法的得分远高于启发式算法。
此外为了说明的本文算法相较于其他基于模型算法的优势,在模拟环境中采用了多种算法进行测试比较,结果如图 5所示。
![]() |
Download:
|
图 5 本文算法与不同视界MVE算法的性能对比 Fig. 5 Performance comparison between the proposed algorithm and MVE algorithm in different horizons |
从图 5可以看出,相比于MVE采用固定规划值(H)的情况,基于组合规划值的方法训练速度和效果更好,同时训练过程更为平稳,并且对于MVE类规划值固定的算法,如何调节超参数H也是一个难题,从图 5可以看出,当H从1提高到5的过程中,规划值的增大减小了价值函数预测的方差,而准确的价值函数提高了算法的学习速率,也决定了最终收敛到的策略性能。而当H取10时,智能体在整个训练过程中波动很大,并且最终无法学习到一个较好的策略。原因在于:在训练初期,当预测模型没有得到准确学习时,过长的规划值会导致价值函数方差、偏差都较大,在这种情况下由于方差、偏差的累积,智能体始终无法学到准确的预测模型参数以及价值函数,这就使得智能体在训练过程中全程无法进行有效的策略迭代。所以,对于固定规划值类的算法,超参数的调整是一个难题。而使用均匀加权训练算法与本文算法有着相同的架构,但在组合规划值时,权值使用的是均匀加权算法。可以看出,该算法的速度和最终性能都与本文算法有差距。
实验中还针对算法对于不同超参数集的鲁棒性进行了研究,利用20组有较大差异的超参数集对算法进行了测试,并且对最终得分求均值,结果如图 6所示。
![]() |
Download:
|
图 6 不同算法的鲁棒性对比 Fig. 6 Robustness comparison of different algorithms |
图 6比较了基于模型的权值组合规划值扩展算法与基于Impala框架的内在奖励算法在20组不同超参数集下作用于模拟环境中的平均得分。从图 6可以看出,基于Impala框架的内在奖励算法在使用接近20组超参数集时,其得分均值已低于2 000分,而基于模型的权值组合规划值扩展算法稳定在6 000分左右。实验结果表明,基于模型的算法针对不同超参数具有更强的鲁棒性。原因在于:基于模型的权值组合规划值扩展算法在训练过程中对于环境动态模型的学习,在一定程度上弥补了超参数设置带来的价值函数预测偏差。
4 结束语本文针对强化学习算法在无人机升空平台路径规划任务中存在的样本效率低的问题,提出基于模型的内在奖励强化学习算法。通过将任务概述为一个时序决策优化问题,基于OpenAI-GYM构建模拟环境,并结合规划与预测的方法提高价值函数的评估准确性。实验结果表明,该算法在保证智能体性能的前提下,在样本效率、学习速度、算法鲁棒性上都有较大提升。下一步将研究提升算法的迁移能力,并结合迁移学习和元学习的思想对算法进行改进,以将训练完毕的智能体投入到相似的场景中执行任务。
[1] |
PEPPER R. Cisco visual networking index global mobile data traffic forecast update[EB/OL]. [2021-09-30]. https://www.gsma.com/spectrum/wpcontent/uploads/2013/03/Cisco_VNI-global-mobile-data-traffic-forecastupdate.pdf.
|
[2] |
ROMERO D, LEUS G. Non-cooperative aerial base station placement via stochastic optimization[C]//Proceedings of the 15th International Conference on Mobile Ad-Hoc and Sensor Networks. Washington D. C., USA: IEEE Press, 2019: 131-136.
|
[3] |
ZENG Y, ZHANG R. Energy-efficient UAV communication with trajectory optimization[J]. IEEE Transactions on Wireless Communications, 2017, 16(6): 3747-3760. DOI:10.1109/TWC.2017.2688328 |
[4] |
LYU J B, ZENG Y, ZHANG R, et al. Placement optimization of UAV-mounted mobile base stations[J]. IEEE Communications Letters, 2017, 21(3): 604-607. DOI:10.1109/LCOMM.2016.2633248 |
[5] |
ALZENAD M, EL-KEYI A, LAGUM F, et al. 3-D placement of an unmanned aerial vehicle base station for energy-efficient maximal coverage[J]. IEEE Wireless Communications Letters, 2017, 6(4): 434-437. DOI:10.1109/LWC.2017.2700840 |
[6] |
KALANTARI E, YANIKOMEROGLU H, YONGACOGLU A. On the number and 3D placement of drone base stations in wireless cellular networks[C]//Proceedings of the 84th IEEE Vehicular Technology Conference. Washington D. C., USA: IEEE Press, 2016: 1-6.
|
[7] |
AL-HOURANI A, KANDEEPAN S, LARDNER S. Optimal LAP altitude for maximum coverage[J]. IEEE Wireless Communications Letters, 2014, 3(6): 569-572. DOI:10.1109/LWC.2014.2342736 |
[8] |
GUO J L, HUO Y H, SHI X J, et al. 3D aerial vehicle base station (UAV-BS) position planning based on deep Q-learning for capacity enhancement of users with different QoS requirements[C]//Proceedings of the 15th International Wireless Communications & Mobile Computing Conference. Washington D. C., USA: IEEE Press, 2019: 1508-1512.
|
[9] |
BAYERLEIN H, DE KERRET P, GESBERT D. Trajectory optimization for autonomous flying base station via reinforcement learning[C]//Proceedings of the 19th IEEE International Workshop on Signal Processing Advances in Wireless Communications. Washington D. C., USA: IEEE Press, 2018: 1-5.
|
[10] |
MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playing atari with deep reinforcement learning[J]. Computer Science, 2013, 25: 253-262. |
[11] |
WANG Q, ZHANG W Q, LIU Y W, et al. Multi-UAV dynamic wireless networking with deep reinforcement learning[J]. IEEE Communications Letters, 2019, 23(12): 2243-2246. DOI:10.1109/LCOMM.2019.2940191 |
[12] |
VAN HASSELT H, GUEZ A, SILVER D. Deep reinforcement learning with double Q-learning[J]. Artificial Intelligence, 2016, 30(1): 14-20. |
[13] |
LIU C H, MA X X, GAO X D, et al. Distributed energy-efficient multi-UAV navigation for long-term communication coverage by deep reinforcement learning[J]. IEEE Transactions on Mobile Computing, 2020, 19(6): 1274-1285. DOI:10.1109/TMC.2019.2908171 |
[14] |
QI H, HU Z Q, HUANG H, et al. Energy efficient 3-D UAV control for persistent communication service and fairness: a deep reinforcement learning approach[J]. IEEE Access, 2020, 8: 53172-53184. DOI:10.1109/ACCESS.2020.2981403 |
[15] |
LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[EB/OL]. [2021-09-30]. https://arxiv.org/abs/1509.02971.
|
[16] |
YANG S M, SHAN Z, CAO J, et al. Path planning of UAV base station based on deep reinforcement learning[J]. Procedia Computer Science, 2022, 202: 89-104. DOI:10.1016/j.procs.2022.04.013 |
[17] |
FUJIMOTO S, VAN HOOF H, MEGER D. Addressing function approximation error in actor-critic methods[EB/OL]. [2021-09-30]. https://arxiv.org/abs/1802.09477.
|
[18] |
ANTHONY T, TIAN Z, BARBER D. Imagination-augmented agents for deep reinforcement learning[C]//Proceedings of Advances in Neural Information Processing Systems. Cambridge, USA: MIT Press, 2017: 5360-5370.
|
[19] |
NAGABANDI A, KAHN G, FEARING R S, et al. Neural network dynamics for model-based deep reinforcement learning with model-free fine-tuning[C]//Proceedings of IEEE International Conference on Robotics and Automation. Washington D. C., USA: IEEE Press, 2018: 7559-7566.
|
[20] |
BUCKMAN J, HAFNER D, TUCKER G, et al. Sample-efficient reinforcement learning with stochastic ensemble value expansion[EB/OL]. [2021-09-30]. https://arxiv.org/abs/1807.01675.
|
[21] |
KURUTACH T, CLAVERA I, DUAN Y, et al. Model-ensemble trust-region policy optimization[EB/OL]. [2021-09-30]. https://arxiv.org/abs/1802.10592.
|
[22] |
FEINBERG V, WAN A, STOICA I, et al. Model-based value estimation for efficient model-free reinforcement learning[EB/OL]. [2021-09-30]. https://arxiv.org/abs/1803.00101.
|
[23] |
CLAVERA I, ROTHFUSS J, SCHULMAN J, et al. Model-based reinforcement learning via meta-policy optimization[EB/OL]. [2021-09-30]. https://arxiv.org/abs/1809.05214.
|
[24] |
Recommendation ITU-R. Propagation data and prediction methods required for the design of terrestrial broadband millimetric radio access systems operating in a frequency range of about 20~50 GHz[R]. Geneva, Switzerland, 2001.
|
[25] |
BROCKMAN G, CHEUNG V, PETTERSSON L, et al. OpenAI Gym[EB/OL]. [2021-09-30]. https://arxiv.org/abs/1606.01540.
|