多约束复杂环境下UAV航迹规划策略自学习方法

引用本文

邱月, 郑柏通, 蔡超. 多约束复杂环境下UAV航迹规划策略自学习方法[J]. 计算机工程, 2021, 47(5), 44-51. DOI: 10.19678/j.issn.1000-3428.0057492.

QIU Yue, ZHENG Baitong, CAI Chao. Self-Learning Method of UAV Track Planning Strategy in Complex Environment with Multiple Constraints[J]. Computer Engineering, 2021, 47(5), 44-51. DOI: 10.19678/j.issn.1000-3428.0057492.

基金项目

江苏省自然科学基金（BK20170914）

作者简介

邱月(1994-), 女, 硕士研究生, 主研方向为任务规划、计算机视觉;
郑柏通, 硕士研究生;
蔡超, 副教授、博士

文章历史

收稿日期：2020-02-25
修回日期：2020-04-28

Contents Abstract Full text Figures/Tables PDF

多约束复杂环境下UAV航迹规划策略自学习方法

邱月 , 郑柏通 , 蔡超

华中科技大学人工智能与自动化学院多谱信息处理技术国家级重点实验室, 武汉 430074

收稿日期：2020-02-25；修回日期：2020-04-28

基金项目：江苏省自然科学基金（BK20170914）

作者简介：邱月(1994-), 女, 硕士研究生, 主研方向为任务规划、计算机视觉; 郑柏通, 硕士研究生; 蔡超, 副教授、博士.

E-mail: caichao@hust.edu.cn

摘要：在多约束复杂环境下，多数无人飞行器（UAV）航迹规划方法无法从历史经验中获得先验知识，导致对多变的环境适应性较差。提出一种基于深度强化学习的航迹规划策略自学习方法，利用飞行约束条件设计UAV的状态及动作模式，从搜索宽度和深度2个方面降低航迹规划搜索规模，基于航迹优化目标设计奖惩函数，利用由卷积神经网络引导的蒙特卡洛树搜索（MCTS）算法学习得到航迹规划策略。仿真结果表明，该方法自学习得到的航迹规划策略具有泛化能力，相对未迭代训练的网络，该策略仅需17%的NN-MCTS仿真次数就可引导UAV在未知飞行环境中满足约束条件并安全无碰撞地到达目的地。

Self-Learning Method of UAV Track Planning Strategy in Complex Environment with Multiple Constraints

QIU Yue , ZHENG Baitong , CAI Chao

National Key Laboratory for Multi-Spectral Information Processing Technologies, School of Artificial Intelligence and Automation, Huazhong University of Science and Technology, Wuhan 430074, China

Abstract: In a complex multi-constrained environment, the Unmanned Aerial Vehicle(UAV) track planning methods generally fail to obtain priori knowledge from historical experience, resulting in poor adaptability to a variable environment.To address the problem, this paper proposes a self-learning method for track planning strategy based on deep reinforcement learning.Based on the UAV flight constraints, the design of the UAV state and action modes is optimized to reduce the width and depth of track planning search.The reward and punishment function is designed based on the track optimization objective.Then, a Monte Carlo Tree Search(MCTS) algorithm guided by a convolutional neural network is used to learn the track planning strategy.Simulation results show that the track planning strategy obtained by the proposed self-learning method has generalization ability.Compared with the networks without iterative training, the strategy obtained by this method requires only 17% of the number of NN-MCTS simulation times to guide the UAV to reach the destination safely without collision and satisfy the constraints in an unknown environment.

0 概述

战场环境中的无人飞行器（Unmanned Aerial Vehicle，UAV）航迹规划任务需要考虑多方面的因素，如无人飞行器的性能、地形、威胁、导航与制导方法等，其目的是在低风险情况下以更低的能耗得到最优航迹。

目前，典型的无人飞行器航迹规划算法包括A*算法^[1]、遗传算法^[2]、蚁群算法^[3]和粒子群算法^[4]等，虽然它们具有很强的路径搜索能力，但是在面临新的飞行环境时，多数算法无法从历史经验中获得先验知识，导致难以适应多变的环境。强化学习通过智能体来不断地试探环境，迭代学习从“状态-动作”对中获得的累积经验，得到使收益最大化的策略，即状态到动作的映射。与传统方法不同，将强化学习理论应用于无人飞行器航迹规划领域，能够使无人飞行器获得类似人类的学习能力，在未知环境中将学到的策略作为先验知识可以提高航迹规划的效率，从而更快地适应新环境。但是强化学习存在维度灾难问题，导致难以解决复杂的实际问题。人工智能技术的发展使得深度学习可以很好地处理高维信息。深度强化学习^[5-7]结合了具有强大感知能力及表征能力的深度学习与具有决策能力的强化学习，能够提高航迹规划策略在复杂多变环境中的泛化能力。

在实际的航迹规划中，需要综合考虑如何利用航迹规划的任务、约束条件和优化目标等信息来设计强化学习系统的四要素，即状态、动作、奖惩函数和策略。目前，研究人员从不同角度提出了较多航迹规划方法。文献[8]基于Q学习来解决未知动态环境中的移动机器人路径规划问题，提出一种状态空间的定义方法，即根据离智能体最近的障碍物的相关信息指导设计状态，该方法能够加快收敛速度并提高系统学习效率。文献[9]为了提高深度强化学习方法对新目标的泛化能力，引入目标驱动模型，在状态设计中考虑目标信息。文献[10]将深度强化学习应用于探索室内环境中的移动机器人，将原始的深度图像作为状态输入DQN中，从而得到移动指令。文献[11]将一定角度内等分布的稀疏10维LIDAR数据、移动机器人相对于目标的位置及其前一时刻的速度设计为状态，采用深度确定性策略梯度下降算法来输出连续的转向指令。

为了使航迹规划策略在复杂多变的环境中具有更高的泛化能力，本文提出一种基于深度强化学习的策略自学习方法。在状态、动作空间方面，结合任务信息、全局和局部环境信息图像化设计无人飞行器状态，利用2个匹配导航点间的复杂约束条件得到下一匹配导航点的可行域，然后将可行域引入动作空间的设计中，使得规划所得的航迹满足约束条件，同时降低搜索空间并加快规划速度。在奖励函数方面，针对实际航迹规划应用场景中的优化指标设计相应的奖励函数。在策略学习算法方面，利用神经网络引导的蒙特卡洛树搜索（Monte Carlo Tree Search，MCTS）算法提高策略迭代学习效率，其中，神经网络用于提供先验策略与价值估计，MCTS算法在先验策略和价值估计的引导下进行大量预演，以得到一个性能更优的策略用于迭代学习。

1 多约束复杂环境下的航迹规划问题描述

本文针对景象匹配和惯性导航相结合的复合制导模式下的无人飞行器航迹规划问题进行研究。航迹规划本质上就是要获取在飞行前或飞行过程中无人飞行器为完成任务所需的最优飞行航路，所规划的航迹必须满足飞行器、飞行环境以及所执行任务的各种约束。传统航迹规划方法都采用逐步搜索的方式寻找最优航迹，从而将航迹规划问题转化为一个图搜索问题。但是，由于飞行器是在连续的三维空间内飞行，飞行空域往往十分广阔，因此规划算法所依赖的图的节点和边通常是在规划过程中依据飞行约束而现场构造。

在实际应用中，由当前节点（导航点）依据当前飞行方向、飞行器的机动能力和导航精度要求等约束，构造下一个导航点的可能搜索区域，对该搜索区域进行离散化后获得的节点就是当前节点的所有邻节点。规划策略是依据当前节点处飞行器的状态（包括飞行器的位置、飞行方向、飞行速度、目标位置、环境信息等）选取下一个节点的决策方法。性能较优的规划策略能够引导规划算法快速地获得执行任务的最优航迹。规划策略学习则是通过对规划样本的学习获得多种状态下的节点选取策略，学习得到的策略能够引导无人飞行器在满足约束的前提下，安全无碰撞地从起始位置出发到达目标位置，实现航迹长度、飞行安全性能和能耗等指标的优化^[12]。规划策略是解决航迹规划问题的核心，也是实现武器智能的关键。

与无人飞行器航迹规划相关的环境要素包括威胁区、禁飞区和匹配区。禁飞区为根据国家政策以及战略要求禁止飞行器飞经的区域。威胁区为敌方防御系统中的雷达威胁区、拦截导弹威胁区等区域。匹配区为适合飞行器做景象匹配的区域，其与地表的特征相关，常通过对相关系数、相关长度等参数进行统计计算得到。本文所采用的上述环境要素数据由航迹规划系统的预处理模块计算得到，后文不再详述。

无人飞行器航迹规划约束条件从来源和作用角度分为两大部分，即飞行器特性约束和制导控制约束。飞行器特性约束体现飞行器本身的机动能力，包括飞行器最大拐弯角Ψ_max、最小拐弯角Ψ_min（规划时出现小于最小拐弯角的拐弯机动则忽略拐弯动作）和最小转弯半径R_min（最小转弯半径越大，飞行器机动性能越差）。制导控制约束来源于飞行器在组合导航过程中对导航精度、控制规律的要求。本文采用图像匹配和惯性导航组成的复合制导系统，2个匹配区之间依赖惯性导航制导，这就要求2个匹配区之间的距离不能太远，记2个匹配区之间的最大距离为L_max。为了保证飞行器进行图像匹配后能够完成必要的机动动作并降低弹载计算机的计算负担，2个相邻匹配区之间的距离又不能太近，记2个匹配区之间的最小距离为L_min。通常情况下要求飞行器在进行图像匹配的过程中保持直飞的状态，记匹配区的长度为L_match。飞行器在完成图像匹配后，应当留有一段纠偏距离，记纠偏距离为L_correct，在这段距离中理想的航迹应该是平直的。

2 航迹规划策略自学习方法 2.1 航迹规划策略的强化学习过程

强化学习方法使智能体自主探索未知环境，学习在不同的环境下做出最优动作并完成指定任务。航迹规划策略的强化学习过程如图 1所示，智能体从当前状态依据策略采取动作转换到新的状态，利用预先定义的奖惩函数测量该动作的奖惩值并反馈给智能体。智能体通过不断地探索飞行环境，依据策略执行动作，生成大量样本数据，强化学习算法利用这些样本数据调整智能体的策略，再根据新策略探索环境以生成新样本从而修正策略。经过上述迭代学习过程，智能体最终能够学习到完成指定任务的最优策略。

	Download: JPG larger image
图 1 航迹规划策略的强化学习过程 Fig. 1 Reinforcement learning process of track planning strategy

2.2 无人飞行器状态和动作模型

航迹规划的任务是优化设计无人飞行器的航迹，尤其是包括起点和终点在内的N个导航点的规划。每个导航点的信息包括位置信息（X，Y）和飞行方向信息Angle。在本文中，导航点规划的重点在于匹配点的规划，利用2个匹配导航点间的复杂约束条件得到下一个匹配导航点的可行域，然后将可行域引入状态和动作空间的设计中。图 2所示为2个匹配导航点之间的航迹段，飞行器从当前匹配导航点经过直飞段-转弯弧线段-直飞段到达下一个匹配导航点，其中，转弯点的位置和转弯半径不同会得到不同的航迹段。

	Download: JPG larger image
图 2 2个匹配导航点之间的航迹段信息 Fig. 2 Track segment information between two matching navigation points

为了简化下一个匹配导航点可行域的计算过程，本文将转弯点作为辅助导航点，根据当前匹配导航点的位置信息（X，Y）和飞行方向信息，结合2个匹配导航点间的约束条件得到转弯点和下一个匹配导航点的可行域。上述计算过程如图 3所示，其中，本文将2个匹配导航点与转弯点的直线距离之和作为2个匹配导航点之间的航迹段长度，从而简化计算。

	Download: JPG larger image
图 3 转弯点和下一个匹配导航点的可行域示意图 Fig. 3 Schematic diagram of the feasible region of the turning point and the next matching navigation point

2.2.1 转弯点可行区间判定

转弯点在当前导航匹配点飞行方向所在的直线上，为满足2个匹配导航点间的约束条件，转弯点可行域的A、B两端需要满足式（2）、式（3）：

$ {L}_{{R}_{\mathrm{m}\mathrm{i}\mathrm{n}}}={L}_{\mathrm{m}\mathrm{i}\mathrm{n}}\times \mathrm{t}\mathrm{a}\mathrm{n}\left(\frac{1}{2}{\Psi }_{\mathrm{m}\mathrm{a}\mathrm{x}}\times \frac{\mathrm{\pi }}{180}\right) $

(1)

$ {L}_{A}=\frac{1}{2}{L}_{\mathrm{m}\mathrm{a}\mathrm{t}\mathrm{c}\mathrm{h}}+{L}_{\mathrm{c}\mathrm{o}\mathrm{r}\mathrm{r}\mathrm{e}\mathrm{c}\mathrm{t}}+{L}_{{R}_{\mathrm{m}\mathrm{i}\mathrm{n}}} $

(2)

$ {L}_{B}={L}_{\mathrm{m}\mathrm{a}\mathrm{x}}–\left(\frac{1}{2}{L}_{\mathrm{m}\mathrm{a}\mathrm{t}\mathrm{c}\mathrm{h}}+{L}_{{R}_{\mathrm{m}\mathrm{i}\mathrm{n}}}\right) $

(3)

其中，$ {L}_{{R}_{\mathrm{m}\mathrm{i}\mathrm{n}}} $由最小转弯半径R_min和最大拐弯角Ψ_max决定，这里将最小转弯半径约束转换为转弯点与匹配点间直线上的距离约束，L_A表示转弯点第一个可行位置A点与当前导航匹配点间的距离，其需要满足匹配区的直飞约束、纠偏直飞约束L_correct和最小转弯半径约束$ {L}_{{R}_{\mathrm{m}\mathrm{i}\mathrm{n}}} $，L_B表示转弯点可行位置B点与当前导航匹配点间的距离，E点是直飞情景下最远的匹配点，其离当前匹配导航点的距离为L_max。B点与E点间仅需满足匹配区的直飞约束和最小转弯半径约束$ {L}_{{R}_{\mathrm{m}\mathrm{i}\mathrm{n}}} $，A、B点间的距离表示转弯点的可行域。

2.2.2 匹配导航点的可行域

在确定转弯点后可以得到其对应的下一个匹配导航点的可行域。如图 3所示，以转弯点A为例，其对应的下一个匹配区可行域为由C、D、G、F点围绕的环形区域，为了满足最大转弯约束，环形区域对应的扇形顶角大小为2×Ψ_max。为满足其余2个匹配导航点间的约束条件，本文设定环形可行域的最近半径L_AC、最远半径L_AD分别满足式（4）、式（5）：

$ {L}_{AC}=\mathrm{m}\mathrm{i}\mathrm{n}\left\{{L}_{\mathrm{m}\mathrm{i}\mathrm{n}}–{L}_{A}, \frac{1}{2}{L}_{\mathrm{m}\mathrm{a}\mathrm{t}\mathrm{c}\mathrm{h}}+{L}_{{R}_{\mathrm{m}\mathrm{i}\mathrm{n}}}\right\} $

(4)

$ {L}_{AD}={L}_{\mathrm{m}\mathrm{a}\mathrm{x}}–{L}_{A} $

(5)

其中，环形的最远半径L_AD是为了保证2个匹配点间的距离小于最大距离L_max，环形的最近半径L_AC不仅要保证2个匹配点间的距离大于最小距离L_min，而且要满足匹配区的直飞约束与最小转弯半径约束$ {L}_{{R}_{\mathrm{m}\mathrm{i}\mathrm{n}}} $。

从起始点开始，根据当前匹配导航点的信息得到下一个转弯点的可行域，确定转弯点并得到该转弯点对应的下一个匹配点可行域，选择新的匹配导航点，重复上述过程直至找到终点。

将飞行器的状态s用一组大小为N×N的二值特征图层表示，其表达了规划任务、飞行器所处环境、飞行方向以及位置等信息。特征图层分为全局特征图层和局部特征图层两部分，其中，全局特征图层是全局区域信息的粗略表示，局部特征图层是以匹配导航点A点为中心的局部区域信息详细表示。如图 3所示，A点对应的下一个匹配导航点的位置范围覆盖了其他可行转弯点对应的匹配点可行域，且A点与当前匹配导航点的位置关系表达了飞行方向。在规划匹配点或转弯点时，飞行器将在局部区域中选择一个位置（x，y）作为动作执行区域。

在规划转弯点时，飞行器的状态特征图层如图 4（a）所示，每个特征图层代表当前匹配导航点的特定信息，其中，6个全局区域图层为禁飞区、威胁区、匹配区、起始点、终点以及当前匹配导航点在全局区域中的位置。局部特征图层除了前面的6个特征项在局部区域中的位置信息外，还有一个特征图层描述转弯点在局部区域中的可行域。如图 4（b）所示，在选择转弯点位置为（N/2，N/2）后，规划匹配导航点时，飞行器的状态特征图层为转弯点局部特征图、转弯点全局特征图和下一个匹配区合法位置，该合法位置是下一个匹配导航点的可行域与匹配区的交集。

	Download: JPG larger image
图 4 飞行器的状态特征图层示意图 Fig. 4 Schematic diagram of aircraft state feature layer

2.3 基于航迹优化目标的奖惩函数设计

无人飞行器航迹规划的优化目标需要考虑三方面因素，即航迹总长度、总威胁值和飞行器拐弯机动耗能。在确定下一个匹配导航点的位置动作后，该动作的奖赏值如式（6）所示：

$ R={R}_{\mathrm{l}\mathrm{e}\mathrm{n}}+{R}_{\mathrm{s}\mathrm{a}\mathrm{f}\mathrm{e}}+{R}_{\mathrm{a}\mathrm{n}\mathrm{g}\mathrm{l}\mathrm{e}}+{R}_{\mathrm{a}\mathrm{r}\mathrm{r}\mathrm{i}\mathrm{v}\mathrm{e}} $

(6)

其中，R_len为航迹长度惩罚值，R_safe为安全性能惩罚值，R_angle为飞行器拐弯机动耗能惩罚值，R_arrive为规划成功奖赏值。

当前匹配导航点与下一个匹配导航点的航迹段长为L，本文倾向于选择航迹点个数少并且航迹段短的航迹，则航迹长度惩罚值如下：

$ {R}_{\mathrm{l}\mathrm{e}\mathrm{n}}=–\frac{L}{{L}_{\mathrm{m}\mathrm{a}\mathrm{x}}}\times 0.01 $

(7)

在确定下一个匹配导航点后，得到拐弯角度Ψ，如果Ψ > Ψ_min，则设置飞行器拐弯机动耗能惩罚值R_angle=-0.01。

飞行器的安全性能保障重点考虑威胁区和禁飞区。航迹段二值图像与局部区域禁飞区二值图像之间若无交集，则表示安全；若有交集，则设置禁飞区惩罚值R_forbid=-1（若匹配导航点越出规划区域，视为进入禁飞区）。将航迹段二值图像与局部区域威胁区二值图像相交，得到交集，统计交集中的元素个数N，设置威胁区惩罚值R_threat=-0.01×N。飞行器安全性能惩罚值为R_safe=R_forbid+R_threat。若飞行器安全抵达终点区域，则R_arrive=1；否则，R_arrive=0。

2.4 基于深度强化学习的策略学习方法

在本文规划策略学习方法中，利用深度学习网络来学习由探索飞行环境而得到的样本数据。其中，神经网络架构参照AlphaZero^[13-14]，将策略网络和价值网络合并为一个网络，即将智能体所处的状态作为神经网络的输入，输出概率分布p和数值v，（p，v）=f_θ（s）。概率分布p代表当前状态下选择每个动作的概率，p_a=Pr（a|s）。数值v用于估计当前状态的价值。神经网络主要由带有多个卷积层、批标准化^[15]以及ReLU^[16]的DenseBlock^[17]组成。如图 5所示，智能体所处的状态图层分为局部信息图层、全局信息图层以及位置信息图层3个部分，3个图层经由DenseNet提取特征后，使用一个1×1的卷积核进行降维处理，最后再整合所有信息，经过全连接层分别输出概率分布p和预估价值v。为了保留原始输入图像的信息，网络中没有使用任何池化层。由于本文规划方法需要规划转弯点和匹配导航点，因此设计2个如图 5所示的决策网络。

	Download: JPG larger image
图 5 决策神经网络架构 Fig. 5 Decision neural network architecture

在智能体探索飞行环境时，对于每个状态s都会在决策网络f_θ的引导下利用MCTS算法进行飞行仿真，为了便于表达，将这种结合神经网络的MCTS算法称为NN-MCTS。智能体根据NN-MCTS输出的动作选择概率π选择动作。在通常情况下，相比神经网络f_θ，NN-MCTS选择更优动作的可能性更大。因此，MTCS算法被视为功能强大的策略改进方法^[18-19]。

NN-MCTS算法的仿真过程如图 6所示，其由选择、扩展、评估以及回溯4个部分组成。搜索树的每条边（s，a）都存储着先验概率P（s，a）、访问次数N（s，a）以及动作价值Q（s，a）。每次仿真都从根节点状态开始，不断地选择置信上限值Q（s，a）+U（s，a）最大的动作，其中，U（s，a）∝P（s，a）/（1+N（s，a））^[13]，直至达到叶节点s′为止。随后，在叶节点所在位置扩展新的分支，使用神经网络估计叶节点的状态价值并初始化分支的先验概率（P（s′，·），V（s′））=f_θ（s′）。在NN-MCTS算法的仿真过程中，被遍历过的每条边都会回溯更新其访问次数N（s，a）和动作价值Q（s，a）=W（s，a）/N（s，a），W（s，a）为评估值$ v $的累计和。在仿真过程结束后，得到每个可执行动作的选择概率，该概率正比于NN-MCTS仿真时的动作访问次数，即π_t∝N（s，a）。

	Download: JPG larger image
图 6 NN-MCTS算法的仿真过程 Fig. 6 Simulation process of NN-MCTS algorithm

本文使用深度强化学习算法进行策略学习迭代的流程如图 7所示，根据智能体探索环境得到的样本数据与卷积神经网络学习到的样本数据进行迭代。

	Download: JPG larger image
图 7 策略学习的迭代过程 Fig. 7 Iterative process of strategy learning

智能体在状态s_t时依据NN-MCTS输出的动作选择概率π_t采取动作a_t，然后转换到状态s_t₊₁，奖惩函数测量该动作的奖惩值R_t并反馈给智能体，重复以上过程，直至T时刻达到终止状态，即规划成功或失败。统计状态s_t的价值$ {z}_{t}=\sum\limits_{i=t}^{T}{R}_{i} $，将每个状态s_t的样本数据按照（s_t，π_t，z_t）的形式存入记忆库中。神经网络从记忆库中随机批量采样样本（s_t，π_t，z_t）进行学习，其中，s作为神经网络的输入，神经网络的损失函数定义如下：

$ \mathrm{l}\mathrm{o}\mathrm{s}\mathrm{s}={(z-v)}^{2}-{\boldsymbol{\pi }}^{\mathrm{T}}\mathrm{l}\mathrm{o}{\mathrm{g}}_{a}\boldsymbol{p}+c\left|\right|\theta |{|}^{2} $

(8)

其中，参数c用于调整正则化权重，其可以防止神经网络过拟合。本文采用Adam算法^[20]训练网络。此外，为了确保策略更新过程平稳进行，参考PPO、TRPO^[21-22]方法，结合策略网络更新前的概率分布p₁与更新后的概率分布p₂，通过KL（p₁，p₂）=∑p₁ log_{a$ \frac{{\boldsymbol{p}}_{1}}{{\boldsymbol{p}}_{2}} $}计算KL散度从而控制学习率，具体如下：

$ \mathrm{K}\mathrm{L}({\boldsymbol{p}}_{1}, {\boldsymbol{p}}_{2})<\mathrm{K}{\mathrm{L}}_{\mathrm{m}\mathrm{i}\mathrm{n}}, \mathrm{l}\mathrm{r}=1.5·\mathrm{l}\mathrm{r} $

(9)

$ \mathrm{K}\mathrm{L}({\boldsymbol{p}}_{1}, {\boldsymbol{p}}_{2})>\mathrm{K}{\mathrm{L}}_{\mathrm{m}\mathrm{i}\mathrm{n}}, \mathrm{l}\mathrm{r}=\mathrm{l}\mathrm{r}/1.5 $

(10)

其中，KL_max为最大KL散度值，KL_min为最小KL散度值，lr为网络学习率。

3 仿真结果与分析 3.1 环境及参数设置

为了验证本文所提方法的有效性，使用10个不同的飞行环境进行策略迭代学习，评估在未知的测试飞行环境中智能体学习所得的规划策略性能。在左上角高斯坐标为（3 438 300.25，778 413.00）、范围为82 km$ \times $72 km的任务区域内进行仿真，实验环境设置如下：操作系统为Windows系统，GPU为GeForce GTX 2080 Ti，内存大小为32 GB，代码基于Python3.7及Tensorflow框架实现。实验中起始点的高斯坐标为（3 381 200.25，809 113.00），目标点的高斯坐标为（3 427 400.25，836 013.00），目标点进入方向为20°（以正北方向为基准，北偏东为正方向）。训练与测试的飞行环境如图 8所示，其中多边形区域为禁飞区，圆形区域为威胁区。无人飞行器航迹规划任务的约束条件指标设置如表 1所示。

	Download: JPG larger image
图 8 训练与测试的飞行环境 Fig. 8 Flight environment for training and testing

下载CSV 表 1 飞行器航迹规划任务的约束条件指标设置 Table 1 Constraint condition indexes setting of aircraft track planning task

策略学习的迭代以完全随机的行为开始，持续约3天没有人为干预的自训练。在每次迭代过程中，随机选择一个训练飞行环境，并用更新后的最新网络f_θ探索环境，得到一条从起始状态到达终止状态的航迹样本数据并存入记忆库中。对于每个状态s，NN-MCTS算法进行500次仿真。神经网络f_θ使用随机初始化参数，从记忆库中最近的1 000个样本数据中随机批量采样，样本批量大小设置为64，利用式（8）计算损失，其中，L2正则化参数c设置为0.000 5，然后采用Adam算法^[22]训练网络。由式（9）和式（10）控制网络学习率，其中，学习率初始值设置为0.000 01，KL散度最大值KL_max=0.002，KL散度最小值KL_min=0.000 2。局部信息图层、全局信息图层与位置信息图层的降维模块都使用结构相同、参数不共享的DenseNet，其中，降维模块包含6个DenseBlock，每个DenseBlock包含8对卷积和BN层，DenseBlock的growth rate设置为32，DenseBlock之间都用1×1×32的卷积层进行通道数降维。

3.2 规划策略性能评估 3.2.1 规划策略评估方法

为了验证本文方法学习得到的航迹规划策略具有泛化能力，需要对强化学习算法不同阶段迭代训练所得的决策网络f_θ进行评估，具体评估过程为：智能体在测试飞行环境中首先从起始状态s₀出发，根据每个状态s_t得到NN-MCTS输出的动作选择概率π_t，然后选择π_t最大的动作，即最大访问次数N对应的动作来执行，使网络发挥尽可能大的作用，直至T时刻到达终止状态（规划成功或失败），最后通过所得的航迹总奖惩值Z=$ \sum\limits_{i=0}^{T}{R}_{i} $来评估该决策神经网络f_θ的性能。

3.2.2 实验验证

性能评估时NN-MCTS算法的仿真次数会影响同一决策网络f_θ规划所得的航迹总奖惩值。在测试飞行环境中，不同NN-MCTS仿真次数下随机初始参数网络f_θ的性能评估结果如图 9所示。从图 9可以看出，只有在经过115次仿真后才能规划成功到达终点的航迹，并且随着仿真次数的增加，规划得到的航迹总奖惩值呈稳定上升的趋势，这说明在仿真次数足够的情况下（达到115次），即使无任何先验知识，基于NN-MCTS算法的规划策略自学习方法在面对未知飞行环境时，也可以通过MCTS改进策略引导无人飞行器到达目的地。

	Download: JPG larger image
图 9 不同仿真次数下的规划所得航迹总奖惩值 Fig. 9 The total reward and punishment values of the track planned under different simulation times

为进一步探究仿真次数对性能评估结果的影响，随机选取规划成功的航迹及其仿真过程中访问过的节点进行比较分析。如图 10所示，NN-MCTS算法的仿真次数依次为160、220、300、600和1 000，在访问过程中，每个动作节点的访问次数由3种深浅不同的实心圆点表示（彩色效果见《计算机工程》官网HTML版）。从图 10可以看出，规划成功的航迹都避开了禁飞区，表明该策略规划的航迹在满足约束条件的同时也满足安全要求。根据各图中不同实心圆点的分布可知，在仿真次数较少的情况下，该策略主要考虑避开禁飞区，距离禁飞区较近的点多为动作访问次数较少的实心点，距离较远的点多为动作访问次数较多的实心点。随着仿真次数的增多，由于终点在禁飞区方向，逼近禁飞区的区域内出现更多代表访问次数多的实心点。通过对比分析可知，在禁飞区离起点较近的区域，当仿真次数较少时策略会优先绕开禁飞区，当仿真次数足够多时策略才会规划航迹短、拐弯次数少且安全的航迹。

	Download: JPG larger image
图 10 不同仿真次数下规划所得航迹及其搜索树的节点访问情况 Fig. 10 The planned track and its search tree node access situation under different simulation times

图 11（a）所示为不同迭代次数训练得到的决策网络f_θ的性能随NN-MCTS仿真次数的变化曲线。从图 11（a）可以看出，在相同的NN-MCTS仿真次数条件下，迭代次数越高，越容易得到更大的航迹总奖惩值。当迭代0次时，曲线的波动幅度较大，随着迭代次数的增加，曲线的波动幅度逐渐减小。迭代140次与160次的网络性能曲线差异较小，在迭代180次时，曲线波动趋于平稳，迭代200次时，波动幅度稍微变大。图 11（b）所示为不同迭代次数训练得到的决策网络能够成功规划航迹所需的最少NN-MCTS仿真次数，其对应图 11（a）中曲线的平稳临界点。从图 11（b）可以看出，未进行迭代训练的网络需要在115次仿真后才能规划成功，随着迭代次数的增加，网络进行不断学习，在迭代140次时网络能以85次仿真成功规划航迹，提高近1/3的规划效率，而在迭代180次时，仅需17%的仿真次数就能规划成功。但是，在迭代200次时，可能由于网络过拟合而导致仿真次数回退到35次。结合图 11（a）和图 11（b）可以得出：经过迭代训练学习的网络能够在更少的仿真次数下成功规划航迹，即提高了规划效率。

	Download: JPG larger image
图 11 不同迭代次数训练所得的决策网络f_θ的性能评估结果 Fig. 11 Performance evaluation results of decision network f_θ trained by different iterations

4 结束语

本文针对多约束复杂环境下的无人飞行器航迹规划问题，提出一种基于深度强化学习的规划策略自学习方法。利用飞行约束条件计算得到下一个导航点的可行域，结合飞行器所处的环境信息设计图像表达的飞行器状态及动作，以在规划所得航迹满足约束条件的同时，降低搜索空间，减轻神经网络的学习负担并提高NN-MCTS算法的仿真效率。基于航迹规划的优化目标设计奖惩函数，使得规划得到的航迹能够避开禁飞区并实现航迹长度、飞行安全性能及能耗等指标的优化。在此基础上，基于卷积神经网络引导的MCTS算法自学习得到航迹规划策略。仿真结果表明，该方法自学习得到的航迹规划策略具有泛化能力，随着迭代次数的增加，该策略能以较少的NN-MCTS仿真次数，引导无人飞行器在未知飞行环境中满足约束条件并安全无碰撞地到达目的地。下一步将研究实现并行化的仿真过程以缩短搜索树的构建时间，从而在保证规划效果的前提下提高规划效率。

参考文献

[1]	ZHAN Weiwei, WANG Wei, CHEN Nengcheng, et al. A UAV trajectory planning using improved A* algorithm[J]. Geomatics and Information Science of Wuhan University, 2015, 40(3): 315-320. (in Chinese) 占伟伟, 王伟, 陈能成, 等. 一种利用改进A*算法的无人机航迹规划[J]. 武汉大学学报(信息科学版), 2015, 40(3): 315-320.
[2]	LI Nan, LIU Peng, DENG Renbo, et al. Three dimensional path planning for unmanned aerial vehicles based on improved genetic algorithm[J]. Computer Simulation, 2017, 34(12): 22-25, 35. (in Chinese) 李楠, 刘朋, 邓人博, 等. 基于改进遗传算法的无人机三维航路规划[J]. 计算机仿真, 2017, 34(12): 22-25, 35.
[3]	GE Yan, SHUI Wei, HAN Yu, et al. Route optimization based on Bayesian network and ant colony algorithm[J]. Computer Engineering, 2009, 35(12): 175-177. (in Chinese) 葛艳, 税薇, 韩玉, 等. 基于贝叶斯网络和蚁群算法的航路优化[J]. 计算机工程, 2009, 35(12): 175-177.
[4]	FANG Qun, XU Qing. 3D route planning for UAV based on improved PSO algorithm[J]. Journal of Northwestern Polytechnical University, 2017, 35(1): 66-73. (in Chinese) 方群, 徐青. 基于改进粒子群算法的无人机三维航迹规划[J]. 西北工业大学学报, 2017, 35(1): 66-73.
[5]	MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529-533. DOI:10.1038/nature14236
[6]	MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playing atari with deep reinforcement learning[EB/OL]. [2020-01-23]. https://arxiv.org/pdf/1312.5602v1.pdf.
[7]	MNIH V, BADIA A P, MIRZA M, et al. Asynchronous methods for deep reinforcement learning[C]//Proceedings of International Conference on Machine Learning. Washington D.C., USA: IEEE Press, 2016: 1928-1937.
[8]	JARADAT M A K, AL-ROUSAN M, QUADAN L. Reinforcement based mobile robot navigation in dynamic environment[J]. Robotics and Computer Integrated Manufacturing, 2011, 27(1): 135-149. DOI:10.1016/j.rcim.2010.06.019
[9]	ZHU Y, MOTTAGHI R, KOLVE E, et al. Target-driven visual navigation in indoor scenes using deep reinforcement learning[C]//Proceedings of IEEE International Conference on Robotics and Automation. Washington D.C., USA: IEEE Press, 2017: 3357-3364.
[10]	TAI L, LIU M. Towards cognitive exploration through deep reinforcement learning for mobile robots[EB/OL]. [2020-01-23]. https://arxiv.org/pdf/1610.01733.pdf.
[11]	TAI L, PAOLO G, LIU M. Virtual-to-real deep reinforce-ment learning: continuous control of mobile robots for mapless navigation[EB/OL]. [2020-01-23]. https://arxiv.org/pdf/1703.00420.pdf.
[12]	DING Mingyue, ZHENG Changwen, ZHOU Chengping, et al. UAV flight path planning[M]. Beijing: Publishing House of Electronics Industry, 2009. (in Chinese) 丁明跃, 郑昌文, 周程平, 等. 无人飞行器航迹规划[M]. 北京: 电子工业出版社, 2009.
[13]	SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484-489. DOI:10.1038/nature16961
[14]	SILVER D, SCHRITTWIESER J, SIMONYAN K, et al. Mastering the game of Go without human knowledge[J]. Nature, 2017, 550(7676): 354-359. DOI:10.1038/nature24270
[15]	IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[EB/OL]. [2020-01-23]. https://arxiv.org/pdf/1502.03167.pdf.
[16]	HAHNLOSER R H R, SARPESHKAR R, MAHOWALD M A, et al. Digital selection and analogue amplification coexist in a cortex-inspired silicon circuit[J]. Nature, 2000, 405(6789): 947-951. DOI:10.1038/35016072
[17]	HUANG G, LIU Z, VAN DER MAATEN L, et al. Densely connected convolutional networks[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 4700-4708.
[18]	KAUFMAN H, HOWARD R A. Dynamic programming and Markov processes[J]. The American Mathematical Monthly, 1961, 68(2): 194-201.
[19]	SUTTON R S, BARTO A G. Reinforcement learning: an introduction[J]. IEEE Transactions on Neural Networks, 1998, 9(5): 1054-1068.
[20]	KINGMA D P, BA J. Adam: a method for stochastic optimization[EB/OL]. [2020-01-23]. https://arxiv.org/pdf/1412.6980.pdf.
[21]	SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximal policy optimization algorithms[EB/OL]. [2020-01-23]. https://arxiv.org/pdf/1707.06347.pdf.
[22]	SCHULMAN J, LEVINE S, ABBEEL P, et al. Trust region policy optimization[EB/OL]. [2020-01-23]. https://arxiv.org/pdf/1502.05477.pdf.