开放科学(资源服务)标志码(OSID):
强化学习中存在探索与利用困境,一个强化学习智能体必须尝试一些之前没有尝试过的操作,发现其中某些能有效产生奖励的动作,同时智能体也必须充分利用能有效产生奖励的经验[1]。强化学习问题中的ε-greedy策略由于简单而被广泛使用,但在这种探索策略下智能体过度依赖于随机算子,探索完全随机,没有针对性。目前已有大量关于强化学习中有效探索的研究,如2002年KEARNS等[2]提出的多项式时间内的近最优强化学习,2010年JAKSCH等[3]提出的强化学习的近最优后悔边界。多数探索方法都依赖于随机干扰智能体的策略,如1999年SUTTON等[4]提出的ε-greedy,WILLIAMS[5]提出熵正则化以诱导新动作,但这些方法都限制于较小的状态动作空间或者线性函数近似,不适用于神经网络这样的复杂函数近似[6]。2016年BELLEMARE等[7]提出基于计数的探索,2017年OSTROVSKI等[8]提出状态空间的密度建模,这些方法被尝试用来解决高维度和连续动作上的马尔科夫决策问题,但不足是它们都依赖于较为复杂的额外结构,且探索不具备针对性。2017年PATHAK等[9]提出的自监督好奇心模块,通过建立一个环境预测模型,对于模型预测不佳的,给予智能体一定的奖励(好奇心),这种方法在某些控制问题上有一定的效果,但是在部分控制问题上会导致智能体陷入过度探索。另一种方法是通过向算法中加入额外的关联噪声来增加自然探索,如2017年MATTHIAS等[10]提出使用参数空间噪声探索,2018年FORTUNATO等[11]提出噪声网络探索。这些算法通过加入噪声干扰神经网络计算动作的Q值,从而影响智能体在当前状态下采取的动作,这些动作可能是之前没有尝试过的动作。2020年ZHANG等[12]提出与任务无关的探索策略,通过探索MDP,不依赖于奖励函数去收集轨迹。这些算法一定程度上提高了算法效率,但是过度依赖随机算子,干扰神经网络计算动作的Q值,其探索动作没有针对性,在探索期间,如果智能体访问到某些对于获取奖励没有帮助的状态,在这些策略下,它可能会继续深度探索这些状态及其后继状态,产生过度探索的问题。
在有限马尔科夫决策过程中,存在一个唯一的、确定的最优策略
本文设计基于奖励排序的M表并改进
强化学习是用于解决序贯决策的机器学习分支领域,其关键之一是智能体要学习好的行为,这意味着需要增量式地调整行为或获得新的技巧。另一个关键是强化学习通过不断试错获取经验进而学习[15]。强化学习问题通常被建模成马尔科夫决策过程,在每个时间步
${R_t} = \sum\limits_{k = 0}^\infty {{\gamma ^k}} {r_{t + k}} $ | (1) |
智能体的目标就是最大化每个状态的长期回报期望。通常使用值函数来预测未来回报的期望以衡量一个状态或者状态动作对的好坏。状态值函数定义为:
$ {v}_{\pi }\left(s\right)=\mathrm{ }\left[{R}_{t}\right|{s}_{t}=s] $ | (2) |
动作值函数定义为:
$ {q}_{\pi }(s, a)=\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\left[{R}_{t}\right|{s}_{t}=s, {a}_{t}=a] $ | (3) |
一个最优状态值被定义为:
$ {v}^{\mathrm{*}}\left(s\right)=\underset{\pi }{\mathrm{m}\mathrm{a}\mathrm{x}}{v}_{\pi }\left(s\right)=\underset{a}{\mathrm{m}\mathrm{a}\mathrm{x}}{q}_{{\pi }^{\mathrm{*}}}(s, a) $ | (4) |
深度强化学习就是使用深度神经网络来近似强化学习中的状态值函数(或动作值函数)。深度强化学习被广泛应用于视频游戏[16]、机器人[17]、自然语言处理[18]、计算机视觉[19]等领域。2013年,DeepMind团队将深度神经网络引入强化学习用来近似值函数。深度强化学习设置了经验缓冲,将智能体与环境进行交互产生的经验存入该缓冲,通常又称这些经验为样本。
1.2 ε-greedy探索策略ε-greedy策略是强化学习中最常用的探索策略。在该策略下,智能体有ε的概率会选择一个随机动作,
$ \pi \left(a\right|{s}_{t})\doteq \left\{\begin{array}{l}1-\epsilon +\frac{\epsilon }{\left|A\right({s}_{t}\left)\mathrm{ }\right|}, a={A}^{\mathrm{*}}\\ \frac{\epsilon }{\left|A\right({s}_{t}\left)\mathrm{ }\right|}, a\ne {A}^{\mathrm{*}}\end{array}\right. $ | (5) |
其中:
定义一个强化学习问题的状态集为:
$ S\doteq \left\{{S}^{\left(1\right)}, {S}^{\left(2\right)}, \cdots , {S}^{\left(m\right)}\right\} $ | (6) |
$ \widehat{\mathit{\pi }}\doteq \left(\widehat{\pi }\right({S}^{\left(1\right)}), \widehat{\pi }({S}^{\left(2\right)}), \cdots , \widehat{\pi }({S}^{\left(m\right)}\left)\right) $ | (7) |
其中:
基于最佳子策略记忆的强化探索,就是将智能体目前学到的最佳子策略存入一个存储表中(记为M表),当智能体访问M表时,将当前状态与M表中子策略状态进行相似度计算。若构成相似,则返回子策略中的动作。
2.1 基于奖励排序的M表解决过度探索,一个可行的方法是增加探索的针对性。在智能体与环境交互过程中,会产生大量的样本并将样本保存到经验缓冲中。本文将较好的经验作为子策略独立存放,在探索时,以一定的概率计算智能体当前状态与这些子策略的相似度,类似基于实例的学习,本文选择最相似的子策略中的动作并执行。通过相似计算增加智能体产生新的奖励值较高的样本的概率,这样的探索能够促进智能体获得奖励值大的样本,使探索具有针对性。如果将所有的子策略保存下来,那么空间开销和计算代价将会很大。本文使用结构性相似度算法计算子策略的相似度,将相似的子策略中奖励值最高的子策略存入M表中,视为智能体目前学到的最佳子策略。M表独立于经验缓冲和智能体对经验的采样过程。M表使用二元组
![]() |
Download:
|
图 1 M表上的操作 Fig. 1 Operation on table M |
如图1的左边部分所示,智能体与环境交互产生一个新样本之后,如果样本的奖励值大于零且M表为空,则将该样本中的子策略存入M表。若M表不为空,则依次判断该奖励与倒序的M表中子策略的奖励值。若该奖励大于某个子策略
如果该样本的奖励大于零但不大于M表最后一个子策略的奖励,则检查M表前面是否有与其相似的子策略,若有,则跳过该样本,反之,则将该样本中的子策略添加到M表的末尾。
基于最佳子策略记忆的强化探索设计智能体在探索时,将有一定的概率会通过M表进行探索。在这种情况下,智能体会对M表做相似查询,通过将当前状态与M表中子策略的状态正序依次计算相似度。若与其中某个子策略的相似度大于
在通常情况下,强化学习算法采用ε-greedy探索。本文在ε-greedy算法的基础上加以改进得到M-Epsilon-Greedy(MEG)探索。
令
由此,定义MEG探索表示为:
$ \pi \left(a\right|{s}_{t})\doteq \left\{\begin{array}{l}\frac{\epsilon }{\left|A\right|}, a\ne {a}_{m}\ne {a}_{Q}\\ \frac{\epsilon \rho (1-\epsilon )}{3}\frac{\left|A\right(\mathrm{M}\left)\mathrm{ }\right|-1}{\left|A\right(\mathrm{M}\left)\mathrm{ }\right|}-\frac{\epsilon }{\left|A\right|}, a={a}_{m}\\ \frac{\epsilon \rho (1-\epsilon )}{3\left|A\right(\mathrm{M}\left)\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\right|}+\frac{3-\epsilon \rho }{3}(1-\epsilon ), a={a}_{Q}\end{array}\right. $ |
在状态
MEG探索示意图如图2所示。
![]() |
Download:
|
图 2 MEG探索示意图 Fig. 2 Schematic diagram of MEG exploration |
基于最佳子策略记忆的强化探索方法具有广泛适用性,为了验证其性能,本文使用FQF算法[20](分布强化学习的全参数分位数函数)作为实例。
将基于奖励的有序M表和MEG探索策略与FQF相结合,得到M-FQF。定义经验缓冲的容量为N,每一次训练所用的数据量为一个batch_size。一个强化学习问题从开始到结束为一个episode。
为近似分位点函数网络,为分数提议网络设置H个可调分位数(
为验证改进策略的有效性,选择Playing Atari 2600游戏中的经典控制问题BankHeist、RoadRunner、Freeway、BeamRider作为实验对象,将本文改进算法与DQN系列算法以及非DQN系列的A2C算法[23]进行比较。
软件环境:Arcade Leaning Environment,CUDA 10.0,Pytorch 1.5,Python3.8。硬件环境:GPU型号:Tesla P40 以及 NVIDIA GeForce RTX 2080 Ti。为公平比较,对BankHeist、RoadRunner、Freeway、BeamRider使用同状态对抗DQN的鲁棒深度强化学习[24](SA-DQN)的参数,训练了500万个step。图中横坐标单位为250 000 step。对于Playing Atari 2600视频游戏设置250 000 step视频游戏帧用于探索。本文使用IQN、FQF、QR-DQN、IQN-RAINBOW[25]这4种算法作为baseline。经验回放的大小设置为1 000 000,一个训练
根据FQF的实验描述,设计以下实验过程:智能体每到达一个状态
深度强化学习中算法效果主要由奖励值决定。网络在设定的迭代次数结束后,平均奖励越大说明该算法的性能越好。M-FQF在实验环境Arcade Learning Environment中4种控制问题上的实验结果如图3~图7所示(彩色效果见《计算机工程》官网HTML版)。
![]() |
Download:
|
图 3 5种算法在BankHeist上的平均奖励 Fig. 3 Average reward of five algorithms on BankHeist |
![]() |
Download:
|
图 4 5种算法在Freeway上的平均奖励 Fig. 4 Average reward of five algorithms on Freeway |
![]() |
Download:
|
图 5 5种算法在RoadRunner上的平均奖励 Fig. 5 Average reward of five algorithms on RoadRunner |
![]() |
Download:
|
图 6 5种算法在BeamRider上的平均奖励 Fig. 6 Average reward of five algorithms on BeamRider |
![]() |
Download:
|
图 7 5种算法在Berzerk上的平均奖励 Fig. 7 Average reward of five algorithms on Berzerk |
通过实验对比发现,结合了基于奖励有序的M表探索策略的FQF算法(M-FQF)相较于FQF、IQN、QR-DQN、IQN-RAINBOW算法,在多数控制问题上取得了更高的平均奖励且具有更好的稳定性。
图3中约1.25×2 500 000 step处5种算法突然性能变化较大,这可能是刚好更新了目标网络,这时候更能体现算法本身的稳健性。IQN-RAINBOW在经过这个点后就趋于平稳,获得的平均奖励是5种算法中最低的。M-FQF和FQF趋势有点相似,但是从图中可以看出M-FQF明显要优于FQF以及其他3种算法。图4中游戏开局5种算法的起点都不在原点,这是因为Freeway游戏开局距离游戏得分处有一小段距离。约在2.5×250 000 step到4×250 000 step之间应该是智能体学习的一个关键阶段。因为在这里5种算法出现了不同程度的波峰或者波谷,只有QR-DQN形成了一个波谷。相比其他4种算法,QR-DQN似乎受影响更大。可以看出这个问题上最优的算法是IQN-RAINBOW,其次是M-FQF。此外,5种算法在Freeway上都有较好的收敛性。
在RoadRunner问题上,从图5看出M-FQF和IQN-RAINBOW都有较好的收敛性。IQN-RAINBOW收敛更快,在初期其平均奖励更高,但是其收敛的平均奖励明显低于M-FQF。M-FQF在该问题上表现最好。从图6可以看出,M-FQF在该问题上收敛较为缓慢,但是最后获得了较高的平均奖励,说明其学习到了一个较好的策略。而IQN-RAINBOW依然收敛最快,但是收敛的平均奖励并不高且稳定性不好,出现了很多明显的波峰和波谷。M-FQF则相对稳健,整个训练过程没有出现明显的波峰和波谷。Berzerk问题的训练情况如图7所示,M-FQF和IQN-RAINBOW收敛都很快,初期IQN-RAINBOW就获得了最高平均奖励,比M-FQF还稍高一些。但在5×250 000 step后IQN-RAINBOW就趋于收敛了,与其同时,其他3种算法也都趋于收敛,而M-FQF平均奖励还在不断上升,最后获得了最高的平均奖励。可以看出,在Berzerk问题上,M-FQF算法性能最优,QR-DQN性能最差。
将M-FQF与非DQN系列算法的A2C进行比较,如图8和图9所示。
![]() |
Download:
|
图 8 M-FQF和A2C算法在Berzerk上的回报 Fig. 8 Return of M-FQF and A2C algorithms on Berzerk |
![]() |
Download:
|
图 9 M-FQF和A2C算法算法在BeamRider上的回报 Fig. 9 Return of M-FQF and A2C algorithms on BeamRider |
从图8可以看出,Berzerk问题上A2C算法收敛很快,在2.5×250 000 step左右已经获得较高的回报。反观M-FQF算法在1.25×2 500 000 step之前尚未表现出收敛,1.25×2 500 000 step以后M-FQF算法反超A2C算法,获得了相对高的回报。图9中A2C算法趋于平稳,而M-FQF算法获得了相对高的回报。可以看出A2C算法相对稳定,而M-FQF算法相对有些波动,不够稳定。
除了与以上算法进行比较,本文对比了加入MEG探索和加入噪声网络以及优先经验回放在Bankheist和Roadrunner问题上的性能,如图10和图11所示(彩色效果见《计算机工程》官网HTML版),可以看出,加入了MEG探索的FQF算法性能明显提高。
![]() |
Download:
|
图 10 FQF算法在BankHeist上的平均奖励 Fig. 10 Average reward of FQF algorithms on BankHeist |
![]() |
Download:
|
图 11 FQF算法在RoadRunner上的平均奖励 Fig. 11 Average reward of FQF algorithms on RoadRunner |
为测试MEG探索是否对收敛结束时的参数值有依赖,在BankHeist环境下做了4个实验,设置算法收敛过程中使用随机探索和MEG探索的概率之和为0.01。用
![]() |
Download:
|
图 12 M-FQF算法在BankHeist上的平均奖励 Fig. 12 Average reward of M-FQF algorithm on BankHeist |
可以看出,随着智能体使用MEG探索的概率从0.01下降到0.002,智能体所获得的平均奖励也在不断减少,说明M-FQF算法对于收敛过程中MEG探索的概率参数设置有所依赖,使用MEG探索的概率越大,算法性能越好。
4 结束语本文设计一个基于奖励排序的M表,进而提出基于M表的MEG探索策略,并都加入到FQF算法中,以提高算法的探索效率,缓解过度探索的问题。实验结果表明,该策略在Playing Atari 2600游戏中取得了较高的平均奖励。但MEG探索依然存在不足,如在部分游戏中收敛速度缓慢。下一步将针对此问题,通过调整探索方法进一步优化MEG探索效果,如将M表中实际存在的最佳子策略个数和有效访问次数考虑在利用M表进行探索的概率计算过程中,或对M表中的最佳子策略进行路径规划,通过逻辑处理导出新的最佳子策略或启发策略。
[1] |
SUTTON R S, BARTO A G. Reinforcement learning:an introduction[M]. Cambridge, USA: MIT Press, 2018.
|
[2] |
KEARNS M, SINGH S. Near-optimal reinforcement learning in polynomial time[J]. Machine Learning, 2002, 49(2/3): 209-232. DOI:10.1023/A:1017984413808 |
[3] |
JAKSCH T, ORTNER R, AUER P. Near-optimal regret bounds for reinforcement learning[J]. Journal of Machine Learning Research, 2010, 11(4): 1-5. |
[4] |
MONTAGUE P R. Reinforcement learning:an introduction, by Sutton, R.S. and Barto, A.G[J]. Trends in Cognitive Sciences, 1999, 3(9): 360. DOI:10.1016/S1364-6613(99)01331-5 |
[5] |
WILLIAMS R J. Simple statistical gradient-following algorithms for connectionist reinforcement learning[J]. Machine Learning, 1992, 8(3/4): 229-256. DOI:10.1023/A:1022672621406 |
[6] |
GEIST M, PIETQUIN O.Managing uncertainty within value function approximation in reinforcement learning[C]//Proceedings of Active Learning and Experimental Design Workshop.Sardinia, Italy:[s.n.], 2010:92.
|
[7] |
BELLEMARE M, SRINIVASAN S, OSTROVSKI G, et al. Unifying count-based exploration and intrinsic motivation[J]. Advances in Neural Information Processing Systems, 2016, 29: 1471-1479. |
[8] |
OSTROVSKI G, BELLEMARE M G, OORD A, et al.Count-based exploration with neural density models[C]//Proceedings of the 34th International Conference on Machine Learning.Sydney, Australia:JMLR, 2017:2721-2730.
|
[9] |
PATHAK D, AGRAWAL P, EFROS A A, et al.Curiosity-driven exploration by self-supervised prediction[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA:IEEE Press, 2017:16-17.
|
[10] |
PLAPPERT M, HOUTHOOFT R, DHARIWAL P, et al.Parameter space noise for exploration[EB/OL].(2017-06-06)[2020-09-10].https://arxiv.org/pdf/1706.01905.pdf.
|
[11] |
FORTUNATO M, AZAR M G, PIOT B, et al.Noisy networks for exploration[EB/OL].(2017-06-30)[2020-09-10].https://arxiv.org/pdf/1706.10295v1.pdf.
|
[12] |
ZHANG X, MA Y, SINGLA A.Task-agnostic exploration in reinforcement learning[EB/OL].(2017-06-16)[2020-09-10].https://arxiv.org/pdf/2006.09497v1.pdf.
|
[13] |
COMANICI G, PRECUP D.Optimal policy switching algorithms for reinforcement learning[C]//Proceedings of the 9th International Conference on Autonomous Agents and Multiagent Systems.Washington D.C., USA:IEEE Press, 2010:709-714.
|
[14] |
OTTERLO M, WIERING M.Reinforcement learning and Markov decision processes[M]//WIERING M, OTTERLO M.Reinforcement learning.Berlin, Germany:Springer, 2012:3-42.
|
[15] |
FRANOIS-LAVET V, HENDERSON P, ISLAM R, et al. An introduction to deep reinforcement learning[J]. Foundations and Trends in Machine Learning, 2018, 11(3/4): 1-145. |
[16] |
SHAO K, TANG Z, ZHU Y, et al.A survey of deep reinforcement learning in video games[EB/OL].(2019-12-23)[2020-09-10].https://arxiv.org/pdf/1912.10944.pdf.
|
[17] |
HAARNOJA T, PONG V, ZHOU A, et al.Composable deep reinforcement learning for robotic manipulation[C]//Proceedings of IEEE International Conference on Robotics and Automation.Washington D.C., USA:IEEE Press, 2018:6244-6251.
|
[18] |
WOLF T, DEBUT L, SANH V, et al.HuggingFace's transformers:state-of-the-art natural language processing[C]//Proceedings of 2020 Conference on Empirical Methods in Natural Language Processing:System Demonstrations.[S.l.]:Association for Computational Linguistics, 2020:38-45.
|
[19] |
ESTEVA A, ROBICQUET A, RAMSUNDAR B, et al. A guide to deep learning in healthcare[J]. Nature Medicine, 2019, 25(1): 24-29. DOI:10.1038/s41591-018-0316-z |
[20] |
YANG D, ZHAO L, LIN Z, et al.Fully parameterized quantile function for distributional reinforcement learning[C]//Proceedings of the 33rd International Conference on Neural Information Processing Systems.New York, USA:ACM Press, 2019:6193-6202.
|
[21] |
DABNEY W, OSTROVSKI G, SILVER D, et al.Implicit quantile networks for distributional reinforcement learning[C]//Proceedings of the 35th International Conference on Machine Learning.[S.l.]:PMLR, 2018:1096-1105.
|
[22] |
DABNEY W, ROWLAND M, BELLEMARE M G, et al.Distributional reinforcement learning with quantile regression[C]//Proceedings of the 32nd AAAI Conference on Artificial Intelligence.[S.l.]:AAAI, 2018:1-5.
|
[23] |
MNIH V, BADIA A P, MIRZA M, et al.Asynchronous methods for deep reinforcement learning[C]//Proceedings of International Conference on Machine Learning.Washington D.C., USA:IEEE Press, 2016:1928-1937.
|
[24] |
ZHANG H, CHEN H, XIAO C, et al.Robust deep reinforcement learning against adversarial perturbations on observations[C]//Proceedings of NeurIPS 2020.Washington D.C., USA:IEEE Press, 2020:1-14.
|
[25] |
TOROMANOFF M, WIRBEL E, MOUTARDE F.Is deep reinforcement learning really superhuman on Atari?[C]//Proceedings of the 39th Conference on Neural Information Processing Systems.Vancouver, Canada:[s.n.], 2019:1-5.
|