基于深度确定性策略梯度的智能车汇流模型

doi:10.19678/j.issn.1000-3428.0053381

计算机工程 ›› 2020, Vol. 46 ›› Issue (1): 87-92. doi: 10.19678/j.issn.1000-3428.0053381

基于深度确定性策略梯度的智能车汇流模型

吴思凡^a, 杜煜^b, 徐世杰^a, 杨硕^a, 杜晨^c

北京联合大学 a. 智慧城市学院;b. 机器人学院;c. 北京市信息服务工程重点实验室, 北京 100101

收稿日期:2018-12-12 修回日期:2019-01-28 出版日期:2020-01-15 发布日期:2019-01-24
作者简介:吴思凡(1994-),男,硕士研究生,主研方向为无人驾驶决策算法;杜煜,教授;徐世杰、杨硕、杜晨,硕士研究生。
基金资助:
国家自然科学基金（91420202）。

Traffic Merging Model for Intelligent Vehicle Based on Deep Deterministic Policy Gradient

WU Sifan^a, DU Yu^b, XU Shijie^a, YANG Shuo^a, DU Chen^c

a. Smart City College;b. College of Robotics;c. Beijing Key Laboratory of Information Service Engineering, Beijing Union University, Beijing 100101, China

Received:2018-12-12 Revised:2019-01-28 Online:2020-01-15 Published:2019-01-24

摘要/Abstract

摘要： 采用离散动作空间描述速度变化的智能车汇流模型不能满足实际车流汇入场景的应用要求，而深度确定性策略梯度（DDPG）结合策略梯度和函数近似方法，采用与深度Q网络（DQN）相同的网络结构，并使用连续动作空间对问题进行描述，更适合描述智能车速度变化。为此，提出一种基于DDPG算法的智能车汇流模型，将汇流问题转化为序列决策问题进行求解。实验结果表明，与基于DQN的模型相比，该模型的收敛速度较快，稳定性和成功率较高，更适合智能车汇入车辆场景的应用。

关键词: 智能车, 汇流, 深度确定性策略梯度, 深度Q网络, 连续动作空间

Abstract: Traffic merging models for intelligent vehicle that use discrete action space to describe changing speed cannot meet the application requirements of actual traffic merging scenarios.Deep Deterministic Policy Gradient(DDPG),which integrates policy gradient with function approximation methods and adopts the same network structure as Deep Q-Network(DQN),uses continuous action space for problem description.So DDPG is more suitable for describing the changing speed of intelligent vehicles.On this basis,this paper proposes a traffic merging model for intelligent vehicles based on the DDPG algorithm,reducing the traffic merging problem to a sequence decision problem to be resolved.Experimental results show that compared with DQN-based models,the proposed model has a faster convergence speed,higher reliability and a higher success rate,which means it is more applicable to traffic merging scenarios of intelligent vehicle.

Key words: intelligent vehicle, traffic merging, Deep Deterministic Policy Gradient(DDPG), Deep Q-Network(DQN), continuous action space

中图分类号:

TP18

吴思凡, 杜煜, 徐世杰, 杨硕, 杜晨. 基于深度确定性策略梯度的智能车汇流模型[J]. 计算机工程, 2020, 46(1): 87-92.

WU Sifan, DU Yu, XU Shijie, YANG Shuo, DU Chen. Traffic Merging Model for Intelligent Vehicle Based on Deep Deterministic Policy Gradient[J]. Computer Engineering, 2020, 46(1): 87-92.

http://www.ecice06.com/CN/Y2020/V46/I1/87

图/表 14

20200115110157

20200115110200

20200115110203

20200115110206

20200115110209

20200115110212

20200115110215

20200115110217

20200115110220

20200115110223

20200115110229

20200115110232

20200115110236

20200115110239

参考文献

[1] SU Ti,YANG Ming,WANG Chunxiang,et al.Classification and regression tree based traffic merging method for self-driving vehicles[J].Acta Automatica Sinica,2018,44(1):35-43.(in Chinese)苏锑,杨明,王春香,等.一种基于分类回归树的无人车汇流决策方法[J].自动化学报,2018,44(1):35-43.
[2] WANG Ergen,SUN Jian.Merging influence factors recognition and behaviors prediction of on-ramp vehicles of urban expressway[J].Journal of Traffic and Transportation Engineering,2018,18(3):180-188.(in Chinese)王尔根,孙剑.城市快速路匝道车辆汇入影响因素识别与行为预测[J].交通运输工程学报,2018,18(3):180-188.
[3] WANG Ergen,SUN Jian,JIANG Shun,et al.Modeling the various merging behaviors at expressway on-ramp bottlenecks using support vector machine models[J].Transportation Research Procedia,2017,25:1327-1341.
[4] TESAUROG.TD-Gammon,a self-teaching backgammon program,achieves master-level play[J].Neural Computation,1994,6(2):215-219.
[5] SILVER D,SCHRITTWIESER J,SIMONYAN K,et al.Mastering the game of go without human knowledge[J].Nature,2017,550:354-359.
[6] KOCSIS L,SZEPESV'ARI C.Bandit based Monte-Carlo planning[C]//Proceedings of European Conference on Machine Learning.Berlin,Germany:Springer,2006:282-293.
[7] ZHAO T T,HACHIYA H,NIU G.Analysis and improvement of policy gradient estimation[J].Neural Networks,2012,26(2):118-129.
[8] ZHANG Jianpei,LIU Yang,YANG Jing,et al.Research on clustering algorithms for search engine results[J].Computer Engineering,2004,30(5):95-97.(in Chinese)张健沛,刘洋,杨静,等.搜索引擎结果聚类算法研究[J].计算机工程,2004,30(5):95-97.
[9] WATKINS C J C H,DAYAN P.Technical note:Q-learning[J].Machine Learning,1992,8(3/4):279-292.
[10] SINGH S,JAAKKOLA T,LITTMAN M L,et al.Convergence results for single step on-policy reinforcement learning algorithms[J].Machine Learning,2000,38(3):287-308.
[11] CHEN Xuesong,YANG Yimin.Command control and simulation[J].Application Research of Computers,2010,27(8):2834-2838,2844.(in Chinese)陈学松,杨宜民.强化学习研究综述[J].计算机应用研究,2010,27(8):2834-2838,2844.
[12] MNIH V,KAVUKCUOGLU K,SILVER D,et al.Playing Atari with deep reinforcement learning[EB/OL].[2018-12-01].https://arxiv.org/pdf/1312.5602v1.pdf.
[13] MNIH V,KAVUKCUOGLU K,SILVER D,et al.Human-level control through deep reinforcement learning[J].Nature,2015,518:529-533.
[14] KRÖSE B J A.Learning from delayed rewards[J].Robotics and Autonomous Systems,1995,15(4):233-235.
[15] LIU Quan,ZHAI Jianwei,ZHANG Zongzhang,et al.A survey on deep reinforcement learning[J].Chinese Journal of Computers,2018,41(1):1-27.(in Chinese)刘全,翟建伟,章宗长,等.深度强化学习综述[J].计算机学报,2018,41(1):1-27.
[16] QIAO Liang,BAO Hong,XUAN Zuxing,et al.Autonomous driving ramp merging model based on reinforcement learning[J].Computer Engineering,2018,44(7):20-24,31.(in Chinese)乔良,鲍泓,玄祖兴,等.基于强化学习的无人驾驶匝道汇入模型[J].计算机工程,2018,44(7):20-24,31.
[17] LILLICRAP T P,HUNT J J,PRITZEL A,et al.Continuous control with deep reinforcement learning[EB/OL].[2018-12-01].https://arxiv.org/pdf/1509.02971.pdf.
[18] ROSENSTEIN M T,BARTO A G.Supervised learning combined with an actor-critic architecture:02-41[R].Amherst,USA:University of Massachusetts,2002.
[19] LIN L J.Reinforcement learning for robots using neural networks[D].Pittsburgh,USA:Carnegie-Mellon University,1993.
[20] SILVER D,LEVER G,HEESS N,et al.Deterministic policy gradient algorithms[C]//Proceedings of the 31st International Conference on Machine Learning.Beijing,China:[s.n.],2014:387-395.

选择文件类型/文献管理软件名称

选择包含的内容

基于深度确定性策略梯度的智能车汇流模型

Traffic Merging Model for Intelligent Vehicle Based on Deep Deterministic Policy Gradient

RichHTML

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

图/表 14

参考文献

相关文章 13

编辑推荐

Metrics

本文评价

[1]	赵寅甫, 冯正勇. 基于深度强化学习的机械臂控制快速训练方法[J]. 计算机工程, 2022, 48(8): 113-120.
[2]	陈建平, 周鑫, 傅启明, 高振, 付保川, 吴宏杰. 基于二阶时序差分误差的双网络DQN算法[J]. 计算机工程, 2020, 46(5): 78-85,93.
[3]	段建民,田晓生,夏天,花晓峰. 基于中间速度的智能车辆梯形速度规划方法[J]. 计算机工程, 2018, 44(8): 301-307,314.
[4]	史凯静,鲍泓,徐冰心,潘卫国,郑颖. 基于Faster RCNN的智能车道路前方车辆检测方法[J]. 计算机工程, 2018, 44(7): 36-41.
[5]	李飞琦,鲍泓,潘峰,潘卫国,吴桃. 智能车导航中的路口轨迹生成策略[J]. 计算机工程, 2018, 44(7): 25-31.
[6]	乔良,鲍泓,玄祖兴,梁军,潘峰. 基于强化学习的无人驾驶匝道汇入模型[J]. 计算机工程, 2018, 44(7): 20-24,31.
[7]	郑永荣,袁家政,刘宏哲,李超. 基于单目视觉的智能车路口实时定位方法[J]. 计算机工程, 2017, 43(9): 288-299.
[8]	刘玮,王新梅,魏龙生. 整体视觉结构模型及其在道路环境感知中的应用[J]. 计算机工程, 2016, 42(10): 26-31.
[9]	杨秀春, 游林儒. 具有路径记忆功能的智能车控制系统[J]. 计算机工程, 2011, 37(4): 187-189.
[10]	沙莎, 马尧阶. 单目视觉智能车的伺服规律研究[J]. 计算机工程, 2011, 37(2): 145-147.
[11]	章登鹏, 谭彧. 巡线导航智能车的路径优化[J]. 计算机工程, 2011, 37(01): 184-186.
[12]	杨扬, 孔令和, 李旭, 伍民友. 城市交通网络路径规划策略的性能分析[J]. 计算机工程, 2010, 36(21): 209-211.
[13]	沈志熙;黄席樾;杨镇宇;韦金明. 基于Boosting的智能车辆多类障碍物识别[J]. 计算机工程, 2009, 35(14): 241-242.

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于深度确定性策略梯度的智能车汇流模型

Traffic Merging Model for Intelligent Vehicle Based on Deep Deterministic Policy Gradient

RichHTML

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

图/表 14

参考文献

相关文章 13

编辑推荐

Metrics

本文评价