<p>新的启发式Q学习算法</p>

doi:10.3969/j.issn.1000-3428.2009.22.059

计算机工程 ›› 2009, Vol. 35 ›› Issue (22): 173-175. doi: 10.3969/j.issn.1000-3428.2009.22.059

新的启发式Q学习算法

王洪彦

(沈阳航空工业学院计算机学院，沈阳 110136)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2009-11-20 发布日期:2009-11-20

Novel Heuristic Q-learning Algorithm

WANG Hong-yan

(School of Computer Science, Shenyang Institute of Aeronautical Engineering, Shenyang 110136)

Received:1900-01-01 Revised:1900-01-01 Online:2009-11-20 Published:2009-11-20

摘要/Abstract

摘要： 针对连续型强化学习问题，提出一种综合启发函数和评估函数的Q学习算法，利用启发函数加快学习速度，采用评估函数减少不必要的探索，提高学习效率。为了保证该算法的有效性，启发函数和评估函数根据Q函数进行计算。坦克大战游戏的仿真实验结果证明，该方法可以较大地提高Q学习的学习效率。

关键词: Q学习, 启发函数, 评估函数, 网络游戏

Abstract: Aiming at the continuity consolidate study, this paper presents a Q-learning algorithm which integrates heuristic function and evaluation function. It takes advance of heuristic function to accelerate learning, uses evaluation function to reduce the unnecessary exploration and improves learning efficiency. To assure the effect of the algorithm, heuristic function and evaluation function are calculated by Q function. Simulation experimental result of the Tank game proves that the algorithm can improve the learning efficiency of Q-learning.

Key words: Q-learning, heuristic function, evaluation function, online game

中图分类号:

TP181

王洪彦.

新的启发式Q学习算法

[J]. 计算机工程, 2009, 35(22): 173-175.

WANG Hong-yan.

Novel Heuristic Q-learning Algorithm

[J]. Computer Engineering, 2009, 35(22): 173-175.

http://www.ecice06.com/CN/Y2009/V35/I22/173

[1]	张国富, 沈宇锋, 宋晓晓, 苏兆品. 受灾路网抢修队动态调度问题的建模与求解方法[J]. 计算机工程, 2023, 49(6): 300-313.
[2]	张尊栋, 王岩楠, 周慧娟, 张艺帆. Q学习演化博弈中决策机制对网络合作水平的影响[J]. 计算机工程, 2023, 49(6): 99-106,114.
[3]	毕翔, 黄晃, 张本宏, 卫星. 基于分簇与改进Q学习的车联网V2V复合路由算法[J]. 计算机工程, 2023, 49(3): 221-230,247.
[4]	赵蓓英, 姬伟峰, 翁江, 吴玄, 李映岐. 基于启发式Q学习的FANET可信路由算法[J]. 计算机工程, 2022, 48(5): 162-169.
[5]	张然, 高莹雪, 赵钰, 丁元明. 基于Q学习量子蚁群的微纳卫星路由算法[J]. 计算机工程, 2022, 48(3): 162-169,188.
[6]	蒋宝庆, 陈宏滨. 基于Q学习的无人机辅助WSN数据采集轨迹规划[J]. 计算机工程, 2021, 47(4): 127-134,165.
[7]	谢勇盛, 杨余旺, 邱修林, 王吟吟. 基于函数逼近的强化学习FANET路由优化算法[J]. 计算机工程, 2021, 47(11): 207-213.
[8]	赵琪琪, 马慧芳, 刘海姣, 贾俊杰. 融合节点属性与结构信息的子空间异常社区检测方法[J]. 计算机工程, 2020, 46(6): 94-102.
[9]	魏德宾, 刘健, 潘成胜, 邹启杰. 卫星网络中基于多QoS约束的蚁群优化路由算法[J]. 计算机工程, 2019, 45(7): 114-120.
[10]	徐琳,赵知劲. 基于分布式协作Q学习的信道与功率分配算法[J]. 计算机工程, 2019, 45(6): 160-164,174.
[11]	韩晨,牛英滔. 基于分层Q学习的联合抗干扰算法[J]. 计算机工程, 2019, 45(5): 279-284.
[12]	张振浩,梁俊,肖楠,刘玉磊,丁然,姬永清. 空天异构网络中基于Q学习的切换判决优化算法[J]. 计算机工程, 2018, 44(5): 296-302,308.
[13]	吴如亮,王子磊,奚宏生. 一种基于多服务器的DASH客户端优化算法[J]. 计算机工程, 2018, 44(11): 306-312.
[14]	刘远宏,刘建敏,冯辅周,江鹏程. 基于Rollout信息启发式算法的故障诊断策略[J]. 计算机工程, 2015, 41(8): 291-295.
[15]	冯陈伟,张璘. 一种基于Q学习的网络接入控制算法[J]. 计算机工程, 2015, 41(10): 99-104.

选择文件类型/文献管理软件名称

选择包含的内容

新的启发式Q学习算法

Novel Heuristic Q-learning Algorithm

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

新的启发式Q学习算法

Novel Heuristic Q-learning Algorithm

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价