平均报酬模型强化学习理论、算法及应用

doi:10.3969/j.issn.1000-3428.2007.18.006

计算机工程 ›› 2007, Vol. 33 ›› Issue (18): 18-19,3. doi: 10.3969/j.issn.1000-3428.2007.18.006

平均报酬模型强化学习理论、算法及应用

黄炳强1，曹广益1，李建华2

(1. 上海交通大学自动化系，上海 200030；2. 华东理工大学计算机系，上海 200237)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2007-09-20 发布日期:2007-09-20

Average Reward Reinforcement Learning Theory Algorithms and Its Application

HUANG Bing-qiang1, CAO Guang-yi1, LI Jian-hua2

(1. Department of Automation, Shanghai Jiaotong University, Shanghai 200030; 2. Department of Computer Science, East China University of Science and Technology, Shanghai 200237)

Received:1900-01-01 Revised:1900-01-01 Online:2007-09-20 Published:2007-09-20

摘要/Abstract

摘要： 折扣报酬模型强化学习是目前强化学习研究的主流，但折扣因子的选取使得近期期望报酬的影响大于远期期望报酬的影响，而有时候较大远期期望报酬的策略有可能是最优的，因此比较合理的方法是采用平均报酬模型强化学习。该文介绍了平均报酬模型强化学习的两个主要算法以及主要应用。

关键词: 平均报酬强化学习, R学习, H学习

Abstract: Discounted reward reinforcement learning is the mainstream of reinforcement learning research and its short-term reward is more important than a long-term reward owing to the discount factor. However, sometimes the long-term reward is optimal and it is reasonable to use the average reward reinforcement learning method. This paper presents average reward reinforcement learning including R-learning and H-learning. The application is proposed.

Key words: average reward reinforcement learning, R-learning, H-learning

中图分类号:

TP24

黄炳强;曹广益;李建华. 平均报酬模型强化学习理论、算法及应用[J]. 计算机工程, 2007, 33(18): 18-19,3.

HUANG Bing-qiang; CAO Guang-yi; LI Jian-hua. Average Reward Reinforcement Learning Theory Algorithms and Its Application[J]. Computer Engineering, 2007, 33(18): 18-19,3.

http://www.ecice06.com/CN/Y2007/V33/I18/18

[1]	胡章芳,孙林,张毅,鲍合章. 一种基于改进QPSO的机器人路径规划算法[J]. 计算机工程, 2019, 45(4): 281-287.
[2]	周滔,赵津,胡秋霞,席阿行,刘东杰. 复杂环境下移动机器人全局路径规划与跟踪[J]. 计算机工程, 2018, 44(12): 208-214.
[3]	张永,陈寿元,邵增珍. 针对多机器人追捕死角问题的自适应编队算法[J]. 计算机工程, 2018, 44(9): 1-8.
[4]	牛小宁,刘宏哲,袁家政,宣寒宇. 基于Inliers跟踪统计的RGB-D室内定位与地图构建[J]. 计算机工程, 2018, 44(9): 15-21,27.
[5]	曾碧,黄文. 一种融合多特征聚类集成的室内点云分割方法[J]. 计算机工程, 2018, 44(3): 281-286.
[6]	杨冬冬,张晓林,李嘉茂. 基于局部与全局优化的双目视觉里程计算法[J]. 计算机工程, 2018, 44(1): 1-8.
[7]	简明,唐墨臻,张翠芳,闫飞. 基于改进直线特征提取算法的室内移动机器人地图构建[J]. 计算机工程, 2018, 44(1): 23-29.
[8]	严浩,白瑞林,朱朔. 基于预测型间接迭代学习的SCARA机器人轨迹跟踪控制[J]. 计算机工程, 2017, 43(10): 296-301,309.
[9]	汪佩,郭剑辉,李伦波,赵春霞. 基于单线激光雷达与视觉融合的负障碍检测算法[J]. 计算机工程, 2017, 43(7): 303-308.
[10]	刘召,宋立滨,耿美晓,于涛,王增喜,郭凯. 基于激光雷达的舞蹈机器人室内行人跟踪方法[J]. 计算机工程, 2017, 43(6): 247-252,258.
[11]	肖大伟,翟军勇. 轮式移动机器人单目视觉的目标测距方法[J]. 计算机工程, 2017, 43(4): 287-291.
[12]	常同立,刘学哲,顾昕岑,郭志鹏. 仿生四足机器人设计及运动学足端受力分析[J]. 计算机工程, 2017, 43(4): 292-297.
[13]	陈明建,林伟,曾碧. 基于滚动窗口的机器人自主构图路径规划[J]. 计算机工程, 2017, 43(2): 286-292.
[14]	王永佳,白瑞林,吉峰. 一种Delta机器人时间最优轨迹规划方法[J]. 计算机工程, 2016, 42(12): 295-301.
[15]	赵越,李晶皎,王爱侠,杨丹. 基于IEKF-SLAM的未知场景增强现实跟踪注册算法[J]. 计算机工程, 2016, 42(1): 272-277.

选择文件类型/文献管理软件名称

选择包含的内容

平均报酬模型强化学习理论、算法及应用

Average Reward Reinforcement Learning Theory Algorithms and Its Application

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

平均报酬模型强化学习理论、算法及应用

Average Reward Reinforcement Learning Theory Algorithms and Its Application

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价