基于强化学习的类人机器人步行参数训练算法

doi:10.3969/j.issn.1000-3428.2012.08.005

计算机工程 ›› 2012, Vol. 38 ›› Issue (08): 13-15. doi: 10.3969/j.issn.1000-3428.2012.08.005

基于强化学习的类人机器人步行参数训练算法

梁志伟 ^1,2，朱松豪 ¹

(1. 南京邮电大学自动化学院，南京 210046；2. 东南大学复杂工程系统测量与控制教育部重点实验室，南京 210096)

收稿日期:2011-07-31 出版日期:2012-04-20 发布日期:2012-04-20
作者简介:梁志伟(1980－)，男，讲师、博士，主研方向：类人机器人步态规划，多机器人协作；朱松豪，讲师、博士
基金资助:
江苏省高校自然科学基金资助项目(10KJB510014)；国家青年自然科学基金资助项目(61104216, 60805032)；东南大学复杂工程系统测量与控制教育部重点实验室开放课题基金资助项目(2010 A003)；教育部博士点新教师基金资助项目(20103223120003)

Walking Parameters Training Algorithm of Humanoid Robot Based on Reinforcement Learning

LIANG Zhi-wei ^1,2, ZHU Song-hao ¹

(1. College of Automation, Nanjing University of Posts and Telecommunications, Nanjing 210046, China; 2. Key Lab of Measurement and Control of Complex Systems of Engineering, Ministry of Education, Southeast University, Nanjing 210096, China)

Received:2011-07-31 Online:2012-04-20 Published:2012-04-20

摘要/Abstract

摘要： 基于轨迹规划的类人机器人在合理的参数组合下可实现快速稳定的行走。为优化步行参数，提出一种基于强化学习的步行参数训练算法。对步行参数进行降阶处理，利用强化学习算法优化参数，并设置奖惩机制。在Robocup3D仿真平台上进行实验，结果证明了该算法的有效性。

关键词: 类人机器人, 步行参数, 强化学习, 奖惩机制

Abstract: Aiming at optimizing walking parameters for quick and stable walking of humanoid robot based on trajectory planning method, this paper presents a walking parameters training algorithm based on reinforcement learning. By decreasing the number of walking parameters, the reinforcement learning is applied to optimize these parameters, and the reward and punishment mechanism is given. Experimental results show that the algorithm is feasible in the RoboCup3D simulation platform.

Key words: humanoid robot, walking parameter, reinforcement learning, reward and punishment mechanism

中图分类号:

TP18

梁志伟, 朱松豪. 基于强化学习的类人机器人步行参数训练算法[J]. 计算机工程, 2012, 38(08): 13-15.

LIANG Zhi-Wei, SHU Song-Hao. Walking Parameters Training Algorithm of Humanoid Robot Based on Reinforcement Learning[J]. Computer Engineering, 2012, 38(08): 13-15.

http://www.ecice06.com/CN/Y2012/V38/I08/13

[1]	张冠莹, 伊鹏, 李丹, 朱棣, 毛明. 面向大规模网络的服务功能链部署方法[J]. 计算机工程, 2023, 49(8): 122-129.
[2]	梅晶, 戴龙宝, 童钊, 邓昕, 王嘉珂. 资源约束下基于Lyapunov优化的自适应卸载算法[J]. 计算机工程, 2023, 49(7): 34-46.
[3]	蔡丽娇, 秦进, 陈双. 远离旧区域和避免回路的强化探索方法[J]. 计算机工程, 2023, 49(7): 118-124.
[4]	李强, 仪晋辉, 杜婷婷, 王胜春. 移动边缘计算中基于A3C的依赖任务卸载与资源分配[J]. 计算机工程, 2023, 49(6): 42-52.
[5]	金志军, 王浩, 方宝富. 稀疏场景下基于理性好奇心的多智能体强化学习[J]. 计算机工程, 2023, 49(5): 302-309.
[6]	饶东宁, 罗南岳. 基于多任务强化学习的堆垛机调度与库位推荐[J]. 计算机工程, 2023, 49(2): 279-287,295.
[7]	宋健, 王子磊. 基于值分解的多目标多智能体深度强化学习方法[J]. 计算机工程, 2023, 49(1): 31-40.
[8]	吴仍裕, 周强, 于海龙, 王亚沙. 基于深度强化学习的深圳市急救车调度算法[J]. 计算机工程, 2022, 48(9): 298-304.
[9]	赵寅甫, 冯正勇. 基于深度强化学习的机械臂控制快速训练方法[J]. 计算机工程, 2022, 48(8): 113-120.
[10]	厉子凡, 王浩, 方宝富. 一种基于多步竞争网络的多智能体协作方法[J]. 计算机工程, 2022, 48(5): 74-81.
[11]	周瑞朋, 秦进. 基于最佳子策略记忆的强化探索策略[J]. 计算机工程, 2022, 48(2): 106-112.
[12]	崔景洋, 陈振国, 田立勤, 张光华. 基于机器学习的用户与实体行为分析技术综述[J]. 计算机工程, 2022, 48(2): 10-24.
[13]	于晶, 鲁凌云, 李翔. 车联网中基于DDQN的边云协作任务卸载机制[J]. 计算机工程, 2022, 48(12): 156-164.
[14]	杨思明, 单征, 曹江, 郭佳郁, 高原, 郭洋, 王平, 王景, 王晓楠. 基于模型的强化学习在无人机路径规划中的应用[J]. 计算机工程, 2022, 48(12): 255-260,269.
[15]	黄晓辉, 张雄, 杨凯铭, 熊李艳. 基于联合Q值分解的强化学习网约车订单派送[J]. 计算机工程, 2022, 48(12): 296-303,311.

选择文件类型/文献管理软件名称

选择包含的内容

基于强化学习的类人机器人步行参数训练算法

Walking Parameters Training Algorithm of Humanoid Robot Based on Reinforcement Learning

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于强化学习的类人机器人步行参数训练算法

Walking Parameters Training Algorithm of Humanoid Robot Based on Reinforcement Learning

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价