基于强化学习的多策略选择遗传算法

doi:10.3969/j.issn.1000-3428.2011.08.051

计算机工程 ›› 2011, Vol. 37 ›› Issue (8): 149-152. doi: 10.3969/j.issn.1000-3428.2011.08.051

基于强化学习的多策略选择遗传算法

王晓燕，刘全，傅启明，张乐

(苏州大学计算机科学与技术学院，江苏苏州 215006)

出版日期:2011-04-20 发布日期:2012-10-31
作者简介:王晓燕(1985－)，女，硕士研究生，主研方向：遗传算法，强化学习；刘全，教授、博士后、博士生导师；傅启明、张乐，硕士研究生
基金资助:
国家自然科学基金资助项目(60673092, 60873116)；江苏省自然科学基金资助项目(BK2008161)；江苏省高校自然科学研究基金资助项目(09KJA520002)；江苏省现代企业信息化应用支撑软件工程技术研究开发中心基金资助项目(SX200804)

Multiple Policy Selection Genetic Algorithm Based on Reinforcement Learning

WANG Xiao-yan, LIU Quan, FU Qi-ming, ZHANG Le

(School of Computer Science and Technology, Soochow University, Suzhou 215006, China)

Online:2011-04-20 Published:2012-10-31

摘要/Abstract

摘要： 为解决传统遗传算法早熟收敛和收敛速度慢的问题，提出一种基于强化学习的多策略选择遗传算法MPSGA。通过使用不同的选择策略将整个种群划分为3个子种群并分别进化，能提高种群的多样性，有效避免遗传算法的早熟收敛问题。将种群的多样性和算法的运行机制相结合，根据种群多样性的变化运用强化学习算法动态地优化各子种群间的比例参数，从而将种群多样性保持在合适的范围，一定程度上解决了收敛速度和全局收敛性之间的矛盾。实验结果表明，该算法在收敛精度和搜索效率上都表现出较好的性能。

关键词: 遗传算法, 多策略选择, 强化学习, 种群多样性, 比例参数

Abstract: A new multiple policy selection Genetic Algorithm(GA) based on reinforcement learning is proposed to avoid the premature convergence and low speed of convergence. The whole population is divided into three sub-populations and each of them evolves respectively by using several different selection policies, which improves the diversity of population and avoids the premature convergence effectively. Population diversity is associated with the running mechanism of the algorithm, and the parameters of the sub-populations are optimized dynamically using reinforcement learning according to the variance diversity, which can maintain the population diversity in the appropriate range and it solves the contradiction between convergence speed and global convergence to a certain extent. Experimental results show that the algorithm has a high performance in precision of convergence and search efficiency.

Key words: Genetic Algorithm(GA), multiple policy selection, reinforcement learning, population diversity, proportion parameter

中图分类号:

TP301.6

王晓燕, 刘全, 傅启明, 张乐. 基于强化学习的多策略选择遗传算法[J]. 计算机工程, 2011, 37(8): 149-152.

WANG Xiao-Yan, LIU Quan, FU Qi-Meng, ZHANG Le. Multiple Policy Selection Genetic Algorithm Based on Reinforcement Learning[J]. Computer Engineering, 2011, 37(8): 149-152.

http://www.ecice06.com/CN/Y2011/V37/I8/149

[1]	张冠莹, 伊鹏, 李丹, 朱棣, 毛明. 面向大规模网络的服务功能链部署方法[J]. 计算机工程, 2023, 49(8): 122-129.
[2]	梅晶, 戴龙宝, 童钊, 邓昕, 王嘉珂. 资源约束下基于Lyapunov优化的自适应卸载算法[J]. 计算机工程, 2023, 49(7): 34-46.
[3]	蔡丽娇, 秦进, 陈双. 远离旧区域和避免回路的强化探索方法[J]. 计算机工程, 2023, 49(7): 118-124.
[4]	李强, 仪晋辉, 杜婷婷, 王胜春. 移动边缘计算中基于A3C的依赖任务卸载与资源分配[J]. 计算机工程, 2023, 49(6): 42-52.
[5]	金志军, 王浩, 方宝富. 稀疏场景下基于理性好奇心的多智能体强化学习[J]. 计算机工程, 2023, 49(5): 302-309.
[6]	白祉旭, 王衡军. 基于改进遗传算法的对抗样本生成方法[J]. 计算机工程, 2023, 49(5): 139-149.
[7]	桑永宣, 魏江坡, 王博, 宋莹. 具有边缘缓存机制的混合启发式任务卸载算法[J]. 计算机工程, 2023, 49(4): 149-158.
[8]	饶东宁, 罗南岳. 基于多任务强化学习的堆垛机调度与库位推荐[J]. 计算机工程, 2023, 49(2): 279-287,295.
[9]	宋健, 王子磊. 基于值分解的多目标多智能体深度强化学习方法[J]. 计算机工程, 2023, 49(1): 31-40.
[10]	吴仍裕, 周强, 于海龙, 王亚沙. 基于深度强化学习的深圳市急救车调度算法[J]. 计算机工程, 2022, 48(9): 298-304.
[11]	赵寅甫, 冯正勇. 基于深度强化学习的机械臂控制快速训练方法[J]. 计算机工程, 2022, 48(8): 113-120.
[12]	马华伟, 马凯, 郭君. 考虑多投递的带无人机车辆路径规划问题研究[J]. 计算机工程, 2022, 48(8): 299-305.
[13]	厉子凡, 王浩, 方宝富. 一种基于多步竞争网络的多智能体协作方法[J]. 计算机工程, 2022, 48(5): 74-81.
[14]	宋勇春, 王茜竹, 高正念. 基于HAGA的D2D-NOMA资源分配优化算法[J]. 计算机工程, 2022, 48(2): 275-280,290.
[15]	周瑞朋, 秦进. 基于最佳子策略记忆的强化探索策略[J]. 计算机工程, 2022, 48(2): 106-112.

选择文件类型/文献管理软件名称

选择包含的内容

基于强化学习的多策略选择遗传算法

Multiple Policy Selection Genetic Algorithm Based on Reinforcement Learning

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于强化学习的多策略选择遗传算法

Multiple Policy Selection Genetic Algorithm Based on Reinforcement Learning

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价