基于局部合作的RoboCup多智能体Q-学习

doi:10.3969/j.issn.1000-3428.2009.09.004

计算机工程 ›› 2009, Vol. 35 ›› Issue (9): 11-13,1.

基于局部合作的RoboCup多智能体Q-学习

刘　亮，李龙澍

(安徽大学计算智能与信号处理教育部重点实验室，合肥 230039)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2009-05-05 发布日期:2009-05-05

Multi-Agent Q-learning in RoboCup Based on Regional Cooperative

LIU Liang, LI Long-shu

(Key Lab of IC & SP of Ministry of Education, Anhui University, Hefei 230039)

Received:1900-01-01 Revised:1900-01-01 Online:2009-05-05 Published:2009-05-05

摘要/Abstract

摘要： 针对多智能体Q-学习中存在的联合动作指数级增长问题，采用一种局部合作的Q-学习方法，在智能体之间有协作时才考察联合动作，否则只进行简单的个体智能体的Q-学习，从而减少学习时所要考察的状态-动作对值。在机器人足球仿真2D平台上进行的实验表明，该方法比常用多智能体强化学习技术具有更高的效率。

关键词: 马尔可夫决策, Q-学习, 局部合作, 仿真2D

Abstract: Many multi-Agent Q-learning problems can not be solved because the number of joint actions is exponential in the number of Agents, rendering this approach infeasible for most problems. This paper investigates a regional cooperative of the Q-function by only considering the joint actions in those states in which coordination is actually required. In all other states single-Agent Q-learning is applied. This paper offers a compact state-action value representation, without compromising much in terms of solution quality. It performs experiments in RoboCup-simulation 2D which is the ideal testing platform of multi-agent systems and compared the algorithm to other multi-Agent reinforcement learning algorithms with promising results.

Key words: Markov Decision Processes(MDP), Q-learning, regional cooperative, simulation 2D

中图分类号:

TP311

刘　亮;李龙澍. 基于局部合作的RoboCup多智能体Q-学习[J]. 计算机工程, 2009, 35(9): 11-13,1.

LIU Liang; LI Long-shu. Multi-Agent Q-learning in RoboCup Based on Regional Cooperative[J]. Computer Engineering, 2009, 35(9): 11-13,1.

https://www.ecice06.com/CN/Y2009/V35/I9/11

[1]	王湛, 张鹏程, 金惠颖, 吉顺慧. 云网融合环境下服务组合的未来属性验证[J]. 计算机工程, 2025, 51(3): 310-319.
[2]	张冠莹, 伊鹏, 李丹, 朱棣, 毛明. 面向大规模网络的服务功能链部署方法[J]. 计算机工程, 2023, 49(8): 122-129.
[3]	陈安琪, 陈睿, 邝祝芳, 黄华军. 基于图神经网络的不平衡欺诈检测研究[J]. 计算机工程, 2023, 49(11): 150-159.
[4]	于金亮, 涂山山, 孟远. 移动雾计算中基于强化学习的伪装攻击检测算法[J]. 计算机工程, 2020, 46(1): 38-44.
[5]	王晓雷,陈云杰,王琛,牛犇. 基于Q-learning的虚拟网络功能调度方法[J]. 计算机工程, 2019, 45(2): 64-69.
[6]	冯正勇. 衰落信道数据包传输跨层优化模型改进[J]. 计算机工程, 2016, 42(11): 125-130.
[7]	林正红，江虹，殷明勇. 基于认知无线电的频谱感知及TCP跨层设计[J]. 计算机工程, 2014, 40(7): 33-37.
[8]	林正红，江虹，张娟，徐冠军. 基于POMDP的跨层机会频谱接入优化设计[J]. 计算机工程, 2014, 40(2): 114-118.
[9]	仵博, 吴敏. 基于后验信念聚类的在线规划算法[J]. 计算机工程, 2013, 39(4): 214-218.
[10]	冯延蓬, 仵博, 郑红燕, 孟宪军. WSN中一种目标追踪在线节点调度算法[J]. 计算机工程, 2012, 38(11): 96-99,103.
[11]	王勇鑫, 钱徽, 金卓军, 朱淼良. 基于轨迹分析的自主导航性能评估方法[J]. 计算机工程, 2011, 37(6): 141-144.
[12]	余荣;贾志鹏;梅顺良. NDPS：一种无线多媒体网络分组调度算法 [J]. 计算机工程, 2008, 34(12): 70-72.
[13]	李清;李志蜀;朱明放;殷锋;叶军;陈良银. 基于自适应算法的动态网格服务选择方法[J]. 计算机工程, 2007, 33(13): 37-39.

选择文件类型/文献管理软件名称

选择包含的内容

基于局部合作的RoboCup多智能体Q-学习

Multi-Agent Q-learning in RoboCup Based on Regional Cooperative

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 13

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于局部合作的RoboCup多智能体Q-学习

Multi-Agent Q-learning in RoboCup Based on Regional Cooperative

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 13

编辑推荐

Metrics

本文评价